随着社交媒体和人机交互技术的快速发展,视频、图像以及文本等多模态数据在互联网中呈爆炸式增长,因此多模态智能研究受到关注。其中,视觉问答与推理任务是跨模态智能研究的一个重要组成部分,也是人类实现人工智能的重要基础,已成功应用于人机交互、智能医疗以及无人驾驶等领域。本文对视觉问答与推理的相关算法进行了全面概括和归类分析。首先,介绍了视觉问答与推理的定义,并简述了当前该任务面临的挑战;其次,从基于注意力机制、基于图网络、基于预训练、基于外部知识库和基于可解释推理机制5个方面对现有方法进行总结和归纳;然后,全面介绍了视觉问答与推理常用公开数据集,并对相关数据集上的已有算法进行详细分析;最后,对视觉问答与推理任务的未来方向进行了展望。
来源出处
相关内容
发布日期
01/21/2024 - 12:12
发布日期
10/31/2021 - 01:47
发布日期
10/31/2021 - 01:16
发布日期
10/31/2021 - 01:48
发布日期
05/12/2024 - 09:43
发布日期
10/16/2024 - 19:36
发布日期
11/02/2023 - 23:34
发布日期
01/10/2022 - 19:31
发布日期
02/24/2024 - 15:39
发布日期
07/04/2024 - 17:54
发布日期
11/28/2023 - 00:31
发布日期
01/10/2022 - 19:31
发布日期
12/15/2023 - 01:19
发布日期
01/01/1970 - 08:00
发布日期
08/04/2020 - 01:35
发布日期
10/31/2021 - 01:12
发布日期
06/17/2022 - 10:21
发布日期
06/17/2022 - 10:21
发布日期
10/20/2024 - 19:37
发布日期
06/11/2024 - 17:46