- 1次围观
近年来,深度学习已在图像字幕技术研究中展现其优势。在深度学习模型中,图像中对象之间的关系在图像表示中起着重要作用。为了更好地检测图像中的视觉关系,本文基于图神经网络和引导向量构建了图像字幕生成模型(YOLOv4-GCN-GRU, YGG)。该模型利用图像中被检测到的对象的空间和语义信息建立成图,利用图卷积神经网络(Graph convolutional network, GCN)作为编码器对图的每个区域进行表示。在字幕生成阶段,额外训练一个引导神经网络来产生引导向量,从而辅助生成模型自动生成语句。基于MSCOCO图像数据集的对比实验表明,YGG模型具有更好的性能,将CIDEr-D的性能从138.9%提高到了142.1%。
来源出处
基于图神经网络和引导向量的图像字幕生成模型
http://sjcj.nuaa.edu.cn/ch/reader/view_abstract.aspx?file_no=202301018&flag=1
相关内容
发布日期
06/17/2022 - 10:21
发布日期
06/17/2022 - 10:21
发布日期
06/08/2024 - 17:47
发布日期
06/17/2022 - 10:21
发布日期
07/12/2024 - 17:58
发布日期
01/01/1970 - 08:00
发布日期
06/17/2022 - 10:21
发布日期
09/21/2023 - 22:52
发布日期
01/21/2024 - 12:12
发布日期
06/17/2022 - 10:21
发布日期
09/10/2023 - 22:37
发布日期
08/04/2020 - 19:02
发布日期
01/10/2022 - 19:32
发布日期
03/19/2024 - 09:13
发布日期
07/23/2023 - 21:46
发布日期
08/04/2020 - 01:35
发布日期
08/04/2020 - 01:35
发布日期
01/10/2022 - 19:32
发布日期
03/19/2024 - 09:13
发布日期
08/04/2020 - 01:35