基于图神经网络和引导向量的图像字幕生成模型|||北京沫之东生物技术有限公司

基于图神经网络和引导向量的图像字幕生成模型

6 次围观

近年来，深度学习已在图像字幕技术研究中展现其优势。在深度学习模型中，图像中对象之间的关系在图像表示中起着重要作用。为了更好地检测图像中的视觉关系，本文基于图神经网络和引导向量构建了图像字幕生成模型（YOLOv4-GCN-GRU， YGG）。该模型利用图像中被检测到的对象的空间和语义信息建立成图，利用图卷积神经网络（Graph convolutional network， GCN）作为编码器对图的每个区域进行表示。在字幕生成阶段，额外训练一个引导神经网络来产生引导向量，从而辅助生成模型自动生成语句。基于MSCOCO图像数据集的对比实验表明，YGG模型具有更好的性能，将CIDEr-D的性能从138.9%提高到了142.1%。

来源出处

基于图神经网络和引导向量的图像字幕生成模型 http://sjcj.nuaa.edu.cn/ch/reader/view_abstract.aspx?file_no=202301018&flag=1