融合多时间维度视觉与语义信息的图像描述方法

root 提交于 周三, 07/31/2024 - 18:08
传统的图像描述方法仅使用当前时刻的视觉信息和语义信息来生成预测词,而没有考虑过去时刻的视觉信息和语义信息,从而导致模型输出的信息在时间维度上比较单一,因此生成的描述语句在准确性上有所欠缺。针对此问题,提出一种融合多时间维度视觉与语义信息的图像描述方法,有效地融合了过去时刻的视觉信息和语义信息,并设计一种门控机制动态地对两种信息进行选择利用。在MSCOCO数据集上进行实验验证,结果表明该方法能够更准确地生成描述语句,和当前最主流的图像描述方法进行对比,性能在各项评价指标上都得到了可观的提升。

相关内容

发布日期 09/07/2023 - 22:34
发布日期 06/27/2024 - 17:52
发布日期 01/29/2024 - 12:59
发布日期 06/17/2022 - 10:21
发布日期 08/04/2020 - 01:35
发布日期 03/25/2024 - 09:16
发布日期 01/19/2024 - 12:16