面向教学评价的课堂视频镜头边界检测新方法

root 提交于 周五, 06/17/2022 - 10:21
课堂视频镜头边界检测对教学评价具有重要意义。针对教学视频视觉信息变化不明显、镜头边界信息不足、检测结果不利于教学评价等问题,引入注意力机制,提出了基于视觉和文本特征描述学习的课堂视频镜头边界检测方法。首先,提出了层次视觉Transformer模型学习教学评价关注的屏幕、教师和学生等感兴趣区域的视觉特征。其次,提出了层次文本Transformer模型从屏幕和语音文本中学习教学评价关注的文本特征。最后,构建基于二值交叉熵的镜头分类和边界检测损失函数。在数据集CLShots上的实验结果表明,本文方法在准确率、召回率、F1分数和平均交并比等指标比当前先进的教学镜头检测方法SBLV分别提高了23.3%、22.4%、22%和35.7%,比通用领域深度学习方法TransNet V2分别提高了13.8%、14.5%、14.3%和21.3%。

相关内容

发布日期 01/21/2024 - 12:12
发布日期 05/12/2024 - 09:43
发布日期 02/24/2024 - 15:39
发布日期 07/04/2024 - 17:54
发布日期 08/04/2020 - 01:35
发布日期 10/31/2021 - 01:12
发布日期 06/17/2022 - 10:21
发布日期 06/11/2024 - 17:46