基于多特征融合的无监督真值发现方法

root 提交于 周五, 06/17/2022 - 10:21
真值发现是数据集成领域具有挑战性的研究热点之一。传统的方法利用数据源与观测值之间的交互关系推断真值,缺乏足够的特征信息;基于深度学习的方法可以有效地进行特征抽取,但其性能依赖于大量手工标注,而在实际应用中很难获取到大量高质量的真值标签。为克服以上问题,本文提出一种基于多特征融合的无监督真值发现方法(Unsupervised truth discovery method based on multi-feature fusion, MFOTD)。首先,利用集成学习无监督标注“真值”标签;然后,分别使用预训练模型 Bert和独热编码获取观测值的语义特征和交互特征;最后,融合观测值多种特征并使用其“真值”标签构建初始训练集,通过自训练方式训练真值预测模型。在两个真实数据集上的实验结果表明,与已有方法相比,本文所提出的方法具有更高的真值发现准确性。

相关内容

发布日期 06/17/2022 - 10:21
发布日期 01/01/1970 - 08:00
发布日期 01/21/2024 - 12:12
发布日期 06/17/2022 - 10:21
发布日期 09/10/2023 - 22:37
发布日期 08/04/2020 - 19:02
发布日期 08/04/2020 - 01:35
发布日期 08/04/2020 - 01:35
发布日期 01/10/2022 - 19:32