基于相似网页文本演化的数据溯源

2016-07-05分类号：TP391.1

【作者】倪静孟宪学

【部门】北京石油化工学院经济管理学院中国农业科学院农业信息研究所

【摘要】［目的／意义］为解决现有网页文本缺乏起源标注的问题，提出一种借助ＰＲＯＶ本体发现相似网页文本起源关系的方法。［方法／过程］通过聚类算法、自动语义标注和关联数据构建等技术的综合应用，结合ＰＲＯＶ－ＰＯＬ溯源模型，检测网页文本实体的演变过程，实现文本级和属性级两级溯源方案。［结果／结论］实验验证了借助语义网技术和数据溯源模型实现网页文本数据溯源的可行性，但实验过程中聚类算法的召回率有待提高。

【关键词】PROV模型内容追溯关联数据

【基金】北京市社会科学基金项目“社交网络中谣言的数据溯源与监控对策”(项目编号:14SHB010); 教育部人文社会科学研究规划基金项目“社交网络舆情演化的数据溯源及信任机制研究”(项目编号:15YJAZH052)研究成果之一

【所属期刊栏目】图书情报工作

文献传递