维基百科在多种类型数字文本资源自动分类中的应用
2017-02-05分类号:TP391.1
【部门】武汉大学信息管理学院 武汉大学信息资源研究中心
【摘要】【目的/意义】书目信息和网页等不同类型文献之间存在特征词不匹配等语义差异问题,使得将书目信息作为训练集来对网络信息资源进行自动分类时,现有分类方法的分类性能不佳。【方法/过程】文章提出使用维基百科开展语义特征扩展,解决语义差异问题的自动文本分类方法。使用数字图书馆中容易获取类别标识及摘要等文本内容的书目信息作为训练集,引入第三方资源的维基百科对其进行语义特征扩展,缩小作为训练集的书目信息与作为待分类文本的网页之间的语义差异,对属于不同文献类型的网页进行分类。【结果/结论】实验表明与未经过扩展的分类方法相比
【关键词】书目信息 新闻网页 自动分类 维基百科 特征扩展
【基金】国家社会科学基金项目(15BTQ066)
【所属期刊栏目】情报科学
文献传递