标题
  • 标题
  • 作者
  • 关键词

基于结构和文本特征的网页分类技术研究

2017-04-15分类号:TP391.1

【作者】顾敏  郭庆  曹野  朱峰  顾彦慧  周俊生  曲维光  
【部门】南京师范大学计算机科学与技术学院  福建省信息处理与智能控制重点实验室闽江学院  
【摘要】Web网页中含有丰富的信息资源,通过网页分类可以更好地对其内容进行抽取和管理,方便用户阅读.针对网页复杂的结构信息和丰富的文本内容,提出了一种基于网页文本和结构的网页分类方法,利用众创相关网页的结构特点和文本信息,选择联合特征和原子特征相结合的方法进行分类.实验表明,这种方法有一定的可行性,且比单一使用文本信息进行分类的方法具有更高的正确率和召回率.
【关键词】网页分类  朴素贝叶斯  原子特征  联合特征
【基金】国家自然科学基金(61472191);; 江苏省高等学校自然科学基金(15KJA420001);; 留学回国人员科研启动基金(教外司留[2015]1098号);; 福建省信息处理与智能控制重点实验室(闽江学院)开放基金(MJUKF201705);; 山东省语言资源开发与应用重点实验室开放课题(211180A41601);; 江苏省普通高校研究生科研创新计划(KYLX16_1293)资助
【所属期刊栏目】中国科学技术大学学报
文献传递