基于改进TF-IDF的中文网页关键词抽取——以新闻网页为例
2008-12-30分类号:TP391.1
【部门】南京中医药大学经贸管理学院 南京大学信息管理系
【摘要】结合新闻网页的内容特征对中文网页关键词的构成特点进行阐述;对经典的TF-IDF加权公式进行改进,构建一个综合考虑多种影响因素的候选关键词评分加权公式;对SharpICTCLAS分词进行改进,增加位置标注;选择评分较高的词作为候选关键词,利用词的位置标注进行关键词抽取优化操作,将"切碎"的候选关键词进行组配,形成正式抽取的关键词。实验结果表明:该方法明显优于基准方法,能够抽取到令人满意的关键词。
【关键词】词频 逆文档频率 新闻网页 关键词抽取
【基金】
【所属期刊栏目】情报理论与实践
文献传递