文本自动分类技术研究综述
2012-02-29分类号:TP391.1
【部门】广东外语外贸大学国际工商管理学院 广东外语外贸大学信息学院
【摘要】文章从文本表示、特征选择、分类算法、常用基准语料以及评估指标等方面对近年来的研究成果进行综述并讨论。认为短文本分类和多语言文本分类管理是新出现的重要且紧迫的问题,并对这两个问题以及数据集偏斜、多层分类、标注瓶颈等几个关键问题进行重点讨论。最后总结并展望这些研究内容。
【关键词】自动分类 文本分类 文本处理 综述
【基金】国家自然科学基金项目(项目编号:61070061); 广东省自然科学基金项目(项目编号:9151026005000002); 广东省高层次人才项目; 广州市社会科学规划课题项目(项目编号:11Q20)的研究成果
【所属期刊栏目】情报理论与实践
文献传递