标题
  • 标题
  • 作者
  • 关键词

统计模型在中文文本挖掘中的应用

2017-02-09分类号:TP391.1

【作者】王健  张俊妮  
【部门】北京大学光华管理学院  
【摘要】本文讨论了中文文本挖掘的三个问题:分词、关键词提取和文本分类。对分词问题,介绍了基于层叠隐马尔可夫模型的ICTCLAS分词法,以及将词与词之间的分隔视为缺失数据并用EM算法求解的WDM方法;对关键词提取问题,提出了贝叶斯因子法,并介绍了使用稀疏回归的CCS方法;对文本分类问题,介绍了根据关键词频率建立分类器的方法,以及先建立主题模型再根据主题概率建立分类器的方法。本文通过两组文本数据对上述方法进行比较,并给出使用建议。
【关键词】中文分词  关键词提取  文本分类  贝叶斯因子  L1范数惩罚  主题模型
【基金】
【所属期刊栏目】数理统计与管理
文献传递