标题
  • 标题
  • 作者
  • 关键词

面向短文本分类的语义增强研究

2023-05-05分类号:TP391.1

【作者】张梦芸  丁敬达  
【部门】上海大学文化遗产与信息管理学院  
【摘要】[目的 /意义]信息技术的快速发展使得用户评论、患者症状等短文本数据量迅速增长,如何从短文本中挖掘有价值的信息成为文本分类的研究热点。[方法 /过程]以国内某医院各科室患者的病情症状数据为语料集,针对短症状文本包含语义信息不足的问题,从各科室症状词的重要度与关联度出发,将症状文本中低于设定症状词数量的文本作为语义增强对象,采用Word2Vec与基于概率的TF-IDF算法抽取各科室的若干典型症状关键词,将其补充到语义增强对象中形成新语料集,最后利用机器学习算法对症状文本进行分类。[结果 /结论]基于文章语义增强方法构造的新语料集,相较于原始语料集,在支持向量机(Support Vector Machine,SVM)、多项式朴素贝叶斯(Multinomial Naive Bayes,MNB)以及随机森林(Random Forest,RF)上的分类效果均有较大幅度提升,准确率分别提高约10%、9%、10%。
【关键词】语义增强  短文本分类  病情症状  重要度  关联度
【基金】国家社会科学基金项目“基于多元数据融合的社科领域新兴主题探测方法及实证研究”(项目编号:21BTQ010)研究成果之一
【所属期刊栏目】图书情报工作
文献传递