基于汉语组块分析的情感标签抽取

2016-05-12分类号：TP391.1

【作者】杜思奇李红莲吕学强

【部门】北京信息科技大学信息与通信工程学院北京信息科技大学网络文化与数字传播北京市重点实验室

【摘要】［目的／意义］面向电子商务领域的在线评论，通过识别产品特征和评价词之间是否存在修饰关系，抽取出在线评论中的情感标签，从而帮助网购用户迅速了解某一产品的性能。［方法／过程］引入汉语组块分析对评论文本进行初始化处理，对名词性信息以及形容词性信息进行抽取。通过最大熵对初始化集合进行过滤，从而获得最终的情感标签集合。［结果／结论］该方法对评论文本的适应性较好，可以有效抽取出情感标签。［局限］需要对语料进行初始化抽取，经过过滤后才能获得最终的情感标签集合。

【关键词】情感标签汉语组块分析最大熵模型

【基金】国家自然科学基金项目“基于本体的专利自动标引研究”(项目编号:61271304); 北京市教委科技发展计划重点项目暨北京市自然科学基金B类重点项目“面向领域的互联网多模态信息精准搜索方法研究”(项目编号:KZ201311232037)的成果

【所属期刊栏目】情报理论与实践

文献传递