标题
  • 标题
  • 作者
  • 关键词

基于权重的Apriori算法在文本统计特征提取方法中的应用

2017-09-25分类号:TP391.1

【作者】李昌兵  庞崇鹏  李美平  
【部门】重庆邮电大学经济管理学院  
【摘要】【目的】解决在海量客户评论信息中抽取产品特征时噪声大的问题。【方法】运用TF-IDF和方差选择的统计方法在众多初步提取出来的特征中进行选择,设置阈值后将各自提取出来的特征取交进行过滤,得到产品特征集合,根据基于矩阵和权重改进的Apriori算法产生频繁项集,设定不同阈值得到最优特征集合,实现对用户评论中产品特征的自动提取。【结果】以手机评论文本为例,从中抽取手机类的产品特征,根据人工标注的183个特征和算法识别出来的特征,查准率P为72.44%,查全率R为77.59%,综合值F为74.93%。【局限】查准
【关键词】特征提取  Apriori算法  TF-IDF  方差选择
【基金】国家自然基金项目“基于群体智能的多Agent协作模型与适应性研究”(项目编号:60905066);; 重庆邮电大学自然科学基金资助项目“时间序列数据挖掘技术应用研究”(项目编号:A2009-03);; 电子商务与现代物流重庆市高校市级重点实验室重点项目“基于多主体博弈的供应链契约选择与协调控制机制研究”(项目编号:ECML201403)的研究成果之一
【所属期刊栏目】数据分析与知识发现
文献传递