标题
  • 标题
  • 作者
  • 关键词

大数据环境下文本情感分析算法的规模适配研究:以Twitter为数据源

2019-02-20分类号:TP391.1;TP311.13

【作者】余传明  原赛  王峰  安璐  
【部门】中南财经政法大学信息与安全工程学院  中南财经政法大学统计与数学学院  武汉大学信息管理学院  
【摘要】[目的/意义]以大数据环境下的文本情感分析这一特定任务为目的,对规模适配问题进行研究,为情报学领域研究人员进行大数据环境下数据分析时,实现效率和成本的最优选择提供借鉴。[方法/过程]采用斯坦福大学Sentiment140数据集,在对传统情感分析算法分析的基础上,提出了5种面向大数据的文本情感分析算法,检验各种算法在不同环境和数据规模下的适配效果,从准确性、可扩展性和效率等方面进行实证比较研究。[结果/结论]实验结果显示,本文所搭建的集群具有良好的运行效率、正确性以及可扩展性,Spark集群在处理海量文本情感分析数据时更具有效率优势,且在数据规模越大的情况下,效率优势越明显;在资源利用方面,随着节点数和核数的增加,集群的整体运行效率变化显著,配置5个4核4G内存的从节点,能够实现在高效完成分类任务的同时达到节约资源成本的效果。
【关键词】规模适配  大数据  海量文本  情感分析  机器学习算法
【基金】国家自然科学基金面上项目“大数据环境下基于领域知识获取与对齐的观点检索研究”(项目编号:71373286);; 教育部哲学社会科学研究重大课题攻关项目“提高反恐怖主义情报信息工作能力对策研究”(项目编号:17JZD034)研究成果之一
【所属期刊栏目】图书情报工作
文献传递