标题
  • 标题
  • 作者
  • 关键词

半监督的微博话题噪声过滤方法

2018-12-12分类号:TP391.1

【作者】屠守中  杨婧  赵林  朱小燕  
【部门】清华大学计算机科学与技术系  中国科学院计算技术研究所网络数据科学与技术重点实验室  中国科学院信息工程研究所信息安全国家重点实验室  
【摘要】社交网络中存在大量营销、招聘等垃圾信息以及无实质内容的短文,为话题建模工作带来很多干扰,更严重影响社交网络方面的学术研究及商业应用。因此,该文提出了一种结合支持向量机与k近邻模型(pSVM-kNN)的半监督话题噪声过滤方法。该方法融合了SVM和kNN算法,在SVM计算得到超平面的基础上使用kNN算法在局部范围内迭代寻找分类超平面的最优解;同时为减少误分类发生,分别在SVM和kNN阶段引入惩罚代价和比例权重,以提高噪声过滤的效果。通过选取新浪微博中不同大小的数据集进行实验与其他方法进行比较,结果表明:该方法只利用了少量的标注样本进行训练,在准确率、召回率和F值方面均优于其他的对比方法。
【关键词】社交网络  支持向量机  k近邻  噪声过滤  惩罚代价
【基金】国家自然科学基金资助项目(61332007,61303049)
【所属期刊栏目】清华大学学报(自然科学版)
文献传递