标题
  • 标题
  • 作者
  • 关键词

基于机器阅读理解的新闻时间线挖掘与展示

2021-11-17分类号:TP391.1;G210.7

【作者】李珂  陈彦如  郑文蛟  化柏林  
【部门】北京大学信息管理系  
【摘要】[目的/意义]为了解决互联网时代信息过载的问题,尝试从海量的新闻报道中自动抽取新闻事件,并按照事件发生的时间进行排序,向用户展示结果。[方法/过程]利用网络爬虫自动获取新闻文本,使用中心事件句判定和RoBERTa+MRC的方法进行实体抽取,从非结构化文本中抽取语义信息并生成结构化的新闻摘要。在此基础上,对摘要中的时间信息进行标准化处理,并按照时间顺序生成新闻时间线。[结果/结论]实验结果表明,中心事件句判定和RoBERTa+MRC相较于传统方法有更好的事件抽取效果,本文设计的新闻时间线展示系统能够帮助用户了解新闻事件的发展脉络,解释新闻主题的事件走向与演化规律。
【关键词】新闻时间线  事件演变  机器阅读理解  命名实体识别  事件抽取
【基金】国家社会科学基金项目“基于多源数据融合的情报用户需求探测研究”的阶段研究成果之一,项目编号:17BTQ066
【所属期刊栏目】情报理论与实践
文献传递