标题
  • 标题
  • 作者
  • 关键词

融合“科学—技术—舆情”数据特征的技术筛选方法研究

2024-06-05分类号:G350

【作者】吕璐成   周健   赵展一   赵亚娟   刘细文
【部门】中国科学院文献情报中心  中国科学院大学经济与管理学院信息资源管理系  中国科学院计算技术研究所  
【摘要】[目的/意义] 利用科技文献进行技术监测预警是科技情报工作的重要内容。目前,采用自然语言处理技术从科技文献中抽取的技术元素存在数量多、不易展示的问题,因此设计了一种融合“科学—技术—舆情”数据特征的技术筛选方法来实现科技文献技术挖掘结果的筛选。[方法/过程] 以技术术语表示技术,基于词法结构分析和修饰符匹配方法构建技术术语层次结构体系,利用表征技术基础研究热度的论文数据、表征技术研发热度的专利数据、表征技术市场关注度的舆情数据,构建重要性、成长性、新颖性和持久性4类特征,采用机器学习方法训练和确定技术筛选模型。[结果/结论] 通过与人工筛选结果对比发现,本方法能够更有效地筛选技术。在各种模型中,同时采用3类数据和4类特征构建的技术筛选模型效果最优,该方法可以为开展技术识别预测工作,研发技术挖掘工具提供依据。[局限]该方法仅在技术术语层次结构的第一层进行了效果验证,其领域适用性与数据类型方面还有待进一步研究。
【关键词】技术筛选  技术挖掘  多源数据融合  文本挖掘  机器学习  技术识别与预测
【基金】国家自然科学基金青年科学基金项目“技术距离视角下的技术融合模式、特征及预测研究”(项目编号:72304268);; 中国科学院青年创新促进会项目(项目编号:E2291801)的成果
【所属期刊栏目】情报理论与实践
文献传递