美国商业管制清单与专利自动映射方法及实证研究
2022-01-24分类号:G255.53;F746.12
【部门】中国科学院文献情报中心 中国科学院大学经济与管理学院图书情报与档案管理系
【摘要】为了高效分析中美在美国商业管制清单(Commerce Control List,CCL)记录的管制技术上的差距,针对CCL清单数据非结构化程度高的问题,提出了一种管制清单数据和专利数据的自动映射方法,实现了从专利视角自动揭示中美技术差距。基于文本挖掘的思想,研究制定了管制清单文本规范化流程,提出了基于TF-IDF (term frequency-inverse document frequency)和Word2Vec的管制清单数据与专利数据自动映射方法和效果评价指标。以2019年美国商业管制清单和2018年全球PCT (Patent Cooperation Treaty)专利申请数据为例进行实证研究,通过评估模型效果,最终发现当文本相似度阈值为0.87时,Word2Vec模型的自动映射结果最优,并以此开展技术差距分析。本研究提出的方法能够自动化映射管制清单数据和专利数据并开展情报分析,分析结果具有较高的可解释性,是提升情报分析时效性的有力手段,具有较高的实际应用价值。
【关键词】商业管制清单 专利数据 文本相似 Word2Vec 技术差距
【基金】中国科学院青年人才项目“基于深度学习的专利所属产业分类”(G180161001)
【所属期刊栏目】情报学报
文献传递