引文元数据的自动发现和标注方法研究——以外文引文为例
2017-01-25分类号:G254
【部门】南京大学信息管理学院 江苏省数据工程与知识服务重点实验室 南京农业大学信息科学技术学院
【摘要】【目的】在总结当前引文元数据抽取方法的基础上,结合语义学知识和机器学习方法,对引文元数据的自动抽取方法进行探索。【方法】实验中采用神经网络模型对人工分割过的语料进行词向量训练。利用相同类型的元数据会相对集中地出现在向量空间中某一位置的现象,通过支持向量机分类算法实现对元数据的自动归类和标注。【结果】在以外文引文数据作为测试集的实验中,本文方法取得了较高的准确率和召回率,特别是针对引文中含有多种语言和缩写的现象,具有较好的处理能力。【局限】在对于引文元数据时间内容的细粒度抽取中存在一定的局限性。【结论】实验
【关键词】引文元数据 元数据抽取 机器学习 神经网络
【基金】
【所属期刊栏目】数据分析与知识发现
文献传递