英文科技文献内核识别方法研究

2012-09-30分类号：G351

【作者】祝清松冷伏海王林韩涛

【部门】中国科学院国家科学图书馆中国科学院研究生院

【摘要】针对英文科技文献的特征,提出一种规则和统计相结合的关键内容识别方法。该方法首先通过对源文档进行特征标识,将其转换成更易于处理的中间文档;然后利用特征还原、线索词匹配、主题识别和临近分析等,从中间文档抽取代表文本的主要信息,生成目标文档。该方法能够有效地辅助科研人员阅读大量的英文科技文献,提高阅读效率。

【关键词】特征标识线索词匹配主题识别临近分析

【基金】国家自然科学基金项目“科技创新演化分析理论与方法研究”(项目编号:70873123); 中国科学院文献情报新增能力项目“面向‘未来科技竞争力’分析方法;工具研究”的成果

【所属期刊栏目】情报理论与实践

文献传递