中文科技文献切分的领域适应技术研究
2014-10-05分类号:TP391.1
【部门】中国科学技术信息研究所
【摘要】以生物医学文献为实例对象,研究科技文献切分中的领域适应技术,通过以词典特征、领域词汇特征、子串标注和使用词典切分的粗切分语料作为训练语料等方法,实现基于序列标注的中文切分方法由新闻领域到科技领域的适应,并取得了较好的效果。研究表明,在科技文献切分中,充分利用领域知识获取领域相关特征,对于提高科技文献切分的准确率具有重要的作用。
【关键词】中文切分 领域适应 科技文献信息处理
【基金】科技部国际科技合作专项“面向科技文献的日汉双向实用型机器翻译合作研究”(项目编号:2014DFA11350); 国家社会科学基金项目“基于事实型科技大数据的情报分析方法及集成分析平台研究”(项目编号:14BTQ038)研究成果之一
【所属期刊栏目】图书情报工作
文献传递