标题
  • 标题
  • 作者
  • 关键词

基于统计的常用词搭配(Collocation)的发现方法

2002-02-24分类号:G350

【作者】孙健  王伟  钟义信
【部门】北京邮电大学智能研究中心  北京邮电大学智能研究中心  北京邮电大学智能研究中心 北京100876   北京100876   北京100876
【摘要】常用词搭配 (collocation)是指一些常用的用来表达某些事情或事物的短语 ,一般是二元组或三元组等。常用词搭配的自动发现在自然语言处理中起着很重要的作用 ,它能够丰富词典的容量 ,提高系统的性能。本文提出 4种判断一个二元组是否是常用词搭配的方法 ,并对各种方法的结果进行了比较。然后在已知二元组的基础上 ,提出了统计和发现三元或多元组的方法。这种利用二元组来构造三元组的方法 ,比统计所有三元组的计算量大大减少。实验证明这种方法的结果较好
【关键词】常用词搭配  二元组  自然语言处理
【基金】国家自然科学基金资助资助项目为:面向智能的信息理论及应用项目编号 :6 9982 0 0 1
【所属期刊栏目】情报学报
文献传递