大规模语料库 现代汉语分词的有效工具——《大规模现代汉语分词语料库构建及应用》荐读
2024-02-06分类号:H146
【部门】南开大学商学院
【摘要】<正>由南京农业大学黄水清和王东波教授编写、南京大学出版社出版的《大规模现代汉语分词语料库构建及应用》一书正式问世了!该书以“新时代人民日报分词语料库”(New Era People’s Daily Segmented Corpus,以下简称NEPD)为研究对象。NEPD收录了2015年1—6月、2016年1月、2017年1月、2018年1月、2022年1月共10个月《人民日报》上刊发的全部文章,构建了迄今规模最大的精加工现代汉语通用分词语料库,超过3000万字符量,向全世界学术界开放供免费获取。在此之前的现代汉语通用语料库中,规模超百万字且为人工标注精加工的,只有1998月1月的北京大学人民日报语料库。NEPD既接续了北京大学1998年1月人民日报语料库,又弥补了北京大学人民日报语料库20多年没有更新以及在词汇的时效性、完备性和覆盖度方面存在的不足,以其高标准的原始语料、高质量的人工标注以及开放共享的理念,支持并促进了图书情报学、语言学、计算机科学等相关学科领域的研究与发展,赢得了学术界的广泛认同和赞誉。在NEPD的数据选取标准、加工流程、应用示范等方面,《大规模现代汉语分词语料库构建及应用》一书给出了至今最为详尽和全面的阐述。该书不仅介绍了NEPD构建的背景、缘由、目的、原则、过程、规范和应用,而且还展望了精标注语料库在当前以深度学习为标志的人工智能发展热潮中的关键作用和重要价值。
【关键词】
【基金】
【所属期刊栏目】情报理论与实践
文献传递