新时代人民日报分词语料库构建、性能及应用(三)——句长与词的分析比较
2019-12-20分类号:H146
【部门】南京农业大学信息科学技术学院 南京农业大学领域知识关联研究中心
【摘要】[目的/意义]基于新时代人民日报分词语料库从不同维度统计分析句子长度和词汇分布,有助于了解当代汉语文本的语言学特征,进而开展自然语言处理和文本挖掘研究。[方法/过程]在2018年1月人民日报分词语料的基础上,结合1998年1月人民日报分词语料,确定统计中所使用的6种句子类别,统计和分析字与词单位上的句子长度分布,并基于齐普夫定律揭示词汇静态分布情况。[结果/结论]从字词维度上的句子长度分布情况和词汇的齐普夫分布状态上看,随着时间的推移,在1998和2018两个语料上,句子的长度和词汇的分布均发生变化,但这种变化又是延续的、有关联的。
【关键词】新时代人民日报分词语料 语料库 句子长度 词汇分布 齐普夫定律
【基金】
【所属期刊栏目】图书情报工作
文献传递