面向食品安全突发事件汉语分词的特征选择及模型优化研究
2017-02-25分类号:TP391.1
【部门】南京农业大学信息科学技术学院 南京农业大学领域知识关联研究中心 江苏警官学院图书馆
【摘要】【目的】在食品安全领域中,建立相关数据库对食品安全的监管和控制都会有很大的帮助,自动分词在构建索引、使用索引以及构建语料库中都起到至关重要的作用。将基于条件随机场的字标注统计学习方法,应用在食品安全突发事件语料的自动分词中。【方法】分析语料的词长分布等特点,对该方法自动分词过程中所涉及的特征选择和特征模板进行不同实验,得出不同特征选择和应用不同特征模板对分词结果的影响。【结果】从实验结果可以看出,特征选择时并不是特征越多分词效果越好,会出现特征干扰的情况,在二三字词占46.62%的食品安全突发事件语料中,
【关键词】中文分词 食品安全 条件随机场 特征模板 特征选择
【基金】国家自然科学基金项目“基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究”(项目编号:71303120);; 2011协同中心项目“面向应急推演平台的海量突发事件知识库与模型库构建研究”(项目编号:JD20150101);; 江苏省高校哲学社会科学项目“高校危机管理案例知识库构建及知识挖掘研究”(项目编号:2014SJB246)的研究成果之一
【所属期刊栏目】数据分析与知识发现
文献传递