细分领域LDA主题分析中选词方案的效果对比研究
2019-01-31分类号:G353.1
【部门】南京理工大学经济管理学院 江苏省社会公共安全科技协同创新中心
【摘要】[目的/意义]LDA应用于细分领域主题分析时,所得结果普遍存在可读性和可解释性欠佳的问题。在情报分析实践中采用领域术语开展主题分析已逐渐成为一种趋势,有必要专门将其与传统选词方案所得主题结果进行量化评估对比,以检验其有效性,为后续情报理论研究与实践应用提供支撑。[方法/过程]首先,在文献调研的基础上,选定"名词+动词""名词""领域术语"三种选词方案,构建具有多组参数(主题数和词数)的LDA对比实验,并提出基于领域专家分析和主题一致性计算的定性、定量评估方法,以对比不同方案所得主题结果的可解释性和一致性。随后,以心血管领域为例,设定具体实验参数,共开展600轮具体LDA实验,并对其结果进行分析。[结果/结论]实验结果表明,以领域术语作为选词方案所得到的LDA主题可解释性、可读性更好,情报研究中涉及细分领域主题分析可尽量采用领域术语作为分析对象。
【关键词】LDA 领域术语 主题分析 领域知识分析 心血管医学
【基金】国家社会科学基金青年项目“领域分析视角下的科技词汇语义挖掘与知识演化研究”的成果之一,项目编号:16CTQ024
【所属期刊栏目】情报理论与实践
文献传递