基于深度学习表示的医学主题语义相似度计算及知识发现研究
2019-12-31分类号:R-05;TP391.1;TP18
【部门】南京理工大学 南京农业大学
【摘要】[目的/意义]针对目前医学文本中疾病—基因等实体关联关系在知识发现中结合主题的研究较少,不足以揭示医学领域知识在主题层面的深层语义关联关系,提出了一套结合全文文本和领域知识主题的语义相似度计算方法。[方法/过程]以肿瘤期刊全文本为研究对象,用TWE模型进行词向量和主题向量的词嵌入表示,基于Siamese Network框架结合文本和领域知识主题进行相似度计算。[结果/结论]实验表明,该研究所提出的相似度计算方法在验证集中的预测F值达94%,最后通过对测试集数据进行聚类分析,从高、中、低频以及未进行临床注册实验的角度对疾病和关联基因进行分析,发现当前的热门研究以及未来可能成为研究热点的靶点基因。
【关键词】深度学习 语义相似度 孪生神经网络 知识发现
【基金】江苏省自然科学基金青年项目“基于深度学习的学术全文本时态语义知识标识及检索模型构建研究”(项目编号:BK20190450);; 国家自然科学基金面上项目“基于深度学习的学术全文本知识图谱构建及检索研究”(项目编号:71974094);; 国家社会科学基金后期资助项目“面向科学研究主题的文本时态特征检索研究”(项目编号:19FTQB015)的成果之一
【所属期刊栏目】情报理论与实践
文献传递