标题
  • 标题
  • 作者
  • 关键词

利用图像描述与知识图谱增强表示的视觉问答

2022-01-25分类号:TP391.41

【作者】王屹超  朱慕华  许晨  张琰  王会珍  朱靖波  
【部门】东北大学计算机科学与工程学院自然语言处理实验室  
【摘要】视觉问答作为多模态任务,需要深度理解图像和文本问题从而推理出答案.然而在许多情况下,仅在图像和问题上进行简单推理难以得到正确的答案,事实上还有其他有效的信息如图像描述、外部知识等可以被利用.该文提出了利用图像描述和外部知识增强表示的视觉问答模型.该模型以问题为导向,基于协同注意力机制分别在图像和其描述上进行编码,并且利用知识图谱嵌入,将外部知识编码到模型当中,丰富了模型的特征表示,增强了模型的推理能力.在OKVQA数据集上的实验结果表明,该方法相比基线方法有1.71%的准确率提升,与已有的主流模型相比也有1.88%的准确率提升,证明了该方法的有效性.
【关键词】视觉问答  多模态融合  知识图谱  图像描述
【基金】国家自然科学基金重点项目(61732005);国家自然科学基金面上项目(61876035)
【所属期刊栏目】清华大学学报(自然科学版)
文献传递