SIGIR 2026 mKG-RAG:把“多模态知识图谱”装进 RAG,让视觉问答不再只靠模型记忆
01为什么这篇论文值得关注近年来多模态大语言模型已经能够同时理解图像和文本并在许多视觉问答任务中表现出很强的能力。比如用户给模型一张图片再问一句“这是什么建筑”“图中的动物生活在哪里”模型通常可以给出看似合理的回答。但问题在于看图并不等于知道事实。在很多知识密集型视觉问答任务中模型不仅要看懂图像还必须知道图像背后的百科知识、长尾实体信息、历史信息、地点信息、建筑信息、人物信息等。这类问题往往不是“图里有什么”而是图中这个体育场最近一次翻新是什么时候图中这座清真寺属于什么建筑风格图中这个公园由谁维护图中这个湖的面积是多少这些问题的答案通常无法直接从像素中看出来而需要外部知识支撑。作者等人指出现有多模态大模型在这类知识密集型 VQA 中容易出现两类典型问题其一模型会编造一个看似合理但事实错误的答案。其二模型会因为缺少知识而拒绝回答。这正是知识密集型视觉问答的核心困难模型看得见图像却未必知道图像背后的事实。02传统RAG为什么还不够为了解决模型知识不足的问题RAG也就是检索增强生成已经成为一个非常常见的技术路线。它的基本思想是当模型不知道答案时先去外部知识库里检索相关资料再把检索到的内容交给大模型生成答案。在文本问答中这种方法已经非常有效。在视觉问答中RAG也被广泛使用模型先根据图像和问题检索相关文档再利用这些文档回答问题。但是作者认为传统RAG在知识密集型VQA中仍然存在明显缺陷。传统RAG的第一个问题检索内容太“散”很多RAG系统直接检索非结构化文本比如维基百科段落、网页片段、普通文档块。这些内容虽然可能包含答案但也经常夹杂大量噪声。比如一个文档中可能同时包含地点介绍、历史背景、人物信息、赛事信息、地理位置等。模型拿到这段文本后还需要自己判断哪些信息与问题真正相关。这会带来两个后果检索内容越多噪声越多模型需要在混乱文本中自己推理回答更容易出错。传统RAG的第二个问题缺少“关系结构”知识不是孤立的词语而是由实体和关系构成的。例如“Lago di Tésero Cross-Country Stadium”与“World Ski Championship”之间可能存在“为某赛事进行翻新”的关系。如果系统只把知识当成普通文本段落就很难显式表达这种结构。而知识图谱的优势恰恰在于它可以把知识组织成实体 —— 关系 —— 实体这种结构比普通文本更紧凑也更利于推理。传统RAG的第三个问题视觉和文本没有真正统一知识密集型VQA天然是多模态任务。问题来自文本线索来自图像答案来自外部知识。如果检索器只看文本可能忽略图像中的关键实体如果只看图像又可能忽略问题中的具体意图。作者认为真正适合知识密集型VQA的RAG系统应该同时具备三种能力第一能够理解图像和问题构成的多模态查询。第二能够从外部文档中构造结构化知识。第三能够在结构化多模态知识中精准检索答案证据。这正是mKG-RAG想要解决的问题。03mKG-RAG的核心思想不是检索文档而是检索多模态知识图谱作者提出的mKG-RAG全称可以理解为Multimodal Knowledge Graph Retrieval-Augmented Generation它的核心不是简单地把文档塞给大模型而是先把外部多模态文档转化为多模态知识图谱再从图谱中检索与问题最相关的实体、关系和子图。换句话说mKG-RAG做了一个重要转换从“检索一堆文档”变成“检索结构化、多模态、与问题相关的知识子图”。这种设计的好处在于文档中的噪声被压缩知识之间的关系被显式表达图像信息不再只是附属材料而是被纳入知识图谱检索结果更适合大模型进行最终回答。04整体框架mKG-RAG分成两大模块mKG-RAG主要由两个部分组成模块一多模态知识图谱构建作者首先把外部知识库中的多模态文档转化为结构化知识图谱。这些文档通常类似维基百科页面既包含文本也包含图片。构建过程包括三个步骤1. 文本图谱抽取作者利用多模态大模型从文本片段中抽取实体和关系。实体可以是人物、地点、建筑、赛事、自然景观等关系则描述实体之间的语义连接。例如实体Half Dome描述位于Yosemite Valley东端的花岗岩地貌关系Half Dome 位于 Yosemite Valley这样原本松散的文本被整理成了“节点—边”的结构。2. 视觉图谱抽取仅有文本图谱还不够因为VQA中的关键线索经常来自图像。作者使用场景图生成方法从图片中检测视觉对象以及对象之间的关系。视觉对象可能包括山、湖、树、人、建筑等视觉关系可能包括“在……后面”“位于……之中”“属于……”等。这里的关键是作者并不是简单地把整张图片挂到图谱上而是进一步抽取图像中的区域级对象和关系。这使得图像信息变得更加细粒度也更适合与文本知识对齐。3. 多模态图谱聚合在文本图谱和视觉图谱分别构建后mKG-RAG还需要解决一个关键问题图像中的对象如何和文本中的实体对应起来图像中的视觉关系如何和文本中的语义关系对应起来作者采用多模态大模型作为视觉—文本匹配器让模型判断视觉对象和文本实体之间是否对应视觉关系和文本关系之间是否对应。例如图片中的“mountain”区域可以和文本实体“Half Dome”对齐图片中某两个对象之间的空间关系也可以和文本中的实体关系进行匹配。最终文本图谱成为结构骨架视觉对象和视觉关系则作为多模态属性附着到相应实体和关系上。这样一个真正的多模态知识图谱就被构建出来了。05双阶段检索先缩小范围再精细找证据构建好知识图谱之后mKG-RAG还需要解决另一个现实问题如果知识库中有数百万篇文档直接在所有图谱节点和边上检索计算量会非常大。因此作者设计了一个双阶段检索机制。第一阶段粗粒度文档检索第一阶段的目标不是直接找答案而是先从大规模知识库中找出最可能相关的候选文档。给定一张图片和一个问题mKG-RAG使用作者设计的QM-Retriever计算多模态查询和候选文档之间的相似度然后取Top-K文档。这一步相当于先缩小搜索空间从海量文档缩小到少量候选文档。这样后续图谱检索就不需要面对整个知识库而只需要在候选文档对应的图谱中进行。第二阶段多粒度图检索第二阶段才是真正的“找证据”。mKG-RAG会把第一阶段召回的候选文档对应的图谱动态合并成一个面向当前问题的多模态图谱。然后从这个图谱中检索最相关的实体关系局部子图。这种设计比普通段落检索更精细因为它不是只找一段文本而是在图结构中寻找与问题相关的知识片段。更重要的是作者还加入了子图扩展机制。如果初始检索到某个实体或关系系统会继续沿着图结构向邻居节点扩展从而补充可能被遗漏的关键信息。这一步非常像人在查资料时的过程先找到一个核心概念再顺着相关人物、地点、事件继续追踪最后拼出完整答案。06QM-Retriever让检索器真正理解“问题想问什么”mKG-RAG中的另一个关键组件是QM-Retriever也就是Query-aware Multimodal Retriever。普通多模态检索器通常更关注“语义相似”。但在VQA中仅仅相似是不够的。系统真正需要的是与当前问题有关、能够支持答案生成的证据。例如图片中出现一座建筑普通检索器可能找到很多关于这座建筑外观的资料。但如果问题问的是“谁设计了它”系统就必须找到设计者相关证据而不是建筑外观描述。因此作者设计的QM-Retriever强调“查询感知”。它由三个部分组成1. Vision Encoder负责提取图像特征。2. Question Converter负责把疑问句映射成更接近陈述式证据的表示。因为外部文档通常是陈述句而用户问题通常是疑问句两者之间存在表达形式差异。3. Q-Former负责融合图像信息和问题信息生成紧凑的多模态查询表示。07训练QM-Retriever两个目标同时优化作者为QM-Retriever设计了两个训练目标。目标一问题重写式对齐作者使用语言模型把原始问题转换成更接近证据文本的陈述句。然后让QM-Retriever学习原问题和改写后的陈述式表达在表示空间中应该尽可能接近。这样做可以缓解“问题”和“证据文本”之间的形式差异。例如问题这座体育场最近一次翻新是什么时候证据形式这座体育场在2010年为某赛事进行了翻新。二者语义相关但语言形式不同。Question Converter的作用就是帮助模型跨过这种表达差异。目标二问题—证据对齐作者还使用对比学习让正确的问题—证据对更接近让错误证据远离。也就是说对于一个图像问题真正支持答案的证据应该在向量空间中排在更前面。这使得QM-Retriever不仅能找到“相似内容”更能找到“能回答问题的内容”。08实验设置两个知识密集型VQA数据集作者在两个常用知识密集型VQA数据集上进行了实验E-VQAE-VQA包含约5.8K个测试样本问题需要基于维基百科文档回答。其中包括两类问题Single-Hop单跳问题可以从单个页面回答Two-Hop两跳问题需要跨多个文档进行连续检索。InfoSeekInfoSeek包含大量视觉信息查询问题。作者采用验证集进行评估其中包括Unseen-Q未见过的问题Unseen-E未见过的实体。由于InfoSeek没有公开完整知识库作者使用EchoSight筛选出的E-VQA文档子集作为知识库。09主实验结果mKG-RAG取得最强整体表现从主实验结果看mKG-RAG在E-VQA和InfoSeek上都取得了非常强的表现。在不进行额外微调的情况下mKG-RAG已经超过了多个强基线。在进一步微调后的mKG-RAG*中模型在E-VQA整体准确率达到36.3%在InfoSeek整体准确率达到40.5%。这说明多模态知识图谱不仅能改善检索结果也能真正提升最终答案质量。10检索实验QM-Retriever确实更会找证据除了最终问答准确率作者还单独评估了检索性能。对比对象包括文本到文本检索图像到图像检索文本到图像检索图像到文本检索QM-Retriever多模态检索。实验结果显示QM-Retriever在E-VQA和InfoSeek上都明显优于其他检索方式。在E-VQA上QM-Retriever的R10达到46.2在InfoSeek上QM-Retriever的R10达到78.0。这说明作者设计的查询感知多模态检索器确实能够更准确地找到与问题相关的证据。11两跳问题图结构对复杂推理有帮助但仍有提升空间作者还分析了mKG-RAG在单跳问题和两跳问题上的表现。结果显示mKG-RAG在两跳问题上明显优于零样本LLaVA-MORE。不过两跳问题上的提升幅度小于单跳问题。这说明多模态知识图谱和子图检索确实有助于复杂推理但如果问题需要多步分解、迭代检索或显式规划当前方法还有进一步改进空间。12效率分析图谱构建离线完成在线成本可控一个容易被关心的问题是多模态知识图谱听起来很复杂会不会非常慢作者的答案是mKG-RAG的主要计算负担在图谱构建阶段而这个阶段可以离线完成。在线阶段主要包括文档检索、图检索和答案生成。实验中mKG-RAG相比Naive RAG取得了明显更高的准确率同时计算成本只增加了一小部分。具体来说mKG-RAG相较Naive RAG实现了1.37倍的相对准确率提升而总计算开销只增加到1.14倍。这说明mKG-RAG并不是简单用巨大开销换效果而是在性能和效率之间取得了较好的平衡。13定性案例mKG-RAG更少“看似合理地答错”论文还给出了多个定性案例对比Qwen2-VL、GPT-4o和mKG-RAG的回答。这些案例非常直观。在一些问题中Qwen2-VL或GPT-4o会给出看似合理但错误的答案有时GPT-4o甚至会因为缺少信息而拒绝回答。而mKG-RAG借助外部多模态知识图谱能够更准确地回答涉及人物、建筑风格、面积、维护机构、数字事实等问题。例如问某个博物馆是谁设计的问某个湖的面积是多少问某个赛车场的赛道长度问某座清真寺的建筑风格问某个公园由谁维护。这些问题都不是单纯看图就能回答的而需要外部知识。这也正好体现了mKG-RAG的价值它不是让模型凭记忆猜答案而是让模型带着结构化证据回答问题。总结mKG-RAG展示了一条非常清晰的技术路线知识密集型视觉问答不应该只让模型凭记忆回答也不应该只是把长文档塞给模型更合理的方式是把外部知识组织成多模态知识图谱再从中检索结构化证据。作者通过多模态图谱构建、双阶段检索、QM-Retriever和子图扩展让RAG在视觉问答场景中变得更精准、更结构化也更适合处理长尾知识和百科事实。这篇论文的价值不只在于刷新了E-VQA和InfoSeek上的结果更在于它指出了多模态RAG的一个重要方向未来的多模态智能系统不仅要会看图、会读文档还要会理解知识之间的关系。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】