一文解读：多模态大语言模型综述，建议收藏！

张

张建站

2026/6/3 15:51:20

10分钟阅读

多模态大语言模型综述这篇文章就是对这篇综述论文的解读引入多模态模型主要有两种范式一种是Discriminative判别式另一种是Generative生成式。其中判别式的代表就是CLIP生成式的包括OFA还有咱们这次重点要讲的——多模态大语言模型MLLM。Discriminative判别式CLIP是OpenAI的经典作品它用对比学习的方法把视觉信息比如图片和文本信息比如文字描述整合到同一个特征空间里这样对后续做各种多模态相关的任务都很有帮助。之所以说它是判别式范式是因为CLIP用的是对比学习框架训练的时候会对比正样本匹配的图片和文本对和负样本不匹配的图片和文本对。这种学习方式的核心就是锻炼模型区分不同类别的能力具体来说就是分清哪些图片和文本是匹配的、哪些不匹配。而且就算没见过某个类别的标签它也能完成分类任务就像下面这张图展示的那样Generative生成式OFA模型也就是One-For-All模型是阿里巴巴达摩院提出来的一款多模态预训练模型。它属于生成式方案用的是统一的Transformer encoder-decoder架构来做预训练和微调不用针对不同的任务专门设计特定的模型层。简单说OFA会把各种不同的任务都转换成序列到序列Seq2Seq的形式通过生成的方式进行预训练和微调这样模型就能同时学习多种任务了。随着大模型的发展生成式方案现在已经成了研究的热点。其中多模态大语言模型凭借着强大的多模态感知和理解能力在一些需要结合多种模态信息进行推理的任务中表现得特别出色也能给用户带来更自然、更方便的交互体验。接下来咱们就全面解读一下多模态大语言模型的几个重要方面。多模态大语言模型一般来说多模态大语言模型的网络架构主要包含三个部分一个预训练的模态编码器、一个预训练的LLM大语言模型还有一个模态接口Connector。当然也可以在LLM后面再加上一个生成器用来生成不同模态的结果。模态编码器模态编码器其实就是一种预训练的模态对齐模型它的作用很简单就是提前把不同模态的输入数据和LLM的输入数据调整到同一维度、相互匹配。根据输入数据的不同类型模态编码器也分种类比如处理图片的图片编码器、处理声音的音频编码器还有处理视频的视频编码器。举个例子常见的图片编码器有这些很多研究都表明输入更高分辨率的图片能让模型的性能有明显提升。至于怎么提升输入图片的分辨率目前主要有两种思路direct scaling way直接缩放法就是直接输入分辨率比较高的图片这就需要要么微调一个能接收高分辨率图片的编码器要么直接换一个本身就支持高分辨率的编码器。比如CogAgent它就用了双编码器的结构一个接收低分辨率图片一个接收高分辨率图片然后通过cross-attention把高分辨率的特征嵌入到低分辨率的分支里。patch-division methods补丁分割法就是把高分辨率的图片切成多个小补丁patches这些小补丁都能输入到低分辨率编码器里。之后这些小补丁和这张高分辨率图片对应的低分辨率版本一起输入到图片编码器中这样就能分别捕捉到图片的局部特征和全局特征了。除了图片编码器还有其他类型的模态编码器比如CLAP是用来对语音进行编码的ImageBind则能对图片、文本、语音、深度图、热图、IMU数据这些多种模态的数据进行编码。大语言模型大语言模型是一种预训练的大模型这个大家应该都比较熟悉了模态接口模态接口其实就是一个可以学习的网络它主要有三种形式projection-based、query-based和fusion-based。前两种属于token级别的混合最后一种属于特征级别的混合。简单解释一下projection-based方法就是通过MLP把其他模态的数据特征映射到文本特征空间里query-based方法就是通过查询query的方式找到输入模态数据对应的文本特征fusion-based方法则是通过多头注意力机制把输入中的文本特征和其他模态的特征混合在一起。前两种方法得到的文本特征也需要和输入中的文本特征结合起来不过和fusion-based的结合方式不一样前两种一般是直接拼接concat在一起。学AI大模型的正确顺序千万不要搞错了2026年AI风口已来各行各业的AI渗透肉眼可见超多公司要么转型做AI相关产品要么高薪挖AI技术人才机遇直接摆在眼前有往AI方向发展或者本身有后端编程基础的朋友直接冲AI大模型应用开发转岗超合适就算暂时不打算转岗了解大模型、RAG、Prompt、Agent这些热门概念能上手做简单项目也绝对是求职加分王给大家整理了超全最新的AI大模型应用开发学习清单和资料手把手帮你快速入门学习路线:✅大模型基础认知—大模型核心原理、发展历程、主流模型GPT、文心一言等特点解析✅核心技术模块—RAG检索增强生成、Prompt工程实战、Agent智能体开发逻辑✅开发基础能力—Python进阶、API接口调用、大模型开发框架LangChain等实操✅应用场景开发—智能问答系统、企业知识库、AIGC内容生成工具、行业定制化大模型应用✅项目落地流程—需求拆解、技术选型、模型调优、测试上线、运维迭代✅面试求职冲刺—岗位JD解析、简历AI项目包装、高频面试题汇总、模拟面经以上6大模块看似清晰好上手实则每个部分都有扎实的核心内容需要吃透我把大模型的学习全流程已经整理好了抓住AI时代风口轻松解锁职业新可能希望大家都能把握机遇实现薪资/职业跃迁这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

试剂危化品管理平台/生物样本管理平台/标准品管理平台共同打造实现无人智能实验室！

实验室数字化管理系统是集试剂危化品管理平台、标准品管理平台、生物样本管理平台等一体化的全生命周期的管理平台，是整合各类实验物质管理与数字信息的综合性管理系统，用于采集、处理、存储、追踪、质控、检索和共享各类生物样本及其相关实验数据。一、…...

2026/6/3 15:47:15 阅读更多 →

Qt5.12 + VS2017实现的Modbus TCP主站上位机工程，含完整UI与寄存器读写功能

本文还有配套的精品资源，点击获取简介：Windows平台下可直接编译运行的Modbus TCP主站程序，基于Qt 5.12框架和Visual Studio 2017开发环境构建，提供.sln解决方案文件、.vcxproj项目配置及全部源码。支持连接标准Modbus TCP从站…...

2026/6/3 15:42:01 阅读更多 →

PyTorch实现的BERT模型工程包：含数据加载、训练脚本与推理接口

本文还有配套的精品资源，点击获取简介：一套可直接运行的PyTorch版BERT实现，涵盖模型定义（BERTBase及底层Transformer层）、预训练与微调配置、文本编码与批处理数据集模块、封装好的训练器（支持损失计算…...

2026/6/3 15:42:00 阅读更多 →

AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现）

更多请点击： https://intelliparadigm.com 第一章：AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现） 2024年，全球创意产业迎来关键拐点：AI不再作为边缘工具，而是深度嵌入创意工…...

2026/6/2 15:30:51 阅读更多 →

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式开源声明本文完全开源、无版权限制、公开通用，允许所有开发者、科研机构、技术团队无偿引用、落地、迭代、二次开发，助力人工智能长期记忆体系技术革新。作者：杨建…...

2026/6/1 2:30:09 阅读更多 →

单片机IIC实验

单片机 ：STM32F407 开发板：DMF407电机开发板平台：keil V5.31HSE 为8MHZ HSI为16MHZ原理图：主函数：int main(void) {uint8_t key;uint16_t i 0;uint8_t datatemp[TEXT_SIZE];HAL_Init(); …...

2026/6/3 16:15:35 阅读更多 →