AI 多模态学习笔记多模态大模型排名、原理与应用AI大模型中的多模态是什么意思它又是如何工作的从应用层程序员视角拆解多模态大模型的工作原理涵盖主流模型排名、实际应用场景与行业思考帮你真正理解 AI 多模态技术。文章目录 **先解决最基础的问题多模态是什么意思多模态大模型是怎么工作的第一步通过视觉编码器对图片或视频进行编码第二步通过投影层对齐第三步推理关于「原生多模态」和「后期拼接」现在有哪些主流的多模态大模型多模态模型到底能干什么五、关于多模态的一些思考六、写在最后搞应用开发的 CURD 程序员该如何理解多模态 AI 大模型最近打算认真写一点关于 AI 方面的学习笔记。本文是我整理的多模态相关的内容不是那种底层原理——太底层的我也看不懂——只是用自己的理解记录一下大概的实现原理。如果你也是写业务代码的对 AI 有点兴趣但又不想啃论文这篇文章应该适合你。先解决最基础的问题多模态是什么意思多模态的英文是Multimodal这个词拆开来看multi 是「多」modal 是「模态」。模态这个词听起来有点学术其实就是「信息的载体形式」。我们人类认识世界本来就不是只靠一种感官的。你看到一个苹果是红色的、圆的这是视觉信息你咬一口咔嚓一声这是听觉信息尝到甜味这是味觉信息摸起来光滑这是触觉信息。你的大脑把这些不同渠道的信息整合在一起才形成了对「苹果」这个概念的完整理解。AI 里的多模态就是让模型也能干同样的事——同时处理和理解多种不同类型的信息。这些信息类型主要包括文本Text文章、对话、代码图像Image照片、图表、截图音频Audio语音、音乐、环境声视频Video动态画面本质上是图像音频时间轴其他比如 3D 模型、传感器数据、甚至脑电波信号所以多模态学习Multimodal Learning就是研究怎么让 AI 同时处理、关联、融合这些不同模态的数据。而多模态大模型Multimodal Large Language Model简称 MLLM就是在大语言模型的基础上给它装上了「眼睛」和「耳朵」让它不再只能读文字还能看图、听声音、看视频。多模态大模型是怎么工作的我一开始以为多模态模型就是分别训练一个视觉模型和一个语言模型然后硬拼在一起。后来看了一些技术资料才知道事情没那么简单但也没那么复杂。目前主流的多模态大模型架构基本思路是这样的第一步通过视觉编码器对图片或视频进行编码视觉编码器Vision Encoder负责把图像或视频帧转换成模型能理解的向量表示。最常用的就是ViTVision Transformer把图片切成一个个小 patch每个 patch 变成一个 token。一张 224x224 的图片大概能拆成几百个 token。大语言模型比如 GPT、Claude、Llama本质上是处理文本的。大家都知道现在token中文命名叫做「词元」了你输入一串 token可以粗暴理解为「词」它输出一串 token。它不认识图不认识声音只认识数字向量。所以多模态要做的第一件事就是把非文本的东西转换成文本模型能消化的形式。用一个类比来理解这个过程。假设你有一个只会说中文的翻译官大语言模型现在来了一个只会说法语的客户一张图片。你们之间需要一个翻译流程向量编码就是将法语翻译成某种中间语言。图片本身是一堆像素RGB 值模型看不懂像素。所以需要「视觉编码器」把图片转换成一组向量。可以粗暴理解为把图片「翻译」成了一组数字。这个过程类似你做图片压缩。一张 1024x1024 的图有几百万个像素视觉编码器把它压缩成几百个「特征向量」。每个向量代表图片里的某个局部信息比如「左上角有个红色的圆形物体」「中间偏右有文字」。第二步通过投影层对齐视觉编码器输出的向量维度和语言模型的 token 维度通常不一样就像那个中间语言可能是某种方言翻译官还是听不懂需要一个中间层来做对齐。「投影层 / 连接器Projection Layer / Connector」就是这个用来做中间转换的对齐层。这个对齐层的设计很关键它决定了视觉信息能不能被语言模型「看懂」。常见的做法有简单的线性投影也有更复杂的 Q-Former 结构比如 BLIP-2 用的那种。你可以把它想象成一个适配器Adapter把视觉向量映射到语言模型的 token 空间里。这个对齐层是怎么训练出来的简单说就是给模型看大量的「图片文字描述」对让它学会「这张图」和「这段文字」在向量空间里应该离得近。训练完成后模型就建立了一种「跨模态的对应关系」—— 它知道一张猫的图片和「一只猫」这句话在内部表示中是同一个东西。第三步推理这就是模型的「大脑」了负责接收对齐后的视觉 token 和文本 token进行统一的推理和生成。可以是 GPT 系列、Llama 系列、Qwen 系列等等。继续阅读全文https://blog.axiaoxin.com/post/what-is-multimodal/