AI 大模型中的多模态（Multimodal）是什么意思？

张

张建站

2026/6/22 6:18:37

10分钟阅读

AI 多模态学习笔记多模态大模型排名、原理与应用AI大模型中的多模态是什么意思它又是如何工作的从应用层程序员视角拆解多模态大模型的工作原理涵盖主流模型排名、实际应用场景与行业思考帮你真正理解 AI 多模态技术。文章目录 **先解决最基础的问题多模态是什么意思多模态大模型是怎么工作的第一步通过视觉编码器对图片或视频进行编码第二步通过投影层对齐第三步推理关于「原生多模态」和「后期拼接」现在有哪些主流的多模态大模型多模态模型到底能干什么五、关于多模态的一些思考六、写在最后搞应用开发的 CURD 程序员该如何理解多模态 AI 大模型最近打算认真写一点关于 AI 方面的学习笔记。本文是我整理的多模态相关的内容不是那种底层原理——太底层的我也看不懂——只是用自己的理解记录一下大概的实现原理。如果你也是写业务代码的对 AI 有点兴趣但又不想啃论文这篇文章应该适合你。先解决最基础的问题多模态是什么意思多模态的英文是Multimodal这个词拆开来看multi 是「多」modal 是「模态」。模态这个词听起来有点学术其实就是「信息的载体形式」。我们人类认识世界本来就不是只靠一种感官的。你看到一个苹果是红色的、圆的这是视觉信息你咬一口咔嚓一声这是听觉信息尝到甜味这是味觉信息摸起来光滑这是触觉信息。你的大脑把这些不同渠道的信息整合在一起才形成了对「苹果」这个概念的完整理解。AI 里的多模态就是让模型也能干同样的事——同时处理和理解多种不同类型的信息。这些信息类型主要包括文本Text文章、对话、代码图像Image照片、图表、截图音频Audio语音、音乐、环境声视频Video动态画面本质上是图像音频时间轴其他比如 3D 模型、传感器数据、甚至脑电波信号所以多模态学习Multimodal Learning就是研究怎么让 AI 同时处理、关联、融合这些不同模态的数据。而多模态大模型Multimodal Large Language Model简称 MLLM就是在大语言模型的基础上给它装上了「眼睛」和「耳朵」让它不再只能读文字还能看图、听声音、看视频。多模态大模型是怎么工作的我一开始以为多模态模型就是分别训练一个视觉模型和一个语言模型然后硬拼在一起。后来看了一些技术资料才知道事情没那么简单但也没那么复杂。目前主流的多模态大模型架构基本思路是这样的第一步通过视觉编码器对图片或视频进行编码视觉编码器Vision Encoder负责把图像或视频帧转换成模型能理解的向量表示。最常用的就是ViTVision Transformer把图片切成一个个小 patch每个 patch 变成一个 token。一张 224x224 的图片大概能拆成几百个 token。大语言模型比如 GPT、Claude、Llama本质上是处理文本的。大家都知道现在token中文命名叫做「词元」了你输入一串 token可以粗暴理解为「词」它输出一串 token。它不认识图不认识声音只认识数字向量。所以多模态要做的第一件事就是把非文本的东西转换成文本模型能消化的形式。用一个类比来理解这个过程。假设你有一个只会说中文的翻译官大语言模型现在来了一个只会说法语的客户一张图片。你们之间需要一个翻译流程向量编码就是将法语翻译成某种中间语言。图片本身是一堆像素RGB 值模型看不懂像素。所以需要「视觉编码器」把图片转换成一组向量。可以粗暴理解为把图片「翻译」成了一组数字。这个过程类似你做图片压缩。一张 1024x1024 的图有几百万个像素视觉编码器把它压缩成几百个「特征向量」。每个向量代表图片里的某个局部信息比如「左上角有个红色的圆形物体」「中间偏右有文字」。第二步通过投影层对齐视觉编码器输出的向量维度和语言模型的 token 维度通常不一样就像那个中间语言可能是某种方言翻译官还是听不懂需要一个中间层来做对齐。「投影层 / 连接器Projection Layer / Connector」就是这个用来做中间转换的对齐层。这个对齐层的设计很关键它决定了视觉信息能不能被语言模型「看懂」。常见的做法有简单的线性投影也有更复杂的 Q-Former 结构比如 BLIP-2 用的那种。你可以把它想象成一个适配器Adapter把视觉向量映射到语言模型的 token 空间里。这个对齐层是怎么训练出来的简单说就是给模型看大量的「图片文字描述」对让它学会「这张图」和「这段文字」在向量空间里应该离得近。训练完成后模型就建立了一种「跨模态的对应关系」—— 它知道一张猫的图片和「一只猫」这句话在内部表示中是同一个东西。第三步推理这就是模型的「大脑」了负责接收对齐后的视觉 token 和文本 token进行统一的推理和生成。可以是 GPT 系列、Llama 系列、Qwen 系列等等。继续阅读全文https://blog.axiaoxin.com/post/what-is-multimodal/

【技术突破】ROFLPlayer：重塑英雄联盟回放分析的智能引擎

【技术突破】ROFLPlayer：重塑英雄联盟回放分析的智能引擎【免费下载链接】ROFL-Player (No longer supported) One stop shop utility for viewing League of Legends replays! 项目地址: https://gitcode.com/gh_mirrors/ro/ROFL-Player ROFLPlayer是一款专…...

2026/5/8 13:43:18 阅读更多 →

Weaviate向量数据库实战：从部署到多模态搜索与生产优化

1. 从零开始：理解Weaviate与向量数据库的核心价值如果你正在机器学习和AI应用领域摸索，尤其是在处理文本、图像、音频这类非结构化数据时，一定绕不开一个核心问题：如何快速、准确地找到“相似”的内容？传统的基于关键…...

2026/5/8 13:43:19 阅读更多 →

项目实训——Werewolf-Agent 多智能体狼人杀中DSPy应用优化器优化

一、前言上周，我在我们的项目中引入了dspy并使用它进行一个简单的测试，在测试过程中，我进行了几局游戏，发现预言家每次的输出结果都相差不大，这让我在玩起来比较无趣，因为在每个阶段，我都可以…...

2026/6/6 6:31:57 阅读更多 →

PyGAD实战指南：5大工业级遗传算法应用与避坑手册

1. 为什么是PyGAD而不是自己手写遗传算法？在Python生态里，提到遗传算法（Genetic Algorithm），很多人第一反应是“得从零开始搭轮子”：初始化种群、定义适应度函数、写选择/交叉/变异逻辑、控制迭代终止条件……...

2026/6/21 0:06:51 阅读更多 →

emWin三大核心控件实战：进度条、单选按钮与滚动条开发指南

1. 项目概述：深入emWin三大核心控件的实战应用在嵌入式图形界面开发领域，SEGGER的emWin以其高效、稳定和丰富的控件库而著称。对于许多从单片机裸机开发转向带屏交互的工程师来说，如何高效、正确地使用这些控件，往往是项目从“能跑…...

2026/6/22 3:00:39 阅读更多 →

英雄联盟终极效率工具：League Akari 完全指南

英雄联盟终极效率工具：League Akari 完全指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一款基于官方LCU API开…...

2026/6/22 5:43:39 阅读更多 →

Transformer 中的高效推理：推理时注意力压缩

Transformer 中的高效推理：推理时注意力压缩作者: Hao Sun, Yuxuan Li, Wei Lu 来源: https://arxiv.org/html/2606.20529v1摘要大型语言模型（LLMs）的部署成本高昂，主要受限于推理阶段的内存与计算开销。本文提出了一种推理时注…...

2026/6/21 0:09:56 阅读更多 →