字节跳动推出Lance：一个能同时“看懂“和“画出“图片与视频AI模型

张

张建站

2026/5/26 1:09:28

10分钟阅读

这项由字节跳动智能创作实验室主导的研究成果发表于2026年5月论文以arXiv预印本形式公开编号为arXiv:2605.18678v1发布日期为2026年5月18日。对原始论文感兴趣的读者可通过该编号在arXiv平台查阅完整内容。在我们的日常生活中AI工具正在以令人目眩的速度改变内容创作的方式。有些AI擅长看图说话——你给它一张照片它能告诉你图里有什么有些AI擅长凭空作画——你给它一段文字描述它能生成精美的图像或视频。然而这两类工具长期以来就像两个专业分工不同的工匠各自为战很少有一个全能工匠能把这两件事同时做好。字节跳动的研究团队偏偏向这个挑战发起了冲击他们训练出了一个叫做Lance的模型目标是让一个AI系统同时掌握图像理解、图像生成、图像编辑、视频理解、视频生成和视频编辑这六大能力并且让这些能力之间相互促进、共同成长。Lance的核心哲学可以用一句话概括让不同的任务相互帮忙而不是相互干扰。这个想法听起来简单但在实现层面却充满了工程和算法上的挑战。整个系统仅有30亿个激活参数这在AI模型中属于相当轻量的规模却在图像生成、视频生成、多模态编辑和视频理解等主流评测基准上超越了现有的开源统一模型同时所有训练工作都在128块GPU的预算内完成充分展示了小而全的可行性。一、为什么我们需要一个全能工匠而不是一堆专科匠人要理解Lance存在的意义先要理解目前AI工具生态的割裂状态。一台能处理文字的大语言模型和一台能生成视频的扩散模型它们的工作原理有着本质的不同就像一个精通文学的作家和一个专注绘画的画家尽管都属于创作者但他们大脑里处理信息的方式几乎没有重叠。长期以来AI研究也沿着这两条路径分别演进一边是以理解和问答为核心的多模态大语言模型另一边是以扩散过程为核心的图像/视频生成模型。这种割裂带来了两个显著问题。其一理解任务和生成任务需要的视觉信息性质截然不同。理解任务希望AI能提取图片的高层语义——这张图里有一只猫而生成任务则需要低层次的纹理、颜色、空间结构等细节信息才能画出一张逼真的猫咪图片。如果用同一套视觉表示方法强行应付两类任务往往会顾此失彼。其二现有的统一模型尝试大多只覆盖了图文领域或任务的一部分对视频的处理、对编辑任务的支持往往不完整更鲜少把这些任务系统性地纳入一个统一的训练框架。更有趣的是研究团队在梳理现有工作时发现一个模型覆盖的任务种类越多它在未见过的新任务上的泛化能力往往越强。这个规律促使他们把多任务协同训练不仅仅看作功能堆砌而是视为释放统一模型潜力的核心机制。换句话说让一个AI同时学会看和画不只是方便用户更可能让这个AI在两件事上都比专门训练的AI做得更好。二、Lance的建筑蓝图共享的大堂分开的工作室如果把Lance的整体架构比作一栋办公楼那么这栋楼有一个所有人共用的大堂统一的多模态上下文序列但理解部门和生成部门分别拥有自己专属的工作室双流混合专家架构。大堂里每个人都能见到彼此、交换信息但到了真正处理任务的时候每个部门又在自己的工作室里按照各自的规则独立完成工作。这正是Lance的两大核心原则统一上下文建模与解耦能力路径。在输入处理层面Lance接受文字、图片、视频的混合输入并把它们转化为三类标记Token。第一类是文字标记直接由语言嵌入层处理。第二类是语义视觉标记由一个叫做ViT视觉变换器的编码器产生这些标记擅长捕捉图像的高层语义是理解任务的好帮手。第三类是生成潜在标记由一个叫做VAE变分自编码器的模块产生能够精确保留图像和视频的底层纹理与时空结构是生成和编辑任务的核心原料。Lance使用了字节跳动旗下Wan2.2视频模型的3D因果VAE编码器它能用统一的潜在空间同时处理图片和视频图像空间下采样16倍视频时间维度下采样4倍。这三类标记随后被组织成一个交错排列的多模态序列理解专家模型LLMUND负责处理文字标记和语义视觉标记通过自回归预测的方式输出文字答案生成专家模型LLMGEN负责处理VAE潜在标记通过流匹配Flow Matching目标函数预测速度场从而在图像/视频的潜在空间里执行高质量的生成与编辑。两个专家模型共享同一个交错多模态上下文序列因此它们能够自由交换信息、互相参考但它们各自拥有独立的参数和预测头因此不会在目标函数上产生直接冲突。整个Lance的训练目标是两个损失函数的加权和一个是文字预测的交叉熵损失另一个是生成任务的速度场均方误差损失。在注意力机制上Lance采用了广义3D因果注意力。序列被划分为若干模态段每段可以关注前面所有已处理的干净段保证因果依赖段内文字标记使用单向因果注意力视觉标记使用双向注意力以捕捉完整的空间和时空结构。这套机制为理解、生成和条件编辑提供了统一的注意力框架是整个系统能够无缝处理多类任务的底层基础。三、解决身份识别危机的关键创新模态感知旋转位置编码在统一多模态训练中序列里同时存在三类视觉标记ViT语义标记、干净VAE条件标记和带噪声VAE目标标记。这三类标记不仅来源不同功能角色也截然不同——前者为理解提供语义线索中间者作为生成的视觉条件输入后者才是真正需要被预测和优化的生成目标。如果模型无法清楚地认出自己正在处理的是哪类标记就可能在注意力计算中把条件和目标混为一谈产生位置歧义干扰跨任务对齐。为了解决这个问题研究团队提出了模态感知旋转位置编码MaPE。其基础是Qwen2.5-VL模型已有的3D旋转位置编码3D-RoPE它能够对时间、高度、宽度三个维度分别赋予位置信息。MaPE在这个基础上增加了一个简单但关键的修改对三类视觉标记分别施加一个模态专属的偏移量但这个偏移量只作用在时间维度上不影响高度和宽度维度。这个设计有两个精妙之处。偏移量只加在时间维度上意味着每类视觉标记在全局位置空间中被清晰地分隔开来模型可以轻松区分这是语义标记还是这是生成目标标记。与此同时空间坐标保持不变图像和视频内部的空间布局信息完整保留不会因为引入偏移而破坏空间一致性。此外由于偏移量是同一模态组内所有标记共享的常数偏移视频内部的时序顺序和相对距离完全不受影响时间连贯性得到保障。后续实验证明MaPE的引入在图像生成、图像编辑、视频生成和视频理解四项任务上均有一致的性能提升在图像编辑任务上提升尤为明显GEdit评分从6.30提升至6.86因为编辑任务需要模型同时推理视觉条件和生成目标正是歧义最容易产生的场景。四、从零到全能分阶段训练的成长路线图Lance的训练分为四个阶段可以理解为一个人从小学到研究生的成长路径——先打宽泛的基础再系统拓展技能然后精细打磨最后通过强化反馈进一步提升。第一阶段是预训练PT相当于小学和初中阶段。这一阶段的目标是让模型建立基本的多模态对齐能力和初步的视觉生成能力。训练数据以大规模图文对和视文对为主图片子集约10亿样本涵盖自然场景、人物、物体、知识类和风格化内容视频子集约1.4亿样本覆盖动作、事件、场景切换和长时序过程。为了照顾视频建模的更高难度训练中图片与视频的采样比大约为1:4。分辨率从192p逐步提升到360p再到480p采用渐进式课程学习。这一阶段训练了约35万步消耗了约1.5万亿个训练标记。第二阶段是持续训练CT相当于高中和大学阶段。这一阶段将任务空间从基础的描述和条件生成大幅扩展到多任务交错学习引入了图像编辑、视频编辑、主体驱动生成即给我一个参考人物生成一段包含他的视频、多模态理解问答等丰富任务类型。在数据混合策略上CT分为三个子阶段CT-I、CT-II、CT-III逐步提高难度更高的编辑和主体驱动任务的采样比例同时相应降低简单描述任务的占比。这一阶段还引入了任务专属系统提示用于理解任务的提示会要求模型仔细观察并提供准确答案用于生成任务的提示则要求模型先描述输入图像/视频的关键特征再解释如何按用户指令修改最后输出符合要求的结果。持续训练约消耗3000亿个训练标记。第三阶段是监督微调SFT相当于研究生阶段的专业训练。这一阶段使用精心筛选的高质量数据在较低学习率下对模型进行精细化调整重点提升指令遵循能力、视觉一致性、编辑精准度和身份保持能力。高质量图像生成样本19万条、图像编辑样本8.4万条、视频生成样本5000条、视频编辑样本9000条以及5500条高质量主体驱动视频生成样本被纳入这一阶段的训练。SFT约消耗720亿个训练标记。第四阶段是强化学习RL相当于通过实战反馈进一步提升专业技能。这一阶段专门针对图像生成能力使用组相对策略优化GRPO算法以OCR文字识别系统PaddleOCR作为奖励模型评估生成图像中文字的清晰度和图文一致性。RL阶段使用了2万条强调文字渲染的图像生成提示通过直接的奖励反馈帮助模型改善纯监督学习难以完全解决的文字生成质量问题训练了约800步消耗约5000亿个标记。五、成绩单解读Lance到底考了多少分在图像生成方面研究团队在GenEval和DPG-Bench两个主流评测基准上对Lance进行了测试。GenEval是一个专门评估文图对齐能力的基准包含单物体、双物体、计数、颜色、位置和属性等多个维度。Lance以0.90的总分与同类统一模型中的最高分并列第一在计数0.84、颜色0.97和空间位置0.87上尤为突出。DPG-Bench则侧重评估模型在复杂提示下的语义一致性Lance在关系建模上表现特别好整体得分84.67在统一模型中同样处于竞争性位置。值得强调的是这些成绩是Lance用30亿激活参数实现的而相比之下BAGEL用了70亿参数、TUNA用了70亿参数。在视频生成方面Lance在VBench评测上取得了85.11的总分超越了所有参与比较的开源统一模型包括TUNA84.06和Show-o281.34。VBench涵盖主体一致性、背景一致性、时间闪烁、运动流畅度、动态程度、美学质量、成像质量、物体类别、多物体、人体动作、颜色、空间关系、场景、外观风格、时序风格和整体一致性等16个维度Lance在多物体93.86、人体动作97.80、颜色92.61和空间关系93.61四个维度上尤为亮眼这些维度正是语义理解与时序生成交叉的难点所在。在图像编辑方面Lance在GEdit-Bench由Step1x-Edit引入的综合编辑评测基准上取得了7.30的平均分是所有统一模型中最高的。GEdit-Bench涵盖背景变更、颜色调整、材质修改、动作改变、人像美化、风格迁移、主体添加、主体移除、主体替换、文字修改和色调转换等11类编辑操作。Lance在其中多个类别上排名第一包括背景变更7.73、材质修改7.28、动作改变7.83、人像美化7.50、主体移除7.85、主体替换7.71和色调转换7.57。文字修改类别4.46相对薄弱研究团队也在论文中坦诚这是未来改进的方向。在视频理解方面Lance在MVBench评测上取得了62.0的总分超越了所有同类统一模型比排名第二的Show-o2 7B55.7高出约11.3个百分点而且使用的参数量30亿还不到对方的一半。MVBench是一个评估视频时序感知和视频中心理解能力的多选题基准包含动作序列、异常识别、行动预测、细粒度动作、意外动作等20个子类别。Lance在对象存在96.0、多选择82.0、动作反事实97.5等多个子类别上均处于领先位置。六、一起学真的比分开学更聪明这是Lance研究中最引人深思的问题研究团队通过消融实验给出了数据支撑的答案。研究团队系统测试了不同任务数据混合方式对性能的影响。仅用生成数据训练的基线模型GenEval 80.88VBench 81.25是起点。当加入理解数据时以生成:理解8:2的比例混合图像生成和视频生成性能双双提升GenEval 81.65VBench 82.91同时视频理解能力MVBench 58.06从无到有。进一步加入多任务生成数据包括编辑、主体驱动生成等以生成:多任务生成6:4的比例图像生成82.06和视频生成83.05继续提升视频理解也提升到了59.18。最令人意外的发现是加入更多种类的生成任务数据不只是让生成变好了还让视频理解变好了。这说明多任务学习带来的不是零和博弈而是真实存在的跨任务迁移效应。在训练动态分析中研究团队还绘制了随训练标记数增加时模型性能的变化曲线。图像生成DPG-Bench和视频生成VBench都呈现出相似的趋势预训练阶段快速攀升之后进入缓慢增长区间。持续训练阶段虽然主要引入的是多任务数据而非额外的纯生成数据但生成性能仍有进一步提升再次印证了多任务协同的价值。从定性角度看用0.5万亿、1万亿、1.5万亿标记训练的三个模型版本在图像文字渲染、多物体属性准确性、视频动作一致性等方面都有肉眼可见的逐步提升。七、与同类模型的正面比较质量差距在哪里研究团队在论文中提供了与多个基线模型的定性比较样例具体展示了Lance在哪些细节上做得更好。在图像生成的定性比较中Lance与70亿参数的BAGEL、17亿参数的InternVL-U、200亿参数的Qwen-Image以及商业闭源模型Nano Banana进行了对比。以恰好有3只狐狸和3盏小灯笼每只狐狸各坐在一盏灯笼旁边这样的计数与空间关系提示为例Lance能够准确遵守数量约束而部分基线模型会出现数量错误或空间排布混乱。在一件叠放在肩膀上的深色外套这样的属性约束上Lance的视觉还原更为精准。在文字渲染方面如瓶子标签上的L/A/N/C/E五个字母Lance的识别和渲染质量优于同类开源统一模型与商业模型水平接近。在视频生成的定性比较中Lance与83亿参数的HunyuanVideo1.5、50亿参数的Wan2.2以及70亿参数的UniVideo进行了对比。研究团队选择的测试提示包含了高难度指令例如镜头从中景逐渐推向面部特写要求模型理解镜头运动语义和两个年轻人相遇后停顿、走近并紧紧拥抱要求多步骤动作序列的时序准确性。Lance在遵循镜头运动指令和多步骤动作描述方面表现出色生成视频具有稳定的视觉纹理和连贯的时序演化。在图像和视频编辑的定性比较中可以看到Lance对将大理石雕塑转换为透明光泽的冰雕、将粉色衬衫换成夏威夷衫并让男子手持咖啡杯等复杂编辑指令的处理能力。Lance能够在准确执行编辑指令的同时保持原始图像的结构和细节视频编辑中对多属性同时修改的处理也展现出时序一致的自然动作动态。说到底Lance想要证明的事情并不复杂一个AI模型同时学会看和画而且不只是图片还有视频不只是理解还有编辑——这不是贪多嚼不烂而是真的能让每件事都做得更好。研究团队用数据告诉我们跨任务协同不是一个美好的口号而是可以被测量、可以被复现的真实现象。对于普通用户来说这意味着未来可能出现一个AI助手你既可以问它这张图里有什么也可以让它把这张图里的夏天改成冬天还可以让它根据这段文字生成一段15秒的小视频而这一切都由同一个轻量级模型完成不需要在不同工具之间来回切换。当然Lance目前仍有局限。文字编辑能力相对薄弱视频奖励模型的覆盖范围有限模型规模和上下文长度的扩展潜力尚未充分探索音频、3D、深度图等更多模态的纳入也是留待未来的方向。研究团队坦诚地指出了这些不足并把流式多模态交互支持实时感知和生成的闭环智能体列为令人期待的下一步。对于这项工作感兴趣的读者可以通过arXiv编号2605.18678查阅完整论文或访问项目主页lance-project.github.io获取更多示例和信息。QAQ1Lance模型和普通的图像生成AI比如Stable Diffusion有什么本质区别A普通图像生成AI只会画图而Lance同时具备理解图片视频、生成图片视频、以及编辑图片视频的能力而且这六类任务在一个模型里统一训练相互促进。Stable Diffusion等工具本质上是单向生成工具无法对你上传的图片进行问答或内容分析而Lance可以。Q2Lance多任务协同训练为什么能让理解和生成互相提升ALance的消融实验表明加入理解数据会给生成任务带来语义接地效果而加入更多种类的生成任务数据如编辑、主体驱动生成反过来也能提升视频理解分数。这是因为多样化的任务迫使模型建立更丰富的跨模态表示不同任务之间存在真实的特征共享和迁移并非简单的能力堆砌。Q3Lance的模态感知旋转位置编码MaPE解决了什么实际问题A在统一多模态训练中序列里同时存在语义视觉标记、干净VAE条件标记和带噪声的生成目标标记如果模型分不清自己在处理哪类标记会在注意力计算中产生混淆。MaPE通过给不同类型的视觉标记加上模态专属的时间维度偏移量让模型清楚识别每类标记的功能角色同时不破坏空间布局和时序结构从而提升了编辑、生成和理解任务的整体表现。