小米在MiMo-V2系列重磅三连更仅36天之后再度祭出MiMo-V2.5系列模型小米这次一口气官宣了旗舰语言模型MiMo-V2.5-Pro、全模态Agent模型MiMo-V2.5、以及V2.5-TTS、V2.5-ASR等多款新模型并宣布MiMo-V2.5-Pro与MiMo-V2.5即将全球开源。官方将MiMo-V2.5定位为越级全模态Agent百万上下文——它是面向Agent场景打造的原生全模态大模型支持百万级上下文窗口能同时处理图像、音频与视频输入并且相比Pro版推理速度更快更适合时延敏感任务。我们对其API版本mimo-v2.5进行了全面评测测试其在准确率、响应时间、token消耗和调用花费等关键指标上的表现。需要说明的是本次评测侧重中文文本场景下的综合能力考察视频理解、音频感知、跨模态推理等维度可结合文末的官方评测数据形成更完整的判断。mimo-v2.5版本表现测试题数约1.5万总分准确率65.8%平均耗时每次调用46s平均token每次调用消耗的token3024平均花费每千次调用的人民币花费36.81、新旧对决对比上一代全模态模型MiMo-V2-Omnimimo-v2.5在响应速度和能力结构上都出现了明显调整数据如下*数据来源非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark*输出价格单位 元/百万token整体性能基本持平新版本准确率从66.2%微降至65.8%下降0.4个百分点在总榜中的排名从第32位微调至第34位。在中文纯文本场景下综合能力与上一代全模态模型旗鼓相当。细分领域呈现此消彼长的结构性调整coding8.8%从53.1%提升至61.9%是本次升级幅度最大的维度反映出MiMo-V2.5在编程能力上的有意强化。这一点与官方在博客中强调在日常编程任务中超越Gemini 3.1 Pro的定位相互印证。金融4.8%从71.7%提升至76.5%在垂直行业知识上有稳步改善。医疗与心理健康2.0%从77.7%提升至79.7%保持了较高水准。语言与指令遵从0.6%基本持平略有微调。部分维度出现回调教育-8.3%从56.2%回落至47.9%是本次变动幅度最大的下降维度在当前评测框架下该维度的知识覆盖存在一定权衡。推理与数学计算-5.5%从73.3%回落至67.8%。agent与工具调用-4.1%从66.0%回落至61.9%这一点与官方强调的Agent能力全面超越MiMo-V2-Pro的定位存在一定张力。法律与行政公务-2.6%从83.3%小幅回调至80.7%。响应时间大幅缩短平均耗时从268s缩短至46s降幅约83%这是本次更新最显著的变化之一。结合官方MiMo-V2.5相比Pro版推理速度更快更适应对时延敏感的任务的定位这一提速与其产品路线清晰吻合——MiMo-V2.5主打快速响应的全模态Agent承担日常简单任务而长链复杂任务则交由MiMo-V2.5-Pro处理。Token与成本呈现微增态势平均token消耗从2883增至30244.9%输出单价保持在14.0元/百万token不变每千次调用花费从34.8元微增至36.8元2元。值得一提的是官方博客中提到API成本降低约50%的结论是基于Token Plan订阅套餐的调整而非API按量计费层面。2、横向对比在当前主流大模型竞争格局中mimo-v2.5作为面向日常Agent任务的轻量全模态模型表现如何我们从三个维度进行横向对比分析*数据来源非线智能ReLE评测https://github.com/jeinlee1991/chinese-llm-benchmark同成本档位对比30-40元/千次花费区间对比该档位内Qwen3.6-35B-A3B68.1%40.5元以2.3个百分点的优势领先于mimo-v2.565.8%36.8元MiniMax-M2.765.1%32.4元则基本持平。考虑到mimo-v2.5平均仅用46s即可完成调用而Qwen3.6-35B-A3B需要81s、MiniMax-M2.7需要87s在时延敏感的Agent场景下mimo-v2.5的速度优势具备一定的差异化价值。向上看在40-50元/千次的档位qwen3.6-plus70.7%41.6元以相近花费提供了4.9个百分点更高的准确率MiMo-V2-Pro65.8%50.2元则在同准确率下花费更高且耗时达265s。对于追求纯文本综合能力的场景qwen3.6-plus具备更高的成本效率比。向下看小米自家的MiMo-V2-Flash-think-020464.5%7.8元以极低成本提供了接近的准确率但平均耗时高达645s这与mimo-v2.5的快速响应定位形成互补——前者适合成本敏感的离线任务后者适合时延敏感的在线Agent场景。新旧模型对比自身代际梳理小米MiMo系列已形成明确的产品矩阵——旗舰层的mimo-v2.5-pro71.4%64.3元56s对标长链复杂任务mimo-v2.565.8%36.8元46s承担日常全模态Agent任务上一代的MiMo-V2-Pro65.8%50.2元265s与MiMo-V2-Omni66.2%34.8元268s则完成产品线过渡此外还有MiMo-V2-Flash-think-020464.5%7.8元作为低成本补充。新一代在速度与成本控制上的进步较为明显。与其他厂商新模型的对比在榜单Top 10格局中领先者基本由qwen3.6-max-preview75.4%、gemini-3.1-pro-preview75.2%、qwen3.5-plus73.3%、kimi-k2.672.9%、Doubao-Seed-2.0-pro72.8%等新一代旗舰占据。mimo-v2.5作为轻量定位的Agent模型与这些旗舰模型的准确率对比直接对照意义有限——它的核心价值在于多模态感知与快速响应而非在纯文本准确率上与旗舰正面竞争。小米旗舰的位置同门的mimo-v2.5-pro以71.4%的准确率位列第7是小米系目前在纯中文文本评测中排名最高的模型说明小米的基础能力在本次系列更新中整体向前推进。开源VS闭源对比当前阵营定位mimo-v2.5在榜单中标注为商用API版本但官方已明确表示MiMo-V2.5与MiMo-V2.5-Pro即将全球开源。一旦开源权重落地它将成为少数具备原生全模态能力的开源Agent模型之一。开源阵营对标当前开源阵营中qwen3.5-plus73.3%22.9元、kimi-k2.672.9%100.4元、Qwen3.5-122B-A10B70.9%32.3元、Kimi-K2.5-Thinking70.8%77.1元等模型在纯文本准确率上具备较大优势。3、官方评测根据小米官方发布内容将MiMo-V2.5定位为agentic能力与多模态能力的一次跃迁。该模型基于小米的LLM底座加入了专属的视觉与音频编码器并通过优化的后训练管线将感知、推理与工具调用进行联合对齐。官方强调MiMo-V2.5从训练伊始就被设计为一个能看、能听、能行动的单一模型并原生支持百万级token上下文。Agent能力在小米内部的MiMo Coding Bench上MiMo-V2.5在日常编程任务上与前沿模型的差距正在收窄并以一半的成本匹配MiMo-V2.5-Pro的水平。在日常Agent任务基准Claw-Eval上MiMo-V2.5在general子集上取得62.3分官方称其处于性能与效率的帕累托前沿。多模态感知MiMo-V2.5在精准视觉推理、复杂图表分析和深度多模态理解上均有提升原生支持最高100万token的上下文。多模态Agent任务MiMo-V2.5在Claw-Eval Multimodal上取得23.8分与Claude Sonnet 4.6持平领先MiMo-V2-Omni达8个百分点与Claude Opus 4.6仅差1分。视频理解MiMo-V2.5在Video-MME上取得87.7分与Gemini 3 Pro88.4基本持平并明显领先Gemini 3 Flash。官方表示在场景追踪、时序推理、分钟级视频的视觉定位等长周期视频理解任务上MiMo-V2.5已进入前沿水平。图像理解MiMo-V2.5在CharXiv RQ上取得81.0分、在MMMU-Pro上取得77.9分接近Gemini 3 Pro水平。目前所有大模型评测文章在公众号大模型评测及优化NoneLinear