引言一个开发者的提问引发的思考在一次火山引擎的参观活动中一位开发者向接待人员提出了这样一个问题“我用不同的Agent接入豆包大模型效果相差甚大。这是什么原因”这个问题的背后隐藏着一个正在发生的关键转变大模型正在成为AI基础设施的底层而应用Agent在这之上自由竞争。当大家调用的是同一个模型时影响任务完成质量的就不再是模型本身而是Agent如何“使用”这个模型。由此引出一个关键度量单位——Token。完成一个相同的任务消耗同一个模型消耗的Token数量将直接决定应用的生产效率并最终成为竞争的核心指标。第一部分Token——AI时代的通用货币1.1 为什么Token能成为统一量化标准在传统计算领域衡量计算资源的核心单位是CPU Core核心。用户购买云服务器时按照“vCPU核心数×使用时长”来计费。但Core存在一个根本问题不同CPU型号的“一个Core”性能差异巨大。Intel Xeon的一个Core与AWS Graviton的一个Core同样标称1核实际性能可能相差2-3倍。Core是一个绑定具体硬件属性的单位。Token则完全不同。一个Token就是模型处理的最小语义单元大约相当于一个中文词或一个英文单词的0.75个。无论背后使用的是H100还是V100芯片无论数据中心建在何地、电费多少1 token就是1 token。一个Token的定价背后实际上兑现了多层能力芯片能力H100每秒能生成1000 tokenV100可能只有200 token芯片越强边际成本越低系统能力千卡集群能否线性扩展直接影响每Token成本数据中心基建能力据字节跳动论文数据电费约占Token成本的40%基础模型能力训练一个模型花了1亿美元还是1000万美元折旧摊销到每个Token上差异巨大推理部署效率使用vLLM、TensorRT-LLM等优化引擎吞吐量可差2-3倍Token把所有底层差异全部抽象掉让所有人都能用同一个单位来衡量成本、效率和价值。这是比CPU Core更高级的抽象维度。1.2 Token如何衡量Agent的生产效率在Agentic AI时代用户的输入是一个目标如“帮我订到最便宜的机票”输出是任务完成。中间消耗的是Token——模型每一次思考、每一步规划、每一次工具调用的输入输出。于是一个关键的效率公式浮出水面生产效率 任务完成率 / 消耗的Token数为什么这个比例如此重要视角解释成本视角Token就是钱。同样完成任务A Agent花1000 tokenB花10000 token成本差10倍延迟视角Token数量直接决定响应时间用户等待越久体验越差可靠性视角每一步推理都有出错概率Token越多整体成功率指数级下降竞争视角大模型API趋向商品化谁能用更少Token完成任务谁就获得成本优势和定价权当两个AI法律助手都能完成“起草一份租房合同”的任务时一个消耗5000 token另一个消耗20000 token。在按任务付费的市场里前者可以把价格定得更低仍保持盈利或者以相同价格获得更高利润——这就是Token效率带来的定价权。第二部分从包月订阅到按任务付费——定价模式的演进2.1 当前阶段包月订阅的模糊定价目前市面上的主流模式是月/年订阅制用户每月获得固定Token池用完即止。在这种模式下用户不关心单个任务消耗多少Token只关心包月套餐够不够用。这种模式本质上是卖方市场的产物模型能力稀缺用户抢着用厂商通过固定月费使用上限来控制成本。此时Token效率与定价权无关——只要模型比别人强哪怕更耗Token也照样有定价权。2.2 下一阶段按任务付费的透明竞争当模型能力普遍过剩、开源模型追上闭源水平时竞争就会进入新阶段。为了争夺客户厂商会转向更透明、对客户更公平的“按任务/按结果付费”。在这个阶段成本结构直接决定定价下限和利润空间项目服务A低效服务B高效处理一份合同的Token消耗20,000 token5,000 tokenToken成本$0.01/1k token$0.20$0.05其他固定成本$0.10$0.10总成本$0.30$0.15如果两家都按“处理一份合同”收费价格战情景服务B定价$0.20/合同比服务A的总成本还低每单净赚$0.05服务A若卖$0.20则每单亏$0.10无法跟牌高利润情景服务B也卖$0.35/合同每单净赚$0.20服务A只赚$0.05服务B有巨大空间做营销和研发包月制是过渡按任务付费是终局。谁的“每任务Token成本”低谁就能制定更低的价格或者享受更高的利润。第三部分芯片公司的生存账本——中国市场的算账逻辑3.1 3500亿AI服务器市场能养几家芯片公司根据IDC数据2026年中国AI服务器市场规模约3500亿元。AI服务器就是专门用来跑AI训练和推理的高性能服务器核心部件是GPU/NPU而非普通CPU。养活一家芯片公司需要多少订单按研发投入50亿、利润50亿计算需要100亿订单。照此推算3500亿市场理论上可以养活35家芯片公司保守估计25家。但这只是理论最大值。现实中的制约因素包括市场集中度华为在AI芯片市场的份额可能超过50%一家吃掉一半大厂供应链策略字节、阿里等只会选2-3家主力供应商不会撒胡椒面生态门槛能跟上英伟达节奏、跑通CUDA兼容生态的没几家用Token消耗量的那套账推算结论相似——养10-20家没问题但大厂只会集中采购2-3家。实际能健康存活的国产AI芯片公司可能在5-8家左右。3.2 芯片公司如何吃到这块蛋糕芯片公司有三种模式参与市场模式操作能吃到的蛋糕代表公司只卖芯片把芯片卖给服务器厂商只吃到芯片价值市场的60-70%早期英伟达、寒武纪卖整机组装服务器整机卖给大客户吃到整机价值100%英伟达DGX、华为昇腾自己提供云服务自建数据中心按需出租算力吃掉从硬件到运营的全部价值AWS、Google Cloud理论上芯片公司可以通过模式3直接参与到3500亿市场中。但现实中有三大障碍资本门槛万卡集群级数据中心投资动辄几百亿芯片公司本身还在亏损运营能力云服务需要SLA承诺、全球节点、24小时技术支持这属于云厂商而非芯片设计公司渠道冲突如果芯片公司同时做云服务其他云厂商还敢买它的芯片吗因此多数芯片公司只能走模式1或模式2实际能存活的数量远小于理论最大值。第四部分Meta一家的采购账——巨头能养几家芯片公司4.1 Meta的AI芯片采购策略Meta 2025年资本支出约400-450亿美元主要用于AI基础设施建设。与AMD签下5年近1000亿大单按算力规模折算并锁定了AMD约10%的股份。Meta的采购策略是“多头下注”供应商角色占Meta采购比例推测英伟达主力训练部分推理45-55%AMD二供推理优先20-25%博通定制ASIC推理10-15%自研MTIA推荐系统轻量推理10-20%结论Meta一家真正能“养”出规模的芯片公司年订单超100亿美元级别只有英伟达和AMD。4.2 AMD与Meta的“销售投资”绑定这笔交易的实质不是在卖“定制芯片服务”而是在进行深度的“利益共同体”绑定。传统模式下Meta找博通定制芯片Meta设计架构博通负责整合封装Meta给博通钱。这是纯粹的采购服务。AMD的创新在于不给折扣给“权证”。AMD允许Meta以1美分/股的价格在未来买入最多1.6亿股AMD股票前提是Meta买够承诺数量的芯片且AMD股价涨到目标价如传闻中的600美元。这种操作的精妙之处对AMD防跳槽Meta持股后成为“自己人”、获生态背书Meta深度使用ROCm软件生态、得业绩确定性对Meta供应链安全不把鸡蛋都放英伟达一个篮子、对冲成本股价增值可对冲芯片采购支出、掌握话语权作为大股东影响芯片设计方向这不是简单的“卖芯片”而是为了让双方在AI军备竞赛中成为绑在一根绳上的蚂蚱。4.3 Meta的特殊处境有芯片、有模型但不卖云服务Meta和Google、亚马逊、微软有一个本质区别维度Google/AWS/AzureMeta自研芯片✅ TPU/Trainium/Maia✅ MTIA自研模型✅ Gemini/Titan/Phi✅ Llama对外云服务✅ GCP/AWS/Azure❌ 基本没有Meta的商业模式是用自研芯片和模型提升自家产品Facebook、Instagram、WhatsApp但不对外卖算力。因此当Meta自身算力不够用时反而要向Google Cloud或AWS租用算力——有芯片至少能省点钱但它仍是云服务的顾客而非卖家。第五部分推理的本质——英伟达的护城河在哪里5.1 推理已知答案的重复生产推理与训练有本质区别维度训练推理任务特征探索未知找到一组参数使模型正确回答应用已知用训练好的参数对新输入产生输出计算过程前向反向传播不断调整权重只有前向传播权重固定类比写一本教材把教材拿去复印一万份既然推理是“复印”而不是“写作”那么只要复印出来的内容一样精度相同用什么复印机芯片并不重要。谁复印的单页成本更低谁就有优势。5.2 推理场景下CUDA不是护城河护城河需要区分看待护城河类型训练场景推理场景GPGPU架构CUDA生态✅ 极强护城河❌ 几乎无护城河芯片设计能力✅ 有✅ 有系统设计能力✅ 有✅ 有供应链管理✅ 有✅ 有为什么推理场景下CUDA护城河失效推理不需要编程训练时需要写CUDA代码定义模型结构推理只是加载权重做前向计算推理框架已抽象底层ONNX Runtime、TVM、TensorRT可以把同一模型编译到不同芯片推理算子固定Conv、Attention、GEMM等算子在所有芯片上实现差不多在推理这个“已知答案的重复生产”场景推理性价比每美元能生成多少Token是唯一标准。5.3 历史验证2019-2021年英伟达份额下降2019-2021年CNN算法ResNet、MobileNet、YOLO高度成熟计算机视觉大规模落地。这些模型不需要再训练只需要推理。推理量暴发但推理对芯片的要求从“灵活性”转向“性价比”。这一时期发生的变化ASIC崛起Google TPU每美元性能是英伟达T4的2-3倍华为昇腾310在中国安防市场大量出货寒武纪、比特大陆的NPU也开始取代英伟达客户用脚投票字节、阿里、腾讯大规模采购推理专用芯片因为推理不需要CUDA兼容性谁便宜用谁英伟达在AI推理芯片市场的份额从2019年的约80%降至2021年的约60%——这恰恰验证了“算法成熟后英伟达护城河变浅”的逻辑。5.4 大模型时代护城河又回来了但2022年以后的Transformer大模型带来了新变数KV Cache可达几十GB需要动态批处理长上下文128k tokens带来内存管理复杂性大模型推理不再是完全的“已知答案重复生产”。推理引擎vLLM、TensorRT-LLM对NVIDIA的GPU优化最好因为NVIDIA投入了大量工程师和CUDA生态来优化Attention机制的各种变体、KV Cache的动态调度。因此推理的护城河从“算子级”转移到了“系统级”CNN时代算子足够简单ASIC容易替代NVIDIA大模型时代推理变成复杂系统工程NVIDIA的系统优化能力重新成为壁垒5.5 英伟达的份额会下降吗短期1-2年份额下降是确定的但绝对值继续增长。随着AMD MI300系列放量、各大云厂ASIC成熟NVIDIA的份额会被“啃”掉一部分但AI总盘子在大幅扩张NVIDIA收入绝对值仍在增长。中期3-5年份额可能降到60-70%但仍是绝对龙头。推理市场爆发2026年中国AI服务器市场推理占比已达42.67%且仍在上升这块蛋糕NVIDIA吃不到全部但NVIDIA拿走的不是“AI服务器市场”的钱而是AI芯片毛利率的钱——即使出货量份额降到60%利润份额可能仍超80%。结语两个核心矛盾的收敛本文的讨论围绕两个核心矛盾展开第一中国市场能养活几家芯片公司按市场规模能养25-35家但“能养”不等于“会养”。大厂用脚投票的结果是2-3家吃肉5-6家喝汤剩下的看政策吃饭——反过来说明为什么最近国产GPU公司融资这么难资本只愿意押注能进前5的玩家。第二NVIDIA的护城河到底有多深在算法成熟、推理占主导的阶段NVIDIA的护城河会暂时变浅给ASIC和竞品留下空间2019-2021年CNN时代已验证。但当算法仍在快速演进、模型结构不断变化时NVIDIA的全栈工程能力又会重新成为壁垒。最终无论是Agent开发者还是芯片公司都在追逐同一个目标在完成相同任务的前提下消耗更少的Token。Token效率不仅是AI应用的竞争核心也是整个AI产业链的价值锚点。本文内容整理自相关技术讨论与问答记录仅作为个人学习笔记存档。