烧 Token:一件正在被重新审视的事
本文首发于公众号XIN洞察——资深博主做过运维、写过代码、现任产品经理从命令行终端敲到产品设计稿跨视角硬核解码新时代的XIN洞察。欢迎关注先一步获取我的最新文章。一种新型的「凡尔赛」正在 AI 圈流行最近半年AI 编程圈悄悄诞生了一种新型“凡尔赛”——比谁更能烧 Token。刷一圈 X、小红书、知乎和各路技术博客你会看到这样一幅奇景OpenClaw“龙虾”作者 Peter自爆30 天烧掉6030 亿 token发起760 万次请求总开销超过 130 万美元中国“Claude Code 榜一大哥”刘小排——X 上自认 Anthropic 公告里“在 200 美元套餐里消耗了 5 万美元模型用量”的那位用户过去一个月烧掉77 亿 token价值超 5 万美元逼得 Anthropic 连夜推出每周速率限制Factory 开发者关系主管Ben Tossell在一篇浏览量超过 360 万的 X 长文里晒出战绩4 个月烧掉 30 亿 token被网友冠名“30 亿 token 调度者”隔壁的NVIDIA直接把 Cursor 部署到了所有 4 万名工程师身上黄仁勋亲口说“100% 的工程师都在用 AI 编程”代码产出涨了3 倍——光这一条就够全行业打工人羡慕一年迪士尼内部上线的 “AI Adoption Dashboard” 直接公开员工 Token 排行榜某位“榜一大哥”9 个工作日调用 Claude 46 万次——平均每 1.7 秒一次堪称肉身定时器。整个行业内一把梭哈疯狂烧 Token有种“一天不烧个几亿 Token都不好意思说自己是 AI 圈的人”的感觉。这话半是调侃半是真相。它精准地捕捉到了当下 AI 行业的一种集体性焦虑——烧 Token 的多少正在被默认为衡量“AI 用得有多深”的代理指标。烧得多意味着你在认真用 AI烧得少则有种“是不是没跟上时代”的隐忧。于是越来越多的人开始把 Token 消耗量晒出来作为一种新型的“身份徽章”——就像十年前晒 GitHub 提交、五年前晒微信运动步数一样。只不过这次徽章背后烧的是真金白银。Token 到底有多贵要理解“烧 Token 竞赛”的荒诞先得知道 Token 到底有多贵。不同模型、不同档位的 Token 价格差异很大——从最便宜的开源小模型到最贵的旗舰推理模型同样 1 亿 Token成本可以相差几十倍。这里可以用 Cursor 披露的一组数据做一个更贴近 AI 编程场景的估算在典型 Agent 调用里输入 Token 和输出 Token 的比例大约是 13:1同时Prompt 缓存命中率可以做到 90% 左右实测中不同模型差异较大DeepSeek 最高能到 95%而 Claude、GLM 等其他模型在 cc-switch 日常统计中多在 80%这里以 90% 作为参考值计算。按这个结构估算并按当前汇率粗略折算成人民币主流模型的 1 亿 Token 成本大致是模型1 亿总 Token 成本DeepSeek V4 Flash约 25 元DeepSeek V4 Pro约 73 元GLM 5.2约 310 元Claude Sonnet 4.6约 1011 元Claude Opus 4.8约 2192 元这个差距非常夸张在 Cursor 这种“高输入、低输出、高缓存命中”的调用结构下DeepSeek v4 Pro 的名义 API 成本大约只有 Claude Opus 的1/28 到 1/31。当然价格不是唯一变量模型能力、稳定性、工具调用质量、代码理解深度都要算进去但单看 Token 账单差距已经足够影响产品和公司层面的模型选型。听起来不算很贵对吧如果用便宜模型1 亿 Token 的成本可能还不如请人吃一顿火锅但如果用旗舰模型1 亿 Token 就已经是一笔需要认真管理的成本。更重要的是——1 亿 Token 真的不算多。在 AI 编程的场景里一次 Agent 任务从读代码、思考、写代码、运行测试到自我修复几万到几十万 Token 是常态一个稍微复杂的项目跑一整天几亿 Token 转眼就没了。所以当你听到“月烧 77 亿”的时候——这其实就是一个 AI 编程深度玩家的正常用量。我们把数字摊开做个简单换算按前文口径折算Claude Opus ≈ 1700 元 / 1 亿 token高端旗舰、DeepSeek v4 Pro ≈ 59 元 / 1 亿 token国产低价两者相差近 30 倍。下表把开头提到的几位“凡尔赛主角”放进同一把尺子里看用量级别大致月度 Token全用 DeepSeek v4 Pro全用 Claude Opus普通开发者偶尔用千万级1 亿几元 — 几十元几百 — 1700 元Ben Tossell“30 亿 token 调度者”4 个月 30 亿月均 ~7.5 亿约 440 元约 1.3 万元刘小排级重度用户月烧 77 亿几十亿级约 4500 元约 13 万元实际包月折抵后超 5 万美元 ≈ 36 万元龙虾 Peter“月烧 6030 亿”6000 亿约 35 万元约 1000 万元实际账单 130 万美元 ≈ 936 万元看到这里结论已经很清楚了当一个人的 AI 账单超过他的工资时他就成了 AI 的“重氪用户”当一个人的 AI 账单超过整个团队的工资时公司就该开始算账了。“敞开了烧”的 AI成本早已远远超过雇一个高级工程师。一个月烧 130 万美元的 OpenClaw 作者相当于雇佣几十个硅谷高级工程师全职给他打工——只不过他选择把这笔钱全交给了模型厂商。这才是“烧 Token 凡尔赛”最荒诞的地方炫耀的不是产出是消耗。大家为什么越烧越多要回答这个问题得先理解一个变化过去一年AI 的使用方式发生了从“对话”到“自主执行”的范式跃迁。早期的 AI 用法绝大多数是对话式——你问一句它答一句。一次对话上下文也就几千、几万 Token烧得再多也有限。这是为什么 2024 年之前几乎没人讨论“Token 烧得多”这件事。但 Claude Code、Codex、OpenClaw、Cursor Agent…… 这一波Agent 化产品起来之后画风彻底变了AI 不再是“回答问题”而是“接管任务”——读完整个仓库、规划步骤、写代码、跑测试、自我纠错一次任务的上下文可以轻松到几十万 Token而且 AI可以 7×24 跑——你睡觉它在跑你吃饭它在跑你开会它还在跑多 Agent 并行、子任务 fan-out、长时间研究型工作流……这些新范式让 Token 消耗呈指数级增长。更关键的是模型厂商在这一波浪潮里给出了“包月吃到饱”的定价——Claude Max、Cursor Ultra、各种企业版套餐让重度用户在一个固定预算下“敞开了用”。而站在另一端的“金主”们也在用一种近乎 PUA 的方式鼓励员工烧。黄仁勋在 GTC 2026 的炉边谈话里有一句很出圈的话“如果一个年薪 50 万美元的工程师用不了 25 万美元的 Token我会很焦虑。”把“Token 消耗量”明确钉在了“工程师产出/价值”的对立面——烧得少不是省钱是失职。这种来自最高层的叙事再叠加包月套餐和 Agent 的自动消耗就构成了完美的“烧 Token 三件套”老板鼓励烧、套餐允许烧、Agent 自动烧。于是烧 Token 这件事从“主动消费”变成了“被动产生”你只需要把任务丢给 Agent它自己就会去烧。烧完之后你看一眼报表惊叹一句“我居然烧了这么多”然后截个图发出来——一个新的凡尔赛诞生了。但有些公司已经在踩刹车了但故事正在悄悄反转。就在所有人都在比谁烧得多的时候已经有一些公司开始默默地给员工的 AI 预算设上限了。这不是新闻的头条因为它不性感——没有“月烧百万美金”那么吸睛。但它是更真实、更值得关注的信号。当某些团队开始计算每个工程师的“人均 AI ROI”开始把 AI 工具的使用纳入成本中心管理开始在月度复盘里要求工程师说明 Token 花在了哪、产出了什么时“烧 Token 凡尔赛”的派对就快开不下去了。而且这次“刹车”踩得相当整齐。2026 年年中全球头部科技企业几乎同步从“管够”切换到了“算账”模式Meta有员工自己撸了个 “Claudeonomics” 内部工具统计了 8.5 万员工的 Token 消耗——30 天 60 万亿 token、约 90 亿美元榜首单人 30 天就烧掉2810 亿 token具体折算金额未公开业内估算在数十万美元级别而扎克伯格本人和 CTO Bosworth 都没能挤进 Top 250后因数据外泄Meta 已关闭该看板。腾讯3 月还在推行“每人年均 22 万元 Token 资源”的激励政策每月含 700 美元 Cursor 700 美元 Claude 1000 美元 CodeBuddy6 月直接砍至月度硬上限——核心 AI 团队混元、优图约5250—7000 元降幅约 50—60%边缘岗位如腾讯娱乐外包仅1000 元降幅超 90%。Uber把 Claude Code 推给约 5000 名工程师后人均月烧500—2000 美元4 个月就把 2026 年 AI 预算全部烧光参考量级Uber 2025 年 RD 总支出 34 亿美元YoY 9%AI 预算具体规模未公开。微软GitHub Copilot 自 2026 年 6 月 1 日起切换为基于 Token 的按量计费——月费保留Pro 10 美元、Pro 39 美元、Max 100 美元但额度变成 GitHub AI Credits用完按 Token 单价续扣过去“高级请求次数”机制取消。字节自研模型工作场景不限量但外部模型走“先垫付、后报销”——产品/技术序列年上限 1000 美元、其他序列 300 美元且采用 Copay 模式公司 50%/个人 50%。阿里3 月起向员工发放 Token 额度免费提供悟空、Qoder 等内部工具购买百炼 Coding Plan 或外部 AI 工具可申请报销具体月度上限按部门有所不同整体策略相对克制。从“22 万年包”到“月 1000 块”、从“AI 预算管一年”到“4 个月烧光”这种落差不是某家公司的内部决策而是整个行业对 AI 成本认知的集体校准。这背后是一个被互联网集体忽视的根本性问题我们在互联网上听到的全是 AI 的“百万级投入”——某某公司又上了多少卡、某某团队又烧了多少 Token、某某独立开发者又花了多少美金。但几乎从来没听说过——某个产品因为用了 AI 拿到了“百万级的产出”。烧钱的故事满天飞赚钱的故事却出奇地安静。这并不是说 AI 没有创造价值——它显然创造了。但创造的价值和投入的成本之间到底是不是一笔合算的账这个问题绝大多数公司还没有答案。更让人警觉的是当“烧 Token 的多少”被默认为“AI 用得多深”的代理指标时整个行业的注意力就开始从“创造价值”漂移到“消耗资源”。员工会下意识地多烧、CEO 会自豪地晒出账单、模型厂商乐于鼓吹这种叙事——所有人都在比谁烧得更多但没人问烧完之后到底产出了什么这跟过去互联网时代“烧补贴抢用户”的剧本何其相似。区别只在于那时候烧的是用户补贴至少能换来 DAU而现在烧的是 GPU 算力换来的可能只是一份月底的账单和一张推特截图。烧 Token 的尽头是什么如果我们承认 Token 不是免费的、AI 不是慈善业、公司账上的钱不是从天上掉下来的——那么“烧 Token 凡尔赛”就一定会终结。问题只在于早晚、以及怎么终结。我个人的判断是未来 1-2 年内Token 消耗会经历一次明显的从“展示导向”到“价值导向”的回归。具体会沿着三条路径推进第一公司层面的 AI 预算精细化。那些早期“敞开了让员工用”的公司会陆续引入预算上限、按部门/项目分配 Token 配额、要求月度 ROI 复盘。CFO 们会开始问这 100 万的 AI 账单对应的是哪些产品功能哪些线上收入哪些效率提升没有清晰答案的部门预算会被砍。第二个人层面的“高效烧 Token”成为新技能。跟过去“会写 Prompt”成为热门技能一样未来“用更少的 Token 拿到更好的结果”会成为新的差异化能力。这意味着一整套“省 Token”的工程实践会被广泛重视怎么拆分任务能让上下文最短什么场景用 Opus 什么场景用 Sonnet/Haiku怎么把 Prompt 缓存命中率从 60% 拉到 90%哪些工作流可以用本地模型替代云服务回到我们一开始引用的 Cursor 数据——输入与输出 13:1、缓存命中率可达 90%——意味着真正的大头不是模型“写了多少”而是它为了完成任务反复读取、理解、检索、压缩了多少上下文只要工作流设计得足够稳定、上下文组织得足够工程化很多看似不可避免的 Token 消耗其实是可以被系统性摊薄的。第三模型厂商也会被倒逼优化定价和效率。当客户开始算账“包月吃到饱”的粗放定价就维持不下去了。我们会看到更精细的分层按 Agent 任务类型、按模型档位、按缓存命中率、更激进的成本压缩蒸馏、MoE、推理优化以及更明确的“价值定价”模型——为客户的产出而不是消耗付费。到那时再回头看 2026 这场“烧 Token 凡尔赛”会有一种很怀念的复杂感——就像现在回看 2014 年那波 O2O 烧钱补贴大战一样当时所有人都觉得是常态事后回看其实是个非常短暂的窗口期。那些在“烧得多就是用得深”的叙事里沉迷得最深的人可能也会被这次价值回归冲击得最严重。因为他们烧了那么多 Token却没有沉淀出对应的“产出能力”——他们炫耀的是消耗量不是创造力。而被预算逼着精打细算的人反而会比“敞开了烧”的人更早一步迈过这道价值关——这大概是这场凡尔赛大戏里最不起眼也最有意思的一个伏笔。