算力的迷雾

张

张建站

2026/6/30 4:53:32

10分钟阅读

引言站在2025年的尾巴上全球AI行业呈现出一种令人眩晕的撕裂感。在旧金山耗资数倍算力训练出来的GPT-5并没有像GPT-4那样带来预期中的、断层式的跃迁。在山景城Google的Gemini 3 Pro却席卷全球助推母公司Alphabet的市值逼近4万亿美元大关。如果我们仅仅根据GPT-5的表现就断言Scaling Law失效那是短视的。如果我们因为Google的股价就盲目乐观那更是无知的。Scaling Law同样的算力洪流却给出了完全不同的答案。这不是巧合而是一层正在缓慢下沉的迷雾。让我们回到那个著名的经验公式Scaling Law缩放定律这个公式曾向我们承诺只要把参数、数据、算力往上推模型误差就能下降智能就一定会涌现。这就像是物理学定律一样给了投资人们无限的信心让他们敢于在沙漠里建设核电站级别的数据中心。在科学家的对数世界里Scaling Law是一条通往天堂的直线。但在工程师的线性世界里它是一条通往地狱的收益递减曲线。Power Law模型的误差L与参数量N、数据量D之间是一个幂律关系Power Law。这意味着它们在双对数坐标系Log-Log Plot下才是一条直线。这就是所谓的视觉欺骗也是对数陷阱的来源。在AI发展的早期从1亿参数到100亿参数算力的指数级增长带来了智能的肉眼可见的飞跃。我们习惯了这种投入一分收获一分的线性快感。但当我们迈入10万亿参数的深水区时数学规律露出了另外的一面。要想获得同样的线性智力增长需要10倍、100倍甚至更多的算力。在万亿参数区间数据难度与优化地形发生结构性变化使得幂律的有效斜率开始随规模降低。我们正在进入一个可怕的区间边际收益逼近边际成本。这到底是黎明前的迟滞还是宇宙给智能设置的物理上限为什么Scaling Law会出现动摇为什么投入了天文数字的算力Loss曲线误差却有时拒绝下降甚至莫名其妙地发散如果我们只是简单地将其归结为算力不够或数据不够那就太傲慢了。真正的问题在于我们在用三维世界的直觉去揣测万亿维空间的几何结构。从碗到迷宫在教科书里或者在简单的机器学习模型中我们习惯了凸优化 (Convex Optimization)的思维。哪怕是三维空间损失函数的曲面看起来就像一个光滑的碗。只要你沿着坡度梯度往下滚无论你从哪里出发最终一定能滚到碗底全局最优解。但在拥有10万亿参数的大模型里这个地形图变成了10万亿维。这是一个极其诡异、反直觉的非凸 (Non-convex)世界。它不是一个碗它是喜马拉雅山脉的褶皱里藏着无数个马里亚纳海沟如同迷宫一般。在这个高维世界里SGD随机梯度下降算法就像一个被蒙住双眼的登山者。他手里没有地图看不见远方只能靠脚底板感受到的那一点点坡度来决定下一步往哪走。鞍点的迷魂阵在这个高维迷宫中最大的敌人甚至不是悬崖梯度爆炸而是鞍点 (Saddle Point)。想象一下马鞍的形状前后是翘起来的左右是耷拉下去的。中心点是平的。在高维数学中存在一个反直觉的现象。维度越高出现局部死胡同局部最小值的概率反而越低但出现鞍点的概率呈指数级上升。这构成了迷雾的核心平庸的广阔性。当我们的优化算法SGD走到这里时它会发现脚下是平的四周也是平的梯度消失了指南针导数指向了零。算法的鬼打墙此刻我们就陷入了所谓的高维鬼打墙。工程师看到Loss不动只能两种猜测猜测一我们真的已经到达了谷底收敛模型已经学尽了数据里的所有智慧再训练下去就是过拟合。猜测二我们只是被困在了半山腰的一片巨大平原鞍点上而在平原的边缘也许就藏着通往超级智能的、更深邃的峡谷。这就是迷雾的本质我们失去了坐标系无法区分是到了终点还是困在半路。在万亿维度的黑暗森林里我们拿着手电筒算力却照不到地图的边界。这时候单纯地堆算力加大Batch Size或学习率就像是在平原上从走路变成了狂奔。但这有用吗也许你跑得更快了能冲出这片平原发现新大陆Grokking顿悟现象。也许你只是在原地打转得更快了甚至因为惯性太大冲出了安全的边界导致模型崩溃。我们不知道前面是死路还是转角。Langevin Dynamics面对这个让数学家头秃的高维迷宫物理学家们却会心一笑这不就是分子的布朗运动吗在物理学中描述微小粒子在流体中受到随机撞击而运动的朗之万动力学 (Langevin Dynamics)竟然揭示了AI训练最底层的秘密。这个公式可以拆解成两股力量的博弈SGD 梯度下降随机扰动。这部分是确定性的。它就是我们熟悉的梯度下降指引着登山者往山谷的方向走。这部分是随机性的。它是一个随机的推力就像水分子的布朗运动在不停地撞击花粉让系统获得能量跳出浅坑。探索与利用的永恒矛盾这构成了AI训练中最大的物理迷雾温度的博弈。高温状态Small Batch Size当我们使用较小的Batch Size时噪声很大系统温度很高。登山者像是一个喝醉了酒的疯子布朗运动步履蹒跚。代价训练效率极低算力无法跑满甚至可能在原地打转。红利正是这种乱动的能量让他有机会跳出那些平庸的局部最优解Local Minima误打误撞地发现通往更深谷底更高智能的新路径避免冻死在平庸里。这是探索的胜利。低温状态Large Batch Size为了喂饱万卡集群为了追求极致的训练速度我们被迫疯狂加大 Batch Size。这相当于我们在人为地给系统降温。红利登山者变得极其理性、稳重沿着当前的坡度全速冲刺效率拉满。代价当温度逼近绝对零度模型就失去了乱动的权利。一旦它掉进了一个看似不错、但实则平庸的坑里它就再也没有能量跳出来了。这是利用的诅咒。这就解释了AI训练中那个著名的悖论为什么有时候不准确的小Batch反而能训练出更好的模型因为当模型掉进一个浅浅的局部最优坑Local Minima时高温小Batch引起的热噪声的能量可以把它踢出来让它有机会继续寻找更深的山谷全局最优Global Minima。临界点在哪里在万卡集群中小Batch会导致吞吐骤降工程师们不得不疯狂地加大Global Batch Size从几千增加到几百万。在物理学上这是一个极其危险的操作。我们在疯狂地给系统降温设想一下当Batch Size趋向于无穷大时公式里的噪声项将趋近于零系统温度降到了绝对零度。模型将变成了一个绝对理性的、但也绝对僵化的登山者。他每一步都走得无比精确但也正因为如此一旦他掉进了一个平庸的鞍点或者小坑他就再也没有能量跳出来了。大模型在此时表现出的梯度消失、更新频率降低、顿悟减少与过冷态(Supercooling)惊人一致。我们可能正处在这样一个危险的临界点算力越多、Batch越大系统反而越难以涌现更高智能。未知的相变也许在足够大的超高维空间里地形会发生某种神奇的拓扑相变最后只剩下一个通往真理的全局最优如果那样现在的降温就是正确的。但如果不是呢这就是迷雾的核心我们不知道自己是在冻结还是在逼近相变当前训练模式更像是快速淬火而不是缓慢退火系统在降温过程中失去跳出次优区域的能力。你想用大Batch和快收敛来走捷径宇宙就给你一个局部最优的残次品。你想得全局最优的正果你就必须忍受漫长的、充满波动与噪声的修行。没有噪声就没有探索。没有探索就没有涌现。这就是热力学给AI设下的终极防线。三条路径面对Scaling Law的迷雾行业并没有达成共识反而分裂出了三条截然不同的探险路径。每一条路径背后都站着一位拥有顶级大神。Ilya Sutskever向内求索作为深度学习的教父Ilya 的转身最为决绝。他那句“Scaling时代结束了”并非是指算力无用而是指单纯通过堆砌数据来进行预训练Pre-training的边际效益已经归零。他的逻辑人类互联网上的高质量数据已经枯竭。继续喂给模型垃圾数据只会导致模型塌陷。他的赌注System 2慢思考与价值对齐。他认为智能的飞跃不再来自于读更多的书而来自于更深刻的思考。他试图通过重构算法让模型学会像人类一样进行长链条的逻辑推理学会自我反思和顿悟。本质这是一条生物学路线。他试图在硅基芯片上复刻人类大脑从直觉到逻辑的进化过程。黄仁勋向外扩张黄仁勋抛出了一张三级火箭图向世界宣告算力的需求正在从单一的预训练裂变为预训练后训练推理的三重叠加。特别是Test-time Scaling推理时扩展它意味着未来AI的思考过程本身就是一个巨大的算力黑洞。他在告诉全世界的投资者和客户别担心Scaling Law失效别担心你们买的GPU会闲置。只要你们想让AI具备逻辑推理能力Reasoning你们不仅需要买卡做预训练还需要买更多的卡做后训练更需要买海量的卡做推理他的逻辑如果把模型练得更聪明变得很难那我们就让它在考试时多想一会儿。为了回答一个难题模型可以在后台生成一万种解法进行自我博弈、验证、搜索最后输出一个最佳答案。他的赌注暴力穷举。以前推理只需要几毫秒现在可能需要几分钟。算力消耗不仅没有减少反而指数级上升了。本质这是一条工程学路线。既然质变太难那就用量变无限的计算时间来模拟质变。Demis Hassabis系统融合DeepMind 的掌舵人Demis则站在了两者之间试图构建一个混合系统。他的逻辑大模型LLM只是大脑的语言中枢负责直觉和表达它天生缺乏逻辑和规划能力。试图让语言模型学会做数学本身就是一种错配。他的赌注AlphaGo范式。50%Scaling保持直觉的敏感度 50% 搜索/规划算法引入逻辑的严密性。他试图将蒙特卡洛树搜索MCTS植入大模型让AI在回答问题前先在思维空间里推演未来的几步棋。本质这是一条系统论路线。他不相信单一模型的全能他相信结构的力量。分歧在这个十字路口人类最顶尖的智慧发生了分歧。这恰恰说明我们对于智能本质的理解依然处于盲人摸象的阶段。智能是压缩如Ilya认为是从海量信息中提取规律。是搜索如Demis和黄仁勋认为是在可能性空间中寻找最优解。还是涌现如Scaling派认为是量变引起质变。每一个流派可能都只是摸到了真理的大象的一部分。Ilya摸到了认知黄仁勋摸到了计算Demis摸到了结构。也许他们最终会在山顶汇合但在迷雾消散之前每一条路都充满了巨大的风险与诱惑。中美竞争尽管理论的迷雾如此浓重尽管路线的争论如此激烈但在现实的物理世界里我们看到的却是一幅更加疯狂、甚至带有某种宗教狂热色彩的景象。在美国OpenAI正在规划耗资千亿美元的星际之门 (Stargate)计划。白宫的创世纪任务Genesis Mission直接将AI研发提升到了曼哈顿计划的战略高度并拿出了能源部、NASA、NIH等的几十年积累的联邦科学数据集。但是如果物理墙是刚性的这将成为一场消耗巨大、产出寥寥的建设。在中国国家机器正在编织一张跨越几千公里的算力巨网试图将西部的风与光转化为东部的智能。政府发布了《人工智能行动意见》选择了工程化落地与产业赋能试图用AI重塑实体经济的每一个细胞。但是实用主义路线可能会在通往AGI的圣杯之战中因缺乏极致的单点突破而落后。这是一个极其有趣的现象。在科学上Scaling Law的边际效应正在递减Loss曲线正在变平。但在工程上人类对算力的投入却在呈指数级增长。为什么在迷雾最浓的时候中美两个超级大国都不约而同地选择了把油门踩死因为智能的涌现是非线性的对国家而言算力是确定性投资而模型能力提升是随机变量。在不对称风险下最优策略是先确保平台再赌突破。另外如果竞争对手做到了而我们没做到那就可能是灭顶之灾。这是一场以力破巧的终极实验。我们试图用人类工业文明的极限去点燃智能时代的第一级火箭。总结未来的竞争可能不仅仅是算力规模而是如何在保持高噪声探索能力的前提下继续扩展规模。Scaling Law的动摇更像是宇宙给人类的一个警醒。哪怕我们拥有了富可敌国的财富哪怕我们动用了国家机器的雷霆手段在客观的数学法则与物理定律面前我们依然微不足道。我们要敬畏规律但我们更要保持行进。科学的历史本就是一部在迷雾中摸索的历史。牛顿不知道引力的本质但他写出了万有引力定律。卡诺不知道分子的存在但他推导出了热力学第二定律。经验公式Scaling Law是我们手中唯一的火把。虽然它可能会摇曳甚至可能会熄灭但在那之前我们别无选择。迷雾的尽头也许是吞噬万亿财富的深渊也许是通往新大陆的桥梁。但人类这种生物最擅长的就是在深渊之上架起桥梁。因为只有触碰到了边界我们才知道自己究竟能飞多高。

锐捷交换机NFPP配置避坑指南：汇聚层端口限速调多少才不误伤用户？

锐捷交换机NFPP实战调优：如何平衡安全防护与业务连续性当园区网的ARP请求如潮水般涌向汇聚层交换机时，NFPP功能就像一位严格的安检员——设置过于宽松会导致CPU资源被恶意流量耗尽，而阈值过于苛刻又会误伤正常业务流量。去年某高校网络中断事…...

2026/5/26 10:54:35 阅读更多 →

B站评论爬虫实战指南：从零开始获取完整评论数据

B站评论爬虫实战指南：从零开始获取完整评论数据【免费下载链接】BilibiliCommentScraper B站视频评论爬虫 Bilibili完整爬取评论数据，包括一级评论、二级评论、昵称、用户ID、发布时间、点赞数项目地址: https://gitcode.com/gh_mirrors/bi/Bilibili…...

2026/5/8 13:21:06 阅读更多 →

终极指南：ipasim实现Windows平台iOS应用无缝运行全解析

终极指南：ipasim实现Windows平台iOS应用无缝运行全解析【免费下载链接】ipasim iOS emulator for Windows 项目地址: https://gitcode.com/gh_mirrors/ip/ipasim 在移动应用开发领域，iOS开发者长期面临一个核心痛点：应用测试必须依赖…...

2026/5/8 13:21:07 阅读更多 →

四六级备考时间安排|2026年四六级资料|四六级考试材料

四六级备考时间安排|2026年四六级资料|四六级考试材料资料全科都有2026年四六级资料 PDFhttps://tool.nineya.com/s/1jpf2t49o【英语真题】1. "Arrangement" most probably means（ ） A. 安排，布置 B. 取消 C. 延迟 D. 忽略答案&…...

2026/6/29 15:50:57 阅读更多 →