这项由Meta AI研究团队完成的研究发表于2026年5月31日论文预印本编号为arXiv:2606.01476v1有兴趣深入了解的读者可通过该编号在arXiv平台查询完整论文。**一个关于拜师学艺的难题**教一个小徒弟学厨艺最直接的方法是让他站在大厨旁边大厨每切一刀徒弟就照着切一刀。问题是大厨用的是进口菜刀徒弟手里只有一把普通的家用刀两把刀的手感、重量、角度完全不同——大厨的每个动作徒弟根本照搬不来。更麻烦的是如今最厉害的大厨都在米其林餐厅里根本不让外人进厨房观摩只能通过外卖窗口告诉你这道菜好不好吃绝不让你看他们怎么做的。这个困境正是当前人工智能领域里一个真实存在的核心问题。在AI的世界里大厨是GPT、Claude、Gemini这类顶级大模型小徒弟是各种规模较小、可以在普通设备上运行的开源模型。研究人员一直在努力让小模型向大模型学习但方式始终受限。Meta AI的研究团队提出了一套全新的方案叫做OmniOPD它的核心突破在于小模型学习大模型不再需要窥探大模型内部的秘密账本只需要观察大模型做出来的成品菜就能判断自己的方向对不对。**一、学徒的三种困境为什么拜师这么难**要理解OmniOPD解决了什么问题先得搞清楚AI领域里拜师学艺知识蒸馏这件事为什么那么难。最古老的方法叫做监督微调SFT通俗地说就是让大模型先把解题过程写下来然后小模型照着抄。这就像是大厨事先把菜谱写好徒弟对着菜谱练习。这种方法简单直接但有一个根本缺陷菜谱是大厨在自己的状态下写的徒弟练习时会遇到各种书上没写到的情况一旦遇到陌生场景徒弟就手足无措了。专业术语叫做分布偏移就是训练时的情况和实际使用时的情况不一样导致模型表现变差。为了解决这个问题研究人员发明了在线策略蒸馏OPD。这种方法让小模型先自己尝试解题生成自己的解题过程然后请大模型来评价——大模型会在每个关键步骤上给出详细的反馈告诉小模型这里你应该往左走不应该往右走。这种方式好比让徒弟先自己做一道菜然后大厨站在旁边一个动作一个动作地点评。这种方法兼具了自己练习和密集反馈的优点理论上非常完美。然而这套方法有两个相互缠绕的致命弱点。第一个弱点是访问限制标准的在线策略蒸馏需要读取大模型内部对每一个词的概率分布——也就是大模型心里的想法而不仅仅是它最终说出来的话。Claude、GPT、Gemini这些顶级商业模型根本不对外提供这种内部数据它们只会告诉你生成的文字结果。这就好比你只能通过外卖窗口收菜永远看不到大厨的操作过程。结果就是最强的大厨全部被排除在教学系统之外小模型只能跟着稍微厉害一点的开源模型学。第二个弱点更隐蔽即使你能拿到大模型的内部概率数据这个数据本身也非常脆弱、不可靠。麻省理工学院、卡内基梅隆大学等机构的研究发现大模型和小模型在生成文本时有时候思路差异很大就像一个擅长用法语思维解题的大厨和一个习惯用中文思维的徒弟——即使最终答案相同中间过程的词汇选择可能千差万别彼此的词汇重叠区非常窄。真正有用的学习信号就集中在这个非常狭窄的重叠区里一旦大模型和小模型的风格差异较大这个区域就几乎消失了。更糟糕的是当小模型陷入重复循环比如反复说同一句话这类退化状态时大模型反而会给这些重复的词语打出很高的分数因为重复的词在局部上看起来非常符合预期结果反而强化了小模型的坏习惯。不同模型家族之间的词汇表差异也会让这种信号变得充满噪音。归根结底按词语概率逐词匹配这个信号的信息密度虽然高但真正有用的部分极少噪音和干扰却极多。**二、OmniOPD的核心思路从逐字抄写到核对成品**面对以上困境Meta AI的研究团队问了一个很根本的问题我们能不能完全不看大模型内部的概率数据只通过观察它输出的文字就建立起一套密集、有效的学习信号答案是肯定的而且效果出人意料地好。OmniOPD的基本思路可以用一个更贴切的比喻来理解不再是让徒弟逐字照着大厨的菜谱抄而是让大厨做出几道菜来然后看看徒弟自己做的菜和大厨的菜在口感、成分上有多相似。如果徒弟做的菜和大厨的菜差不多就说明徒弟这一步走对了如果差很多就说明徒弟需要在这里调整。这套方案由三个相互配合的机制组成共同构成了OmniOPD的完整框架。**三、峰值熵调度只在关键路口请大厨来点评**第一个机制解决的是在哪里请大厨点评的问题。一道复杂的菜有很多步骤。切葱花、放盐、翻炒这些步骤几乎是机械性的不需要专家指导但火候该不该降低是否该加酱油这些关键决策点才是需要大厨出手的地方。如果大厨要对每一个细枝末节都给出意见成本高得离谱而且大部分意见都是这步做得对继续没什么信息量。OmniOPD的峰值熵调度机制就是专门找出解题过程中的关键路口。技术上它通过计算小模型在生成每个词时的熵来衡量不确定程度——熵越高说明小模型越拿不定主意这个位置越值得请大模型来评判。低熵的地方比如写下因为、所以这类过渡词小模型基本上不会犯错不需要浪费宝贵的评判预算。高熵的地方比如需要决定用哪个定理、是否切换解题策略才是最需要大模型指导的关键时刻。系统会从整条解题轨迹里挑出M个熵值最高的位置以这些位置为中心截取一段连续的文字块论文中称为chunk默认长度是50个词送给大模型去评判。这种方法把有限的请教大厨预算全部集中在了最有价值的决策点上。**四、蒙特卡洛投票用多份成品估算大模型的偏好**第二个机制解决的是如何在不看内部数据的情况下量化大模型的偏好这个核心难题。具体做法是这样的对于小模型生成的每一个文字块系统把这段文字之前的所有内容也就是前缀相当于解题背景和已完成的步骤发送给大模型然后请大模型独立生成N份后续论文默认是10份。这N份后续就是大模型在同样背景下认为应该怎么走的N种可能。然后系统把小模型自己生成的那段文字和大模型生成的N份文字逐一比较用一个语义相似度指标来打分比如ROUGE-1就是看两段文字共同用了多少相同的词。如果小模型的文字和大模型的大多数版本都很像说明小模型这一步走对了得分高如果差异很大说明小模型走偏了得分低。这个设计的聪明之处在于它把逐词概率匹配变成了多段文字的语义投票。大模型不需要透露任何内部数据只需要生成文字就行——这正是Claude、GPT这类黑盒模型唯一愿意提供的东西。同时通过把比较单位从单个词扩展到50个词的文字块就算大模型和小模型用词习惯不同语义层面的相似性依然能被可靠地捕捉到。一个词汇选择上的偏差不会毁掉整个评分因为50个词的整体语义是足够鲁棒的。**五、贝叶斯平滑防止学不到东西的数学安全网**第三个机制解决的是统计稳定性问题。用10份样本来估计大模型的偏好本质上是一种抽样统计存在相当大的随机误差。更麻烦的是有时候大模型生成的10份文字和小模型生成的那段文字在语义上完全不同——得分全为零。在数学上这会导致梯度归零小模型在这个位置学不到任何东西尽管这恰恰是最需要学习的地方。贝叶斯平滑机制就是用来解决这个问题的。它的做法相当直观不直接用10份样本的原始得分而是把这个得分和小模型自身的先验信心做一个加权平均。小模型对自己生成的这段文字本身就有一个概率估计——这个估计也许不准确但它永远不会是零。把这个非零的先验信心作为保底就确保了每个位置的学习信号永远不会彻底消失。用论文中的公式表达最终的老师信号等于实际得分 × N 先验信心 × α÷N α其中α是控制先验信心权重的参数。当α很小时以实际观测为主当α很大时以小模型自身的先验为主。论文实验发现α1.0时效果最好过大或过小都会导致性能下降。从理论上论文严格证明了这个贝叶斯估计量的均方误差上界以及它相比直接用样本均值的方差压缩幅度确保了梯度信号的数学稳定性。**六、信任区域锚定防止小模型在没人管的地方乱走**OmniOPD只在M个关键位置乘以每块50个词进行评判其余大量的词汇是处于无监督状态的。这就带来了一个风险小模型可能会在没人看的地方偷懒生成一堆毫无意义的文字或者为了逃避惩罚而故意缩短解题过程。为了防止这种情况OmniOPD对所有未被评判的词汇施加了一个额外的约束要求小模型在这些位置的输出不能和训练前的原始版本偏离太多技术上叫做KL散度惩罚参数为β0.1。这就相当于在没有大厨点评的步骤里有一个规范手册约束徒弟不能偏离基本操作太远。论文用皮斯克不等式严格证明了这个约束能把未监督区域的政策漂移控制在一个有界的范围内并且当β趋向无穷大时未监督区域的行为会完全收敛到初始策略。从消融实验来看去掉这个约束会导致性能从69.08%灾难性崩溃到8.28%这足以说明它的重要性。**七、理论保证从数学上确认每个设计的必要性**OmniOPD不只是工程上的拼凑研究团队为每个设计机制提供了严格的数学证明这在AI工程论文里并不多见。关于梯度稳定性论文证明了在OmniOPD的分块损失设计下每一块的梯度范数上界由小模型自身的得分函数控制无论大模型给出什么样的估计值哪怕是0或1梯度都不会爆炸。相比之下标准在线策略蒸馏的反向KL散度目标函数当大模型对某个词的概率趋向零时梯度会趋向无穷大这正是实践中观察到的训练不稳定的数学根源。关于估计量收敛论文用霍夫丁不等式证明了贝叶斯估计量以次高斯速率收敛到真实期望值误差随样本量N以O(1/N)的速度缩小。这意味着N10就能提供可靠的信号继续增加N的边际收益快速递减——这也解释了为什么实验中N从10增加到20性能几乎没有变化。关于词汇和风格不变性论文证明了一个非常优雅的性质只要两组大模型输出在语义相似度函数φ下被判定为等价即对同一段小模型输出给出相同的相似度分数那么贝叶斯估计量和最终的损失函数就完全相同——无论这两组输出的具体词汇选择有多大差异。这意味着OmniOPD天然地对词汇表差异、标记化差异、风格差异全部免疫。相比之下标准在线策略蒸馏的损失函数对词汇概率的每一个细节都敏感无法区分语义等价但措辞不同和语义完全不同这两种情况。**八、实验结果数字背后的故事**研究团队在数学推理和编程竞赛两个方向上进行了大量严格的对比实验测试的模型组合涵盖了开源模型和商业黑盒模型。在数学推理方面以Qwen3-4B作为学生模型Qwen3-32B作为老师模型OmniOPD取得了69.08%的平均准确率。相比直接让小模型自己练习基础推理54.01%提升了15.07个百分点。相比用大模型的轨迹做离线监督微调63.80%提升了5.28个百分点。最令人意外的是与需要完整访问大模型内部概率的标准在线策略蒸馏64.16%相比OmniOPD在完全不看内部数据的情况下还高出了约5个百分点。这证明了一个反直觉的结论更粗粒度但更干净的语义信号有时候比信息密度极高但噪音极多的词级概率信号更有效。当老师模型换成更激进的Qwen3-30B-A3B-Instruct一个经过大量对齐训练、风格和基础模型差异很大的instruct版本时差距进一步拉大标准在线策略蒸馏只能达到56.22%而OmniOPD达到了72.32%差距高达约16个百分点。这与理论预测完全吻合——老师模型和学生模型的风格差异越大标准方法的词级匹配就越脆弱OmniOPD的语义不变性优势就越明显。当老师换成商业黑盒模型时OmniOPD的优势更加显著。使用Claude-4.5-Haiku作为老师OmniOPD达到74.92%比同一老师的离线微调基线67.52%高出7.40个百分点使用Gemini-2.5-Flash作为老师达到75.67%比对应基线73.51%高出2.16个百分点。这两个成绩都超过了自我探索式强化学习GRPO在4B模型上的天花板70.24%证明OmniOPD能够帮助小模型从商业大模型那里学到比自我摸索更多的东西。在编程竞赛方面情况有所不同。OmniOPD在1.7B学生模型上超过了标准在线策略蒸馏47.93% vs 47.06%但在4B学生模型上略微落后63.78% vs 65.26%。研究团队分析认为代码的语法刚性比数学推理文字更高同一段代码逻辑几乎没有同义改写的空间因此词级精确匹配在代码领域比在数学推理领域更有价值语义相似度的优势相对减小。**九、超参数的精细调校每个旋钮的作用**研究团队对OmniOPD的各个参数进行了系统性的敏感度分析这些分析揭示了每个设计选择背后的工作机制。文字块大小C是影响最大的参数。把C从默认的50个词扩大到100个词性能从69.08%提升到71.58%说明更大的上下文窗口让语义相似度估计更加可靠。把C缩小到25个词性能从69.08%断崖式下跌到24.48%原因很直接25个词不够包含一个完整的逻辑步骤语义相似度函数变成了在惩罚措辞差异而不是验证推理方向。监控块数量M影响监督密度。把M从10增加到20性能小幅提升到70.96%把M从10减少到5性能只下降了0.7个百分点从69.08%到68.38%。这个结果很有力地验证了峰值熵调度的有效性即使监控点减半因为每个监控点都精准命中了最高不确定性的位置学习信号依然高度有效。同时M5的配置对应的老师推理成本只有离线监督微调的0.88倍也就是说OmniOPD在预算更低的情况下保留了99%的性能。蒙特卡洛采样数量N的影响呈现出明显的边际递减。N从10增加到20在C50的情况下只带来0.49%的提升而成本翻倍。在C100的最优配置下N从10增加到20甚至略有下降。这与理论预测完全一致估计精度以O(1/N)的速度提升N10已经处于收益-成本曲线的拐点附近。语义相似度指标φ的选择对结果影响不大但存在规律性当学生和老师能力差距很大32B教1.7B时ROUGE-1这种词级重叠指标表现更好因为它对措辞差异更宽容当老师本身经过高度对齐训练、风格更统一时编辑距离这种结构相似度指标表现略好。整体来看两种指标的差距在不同设置下不超过2个百分点说明OmniOPD对指标选择具有相当的鲁棒性。**十、训练过程的内部图景从混乱到稳定**除了最终性能数字研究团队还记录了训练过程中的三条关键曲线在线策略损失、参考KL散度、以及AIME-2025竞赛数学题的动态准确率。使用Qwen3-32B作为老师时损失值在前100步从约0.33快速下降到约0.24然后趋于平稳全程没有出现任何震荡或爆炸。使用Gemini-2.5-Flash作为老师时仅用30步就达到了相似的稳定水平这和黑盒老师的信号质量更高有直接关系。KL散度小模型当前版本与初始版本之间的差异先升后稳在达到峰值后安全地保持平台状态而不是继续无限增大。这正是信任区域约束在起作用的直接体现与第三个理论定理的预测完全吻合。在整个训练过程中AIME-2025准确率持续爬升Qwen3-32B老师下从不到30%最终超过50%Gemini-2.5-Flash老师在仅50步的严格预算下从23%爬升到接近47%。**归根结底OmniOPD证明的是什么**说到底OmniOPD告诉我们一件很有意思的事在AI学习的世界里信息量大不等于有用信息多。逐词概率分布是信息密度极高的信号但它同时也是噪声密度极高的信号对模型风格差异和词汇差异高度敏感在稍微复杂一点的条件下就会失灵。相比之下把整段文字拿来做语义比较虽然粒度粗了很多但恰恰因为它对表面形式不敏感学到的是更本质的推理方向梯度信号更干净训练更稳定最终效果反而更好。这对AI领域的实践意义是相当直接的未来的AI能力传递不再需要强制要求顶级商业模型开放内部数据。通过文字层面的语义验证小模型同样可以从Claude、GPT、Gemini这些通常只对外提供文字输出的顶级模型那里获得真正有用的密集学习信号。这在某种程度上打破了开源社区和商业AI之间的壁垒让规模更小、更容易部署的模型能够真正站在最顶尖的AI巨人肩膀上。当然OmniOPD在代码领域的表现提示我们语义相似度的优势并不是万能的。对于那些语法极其精确、一个字符之差就决定对错的任务词级精确匹配仍有其无可替代的价值。未来可能需要针对不同任务类型设计不同粒度的相似度度量找到语义灵活性和符号精确性之间更好的平衡点。对于有兴趣进一步探索的读者可以通过arXiv编号2606.01476v1找到这篇论文的完整版本其中包含了所有定理的完整证明、超参数分析的详细数据以及多个定性案例分析展示了峰值熵调度在几何、组合数学、代数题目中具体命中了哪些关键推理节点。---QAQ1OmniOPD为什么不需要看大模型内部的概率数据就能学习AOmniOPD采用了一种语义投票的方法。它让大模型在相同背景下生成多份文字输出然后比较小模型的输出和这些文字在语义上有多相似用相似度分数来替代内部概率数据。因为只需要大模型说话而不需要看它内心的概率账本Claude、GPT等不对外开放内部数据的商业模型就可以直接被当作老师使用了。Q2OmniOPD去掉信任区域约束KL锚定后性能为什么会从69%崩溃到8%AOmniOPD只在解题轨迹中10个关键位置进行监督其余大量词汇是没人管的。去掉信任区域约束后小模型在这些无监督的位置可以随意改变行为——为了让被监督的位置得高分它可能在其他地方生成完全混乱的文字导致整体推理能力崩溃。信任区域约束要求未监督位置不能偏离初始模型太远相当于给无人看守的区域加了一个基本规范防止局部优化毁掉全局。Q3OmniOPD在编程任务上为什么表现不如在数学推理上稳定A代码和数学推理文字的根本差异在于语义的容忍度。数学推理可以用不同的词汇表达相同的逻辑因此换成所以效果完全一样语义相似度能准确捕捉到这种等价性。但代码不同一个变量名、一个括号的位置差异就可能让两段代码的执行结果完全不同即使看起来很像的代码实际上逻辑完全不同。语义相似度在这种场景下反而可能被表面相似性误导而逐词匹配在代码里比在自然语言里更有意义。