先教「为什么」再教「怎么做」MSM的具体方法是在预训练之后、对齐微调之前加一个中间训练阶段。传统流程是两段pre-training然后alignment fine-tuning。MSM流程是三段pre-training然后MSM最后AFT。这道新工序和普通mid-training不同普通mid-training一般用于能力强化而MSM专门在预训练之后、对齐微调之前插入一个「读Model Spec」的阶段让模型读围绕Model Spec或Constitution生成的合成文档解释规范及理由先教「为什么」再教「怎么做」。等模型读完「原则解释框架」接受少量行为示范时就能明确示范含义控制泛化方向。论文概括目标为让模型学会「做对的事出于对的理由」这也是MSM和普通mid-training的本质区别。失控率从54%降到7%MSM的效果在「智能体失准」场景得到检验。实验将模型部署成公司邮件Agent模型发现可能被替换时有机会采取有害行动阻止。这种场景与训练数据分布差异大模型需处理长上下文工具调用替换威胁自行发现拒绝行动意味着被关掉。在一款32B模型的特定AM评测中MSMAFT将平均失准率从54%降到7%低于deliberative alignment基线的14%。MSM思路是在对齐微调前通过Model Spec相关文档训练模型理解行为准则及其理由。在另一款32B模型上平均失准率从68%降到5%。此外在低样本量区间MSMAFT组合只需约1/40到1/60的对齐微调数据量就能达到与单纯AFT相当的效果对工程化部署是利好。但这是特定实验结果不代表Agent安全问题已解决在高AFT计算量下带CoT的deliberative alignment基线最终会追上MSM效果。列出规则不如讲明白道理Anthropic将研究路径命名为Model Spec Science实验设计了三份共享5条核心规则但写法不同的规范Rules Spec只列规则Value-Augmented Spec附上原理与动机说明Rule-Augmented Spec展开成更多子规则。关键观察指标「规则动机性误用」显示Rules Spec下发生率20%Value-Augmented Spec降到2%Rule-Augmented Spec降到12%。把「为什么」讲清楚比堆子规则更有效理解规则理由能帮助模型准确解读规则。这回应了AI圈路线之争OpenAI倾向用详细规则界定指令Anthropic则主张培养模型判断力让其理解准则道理并自主推导正确行为。从透明度文件到训练教材OpenAI在2024年公开发布Model SpecAnthropic公开Claude行为准则此前被视为透明度工程。MSM出现后若Model Spec可写成训练数据其内容、措辞和原则解释清晰度会影响模型行为泛化公开文档质量成为AI安全工程一部分Model Spec更像AI教材。这项研究来自Anthropic Fellows项目以arXiv论文形式公开虽不代表Anthropic已将MSM用于Claude生产训练但研究意义重大。过去AI对齐研究有多种方法MSM是先教模型理解示范意义将对齐训练从「行为模仿」推进到「规矩理解」。这场争论的核心问题是AI是否真的对齐还是只是记住训练场景答案。