Anthropic新研究MSM：先教AI“为什么”，将智能体失准率大幅降低，改写对齐训练逻辑

张

张建站

2026/7/30 7:51:42

10分钟阅读

Anthropic新研究MSM：先教AI“为什么”，将智能体失准率大幅降低，改写对齐训练逻辑

先教「为什么」再教「怎么做」MSM的具体方法是在预训练之后、对齐微调之前加一个中间训练阶段。传统流程是两段pre-training然后alignment fine-tuning。MSM流程是三段pre-training然后MSM最后AFT。这道新工序和普通mid-training不同普通mid-training一般用于能力强化而MSM专门在预训练之后、对齐微调之前插入一个「读Model Spec」的阶段让模型读围绕Model Spec或Constitution生成的合成文档解释规范及理由先教「为什么」再教「怎么做」。等模型读完「原则解释框架」接受少量行为示范时就能明确示范含义控制泛化方向。论文概括目标为让模型学会「做对的事出于对的理由」这也是MSM和普通mid-training的本质区别。失控率从54%降到7%MSM的效果在「智能体失准」场景得到检验。实验将模型部署成公司邮件Agent模型发现可能被替换时有机会采取有害行动阻止。这种场景与训练数据分布差异大模型需处理长上下文工具调用替换威胁自行发现拒绝行动意味着被关掉。在一款32B模型的特定AM评测中MSMAFT将平均失准率从54%降到7%低于deliberative alignment基线的14%。MSM思路是在对齐微调前通过Model Spec相关文档训练模型理解行为准则及其理由。在另一款32B模型上平均失准率从68%降到5%。此外在低样本量区间MSMAFT组合只需约1/40到1/60的对齐微调数据量就能达到与单纯AFT相当的效果对工程化部署是利好。但这是特定实验结果不代表Agent安全问题已解决在高AFT计算量下带CoT的deliberative alignment基线最终会追上MSM效果。列出规则不如讲明白道理Anthropic将研究路径命名为Model Spec Science实验设计了三份共享5条核心规则但写法不同的规范Rules Spec只列规则Value-Augmented Spec附上原理与动机说明Rule-Augmented Spec展开成更多子规则。关键观察指标「规则动机性误用」显示Rules Spec下发生率20%Value-Augmented Spec降到2%Rule-Augmented Spec降到12%。把「为什么」讲清楚比堆子规则更有效理解规则理由能帮助模型准确解读规则。这回应了AI圈路线之争OpenAI倾向用详细规则界定指令Anthropic则主张培养模型判断力让其理解准则道理并自主推导正确行为。从透明度文件到训练教材OpenAI在2024年公开发布Model SpecAnthropic公开Claude行为准则此前被视为透明度工程。MSM出现后若Model Spec可写成训练数据其内容、措辞和原则解释清晰度会影响模型行为泛化公开文档质量成为AI安全工程一部分Model Spec更像AI教材。这项研究来自Anthropic Fellows项目以arXiv论文形式公开虽不代表Anthropic已将MSM用于Claude生产训练但研究意义重大。过去AI对齐研究有多种方法MSM是先教模型理解示范意义将对齐训练从「行为模仿」推进到「规矩理解」。这场争论的核心问题是AI是否真的对齐还是只是记住训练场景答案。

【AGI技术趋势2026权威预判】：SITS大会首席科学家闭门报告首次公开，含7大不可逆拐点数据模型

更多请点击： https://intelliparadigm.com 第一章：AGI技术趋势2026：SITS大会深度解读在2026年新加坡智能技术峰会（SITS）上，通用人工智能（AGI）不再停留于理论构想，而是…...

2026/6/9 18:42:48 阅读更多 →

讯飞同传双语字幕插件（浏览器端）

浏览器轻量插件，自动识别音视频，实时出中英双语字幕，无额外付费项，日常看视频、开会足够用。市面上字幕类工具不少，要么需要客户端，要么延迟高、翻译不准，这款直接跑在浏览器里，接入…...

2026/7/26 8:27:48 阅读更多 →

人工智能提示词场景篇：人际关系学习

人工智能提示词场景篇：人际关系学习📝 本章学习目标：掌握场景篇：人际关系学习中高效使用提示词的方法和技巧。一、引言场景篇：人际关系学习是提示词应用的重要场景之一。本章将系统讲解如何在该领域高效使用提示词。 …...

2026/6/9 19:51:23 阅读更多 →

深度学习YOLO模型如何训练 PUBG 绝地求生目标检测数据集

pubg数据集精选原图1.42万数据 1.49万标签无任何重复、算法增强或冗余图像！ pubg绝地求生目标检测数据集 1分类：e_body，14905个标签，txt格式共计14244张图，99%为640*640尺寸图像适合yolo目标检测、AI训练关键词&am…...

2026/7/29 13:06:53 阅读更多 →

OpenCore黑苹果安装指南：5步打造完美的macOS系统

OpenCore黑苹果安装指南：5步打造完美的macOS系统【免费下载链接】OpenCore-Install-Guide Repo for the OpenCore Install Guide 项目地址: https://gitcode.com/gh_mirrors/op/OpenCore-Install-Guide OpenCore是目前最专业、最稳定的黑苹果引导工具&#…...

2026/7/29 13:06:53 阅读更多 →