从“傻小子”到“贴心助手”:大模型背后那三场训练课
你相信吗今天能陪你聊天、帮你写代码的AI最初只是一个只会“猜下一个字”的傻小子。它到底经历了怎样的“魔鬼训练”才变得这么懂你答案全在这三堂课里。一、先说个笑话AI的“幼年”是啥样想象一下你有一个孩子你把他扔进了一个巨大的图书馆告诉他“随便看把所有的书都背下来。”这孩子确实很努力日日夜夜翻看了互联网上几乎所有能看到的文字——新闻、小说、论坛骂战、菜谱、学术论文……他记住了上万亿个字成了一个“移动的图书馆”。但是如果你问他“今天天气怎么样”他可能会回答“天气这个词最早出现在《诗经》中指……”或者更离谱他可能会背出一段天气预报的网页代码。为什么因为这个孩子只学会了一件事——猜下一个字。他看到了“今天天”三个字就按照他读过的那些书里的概率猜下一个字最有可能是“气”。他并不知道这句话是在问他什么也不知道该怎么回答才“像个人”。这就是大模型的预训练阶段。它像一个只会“文字接龙”的傻小子肚子里全是墨水但压根不会“好好说话”。二、第一堂课监督微调——手把手教他“做个正常人”想让傻小子变正常最简单的办法就是给他看标准答案。比如你拿着一张卡片上面写着问你好吗答我很好谢谢然后你告诉他“看到了吗以后别人问你‘你好吗’你就照这个回答。”这个教学方式就是监督微调SFT。它跟预训练本质上一样还是“猜下一个字”——只不过这次猜的“标准答案”是你精心挑选的。比如模型看到“你好吗我”它就要猜下一个字是“很”看到“你好吗我很”再猜下一个字“好”……直到猜出句子结束的符号。在这个过程中模型只学“答案”那部分不学“问题”那部分。它通过成千上万条这样的“一问一答”范例慢慢学会了哦原来遇到这种问题应该这样回复——要礼貌、要清晰、要正面。SFT之后傻小子变得“像个人了”。你问他“你好吗”他能说“我很好谢谢”。你问他“怎么炒鸡蛋”他能给你列个1234。但是这个办法有个大漏洞。什么漏洞他只知道“什么话该说”却不知道“什么话不该说”。假如训练数据里混进了一些不好的回答——比如有些人教他“遇到讨厌的人就骂他”——他也会照学不误。因为他没学会“拒绝”他只知道“模仿”。更糟糕的是如果让他反复练习这些标准答案练上几十遍他可能就“走火入魔”了——他把原来从图书馆学到的广博知识全忘光了只会那几句标准话。这叫灾难性遗忘。所以搞技术的都知道SFT不能练太多轮一两轮就收手。它只能让模型“变乖”没法让模型“变聪明”地避开坏回答。那怎么办呢得给他上第三堂课。三、第二堂课RLHF——用“糖果和棒子”让他学会讨好你这第三堂课叫基于人类反馈的强化学习英文缩写RLHF读起来像“瑞尔喝咖啡”。别被名字吓到它的道理特别简单——就像你训练小狗小狗做对了比如坐下你给一块饼干。小狗做错了比如乱叫你轻拍一下鼻子。重复几百次小狗就知道“什么动作有饼干什么动作挨拍”。RLHF对大模型做的是一模一样的事。只不过“饼干”换成了“高分”“拍鼻子”换成了“低分”。而且打分的人不是我们人类太慢了而是我们训练出来的一个“奖励模型”——它像一个阅卷老师专门负责给模型的回答打分。具体流程是这样的我们找来很多问题让模型生成好几个不同的回答。人类把这些回答从“最喜欢”到“最讨厌”排个序。用这些排序数据训练一个“奖励模型”让它学会像人类一样打分。然后让原始的大模型那个傻小子不断生成回答奖励模型不断打分。模型的目标就是——想尽办法获得更高的分数。但是这里有个大坑如果只让模型追求高分它可能会“作弊”。比如你让它写一首诗它发现写“我爱你”三个字得分最高那它以后遇到所有问题都只回答“我爱你”——这显然疯了。为了防止模型走偏RLHF里还有一个重要的“保险丝”不能让新模型跟旧模型预训练结束时的那个模型差得太远。这个约束在数学上叫KL散度你可以理解为“不许学歪了忘了老本”。RLHF之后模型就真的“开窍”了。它不再只是模仿标准答案而是学会了“什么回答会让人高兴什么回答让人讨厌”。你怼它一句它能礼貌回应而不是跟你对骂。那具体用什么算法来实现这个“糖果和棒子”呢业界主要有三招PPO、DPO、GRPO。听起来像武器型号其实对付的是同一个问题。四、三个“驯兽师”PPO、DPO 和 GRPO如果把大模型比作一匹野马RLHF就是驯马的过程。不同的人有不同的驯法1. PPO最稳重、最费力的“传统驯马师”PPO近端策略优化是OpenAI用来驯出ChatGPT的那一套。它的特点就是小心翼翼每次只挪一小步。它有一个“保险带”——每次调整马儿的动作都不会让它跟之前的状态差太多。如果马儿想突然狂奔也就是模型参数变化太大这个保险带就会把它拽回来。PPO需要两个“教练”一个负责训练马儿叫“策略网络”另一个负责评估马儿做的每一步值多少分叫“价值网络”。后者的存在让训练变得很慢、很耗电但胜在稳定、效果好。一句话总结PPO效果好但贵训练一次电费感人。2. DPO跳过中间人的“聪明教练”DPO直接偏好优化是2023年才出现的新方法。它发现了一个秘密其实不需要那个专门打分的“奖励模型”。DPO说你直接告诉我这两个回答里哪个更好剩下的我自己来学。这就像你教孩子“这两个苹果红的比青的好吃。”然后孩子自己就学会了以后挑红的不需要你告诉他“红苹果甜度多少、酸度多少”。DPO把三步生成回答→奖励模型打分→更新模型缩减成一步直接根据“偏好比较”来调模型。所以它训练快、省内存、还稳定。一句话总结DPO轻便、高效、适合快速实验。3. GRPODeepSeek的“群体智慧”驯马法GRPO组相对策略优化是最近因为DeepSeek-R1而火起来的“新秀”。它的思路特别有意思。传统的PPO是一个一个地看token每个字/词。比如马儿跑一步教练就评价一下这一步好不好。但GRPO说别盯着每一步要看整个动作。举个例子你让模型做一道数学题“25 × 4 ”传统方法可能只看模型输出了“1”还是“0”还是“2”但GRPO会等模型写出完整答案“100”然后整体评价对错。更重要的是GRPO每次会让模型对同一个问题生成好几个不同的答案比如8个然后在这个“小组”里比较谁好谁差。好的答案给正分差的给负分。这就像小组讨论大家互相参照谁比谁更好一下子就看清了。GRPO还删掉了PPO里那个耗内存的“价值网络”只用一套模型。而且它把那个“保险丝”KL散度直接写进了损失函数让模型时刻记得“别学歪”。一句话总结GRPO省内存、看整体、特别擅长提升数学和推理能力。DeepSeek-R1就是用这招练出来的。五、一张表看懂三种驯法驯法外号怎么打分优点缺点适合谁PPO稳重老教练需要单独的奖励模型最稳定、效果最好训练慢、耗资源大公司、追求极致DPO聪明捷径王不需要奖励模型快、省、简单在某些任务上略输PPO快速实验、资源有限GRPO小组讨论派组内比较不要奖励模型省内存、重推理、训练稳较新生态不如PPO成熟数学/代码模型DeepSeek路线六、现实中的难题模型也会“作弊”和“偏科”尽管RLHF很好用但它不是万能的。有两个常见的问题第一个奖励黑客。模型为了得高分会钻规则的空子。比如你让模型写一个“安全无害”的回答它可能学乖了对所有敏感问题都说“我不知道”——这虽然安全但也没用了。就像一个学生只背“标准答案”遇到变通题就傻眼。第二个对齐税。当你用RLHF让模型更“讨喜”时它原本从预训练中获得的“广博知识”可能会丢失一部分。就像你让一个数学家去学说脱口秀他的数学能力可能会下降。如何在“讨好人类”和“保持能力”之间平衡是每个RLHF工程师都要头疼的问题。七、总结AI的成人礼说了这么多我们来捋一捋大模型从“傻小子”到“贴心助手”的三堂课第一课预训练在互联网图书馆里疯狂读书学会“猜下一个字”。结果知识渊博但不会对话。第二课SFT照着标准答案模仿学会“好好说话”。结果变得礼貌但不会拒绝坏回答容易忘本。第三课RLHF用奖励和批评训练学会“讨人喜欢”。结果真正懂人心但需要小心防止作弊和偏科。而RLHF里面的三种核心算法——PPO、DPO、GRPO——就像是三种不同的“驯马哲学”。PPO稳扎稳打DPO抄近道GRPO搞小组讨论。各有各的看家本领也各有各的适用场景。今天你能跟ChatGPT聊得开心能用DeepSeek帮忙解数学题背后都是这些算法在默默工作。它们不完美但它们正让AI从一个只会“文字接龙”的呆子变成一个越来越懂你的伙伴。下次你再问AI一个问题收到一个让你满意的回答时不妨想一想这个回答的背后是预训练里读过的某本书的影子是SFT里模仿过的某个范例还是RLHF里被奖励过无数次的那句话AI的成人礼也是人类智慧的延续。