LLM训练全流程:从预训练到RLHF,带你深入探索大模型核心机制!
本文详细解析了大语言模型LLM的两大核心阶段预训练与后训练。预训练通过海量文本数据让模型掌握语言规律涉及数据收集、分词、神经网络训练等关键步骤并介绍了基础模型的特性及幻觉现象。后训练则通过微调和特殊token引入使模型更实用、可靠和安全。此外文章还深入探讨了强化学习RL在LLM中的应用包括RL的目的、直觉、基础回顾、GRPO与PPO算法、CoT思维链以及RLHF等揭示了模型如何从经验中学习并优化输出最终生成更符合人类期望的响应。文章分为两个部分第一部分介绍LLM的基础知识涵盖从预训练到后训练的整个过程探讨神经网络的工作原理、幻觉现象Hallucinations以及模型的推理机制。第二部分探讨人工智能/人类反馈强化学习RHHF、o1模型研究、DeepSeek R1以及AlphgGo等主题第一部分预训练和微调训练大语言模型LLM主要分为两个核心阶段预训练Pre-training和后训练Post-training。这两个阶段共同构成了LLM从零到一的学习过程。1.预训练Pre-training在LLM能够生成连贯文本之前它需要先掌握语言的基本规律这一过程称为预训练。预训练是一个计算密集型任务涉及大量数据和复杂的模型优化。步骤1数据收集与预处理训练LLM的第一步是收集海量高质量的文本数据。一个常见的数据来源是Common Crawl这是一个免费开发的网页爬取数据库https://commoncrawl.org/。然而原始网页数据通常包含大量噪声因此数据预处理是必不可少的环节。在完成文本数据的清理后下一步是进行分词Tokenization处理。步骤2分词Tokenization在神经网络能够处理文本之前文本需要被准换为数值形式。这一过程称为分词Tokenization。分词的作用是将单词、字词或字符映射为唯一的数值token。这些token是语言模型的基本构建单元是模型理解和处理语言的核心组件。以GPT-4为例其可能的token数量为100,277个。每个token对应一个唯一的数值ID模型通过这些ID来识别和处理文本。整个过程详细讲一下首先文本会先经过分词Tokenization切成token然后数值化把token映射成token id。比如我喜欢大模型经过tokenizer后可能变成【我喜欢大模型】。之后再映射成数字【1253045897821】。但是这里要注意的是125并不代表”我“的语义3045也不是代表”喜欢“的语义。token id只是编号本身没有语义。真正表达语义的是下一步token id —embedding 向量。比如 125 → [0.12, -0.43, 0.88, …] 3045 → [0.76, 0.21, -0.19, …]所以完整的流程是 原始文本 ↓ Tokenization切成 token ↓ Numericalization映射成 token id ↓ Embedding查表变成向量 ↓ 送入 Transformer / 神经网络值得注意的是tokenizer 和模型必须严格匹配否则模型会“听不懂输入”。每个大模型都有自己独立的 tokenizer、token id 映射和 embedding它们是绑定在一起的一整套系统不能混用。通过分词文本被转化为模型可以理解的数值序列为后续的模型训练和推理奠定了基础。这里说的数值token就是指向量。步骤3神经网络训练Neural Network Training 在文本经过分词处理后神经网络的任务是学习如何根据上下文预测下一个token这里专指LLM的神经网络的任务。具体来说模型会接收一串输入token并通过模型的架构进行处理最终输出对下一个token的预测。模型之所以能做到是因为它的训练目标就是这样。它使用的是无监督的训练例如有一句话“玩原神玩的”最开始输入玩模型就会预测一个输出训练的目标是让它输出“原”。紧接着就会输入“玩原”然后输出的目前是“神”,以此类推。神经网络训练是LLM训练的核心。神经网络主要由两个关键部分构成1.参数Weights:也称为权重通过训练学习得到的数值用于调整模型的行为。本质上是矩阵的值。神经网络是无数个矩阵组成的参数就是这些矩阵的值。2.架构Architecture定义输入token如何被处理以生成输出的数学结构。基础模型Base Model预训练的成果在这一阶段基础模型已经学会了理解单词、短语和句子之间的关联。识别训练数据中的统计模式。但是基础模型并未针对具体任务进行优化它能够基于概率预测下一个token但缺乏对指令的精确理解和执行能力。为什么模型只做 next-token prediction 却能回答问题 虽然语言模型的训练目标是预测下一个 token但在训练数据中问题后面通常跟随的是答案因此模型学习到了“问题-答案”的统计模式。在推理时给定一个问题作为上下文生成答案序列实际上是该条件概率分布下的高概率输出。因此模型表现出类似“理解问题并回答”的能力。2.后训练(Post-Training):让模型更实用为了让模型在实际应用阶段更加实用、可靠和安全需要进行后训练Post-Training。这一阶段通常在更小、更专业的数据集上进行微调以优化模型的行为和性能。由于神经网络无法像传统软件那样通过显示编程来调整我们只能通过训练来“编程”它。后训练的方式后训练阶段会创建专门的数据集这些数据集包含结构化的示例指导模型在不同情景下的回应方式。以下是两种常见的后训练方法1.指令/对话微调Instruction/Conversation Fine-Tuning目标是让模型学会遵循指令、执行任务、进行多轮对话、遵守安全规范以及拒绝恶意请求。2.领域特定微调Domain-Specific Fine-Tuning目前是使模型适应特定领域的需求。通过在对应领域的高质量数据上进行微调模型能够生成更专业、更准确的响应。特殊token的引入在后训练阶段还会引入一些特殊token这些token在预训练阶段并未使用。它们的作用是帮助模型理解交互的结构。例如1.标记用户输入的起始与结束。2.标记AI响应的起始位置。这些特殊的token确保模型能够正确区分提示Prompt和回答Reply从而生成更符合上下文的响应。通过后训练模型不仅能够更好的理解任务和指令还能在特定领域和复杂交互中表现出色最终成为一个实用且可靠的AI系统。3.推理Inference–模型如何生成新文本推理是模型生成新文本的过程它可以在任何阶段进行甚至可以在预训练中途执行以评估模型的学习效果。当模型接收到一组输入token后它会根据训练中学到的模式为所有可能的下一个token分配概率。然而模型并非总是选择概率最高的token而是通过概率分布采样来决定下一个token。这类似于抛一个带有偏向性的硬币高概率的token更有可能被选中但低概率的token仍有机会被选择。采样不是为了跳出局部最优而是为了避免“过于确定性导致的表达退化”在语言模型生成过程中模型输出的是一个概率分布。若始终选择最大概率的 tokengreedy decoding会导致输出缺乏多样性甚至出现重复。通过从概率分布中采样可以在保证高概率 token 更易被选中的前提下引入适度随机性从而提升生成文本的自然性与多样性。 这种机制并不是为了解决训练中的局部最优问题而是为了避免生成过程过于确定性导致的表达退化。这个过程是迭代进行的每个新生成的token都会成为下一次预测的输入。由于token选择具有一定的随机性即使输入相同模型也可能生成不同的输出。通过这种方式模型能够生成训练数据中未直接出现但符合统计规律的文本。4.幻觉Hallucinations—当LLM生成错误信息幻觉Hallucinations是指LLM生成虚假或错误信息的情况。这种现象的根本原因在于LLM并不“理解”事实——它只是根据训练数据预测最可能的单词序列。在早期LLM的幻觉问题尤为严重。例如如果训练数据中包含大量类似“谁是…”的问题并且这些问题都有明确的答案模型可能会学习到这类查询应该有一个自信的回答即使它实际上并不具备相关知识。这种倾向导致模型在缺乏准确信息时仍然会生成看似合理但实际错误的回答。解决幻觉问题是LLM研究和开发中的重要挑战之一通过更高质量的训练数据、更精细的后训练以及引入外部知识库等方法可以缓解。举个例子在训练集当中可能有很多关于著名人物的介绍比如成龙、项羽、刘邦等。这个时候你问谁是成龙、谁是项羽、谁是刘邦模型是能给你准确回答的。但是这个时候你如果问谁是幽这个时候模型不会自然地回答“我不知道”因为在训练过程中这种模式并未被充分强化。相反模型会生成一个看似合理的猜测而这就是幻觉。如何减少幻觉方法一训练模型说“我不知道”提高模型的事实准确性需要明确训练它识别自身知识的边界并学会在不确定时回答”我不知道“。这一过程通常通过自我询问self-Interrogation来实现。自我询问可以通过另一个AI模型自动化完成。该模型生成问题以探测知识盲点如果模型生成了错误的答案系统会加入新的训练示例其中正确的回应是”我不确定能否提供更多的上下文“训练机制如果模型在训练中多次遇到某个问题它会为正确答案分配较高的概率。如果模型从未遇到过某个问题它会在多个可能的token之间均匀分配概率从而使输出更加随机没有单一token被认为是最可能的选择。微调效果通过微调模型被显示训练以处理低置信度的输出并用预定义的回应例如我不知道来应对。方法二引入网络搜索或者RAG外挂知识库一种更先进的方法是赋予模型访问外部搜索工具的能力从而扩展其知识范围使其能够超越训练数据的限制。工作原理当模型检测到不确定性时可以触发一次网络搜索。搜索结果会被插入到模型的上下文窗口中成为其“工作记忆”的一部分。模型在生成响应时会参考这些新信息。RAG技术就是类似的原理。5.模糊记忆和工作记忆LLM通常通过两种方式访问知识模糊记忆这是模型在训练过程中存储的知识基于从海量互联网数据中学到的统计模式。基本上模型的参数来储存这些记忆。模型不是“记住一条知识”而是学会了“生成这条知识的函数”工作记忆这是模型在推理过程中可以直接访问的信息存储在其上下文窗口中。任何提供的文本都会作为短期记忆使模型能够生成响应时回忆相关细节。6.自我认知当被问到“你是谁”或“是什么构建了你”等问题时LLM 会根据其训练数据生成一个统计上最可能的回应除非被显式编程以提供准确答案。LLM 并不具备真正的自我意识它们的回应完全依赖于训练过程中学到的模式。为了让模型表现出一致的身份可以使用系统提示System Prompt。通过预定义的指令系统提示可以描述模型的身份、能力以及局限性从而引导模型生成符合预期的回答。这个就是常说的prompt给模型一个身份。第二部分强化学习RL1.RL的目的是什么人类和LLM处理信息的方式存在显著差异对于人类来说当前的智能是如何由来的暂时还没有一个准确和统一的答案。但是LLM是将文本视为一串token序列的。LLM能够在复杂主题上生成专家级回答仅仅因为它们在训练过程中见过足够多的示例。人类注释者难以提供一组“完美”的标签来持续引导LLM找到正确答案。RL弥补了这一差距它允许模型从自身的经验中学习模型不再仅仅依赖显示标签而是通过探索不同的token序列并根据哪些输出最有用来获得反馈奖励信号。语言任务中通常不存在唯一标准答案而“好回答”的定义又高度复杂和主观因此人类难以通过传统监督学习提供完备且一致的标签。RL 更像“在巨大输出空间中搜索高质量行为”。2.RL背后的直觉LLM本质上是随机的即使是相同的提示输出也可能不同因为它是从概率分布中采样的。我们可以利用这种随机性通过并行生成成千上万甚至数百万个可能的响应。这可以看作是模型在探索不同的路径——有些是好的有些是差的。我们的目标是鼓励模型更多的选择较好的路径。为了实现这一点我们让模型在那些导致更好结果的token序列上进行训练。监督微调SFT依赖人类专家提供的标签数据而RL则允许模型从自身的学习中进步。模型通过发现哪些响应最有效并在每个训练步骤后更新其参数。模型不断采样生成不同 token 序列通过 Reward Model 判断哪些回答更符合人类偏好再利用 PPO 等算法提高高奖励序列的生成概率从而逐渐形成更符合人类期望的输出分布。这里有一个Reward Model这个其实也是一个模型这个模型是奖励模型。输入promptanswer会输出reward score。Reward Model模型本质上是判断“什么样的回答更符合人类偏好。”这是一个比较常见的监督学习的问题。但它与传统监督学习不同它学习的不是唯一正确答案而是回答之间的相对偏好关系本质上更接近排序学习ranking。3.RL基础回顾agent这是学习的主体负责在环境中采取行动。环境智能体与之交互的外部世界它会根据智能体的行动给出反馈。状态环境在某一时刻的具体情况智能体根据状态决定行动。在每个时间点智能体会在环境中执行一个动作这个动作会将环境从当前的状态转移到新的状态。同时智能体会收到一个奖励这个一个数值形式的反馈用于评估动作的好坏。正奖励鼓励智能体重复该行为而负奖励起到抑制作用。策略是一个函数它定义了在给定状态下选择不同动作的概率。价值函数Value Model用于评估某个状态的好坏考虑的是长期期望奖励。对于LLM而言奖励可能来自人类反馈或者奖励模型。Acotor-Critic架构Actor-Critic是一种流行的强化学习框架结合了两个关键组件1.Actor负责学习和更新策略决定在每个状态下应该采取哪个动作。2.Critic评估价值函数为Actor提供反馈告知其选择的动作是否带来了好的结果。Critic的反馈帮助Actor优化策略使未来的动作能够获得更高的奖励。在LLM的上下文当中状态可以是当前的文本提示或者对话。动作是生成的下一个token词或者子词。奖励模型告诉模型生成的文本是好是坏。策略是模型选择下一个token的规则。价值函数评估当前文本上下文对最终生成高质量响应的贡献程度。4.RL算法GRPO和PPOPPO是当前大模型RLHF中经典的策略优化算法其核心思想是提高高奖励输出概率的同时限制策略更新幅度避免模型偏离原有语言分布过远从而保证训练稳定性。GRPO则是在PPO的基础上的一种改进思路它不再依赖value model而是通过同一prompt下生成结果之间的相对奖励进行归一化比较从而估计advantage。其训练成本更低、适合推理任务。PPO的核心它表示新模型和旧模型相比某个token的概率变化了多少。PPO的关键机制clip给出了的变化范围。通过上述过程可以看到在改变模型参数之后需要再运行一次才能知道新模型某个token的概率变化了多少。所以他需要多一次forward。而且PPO需要一个value model来对各个回答进行打分。主要误区区分Reward model 和value modelReward model 的作用是看“这个完整的回答有多好”。RM本质是人类偏好评分器。Value Model不是评价最终答案完整答案。而是预测未来还能拿多少reward它预估的是当前状态未来的期望收益。也就是说Value Model不是在整个回答之后进行评分而是在生成答案的过程中进行评分。当前处在状态 s_t 从这里继续生成下去 最终期望能拿到多少 reward。PPO的整体逻辑1.LLM生成回答。2.Reward Model给完整回答打分。3.Value Model估计每个生成位置的预期价值。4.计算Advantage实际回报-预期价值。5.PPO根据Advantage更新token概率。如果说明这个token选择比预期好提高它的概率。如果说明这个token选择比预期差降低它的概率。PPO之所以通常需要Value Model是因为只用最终reward来更新整条token序列会导致方差很大、信用分配困难、训练不稳定。Value Model可以降低方差让策略更新更加稳定和精细。但这里值得注意的是GRPO仍然会更新过程中的token它仍然会对token做credit assignment信用分配只是它不再依赖一个显示Value Model去估计baseline了。GRPO 通常对同一条 trajectory 中的 token 使用共享的 sequence-level advantage因此更偏向整体强化高质量 trajectory而 PPO 由于使用 Value Model 估计不同状态的价值因此不同 token 位置可以拥有不同的 advantage从而实现更细粒度的 credit assignment。 但两者本质上仍然都是 token-level policy gradient 更新并不是“只更新最终结果”。5.CoTChain of Thought,思维链传统的LLM训练流程是预训练—SFT—RL。DeepSeek跳过了SFT允许模型直接探索思维链(CoT)推理。CoT本质上是让模型显示生成中间推理步骤通过将复杂问题拆解为多个连续推理状态从而提升多步推理任务的正确率。而且这里面会出现智慧涌现的神奇时刻。CoT搭配RL可以生成多条思维链路然后通过RL强化正确的思维链路削弱错误的思维链路。同样的模型开始重新审视过去的推理步骤显著提高了准确性。把复杂问题拆成多个中间状态可以降低推理难度提高正确率。这是很符合人类直觉的如果直接去做复杂的事情很多人都会望而生畏但是把复杂的事情拆解成多个小步骤就会发现每个步骤都很简单。6.RLHF带有人工反馈的强化学习对于像总结或者创意写作这一没有单一“正确”答案的领域如何评估模型的表现呢通过引入人类评估模型能够学习生成更符合人类偏好和意图的响应。为什么使用排名而非绝对评分对响应进行排名比直接评分更容易更直观。人类更容易判断哪个回答更好而不是为每个回答分配一个具体的分数。解决方案是训练一个AI奖励模型让它学习人类的偏好从而大幅减少人工工作量。这里说的AI奖励模型就是前面说的RM。最后对于正在迷茫择业、想转行提升或是刚入门的程序员、编程小白来说有一个问题几乎人人都在问未来10年什么领域的职业发展潜力最大答案只有一个人工智能尤其是大模型方向当下人工智能行业正处于爆发式增长期其中大模型相关岗位更是供不应求薪资待遇直接拉满——字节跳动作为AI领域的头部玩家给硕士毕业的优质AI人才含大模型相关方向开出的月基础工资高达5万—6万元即便是非“人才计划”的普通应聘者月基础工资也能稳定在4万元左右。再看阿里、腾讯两大互联网大厂非“人才计划”的AI相关岗位应聘者月基础工资也约有3万元远超其他行业同资历岗位的薪资水平对于程序员、小白来说无疑是绝佳的转型和提升赛道。如果你还不知道从何开始我自己整理一套全网最全最细的大模型零基础教程我也是一路自学走过来的很清楚小白前期学习的痛楚你要是没有方向还没有好的资源根本学不到东西下面是我整理的大模型学习资源希望能帮到你。扫码免费领取全部内容最后1、大模型学习路线2、从0到进阶大模型学习视频教程从入门到进阶这里都有跟着老师学习事半功倍。3、 入门必看大模型学习书籍文档.pdf书面上的技术书籍确实太多了这些是我精选出来的还有很多不在图里4、AI大模型最新行业报告2026最新行业报告针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估以了解哪些行业更适合引入大模型的技术和应用以及在哪些方面可以发挥大模型的优势。5、面试试题/经验【大厂 AI 岗位面经分享107 道】【AI 大模型面试真题102 道】【LLMs 面试真题97 道】6、大模型项目实战配套源码适用人群四阶段学习规划共90天可落地执行第一阶段10天初阶应用该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范…第二阶段30天高阶应用该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署…第三阶段30天模型训练恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建…第四阶段20天商业闭环对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案…扫码免费领取全部内容3、这些资料真的有用吗这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理现任上海殷泊信息科技CEO其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证服务航天科工、国家电网等1000企业以第一作者在IEEE Transactions发表论文50篇获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。资料内容涵盖了从入门到进阶的各类视频教程和实战项目无论你是小白还是有些技术基础的技术人员这份资料都绝对能帮助你提升薪资待遇转行大模型岗位。这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】