大模型的探索与实践-课程笔记（八）：RAG 技术原理与本地部署

张

张建站

2026/6/10 18:21:19

10分钟阅读

Take-away MessagesRAG 的定位解决大模型“不了解最新/私有知识”和“严重幻觉”的核心基座型技术。它能让大模型无痛适配用户私有数据。与 ICL、Finetuning 的对比ICL上下文学习适合解决单一特定问题但当参考文档过长时会失效。Finetuning微调成本高昂且更新慢RAG 能够随时更新知识库快速部署。RAG 三部曲Retrieval检索 - Augmentation增强 - Generation生成。检索的底层逻辑不直接计算庞大的 Attention而是将文档切片后转化为Embedding嵌入特征通过计算余弦相似度找出最相关的片段。第一部分RAG (Retrieval-Augmented Generation) 理论基础1. 为什么需要 RAG业务痛点传统搜索的局限性例如查阅学院的保研细则传统方式需要下载文件 - CtrlF 关键词匹配。这非常脆弱一旦关键词没对上或者文件隐藏在后台系统搜索就会失效。大模型的局限性幻觉严重大模型由于对齐机制的设计在遇到不懂的问题时极易一本正经地胡说八道如强行证明哥德巴赫猜想且普通用户很难察觉。上下文窗口限制大模型无法直接吞下海量的超长文档库。2. RAG 的核心思想与三阶段RAG 的本质是给大模型提供先验信息不直接让模型去长文档里跑极消耗算力的 Attention 矩阵而是先做关键信息摘取。R1 - 检索 (Retrieval)当用户提问时从庞大的外部知识库中检索出与用户问题最相关的几个文本片段。A2 - 增强 (Augmentation)将检索出来的相关内容与用户的原始提问拼接在一起扩展上下文形成一个包含正确答案参考的新 Prompt。G3 - 生成 (Generation)把拼接好的短文本送入大模型大模型基于这些增强后的内容生成最终回答。3. 深挖核心难点如何做“检索 (Retrieval)”既然不能全靠大模型的 Attention 机制面对超长文档如何匹配相关片段文档切片 (Chunking)先把长文本切成一段一段的。特征化 (Embedding)利用深度学习的表征学习Representation Learning取出神经网络倒数某层的输出将文本段落转化为特征向量Embedding Space。计算相关性主流基础方法计算用户问题的 Embedding 向量与各个文档切片 Embedding 向量之间的余弦相似度 (Cosine Similarity)。夹角越小相关性越高。前沿进阶方法 (LLM as a retrieval predictor)把问题和截取的片段拼在一起直接问小模型“你觉得这两个相关吗”。如果相关就留下不相关就扔掉计算成本略高但据最新论文效果更好。第二部分工程实操 —— 本地部署 RAGFlow 搭建个人助手在本地电脑部署一个支持私有知识库的问答助手。1. 环境准备安装 Docker什么是 DockerDocker 相当于一个“沙箱”或隔离环境。它把开源软件所需的所有环境和依赖全都打包封死在里面避免在本地电脑运行时发生各种库冲突。安装步骤前往官网下载 Windows Docker (默认 AMD 64 架构)。安装完成后必须重启电脑。重启后打开 Docker按照提示必须安装WSL (适用于 Linux 的 Windows 子系统)。建议使用稳定邮箱进行账号注册与 2FA 二次验证国内邮箱可能在终端内引起验证无法跳转拉起的 Bug。2. 获取代码 (Clone Repo)前往 GitHub 搜索工具库ragflow。Fork 到自己的仓库并通过桌面端工具或命令行 Clone 到本地电脑。3. 部署与连接进入本地克隆好的ragflow文件夹内的docker文件夹。在当前路径下打开命令行终端 (cmd / powershell)。输入启动指令docker compose -f docker-compose.yml up -d该拉取过程可能受网络限制终端内设置全局代理即可解决。拉取并启动成功后在本地浏览器输入localhost:80即可进入 RAGFlow 的图形化虚拟机界面。4. RAGFlow 配置与使用指南第一步配置模型在系统中添加大模型基座的 API Keys。注意除了生成模型必须配置具备 Embedding 能力的模型用于检索切片。第二步构建知识库添加私有数据库如自己平时的 txt 文件、课程规章等。上传文件后系统需要一定时间进行“解析 (Parsing)”即切片和向量化。解析完成后最好进行手动检索调试。第三步创建助手基于配置好的知识库和大模型创建个人 Assistant即可实现针对私有文档的智能问答与信息提取。️ AI 工具与模型专项梳理工具分类工具/模型名称核心功能与应用领域亮点/启发开源 RAG 应用RAGFlow一款极其成熟的开源 RAG (检索增强生成) 工具支持拖拽式、无代码挂载并解析本地超长文档构建私有知识库问答助手。封装度极高能够让小白用户在本地快速把私有文件变身 ChatGPT。核心依赖于 Embedding 模型的文本解析能力。开发环境容器Docker开发者必备的沙箱工具。将程序运行环境连同代码一并打包实现“一次构建到处运行”。解决了大模型开源工具“在别人电脑上能跑在我电脑上满地报错”的底层依赖依赖痛点。大模型基座Gemini (文中提及)Google 的原生多模态大模型。课上老师提到用它生成连贯视角的漫画表现极佳其底层解决超长图文上下文Context一致性的能力目前处于行业第一梯队。

QtScrcpy无线投屏实战：告别数据线，用WiFi搞定安卓手机投屏到电脑

QtScrcpy无线投屏实战：告别数据线，用WiFi搞定安卓手机投屏到电脑你是否厌倦了桌面上缠绕的数据线？是否想在咖啡馆优雅地展示手机内容？QtScrcpy的无线投屏功能正是为追求简洁高效的用户量身定制。这款开源工具不仅能摆脱线缆束缚&…...

2026/5/27 5:57:22 阅读更多 →

Fara-7B：基于视觉的AI智能体，实现端到端计算机自动化操作

1. 项目概述：Fara-7B，一个能“看见”并“操作”电脑的智能体如果你和我一样，对AI的理解还停留在“聊天机器人”或“文本生成器”的阶段，那么Fara-7B的出现，可能会彻底颠覆你的认知。这不是一个只会和你对话的模型&am…...

2026/5/26 22:51:48 阅读更多 →

为什么你的VSCode无法连接J-Link？揭秘嵌入式调试链路中被忽视的3层协议栈配置（CMSIS-DAP/OpenOCD/JLinkGDBServer深度对比）

更多请点击： https://intelliparadigm.com 第一章：VSCode嵌入式调试配置全景概览 VSCode 作为轻量级但高度可扩展的编辑器，已成为嵌入式开发者的主流调试平台。其核心能力依赖于三类组件协同工作：C/C 扩展（提供语言支…...

2026/6/1 10:49:36 阅读更多 →

如何用Rust构建高效小说下载器：Tomato-Novel-Downloader技术深度解析

如何用Rust构建高效小说下载器：Tomato-Novel-Downloader技术深度解析【免费下载链接】Tomato-Novel-Downloader 番茄小说下载器不精简版项目地址: https://gitcode.com/gh_mirrors/to/Tomato-Novel-Downloader 在数字阅读时代，如何高效管理和离…...

2026/6/9 17:00:49 阅读更多 →

Windows与Office激活难题的终极解决方案：KMS_VL_ALL_AIO完全指南

Windows与Office激活难题的终极解决方案：KMS_VL_ALL_AIO完全指南【免费下载链接】KMS_VL_ALL_AIO Smart Activation Script 项目地址: https://gitcode.com/gh_mirrors/km/KMS_VL_ALL_AIO 还在为Windows系统激活失败而烦恼吗？每次重装系统后都要…...

2026/6/10 7:46:40 阅读更多 →