Coze从入门到实战---第三章
一、RAG的基本原理RAG是一种结合知识检索和语言生成的人工智能技术主要解决大语言模型幻觉问题1. 传统 LLM 的缺陷答案消息滞后无法获取最新的知识2.RAG 的原理是什么答案先将问题基于知识库检索问题相关的上下文然后在将问题和上下文结合送入大模型回答3.RAG 解决什么问题答案大模型幻觉问题二、RAG知识库构建的基本流程一、支持的素材类型规格表素材类型支持格式核心适用场景对应案例文档类型PDF、Word、TXT攻略文章、教程文档类内容英雄攻略 PDF表格类型Excel、CSV结构化数据、统计信息类内容英雄属性表照片类型JPG、JPEG、PNG图像生成相关场景英雄战斗画面二、文档预处理核心建议内容清理去除文档中的广告、水印等无关内容分类整理按主题维度对文档进行分类规整命名规范文件命名需包含核心关键信息保证命名的规范性与可识别性三、知识库构建文档切片文档切片的目的是为了适应大语言模型的上下文长度限制并提升检索的精确度和效率。切分方式表格三种切分方式对比编号方式说明①按字符数切分固定长度如每300字一段②按符号切分按照句号、换行符、感叹号等③按语义切分识别主题变化点智能切分一般选择方式按照符号和字符长度一块切分一般200-500字/段。长度太小上下文不完整检索不准长度太大无关信息过多干扰判断。四、知识库构建文档向量化文档向量化将切分后的文本进行向量数字化便于计算问题和文档的相似性。什么是向量化将文本转换为向量表示示例如下内容向量问题盲僧Q技能[0.8, 0.6, ...]文档1烹饪技巧[0.1, 0.8, ...]文档2盲僧出装[0.7, 0.5, ...]向量化后语义相近的内容在向量空间中的夹角更小。通过余弦相似度算法计算拟合相似度高的向量指向更接近的方向。向量化作用语义理解相似度计算快速检索五、复习1. RAG知识库构建的主要流程文档准备 -- 文档切分 -- 文档向量化2. 文档为什么要切片为了适应大语言模型的上下文长度限制并提升检索的精确度和效率。3. 文档向量化原因文本进行向量数字化便于计算问题和文档的相似性。三、创建LOL攻略知识库RAG并且运用基本操作步骤如下表格创建知识库步骤步骤操作说明Step 1进入资源库Coze → 左侧菜单 → 资源库打开平台资源管理入口Step 2创建知识库资源 → 知识库 → 命名LOL攻略库新建并命名知识库Step 3上传文件拖拽/上传文件 → 支持批量上传将攻略文档导入知识库Step 4文档切块自动切块 → 300/500字按段落长度自动切分文档Step 5向量化预处理分段预处理对切分后的文本进行向量化Step 6查看结果预览文本处理的效果检查知识库构建结果环节2让 Bot 应用知识库操作步骤如下表格Bot应用知识库步骤步骤操作说明Step 1进入BotCoze → 创建 → 智能体在平台创建新的智能体Step 2构建提示词明确角色 → 说明功能 → 规范回复格式编写Bot的提示词Step 3选择知识库编排模块 → 知识库 → 点击添加知识库将知识库关联到BotStep 4结果验证调试 → 输入问题 → 验证结果测试Bot的回答效果实现LOL游戏助手的过程上传文件文档切分文档向量化存储知识库问题检索知识库获取相关上下文问题和上下文融合送入LLM得到预测结果