【RAG】召回(Retrieval)与重排(Rerank)核心技术要点汇总
RAG 召回Retrieval与重排Rerank核心技术要点汇总一、 核心概念在检索增强生成RAG架构中召回与重排处于不同的阶段承担不同的职责召回阶段初筛 - Retrieval核心任务从全量海量知识库百万级文本块中快速、低延迟地筛选出可能相关的候选文本集合通常为 Top 50。关注指标查全率Recall。核心目标是“宁滥勿缺”确保正确答案包含在候选集中。重排阶段精排 - Rerank核心任务对召回阶段产生的有限候选集Top 10 ~ 50进行深度的语义相似度重新评估与排序筛选出质量最高、最精准的文本块通常为 Top 3 ~ 5喂给大语言模型LLM。关注指标查准率Precision。核心目标是“去伪存真”将真正高价值的上下文推到最前面。二、 底层原理与技术要点1. 召回阶段双塔模型Bi-Encoder架构机制Query用户问题与 Document文档块在编码阶段各自独立进行向量化二者在计算相似度前互不知道对方的存在。计算逻辑离线状态下将全量文档转化为高维向量并存入向量数据库如 Milvus在线推理时仅需将 Query 向量化通过计算余弦相似度等指标进行极速检索。优缺点优点计算复杂度低支持大规模向量索引响应时间在毫秒级。缺点无法捕捉 Query 与 Document 之间微观、细腻的词级互动容易被字面相似但逻辑不相关的硬负样本Hard Negatives欺骗。2. 重排阶段交叉编码器Cross-Encoder架构机制打破双塔屏障将Query与Document拼接成一条连续的输入序列格式通常为[CLS] Query [SEP] Document [SEP]整体输入到同一个 Transformer 网络中。计算逻辑在网络内部利用全注意力机制Full Attention让 Query 中的每一个 Token 与 Document 中的每一个 Token 进行深度的微观交互。最终通过[CLS]位置的输出向量进行线性映射输出一个 0 到 1 之间的相关性得分。优缺点优点语义理解极度精准对否定句、因果逻辑、条件转折等微观语义极其敏锐。缺点计算复杂度随输入长度呈平方级O(N^2)暴增无法用于全量知识库检索。3. 企业级落地部署方案在工业级高并发场景中禁止在业务代码中直接同步加载模型推理主流做法分为两类方案 A独立微服务化部署私有化首选技术栈利用基于 Rust 编写的TEI (Text Embeddings Inference)框架或 Triton、vLLM 进行模型托管。核心优化利用框架集成的Flash Attention 2以及动态批处理Dynamic Batching技术将重排时延压缩至毫秒级实现高吞吐。方案 B商业化 API 服务免运维首选代表厂商智谱 AI Rerank API、Cohere Rerank、阿里云百炼等。集成方式通过标准 HTTP/gRPC 协议调用。例如智谱 AI 接口通过Authorization: Bearer API_KEY鉴权传入query和documents数组直接返回排序后的index和relevance_score。三、 总结与注意事项1. 经典漏斗形 RAG 架构标准生产环境的检索链路应当遵循**“多级漏斗”**设计第一级多路混合检索召回全量知识库 - 向量检索 BM25 关键词检索 - 融合产生 Top 50 候选集。第二级专用 Rerank 模型精排Top 50 候选集 - 经由bge-reranker或智谱 Rerank API - 精简为 Top 5 核心上下文。第三级大模型生成Top 5 上下文 原始 Prompt - 最终喂给大语言模型LLM生成回答。2. 生产落地注意事项Top_N 截断机制在调用 Rerank 模型或 API 时务必显式指定top_n参数如 3 或 5。利用服务端内部排序截断避免将大量无效文本传输回业务后端不仅节省带宽还能大幅减少最终喂给 LLM 的 Context Token 消耗。超时与降级策略重排由于计算量大且通常涉及网络 I/O必须设置严格的超时控制建议 2 ~ 3 秒。在系统偶发超时或服务不可用时应引入降级机制跳过重排步骤直接截取向量检索原始的前 5 个结果送给 LLM确保核心业务的可用性与高容错。安全合规若涉及极度敏感、涉密的企业核心资产或用户隐私数据应避免使用云端公有云 Rerank API须采用自建显卡服务器通过 Docker 本地化部署开源重排模型。