实现 RAG 技术的常用工具(面试 / 毕设通用・精简版)
RAG 整体分为文档解析、文本分块、向量嵌入、向量存储、检索优化、大模型生成、前端展示七大环节,每个环节都有成熟、适合大学生落地的免费工具,以下是面试高频、项目常用的工具:1. 整体开发框架(核心)LangChain:最主流 RAG 开发框架,快速搭建完整检索、问答链路,生态最全,适配所有向量库和大模型,是本科项目、求职面试首选。LlamaIndex:主打文档索引,数据处理能力更强,适合快速搭建轻量化 RAG Demo。2. 文档解析工具PyPDF、Pdfplumber:轻量易用,适配普通 PDF 文档文本提取,零配置、无门槛。python-docx:专门解析 Word 文档、笔记、实验报告。MinerU:高精度解析带公式、表格、排版复杂的教材、论文,大幅提升项目质感。3. 文本分块工具RecursiveCharacterTextSplitter:LangChain 自带,支持重叠分块,适配绝大多数文本场景,稳定通用。SemanticTextSplitter:语义分块,按语义边界切割内容,避免知识点断裂,属于 RAG 优化亮点。4. Embedding 向量模型国内在线模型:DeepSeek、智谱、百度 Embedding,中文适配度高、免费额度充足、无需翻墙。本地开源模型:bge-small-zh、text2vec,可离线部署,实现私有化向量转换。5. 向量数据库FAISS