【RAG】【vector_stores057】MongoDB Atlas向量搜索示例分析

张

张建站

2026/6/24 19:26:54

10分钟阅读

【RAG】【vector_stores057】MongoDB Atlas向量搜索示例分析

1. 案例目标本示例展示了如何使用LlamaIndex与MongoDB Atlas向量搜索功能实现文档检索和查询。主要目标包括演示如何连接MongoDB Atlas数据库展示如何创建向量搜索索引展示如何将文档加载到MongoDB Atlas向量存储中演示如何执行向量搜索查询展示如何从向量存储中删除文档2. 技术栈与核心依赖LlamaIndexMongoDB AtlasPyMongo核心依赖包llama-index-vector-stores-mongodb- LlamaIndex的MongoDB向量存储集成llama-index- LlamaIndex核心库pymongo- MongoDB Python客户端3. 环境配置3.1 安装依赖%pip install llama-index-vector-stores-mongodb!pip install llama-index3.2 配置MongoDB Atlas连接import pymongo from llama_index.vector_stores.mongodb import MongoDBAtlasVectorSearch from llama_index.core import VectorStoreIndex from llama_index.core import StorageContext from llama_index.core import SimpleDirectoryReader # MongoDB Atlas连接URI mongo_uri ( mongodbsrv://:?retryWritestruewmajority ) mongodb_client pymongo.MongoClient(mongo_uri)注意在使用MongoDB Atlas之前需要创建一个Atlas搜索索引。请参考MongoDB文档创建Atlas向量搜索索引4. 案例实现4.1 下载和准备数据下载Uber 2021年10-K报告作为示例数据# 创建数据目录 !mkdir -p data/10k/ # 下载Uber 2021年10-K报告 !wget https://raw.githubusercontent.com/run-llama/llama_index/main/docs/examples/data/10k/uber_2021.pdf -O data/10k/uber_2021.pdf4.2 创建向量存储和索引创建MongoDB Atlas向量搜索存储并设置向量搜索索引# 创建MongoDB Atlas向量搜索存储 store MongoDBAtlasVectorSearch(mongodb_client) # 创建向量搜索索引 store.create_vector_search_index( dimensions1536, pathembedding, similaritycosine ) # 创建存储上下文 storage_context StorageContext.from_defaults(vector_storestore)4.3 加载文档并构建索引使用SimpleDirectoryReader加载PDF文档并构建向量索引# 加载Uber 2021年10-K报告 uber_docs SimpleDirectoryReader( input_files[./data/10k/uber_2021.pdf] ).load_data() # 创建向量索引 index VectorStoreIndex.from_documents( uber_docs, storage_contextstorage_context )4.4 执行查询使用查询引擎执行查询# 查询Uber的收入 response index.as_query_engine().query(What was Ubers revenue?) display(Markdown(f{response}))4.5 文档管理展示如何检查和删除向量存储中的文档from llama_index.core import Response # 检查初始文档数量 print(store._collection.count_documents({})) # 获取参考文档ID typed_response ( response if isinstance(response, Response) else response.get_response() ) ref_doc_id typed_response.source_nodes[0].node.ref_doc_id # 检查特定参考文档的节点数量 print(store._collection.count_documents({metadata.ref_doc_id: ref_doc_id})) # 删除文档 if ref_doc_id: store.delete(ref_doc_id) print(store._collection.count_documents({}))5. 案例效果本示例展示了MongoDB Atlas向量搜索的基本功能和效果向量索引创建成功创建了1536维的向量索引使用余弦相似度文档加载成功将Uber 2021年10-K报告加载到向量存储中查询功能成功查询到Uber 2021年的收入为174.55亿美元文档管理成功展示了文档计数和删除功能MongoDB Atlas向量搜索的优势与MongoDB生态系统无缝集成支持混合查询向量搜索和传统数据库查询提供可扩展的云原生解决方案支持多种相似度计算方法6. 案例实现思路本案例的实现思路如下环境准备安装必要的依赖包配置MongoDB Atlas连接数据准备下载并准备示例文档Uber 2021年10-K报告向量存储配置创建MongoDB Atlas向量搜索存储设置向量索引索引构建加载文档并构建向量索引查询执行使用查询引擎执行向量搜索查询文档管理展示文档计数和删除功能关键技术点使用MongoDB Atlas作为向量存储后端创建向量搜索索引时指定维度、路径和相似度度量通过ref_doc_id管理文档的多个节点使用delete方法按ref_doc_id删除整个文档7. 扩展建议元数据过滤实现基于元数据的过滤查询功能混合搜索结合向量搜索和传统MongoDB查询实现混合搜索批量操作优化批量文档添加和删除的性能索引优化针对特定应用场景优化向量索引参数多租户支持实现多租户环境下的数据隔离实时更新实现向量索引的实时更新功能性能监控添加查询性能监控和分析功能8. 总结本示例详细介绍了如何使用LlamaIndex与MongoDB Atlas向量搜索功能实现文档检索和查询。MongoDB Atlas向量搜索提供了一种将向量搜索功能集成到现有MongoDB应用中的简便方法特别适合已经使用MongoDB作为主数据库的应用场景。通过本示例我们学习了如何连接MongoDB Atlas并创建向量搜索索引如何将文档加载到MongoDB Atlas向量存储中如何执行向量搜索查询如何管理向量存储中的文档这些技术可以应用于各种需要向量搜索功能的场景如文档检索系统、推荐引擎、语义搜索等为用户提供更智能、更相关的搜索体验。

STM32F407以太网通信入门：用CubeMX 6.4快速配置LWIP静态IP并完成Ping通测试（基于RMII模式）

STM32F407以太网通信实战：从CubeMX配置到Ping测试的极简指南在嵌入式开发中，以太网通信功能越来越成为标配需求。对于刚接触STM32以太网开发的新手来说，如何快速搭建一个可验证的网络通信环境往往是第一个需要跨越的门槛。本文将带你用最简步…...

2026/5/8 15:32:23 阅读更多 →

FigmaCN：让全球设计工具说中文，设计师的母语革命

FigmaCN：让全球设计工具说中文，设计师的母语革命【免费下载链接】figmaCN 中文 Figma 插件，设计师人工翻译校验项目地址: https://gitcode.com/gh_mirrors/fi/figmaCN 你是否曾因Figma的英文界面而错失创意灵感？是否在&q…...

2026/5/15 23:04:04 阅读更多 →

mysql如何处理不走索引的OR查询_使用UNION ALL优化重写

MySQL的OR条件常不走索引，因优化器难以合并多个字段索引，尤其存在函数、隐式转换时；推荐用UNION ALL重写，确保各分支独立走索引，但需注意字段一致、NULL处理及结果去重问题。MySQL 的 OR 条件为什么常不走索引因为 MyS…...

2026/6/19 12:43:44 阅读更多 →

PyGAD实战指南：5大工业级遗传算法应用与避坑手册

1. 为什么是PyGAD而不是自己手写遗传算法？在Python生态里，提到遗传算法（Genetic Algorithm），很多人第一反应是“得从零开始搭轮子”：初始化种群、定义适应度函数、写选择/交叉/变异逻辑、控制迭代终止条件……...

2026/6/24 0:29:23 阅读更多 →

emWin三大核心控件实战：进度条、单选按钮与滚动条开发指南

1. 项目概述：深入emWin三大核心控件的实战应用在嵌入式图形界面开发领域，SEGGER的emWin以其高效、稳定和丰富的控件库而著称。对于许多从单片机裸机开发转向带屏交互的工程师来说，如何高效、正确地使用这些控件，往往是项目从“能跑…...

2026/6/24 11:26:14 阅读更多 →

英雄联盟终极效率工具：League Akari 完全指南

英雄联盟终极效率工具：League Akari 完全指南【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit League Akari是一款基于官方LCU API开…...

2026/6/23 19:39:03 阅读更多 →

Transformer 中的高效推理：推理时注意力压缩

Transformer 中的高效推理：推理时注意力压缩作者: Hao Sun, Yuxuan Li, Wei Lu 来源: https://arxiv.org/html/2606.20529v1摘要大型语言模型（LLMs）的部署成本高昂，主要受限于推理阶段的内存与计算开销。本文提出了一种推理时注…...

2026/6/24 0:29:22 阅读更多 →