为什么Cursor即将放弃向量搜索

一、LLM为何需要搜索功能

大型语言模型（LLM）的训练数据存在截止日期，像Claude Sonnet 4的截止日期是2025年3月，这意味着它们无法获取截止日期之后的信息。此外，对于查询当天天气、公司内部交易详情等涉及实时或私有数据的内容，LLM也无法直接回答。

这时就需要外部数据的支持，而结合向量搜索的检索增强生成（RAG）技术，成为了向LLM补充外部数据的默认方式，这些外部数据要么是LLM无法获取的最新信息，要么是未纳入其训练范围的私有专属数据。

二、向量搜索为何与AI搜索划等号

向量搜索承诺能解决LLM“信息不足”的问题，它可以找到与问题在语义上最相似的信息。在行业的炒作周期中，由于听起来酷炫且具有AI原生特性，向量搜索受到了广泛追捧。

Pinecone、Weaviate、Qdrant等公司在2023年末借助这波AI热潮获得了大量融资，向量搜索和向量数据库成了解决所有AI外部数据问题的首选方案。同时，Voyage AI等嵌入模型提供商也因此受益，因为需要嵌入模型将文本转换为语义数学表示（向量）。

这使得整个科技行业认为AI应用就等同于向量数据库，每个AI应用都必须配备一个向量数据库。

三、相似性不等于相关性

2025年，向量数据库公司的发展态势不容乐观，原因很简单：向量数据库并非能解决所有问题，在使用、实施和维护过程中存在固有的局限性和弊端，如今行业终于开始意识到这一点。

向量搜索能提供“最相似”的内容，但未必是“最相关”的内容。在编程或任何需要精确性的场景中，这一问题尤为突出。

四、并非所有文本都有语义意义

编程时，搜索getUserById需要精确匹配函数名，但向量搜索可能返回findUserByEmail等语义相似的函数，这在编程场景中是错误的。

客户支持中，查询特定部件编号“P/N 4B0-959-855-A”的手册，向量搜索可能返回相似编号的手册，毫无用处。

电子商务里，搜索耐克SKU“DQ4312-101”应优先返回对应产品，向量搜索可能返回相似编号的其他产品，可能导致错误发货。

在Spotify上搜索“Dark Side of the Moon”，用户想要的是平克·弗洛伊德的那张专辑，而非语义相似的其他歌曲。

由此可见，对于语义相似性无关紧要的文本，不应使用向量搜索。

五、Claude Code为何超越Cursor

Claude Code在搜索相关上下文（如函数定义位置、导入模块的文件等）时，采用纯词汇搜索（关键词匹配）而非向量搜索，效果显著。

作者使用Cursor 12个月后，因Claude Code更出色而取消了Cursor订阅。Cursor常常无法自行找到正确的上下文，需要用户用@符号手动标记文件，用户需非常了解代码库才能帮助AI理解相关内容；而Claude Code能自动找到正确文件，尤其在大型或用户不熟悉的代码库中，体验更佳。

六、经久不衰的50年工具

Claude Code中的Claude Sonnet 4和Opus 4不会进行猜测，它们使用有50年历史的grep工具进行精准搜索。

例如，查找使用特定钩子的React组件，或查找导入特定模块的文件，都能通过grep相关命令实现。

Claude Code在词汇搜索的实现上更进一步，它会持续搜索匹配内容（即智能体搜索），直到找到所需内容或确定不存在该依赖项或函数，然后才编写代码，避免了Cursor智能体常出现的代码混乱和冗余实现问题。对于编程而言，相似性不等于相关性，相似性是模糊的，而相关性是精确的。

七、解读Cursor的动向

有证据表明Cursor团队认同Claude Code更出色，因为他们在2025年7月聘请了Claude Code的两位负责人Boris Cherny和Cat Wu。

作者预测Cursor可能会完全放弃代码的向量搜索（目前使用turbopuffer作为向量数据库），转而完全使用词汇搜索，这一预测在LinkedIn上获得了45万次浏览，并非毫无根据。

八、我们能从中得到什么启示

AI即搜索，勿默认“AI/RAG=向量数据库”：不要想当然地认为每个AI应用都需要向量数据库，有时简单的关键词搜索或基本数据库查询就足够了。

先考虑要完成的工作，再选择合适的搜索技术：构建代码助手可采用Claude Code那样的词汇搜索；构建需要理解用户意图的客户支持聊天机器人，向量搜索可能很合适；构建电子商务搜索，可能既需要词汇搜索也需要向量搜索。

不同问题需要不同工具：精确匹配与语义相似性：用户搜索具体产品时，需要精确匹配；用户询问“如何重置密码”时，语义相似性有助于找到相关帮助文章。

行业在发展，不再是一刀切的解决方案：明智的公司已超越纯向量搜索，如Pinecone有级联检索，turbopuffer有混合搜索等。

大多数现实世界的AI应用实际上需要词汇搜索和向量搜索相结合，这就是混合搜索，也是行业的发展方向。后续文章将介绍如何使用Postgres构建结合词汇搜索的精确性、全文搜索的模糊精确性和向量搜索的语义理解的多搜索系统。

九、补充阅读

《How Instacart Built a Modern Search Infrastructure on Postgres》

《Simon Willison’s Weblog: Context Engineering》

《What AI Engineers Should Know about Search》

《X.com post about why Claude ditched RAG for agentic discovery》

《X.com post: Search is the natural abstraction for augmenting AI with moving context》

《Why I No Longer Recommend RAG for Autonomous Coding Agents》

《Anthropic Revenue Hits $4 Billion Annual Pace as Competition With Cursor Intensifies》

《Why Cline Doesn't Index Your Codebase (And Why That's a Good Thing)》

https://www.tigerdata.com/blog/why-cursor-is-about-to-ditch-vector-search-and-you-should-too