🗒️为什么Cursor即将放弃向量搜索

发布于2025-07-02
 

为什么Cursor即将放弃向量搜索

一、LLM为何需要搜索功能

大型语言模型(LLM)的训练数据存在截止日期,像Claude Sonnet 4的截止日期是2025年3月,这意味着它们无法获取截止日期之后的信息。此外,对于查询当天天气、公司内部交易详情等涉及实时或私有数据的内容,LLM也无法直接回答。
这时就需要外部数据的支持,而结合向量搜索的检索增强生成(RAG)技术,成为了向LLM补充外部数据的默认方式,这些外部数据要么是LLM无法获取的最新信息,要么是未纳入其训练范围的私有专属数据。

二、向量搜索为何与AI搜索划等号

向量搜索承诺能解决LLM“信息不足”的问题,它可以找到与问题在语义上最相似的信息。在行业的炒作周期中,由于听起来酷炫且具有AI原生特性,向量搜索受到了广泛追捧。
Pinecone、Weaviate、Qdrant等公司在2023年末借助这波AI热潮获得了大量融资,向量搜索和向量数据库成了解决所有AI外部数据问题的首选方案。同时,Voyage AI等嵌入模型提供商也因此受益,因为需要嵌入模型将文本转换为语义数学表示(向量)。
这使得整个科技行业认为AI应用就等同于向量数据库,每个AI应用都必须配备一个向量数据库。

三、相似性不等于相关性

2025年,向量数据库公司的发展态势不容乐观,原因很简单:向量数据库并非能解决所有问题,在使用、实施和维护过程中存在固有的局限性和弊端,如今行业终于开始意识到这一点。
向量搜索能提供“最相似”的内容,但未必是“最相关”的内容。在编程或任何需要精确性的场景中,这一问题尤为突出。

四、并非所有文本都有语义意义

  • 编程时,搜索getUserById需要精确匹配函数名,但向量搜索可能返回findUserByEmail等语义相似的函数,这在编程场景中是错误的。
  • 客户支持中,查询特定部件编号“P/N 4B0-959-855-A”的手册,向量搜索可能返回相似编号的手册,毫无用处。
  • 电子商务里,搜索耐克SKU“DQ4312-101”应优先返回对应产品,向量搜索可能返回相似编号的其他产品,可能导致错误发货。
  • 在Spotify上搜索“Dark Side of the Moon”,用户想要的是平克·弗洛伊德的那张专辑,而非语义相似的其他歌曲。
由此可见,对于语义相似性无关紧要的文本,不应使用向量搜索。

五、Claude Code为何超越Cursor

Claude Code在搜索相关上下文(如函数定义位置、导入模块的文件等)时,采用纯词汇搜索(关键词匹配)而非向量搜索,效果显著。
作者使用Cursor 12个月后,因Claude Code更出色而取消了Cursor订阅。Cursor常常无法自行找到正确的上下文,需要用户用@符号手动标记文件,用户需非常了解代码库才能帮助AI理解相关内容;而Claude Code能自动找到正确文件,尤其在大型或用户不熟悉的代码库中,体验更佳。

六、经久不衰的50年工具

Claude Code中的Claude Sonnet 4和Opus 4不会进行猜测,它们使用有50年历史的grep工具进行精准搜索。
例如,查找使用特定钩子的React组件,或查找导入特定模块的文件,都能通过grep相关命令实现。
Claude Code在词汇搜索的实现上更进一步,它会持续搜索匹配内容(即智能体搜索),直到找到所需内容或确定不存在该依赖项或函数,然后才编写代码,避免了Cursor智能体常出现的代码混乱和冗余实现问题。对于编程而言,相似性不等于相关性,相似性是模糊的,而相关性是精确的。

七、解读Cursor的动向

有证据表明Cursor团队认同Claude Code更出色,因为他们在2025年7月聘请了Claude Code的两位负责人Boris Cherny和Cat Wu。
作者预测Cursor可能会完全放弃代码的向量搜索(目前使用turbopuffer作为向量数据库),转而完全使用词汇搜索,这一预测在LinkedIn上获得了45万次浏览,并非毫无根据。

八、我们能从中得到什么启示

  1. AI即搜索,勿默认“AI/RAG=向量数据库”:不要想当然地认为每个AI应用都需要向量数据库,有时简单的关键词搜索或基本数据库查询就足够了。
  1. 先考虑要完成的工作,再选择合适的搜索技术:构建代码助手可采用Claude Code那样的词汇搜索;构建需要理解用户意图的客户支持聊天机器人,向量搜索可能很合适;构建电子商务搜索,可能既需要词汇搜索也需要向量搜索。
  1. 不同问题需要不同工具:精确匹配与语义相似性:用户搜索具体产品时,需要精确匹配;用户询问“如何重置密码”时,语义相似性有助于找到相关帮助文章。
  1. 行业在发展,不再是一刀切的解决方案:明智的公司已超越纯向量搜索,如Pinecone有级联检索,turbopuffer有混合搜索等。
大多数现实世界的AI应用实际上需要词汇搜索和向量搜索相结合,这就是混合搜索,也是行业的发展方向。后续文章将介绍如何使用Postgres构建结合词汇搜索的精确性、全文搜索的模糊精确性和向量搜索的语义理解的多搜索系统。

九、补充阅读

  1. 《How Instacart Built a Modern Search Infrastructure on Postgres》
  1. 《Simon Willison’s Weblog: Context Engineering》
  1. 《What AI Engineers Should Know about Search》
  1. X.com post about why Claude ditched RAG for agentic discovery》
  1. X.com post: Search is the natural abstraction for augmenting AI with moving context》
  1. 《Why I No Longer Recommend RAG for Autonomous Coding Agents》
  1. 《Anthropic Revenue Hits $4 Billion Annual Pace as Competition With Cursor Intensifies》
  1. 《Why Cline Doesn't Index Your Codebase (And Why That's a Good Thing)》
 
 
 
基于PostgreSQL和NetworkX的人物关系图系统设计三位TigerData工程师揭秘MCP:安全是其致命弱点
Loading...
©2021-2025 Arterning.
All rights reserved.