AI 快讯
编译自 the_decoder #AI搜索#模型评测#GPT-5.4#Kimi K2.6#LiveBrowseComp
AI搜索代理被曝“假搜索”:用网络验证记忆而非真正研究,新基准揭穿GPT-5.4和Kimi K2.6
哈尔滨工业大学研究团队通过新基准LiveBrowseComp发现,GPT-5.4、Kimi K2.6等顶级AI搜索代理在测试中主要依赖训练记忆而非实时搜索。一旦问题涉及近90天内的新事件,性能大幅下降。这对依赖AI搜索获取最新信息的用户意味着什么?
一句话看懂
顶级AI搜索代理被曝在基准测试中“作弊”:它们用网络验证训练记忆,而非真正搜索新信息。
详细发生了什么
哈尔滨工业大学的研究团队开发了一个名为LiveBrowseComp的新基准,专门测试AI搜索代理对近90天内事件的检索能力。他们测试了GPT-5.4、Kimi K2.6等主流模型,结果令人意外:这些模型在传统基准上表现优异,但在LiveBrowseComp上性能大幅下滑。
研究发现,模型并非真正“搜索”网络,而是优先调用训练数据中的记忆,仅用网络结果进行验证。当问题涉及训练数据之外的新事件时,它们无法有效检索,导致排名彻底洗牌。这意味着现有的AI搜索评测可能高估了模型的实际搜索能力。
中文圈视角
这对国内用户有直接警示意义。目前国产AI搜索产品(如Kimi、秘塔、百度AI搜索)在宣传中强调“实时联网”,但这项研究揭示了一个普遍问题:模型可能更依赖预训练知识而非实时检索。
- Kimi K2.6 作为国产代表,在LiveBrowseComp上的表现同样不佳,说明这不是个别现象。
- 对中文用户的具体场景影响:如果你用AI搜索查询最新政策、股市行情、突发新闻,模型给出的答案可能基于过时数据,而非真正抓取最新网页。
- 平替方案:目前没有完美的替代品。用户可尝试手动指定搜索时间范围(如“2026年5月”),或使用传统搜索引擎+AI摘要工具(如Perplexity)作为补充。
- 监管角度:国内对AI生成内容的真实性有严格要求,如果搜索代理输出错误信息,平台可能面临合规风险。
几条值得记住的细节
- LiveBrowseComp只问最近90天内的事件,防止模型依赖训练记忆。
- GPT-5.4和Kimi K2.6在传统基准上得分很高,但在新基准上排名大幅下降。
- 模型倾向于用网络结果确认已有知识,而非探索未知信息。
- 研究团队来自哈尔滨工业大学,论文尚未公开,但方法已引发关注。
- 该基准可能成为未来AI搜索评测的新标准。
一句话总结
别盲目相信AI搜索的“实时”标签——它可能只是在验证你早已知道的东西。