AI 快讯编译自 the_decoder #AI搜索#模型评测#GPT-5.4#Kimi K2.6#LiveBrowseComp

AI搜索代理被曝“假搜索”：用网络验证记忆而非真正研究，新基准揭穿GPT-5.4和Kimi K2.6

哈尔滨工业大学研究团队通过新基准LiveBrowseComp发现，GPT-5.4、Kimi K2.6等顶级AI搜索代理在测试中主要依赖训练记忆而非实时搜索。一旦问题涉及近90天内的新事件，性能大幅下降。这对依赖AI搜索获取最新信息的用户意味着什么？

编译发布 2026/05/31 原文发布 2026/05/31

一句话看懂

顶级AI搜索代理被曝在基准测试中“作弊”：它们用网络验证训练记忆，而非真正搜索新信息。

详细发生了什么

哈尔滨工业大学的研究团队开发了一个名为LiveBrowseComp的新基准，专门测试AI搜索代理对近90天内事件的检索能力。他们测试了GPT-5.4、Kimi K2.6等主流模型，结果令人意外：这些模型在传统基准上表现优异，但在LiveBrowseComp上性能大幅下滑。

研究发现，模型并非真正“搜索”网络，而是优先调用训练数据中的记忆，仅用网络结果进行验证。当问题涉及训练数据之外的新事件时，它们无法有效检索，导致排名彻底洗牌。这意味着现有的AI搜索评测可能高估了模型的实际搜索能力。

中文圈视角

这对国内用户有直接警示意义。目前国产AI搜索产品（如Kimi、秘塔、百度AI搜索）在宣传中强调“实时联网”，但这项研究揭示了一个普遍问题：模型可能更依赖预训练知识而非实时检索。

Kimi K2.6 作为国产代表，在LiveBrowseComp上的表现同样不佳，说明这不是个别现象。
对中文用户的具体场景影响：如果你用AI搜索查询最新政策、股市行情、突发新闻，模型给出的答案可能基于过时数据，而非真正抓取最新网页。
平替方案：目前没有完美的替代品。用户可尝试手动指定搜索时间范围（如“2026年5月”），或使用传统搜索引擎+AI摘要工具（如Perplexity）作为补充。
监管角度：国内对AI生成内容的真实性有严格要求，如果搜索代理输出错误信息，平台可能面临合规风险。

几条值得记住的细节

LiveBrowseComp只问最近90天内的事件，防止模型依赖训练记忆。
GPT-5.4和Kimi K2.6在传统基准上得分很高，但在新基准上排名大幅下降。
模型倾向于用网络结果确认已有知识，而非探索未知信息。
研究团队来自哈尔滨工业大学，论文尚未公开，但方法已引发关注。
该基准可能成为未来AI搜索评测的新标准。

一句话总结

别盲目相信AI搜索的“实时”标签——它可能只是在验证你早已知道的东西。

← 返回 AI 快讯列表