AI 快讯 编译自 the_decoder #模型幻觉#归因错误#基准测试

AI模型常给出正确答案但引用错误来源:北大提出CiteVQA基准测试

研究发现GPT、Gemini等模型在文档分析中频繁出现“归因幻觉”,即答案正确但引用的文本段落并不支持结论。北京大学团队推出首个系统性检测该问题的基准测试CiteVQA,对法律、医疗等强监管领域构成警示。

编译发布 2026/05/25 原文发布 2026/05/25

一句话看懂

北大研究发现GPT、Gemini等AI模型在文档分析中常给出正确答案,但引用的文本段落却是错的,新基准CiteVQA首次系统检测这种“归因幻觉”。

详细发生了什么

北京大学研究团队发现,主流AI模型如GPT和Gemini在分析文档时,经常引用与答案不匹配的文本段落。即使答案本身正确,引用的证据却可能是错误的。这种现象被称为“归因幻觉”(attribution hallucination),在需要严格引用来源的领域(如法律、医疗)尤其危险。

为了系统性地评估这一问题,团队开发了CiteVQA基准测试,这是首个专门检测归因幻觉的基准。测试要求模型在给定文档中找出支持答案的段落,并评估引用准确性。初步结果显示,即使是最先进的模型,归因错误率也相当高。

中文圈视角

对中文用户而言,归因幻觉问题同样严峻。国内大模型如DeepSeek、Kimi、智谱GLM等,在文档分析、学术写作、法律咨询等场景中也可能存在类似问题。目前中文社区对此讨论较少,但实际影响不容忽视:

  1. 学术写作:学生或研究人员使用AI辅助撰写论文时,可能被误导引用不存在的文献或错误段落,导致学术不端风险。
  2. 法律合规:企业使用AI审查合同或法规时,错误的引用可能导致法律决策失误。
  3. 医疗建议:AI提供的医疗信息若引用错误来源,可能引发健康风险。

国内模型厂商应借鉴CiteVQA思路,建立中文场景下的归因检测基准。用户在使用AI进行文档分析时,务必人工复核引用来源,尤其是涉及专业领域时。

几条值得记住的细节

  • 归因幻觉指答案正确但引用段落错误,与常见的“事实幻觉”不同。
  • CiteVQA是首个系统性检测归因幻觉的基准,由北京大学团队提出。
  • 测试覆盖GPT-4、Gemini等主流模型,归因错误率普遍较高。
  • 该问题在法律、医疗等强监管领域风险最大,可能导致错误决策。
  • 目前尚无完美解决方案,人工复核仍是必要手段。

一句话总结

AI答案正确不代表引用可靠,使用AI分析文档时务必人工核实来源,尤其涉及专业领域。