AI模型常给出正确答案但引用错误来源：北大提出CiteVQA基准测试

一句话看懂

北大研究发现GPT、Gemini等AI模型在文档分析中常给出正确答案，但引用的文本段落却是错的，新基准CiteVQA首次系统检测这种“归因幻觉”。

北京大学研究团队发现，主流AI模型如GPT和Gemini在分析文档时，经常引用与答案不匹配的文本段落。即使答案本身正确，引用的证据却可能是错误的。这种现象被称为“归因幻觉”（attribution hallucination），在需要严格引用来源的领域（如法律、医疗）尤其危险。

为了系统性地评估这一问题，团队开发了CiteVQA基准测试，这是首个专门检测归因幻觉的基准。测试要求模型在给定文档中找出支持答案的段落，并评估引用准确性。初步结果显示，即使是最先进的模型，归因错误率也相当高。

对中文用户而言，归因幻觉问题同样严峻。国内大模型如DeepSeek、Kimi、智谱GLM等，在文档分析、学术写作、法律咨询等场景中也可能存在类似问题。目前中文社区对此讨论较少，但实际影响不容忽视：

国内模型厂商应借鉴CiteVQA思路，建立中文场景下的归因检测基准。用户在使用AI进行文档分析时，务必人工复核引用来源，尤其是涉及专业领域时。

AI答案正确不代表引用可靠，使用AI分析文档时务必人工核实来源，尤其涉及专业领域。