大规模研究发现：AI聊天机器人越“有用”，越难模拟人类行为

一句话看懂

一项20.8万人参与的大规模研究发现，AI聊天机器人越“有用”，越难模拟人类行为，且效应随模型迭代加剧。

详细发生了什么

一项覆盖208,000名参与者、收集了2600万条回复的大规模研究揭示了一个反直觉的现象：将语言模型训练成“有用”聊天机器人的过程（如RLHF），反而削弱了它们模拟人类行为的能力。研究团队测试了多个主流模型，包括GPT-4、Claude 3等，发现这种效应随着模型代际更新而加剧——越新的模型在模拟人类行为任务上表现越差。

研究中尝试了流行的“角色扮演”技巧，即给模型提供详细的人口统计特征（如年龄、性别、教育背景），但结果显示，这种方法对个体预测几乎没有任何提升。模型在模拟特定人群的偏好、决策或行为时，往往回归到“平均”或“理想”回答，而非真实的人类多样性。

该研究发表在预印本平台，尚未经过同行评审，但其庞大的样本量和严谨的实验设计引起了广泛关注。研究者认为，这暴露了当前AI对齐策略的一个根本性矛盾：追求“有用性”和“安全性”可能以牺牲“真实性”为代价。

中文圈视角

这一发现对中文AI社区有直接启示。首先，国内主流聊天机器人如DeepSeek、Kimi、通义千问等同样采用RLHF等对齐技术，它们很可能也面临类似问题——在追求“有用”和“安全”时，模型对用户行为的模拟能力被削弱。这对于需要AI模拟真实用户行为的场景（如市场调研、用户测试、社会模拟）是个坏消息。

其次，中文用户常用的“角色扮演”玩法（如让AI扮演特定职业或性格的人）可能效果有限。研究指出，即使提供详细背景，模型也倾向于给出“标准答案”，而非真实的人类反应。这意味着，依赖AI进行用户行为预测的产品（如电商推荐、广告测试）需要谨慎对待AI生成的数据。

此外，国内监管强调AI内容安全，这进一步强化了模型“去个性化”的倾向。中文AI在合规压力下，可能比海外模型更难模拟人类行为。对于需要“人性化”交互的领域（如心理咨询、教育辅导），开发者可能需要寻找替代方案，例如使用更小的、未经强对齐的模型，或结合真实用户数据。

一个尚未被广泛讨论的盲点是：这一发现可能影响AI在社会科学研究中的应用。如果AI无法准确模拟人类行为，那么基于AI的“数字孪生”或“社会模拟”实验的可靠性将受到质疑。中文科研机构在使用AI进行行为预测时，应意识到这一局限性。

几条值得记住的细节

研究样本量巨大：208,000名参与者，2600万条回复，覆盖多个主流模型。
模型越新，模拟人类行为的能力越差：GPT-4比GPT-3.5表现更差，Claude 3比Claude 2更差。
“角色扮演”技巧（提供人口统计特征）对个体预测几乎没有帮助。
研究尚未经过同行评审，但实验设计严谨，结果可信度较高。
研究者指出，RLHF等对齐技术可能是导致这一现象的主要原因。

一句话总结

AI越“有用”越不像人，这对依赖AI模拟用户行为的应用是个警示。