🤖 AI 跟我学 新手入门
AI 快讯 编译自 openai_blog #安全更新#ChatGPT#上下文感知

ChatGPT 安全更新:更好识别敏感对话上下文,降低风险

OpenAI 发布 ChatGPT 安全更新,通过改进上下文感知能力,在敏感对话中实时检测风险并做出更安全回应。了解更新如何影响中文用户的使用体验及与国产模型的对比。

编译发布 2026/05/18 原文发布 2026/05/14

一句话看懂

OpenAI 推出 ChatGPT 安全更新,提升模型在敏感对话中的上下文感知能力,可随时间推移检测风险并更安全地回应。

详细发生了什么

OpenAI 于 2026 年 5 月 14 日发布了一项针对 ChatGPT 的安全更新,重点改进模型在敏感对话中的上下文理解能力。传统上,ChatGPT 对单条消息的审核可能忽略对话历史中的累积风险,例如用户逐步诱导模型给出有害建议。此次更新通过增强对多轮对话的上下文建模,使模型能更早识别出潜在危险模式,并在回应时采取更谨慎的策略。

具体来说,更新后的安全系统会持续跟踪对话的“风险轨迹”,当检测到用户试图绕过安全限制(如逐步询问如何制造危险物品)时,模型会主动中断或拒绝回答。OpenAI 表示,这一改进基于对真实世界滥用案例的分析,并经过了红队测试。更新已逐步推送到所有 ChatGPT 用户,包括免费版和付费版。

中文圈视角

对中文用户而言,这一更新直接影响使用 ChatGPT 进行敏感话题讨论的安全性。由于国内无法直接访问 ChatGPT,许多用户通过代理或第三方接口使用,这些渠道可能无法同步最新的安全机制,导致风险暴露。相比之下,国产模型如 DeepSeek、Kimi 和智谱清言在内容安全方面更严格遵循国内法规,但有时可能过度过滤正常讨论。

此次更新也提示了中文 AI 产品的一个盲点:多数国产模型的安全策略仍以单轮审核为主,缺乏对长期对话风险的动态检测。例如,用户可能通过多轮对话逐步诱导模型输出违规内容,而现有系统难以捕捉这种渐进式风险。国内开发者可借鉴 OpenAI 的“风险轨迹”思路,在合规框架内提升安全系统的智能性。

几条值得记住的细节

  • 更新通过增强上下文建模,检测多轮对话中的累积风险。
  • 新系统会跟踪“风险轨迹”,在检测到诱导行为时主动中断回应。
  • 更新已逐步推送到所有 ChatGPT 用户,无需手动操作。
  • 安全改进基于真实世界滥用案例分析和红队测试。
  • 国内通过代理使用 ChatGPT 的用户可能无法及时获得此更新。

一句话总结

ChatGPT 安全更新让模型更聪明地识别敏感对话中的风险,但中文用户需注意代理版本可能滞后。