AI 快讯 编译自 marktechpost #开源#自我改进#AI代理

Hexo Labs 开源 SIA:一个同时更新脚手架和模型权重的自我改进 AI 框架

Hexo Labs 发布开源框架 SIA,它在一个循环中同时改进 AI 代理的脚手架和模型权重,在 LawBench、TriMul 和 scRNA-seq 去噪三个任务上超越仅更新脚手架的方法。了解其工作原理、性能数据和中文用户的应用前景。

编译发布 2026/05/29 原文发布 2026/05/29

一句话看懂

Hexo Labs 开源 SIA,一个能同时修改 AI 代理的脚手架和模型权重的自我改进循环,在三个不同任务上均取得显著提升。

详细发生了什么

Hexo Labs 本周以 MIT 许可证开源了 SIA(Self-Improving AI)框架。其核心创新在于:传统 AI 代理在人类停止调优后性能便停滞,而 SIA 允许代理在每次运行后,由反馈智能体决定是修改脚手架(系统提示、工具调度、重试策略等)还是通过 LoRA 更新模型权重。

SIA 由三个 LLM 组件驱动:元智能体根据任务描述编写初始脚手架,任务智能体执行任务并记录每一步,反馈智能体读取完整轨迹后选择动作。基础模型为 openai/gpt-oss-120b,权重更新使用 rank 32 的 LoRA,元智能体和反馈智能体均运行在 Claude Sonnet 4.6 上。

在三个基准测试中,SIA 同时使用脚手架和权重更新(SIA-W+H)均优于仅更新脚手架(SIA-H):

  • LawBench(191 类中国刑事罪名分类):准确率从 13.5% 提升至 70.1%(SIA-H 为 50.0%)
  • TriMul(AlphaFold2 Evoformer 模块的 CUDA 内核):奖励从 0.105 提升至 1.475(SIA-H 为 0.120),运行时间从 12,483 微秒降至 1,017 微秒
  • scRNA-seq 去噪(MAGIC 方法):mse_norm 从 0.048 降至 0.289(SIA-H 为 0.241)

反馈智能体根据奖励信号自动选择训练算法:LawBench 使用 PPO,TriMul 使用熵优势加权,去噪使用 GRPO。

中文圈视角

SIA 的开源对中文 AI 社区有几点值得关注:

  1. 国产模型能否直接使用? SIA 基于 gpt-oss-120b,这是一个开源模型,理论上可以用国产模型(如 DeepSeek-V3、Qwen2.5)替换。但反馈智能体依赖 Claude Sonnet 4.6,国内用户需通过 API 访问,存在网络和合规问题。国产替代方案如智谱 GLM-4 或 DeepSeek 的 API 可作为备选,但需自行适配。

  2. 应用场景的本地化潜力:LawBench 本身就是中文法律分类任务,SIA 在此任务上表现优异,说明该框架对中文 NLP 任务有直接价值。法律、金融、医疗等领域的专业任务,可通过 SIA 自动优化代理,减少人工调优成本。

  3. 与国产框架的对比:国内类似项目如 ModelScope 上的 Agent-FLAN 或阿里 HAD,多聚焦于数据或微调,而 SIA 同时优化脚手架和权重,思路更全面。但 SIA 的反馈智能体依赖外部 API,国产方案若完全本地化部署,可能更适合对数据安全要求高的场景。

  4. 合规与安全:SIA 的自我改进循环可能产生不可预测的行为,尤其是权重更新部分。国内对 AI 内容安全有严格监管,使用此类框架时需确保反馈智能体不产生违规输出,建议在沙盒环境中测试。

几条值得记住的细节

  • SIA 以 MIT 许可证开源,安装命令:pip install 'sia-agent[claude]',内置 gpqa、lawbench、longcot-chess、spaceship-titanic 四个任务。
  • 权重更新使用 LoRA rank 32,训练在 H100 GPU 上通过 Modal 平台运行。
  • 在 TriMul 任务中,SIA-W+H 实现了 14.02 倍加速,而仅用脚手架为 1.14 倍,但 Claude Code 单独可达 1.50 倍。
  • 反馈智能体可选择的算法包括 PPO、GRPO、REINFORCE、DPO 等,根据奖励形状自动切换。
  • 论文警告:同时优化脚手架和权重可能产生耦合的 Goodhart 效应,固定点可能对扰动脆弱。

一句话总结

SIA 开源了一个能同时改进代理代码和模型参数的框架,对中文专业任务自动化调优有直接参考价值,但需注意 API 依赖和合规风险。