Hexo Labs 开源 SIA：一个同时更新脚手架和模型权重的自我改进 AI 框架

一句话看懂

Hexo Labs 开源 SIA，一个能同时修改 AI 代理的脚手架和模型权重的自我改进循环，在三个不同任务上均取得显著提升。

详细发生了什么

Hexo Labs 本周以 MIT 许可证开源了 SIA（Self-Improving AI）框架。其核心创新在于：传统 AI 代理在人类停止调优后性能便停滞，而 SIA 允许代理在每次运行后，由反馈智能体决定是修改脚手架（系统提示、工具调度、重试策略等）还是通过 LoRA 更新模型权重。

SIA 由三个 LLM 组件驱动：元智能体根据任务描述编写初始脚手架，任务智能体执行任务并记录每一步，反馈智能体读取完整轨迹后选择动作。基础模型为 openai/gpt-oss-120b，权重更新使用 rank 32 的 LoRA，元智能体和反馈智能体均运行在 Claude Sonnet 4.6 上。

在三个基准测试中，SIA 同时使用脚手架和权重更新（SIA-W+H）均优于仅更新脚手架（SIA-H）：

LawBench（191 类中国刑事罪名分类）：准确率从 13.5% 提升至 70.1%（SIA-H 为 50.0%）
TriMul（AlphaFold2 Evoformer 模块的 CUDA 内核）：奖励从 0.105 提升至 1.475（SIA-H 为 0.120），运行时间从 12,483 微秒降至 1,017 微秒
scRNA-seq 去噪（MAGIC 方法）：mse_norm 从 0.048 降至 0.289（SIA-H 为 0.241）

反馈智能体根据奖励信号自动选择训练算法：LawBench 使用 PPO，TriMul 使用熵优势加权，去噪使用 GRPO。

中文圈视角

SIA 的开源对中文 AI 社区有几点值得关注：

国产模型能否直接使用？ SIA 基于 gpt-oss-120b，这是一个开源模型，理论上可以用国产模型（如 DeepSeek-V3、Qwen2.5）替换。但反馈智能体依赖 Claude Sonnet 4.6，国内用户需通过 API 访问，存在网络和合规问题。国产替代方案如智谱 GLM-4 或 DeepSeek 的 API 可作为备选，但需自行适配。
应用场景的本地化潜力：LawBench 本身就是中文法律分类任务，SIA 在此任务上表现优异，说明该框架对中文 NLP 任务有直接价值。法律、金融、医疗等领域的专业任务，可通过 SIA 自动优化代理，减少人工调优成本。
与国产框架的对比：国内类似项目如 ModelScope 上的 Agent-FLAN 或阿里 HAD，多聚焦于数据或微调，而 SIA 同时优化脚手架和权重，思路更全面。但 SIA 的反馈智能体依赖外部 API，国产方案若完全本地化部署，可能更适合对数据安全要求高的场景。
合规与安全：SIA 的自我改进循环可能产生不可预测的行为，尤其是权重更新部分。国内对 AI 内容安全有严格监管，使用此类框架时需确保反馈智能体不产生违规输出，建议在沙盒环境中测试。

几条值得记住的细节

SIA 以 MIT 许可证开源，安装命令：pip install 'sia-agent[claude]'，内置 gpqa、lawbench、longcot-chess、spaceship-titanic 四个任务。
权重更新使用 LoRA rank 32，训练在 H100 GPU 上通过 Modal 平台运行。
在 TriMul 任务中，SIA-W+H 实现了 14.02 倍加速，而仅用脚手架为 1.14 倍，但 Claude Code 单独可达 1.50 倍。
反馈智能体可选择的算法包括 PPO、GRPO、REINFORCE、DPO 等，根据奖励形状自动切换。
论文警告：同时优化脚手架和权重可能产生耦合的 Goodhart 效应，固定点可能对扰动脆弱。

一句话总结

SIA 开源了一个能同时改进代理代码和模型参数的框架，对中文专业任务自动化调优有直接参考价值，但需注意 API 依赖和合规风险。