AI 快讯 编译自 marktechpost #模型训练#LoRA#持续学习

Trajectory 发布并发多 LoRA 训练栈,持续学习实验吞吐量提升 2.81 倍

Trajectory 联合 UC Berkeley Sky Lab 和 Anyscale 推出并发多 LoRA 训练栈 C-LoRA,在持续学习场景下实现 2.81 倍端到端实验吞吐量提升,无奖励回归。代码已在 NovaSky-AI/SkyRL 开源,为中文开发者提供高效 RL 训练新思路。

编译发布 2026/05/31 原文发布 2026/05/31

一句话看懂

Trajectory 发布并发多 LoRA 训练栈 C-LoRA,持续学习实验吞吐量提升 2.81 倍,代码已开源。

详细发生了什么

Trajectory 与 UC Berkeley Sky Lab 和 Anyscale 合作,构建了一个并发多 LoRA 训练栈,用于持续学习。该方案将每个强化学习实验映射到一个始终热加载的引擎上的专用 LoRA adapter,相比单租户基线实现了 2.81 倍的端到端实验吞吐量提升,且无奖励回归。所有训练代码已在 NovaSky-AI/SkyRL 仓库开源。

传统语言模型以不连续跳跃的方式改进:团队收集数据、训练、发布新版本,耗时数月。Trajectory 希望用持续学习取代这一周期。其方法称为 Continuous Multi-LoRA Training(C-LoRA),每个实验对应一个 warm 多租户引擎上的专用 LoRA adapter。

C-LoRA 针对传统栈的四个低效问题:冷启动慢(每次作业重载 checkpoint 和预热推理引擎,大模型可超过 30 分钟)、RL 内存密集(Qwen3.5-397B 需要多达 8 个 H200 节点)、单租户(一次只运行一个实验)、利用率低(训练器和推理引擎互相等待)。

吞吐量提升主要来自推理端:vLLM 中所有 adapter 热加载在 GPU 内存,SGMV decode kernel 将每个 decode step 的 per-adapter 矩阵向量工作融合为一次 GPU 启动。训练端仍为单 adapter,但通过 AdapterStore 管理状态,在 GPU 和 CPU 间高效切换。

测试在单 H200 节点上使用 Qwen3-4B-Instruct-2507 进行,在 GSM8K 上运行同步 RL。8 个并发实验的最终实验时间达 5433 秒,加速比 2.81 倍;8 个并发实验在 3 个串行实验完成前即结束。所有并发级别在 step 9 时奖励准确率均超过 90%。

中文圈视角

对中文开发者来说,C-LoRA 的开源意味着可以更低成本地进行持续学习实验。国内类似方案如 DeepSeek 的 MoE 训练、Kimi 的 RL 框架,但多 LoRA 并发训练在开源社区尚属前沿。

具体影响

  • 硬件门槛:测试使用 8×H100/H200 节点,国内用户可通过阿里云、华为云等获取类似算力,但成本较高。LoRA 本身降低内存需求,但并发训练仍需高端 GPU。
  • 平替可能性:国内 ModelScope 社区可基于此代码适配国产 GPU(如昇腾),但需要移植 vLLM 和 Megatron 依赖。
  • 应用场景:对于中文写作助手、代码补全等需要从用户反馈持续学习的场景,C-LoRA 可显著加速实验迭代。
  • 监管合规:持续学习涉及在线数据反馈,需注意数据出境和内容安全,建议在私有化部署环境中使用。

中文圈目前较少讨论多 LoRA 并发训练在持续学习中的应用,此方案填补了空白。

几条值得记住的细节

  • 2.81 倍端到端实验吞吐量提升,在 8 个并发实验时测得,无奖励回归。
  • 代码开源在 NovaSky-AI/SkyRL,基于 vLLM 和 Megatron。
  • 主要加速来自推理端 SGMV decode kernel,训练端仍为单 adapter 串行。
  • 测试模型为 Qwen3-4B-Instruct-2507,任务为 GSM8K 工具使用 RL。
  • 权衡:并发数增加导致单步延迟上升,N=8 时 step time 从 191s 升至 500s。

一句话总结

C-LoRA 让持续学习实验更高效,2.81 倍吞吐量提升对需要频繁迭代的 RL 应用意义重大。