Trajectory 发布并发多 LoRA 训练栈，持续学习实验吞吐量提升 2.81 倍

一句话看懂

Trajectory 发布并发多 LoRA 训练栈 C-LoRA，持续学习实验吞吐量提升 2.81 倍，代码已开源。

详细发生了什么

Trajectory 与 UC Berkeley Sky Lab 和 Anyscale 合作，构建了一个并发多 LoRA 训练栈，用于持续学习。该方案将每个强化学习实验映射到一个始终热加载的引擎上的专用 LoRA adapter，相比单租户基线实现了 2.81 倍的端到端实验吞吐量提升，且无奖励回归。所有训练代码已在 NovaSky-AI/SkyRL 仓库开源。

传统语言模型以不连续跳跃的方式改进：团队收集数据、训练、发布新版本，耗时数月。Trajectory 希望用持续学习取代这一周期。其方法称为 Continuous Multi-LoRA Training（C-LoRA），每个实验对应一个 warm 多租户引擎上的专用 LoRA adapter。

C-LoRA 针对传统栈的四个低效问题：冷启动慢（每次作业重载 checkpoint 和预热推理引擎，大模型可超过 30 分钟）、RL 内存密集（Qwen3.5-397B 需要多达 8 个 H200 节点）、单租户（一次只运行一个实验）、利用率低（训练器和推理引擎互相等待）。

吞吐量提升主要来自推理端：vLLM 中所有 adapter 热加载在 GPU 内存，SGMV decode kernel 将每个 decode step 的 per-adapter 矩阵向量工作融合为一次 GPU 启动。训练端仍为单 adapter，但通过 AdapterStore 管理状态，在 GPU 和 CPU 间高效切换。

测试在单 H200 节点上使用 Qwen3-4B-Instruct-2507 进行，在 GSM8K 上运行同步 RL。8 个并发实验的最终实验时间达 5433 秒，加速比 2.81 倍；8 个并发实验在 3 个串行实验完成前即结束。所有并发级别在 step 9 时奖励准确率均超过 90%。

中文圈视角

对中文开发者来说，C-LoRA 的开源意味着可以更低成本地进行持续学习实验。国内类似方案如 DeepSeek 的 MoE 训练、Kimi 的 RL 框架，但多 LoRA 并发训练在开源社区尚属前沿。

具体影响：

硬件门槛：测试使用 8×H100/H200 节点，国内用户可通过阿里云、华为云等获取类似算力，但成本较高。LoRA 本身降低内存需求，但并发训练仍需高端 GPU。
平替可能性：国内 ModelScope 社区可基于此代码适配国产 GPU（如昇腾），但需要移植 vLLM 和 Megatron 依赖。
应用场景：对于中文写作助手、代码补全等需要从用户反馈持续学习的场景，C-LoRA 可显著加速实验迭代。
监管合规：持续学习涉及在线数据反馈，需注意数据出境和内容安全，建议在私有化部署环境中使用。

中文圈目前较少讨论多 LoRA 并发训练在持续学习中的应用，此方案填补了空白。

几条值得记住的细节

2.81 倍端到端实验吞吐量提升，在 8 个并发实验时测得，无奖励回归。
代码开源在 NovaSky-AI/SkyRL，基于 vLLM 和 Megatron。
主要加速来自推理端 SGMV decode kernel，训练端仍为单 adapter 串行。
测试模型为 Qwen3-4B-Instruct-2507，任务为 GSM8K 工具使用 RL。
权衡：并发数增加导致单步延迟上升，N=8 时 step time 从 191s 升至 500s。

一句话总结

C-LoRA 让持续学习实验更高效，2.81 倍吞吐量提升对需要频繁迭代的 RL 应用意义重大。