Amazon Nova Forge 超参数调优指南：如何在领域微调中平衡专业能力与通用性能

一句话看懂

AWS 详解在 Nova Forge 上做领域微调时，如何通过超参数调优平衡专业能力与通用性能，避免灾难性遗忘和训练失败。

大语言模型在通用任务上表现优异，但面对专有数据、内部流程或行业术语时往往力不从心。Amazon Nova Forge 通过数据混合（data mixing）、checkpoint 选择和三种定制技术（CPT、SFT、RFT）来解决这一问题。

核心挑战有三个：

灾难性遗忘：模型在领域数据上训练时可能覆盖预训练学到的通用能力。Nova Forge 通过数据混合（将你的训练数据与 Amazon Nova 精选数据集混合）和 checkpoint 选择来缓解。
学习率敏感：学习率是最敏感的超参数。过高导致不稳定或遗忘，过低浪费算力。Nova Forge 为每种训练技术提供了校准后的默认值，偏离默认值是训练不稳定的最常见原因。
基线性能约束：强化微调（RFT）仅在模型基线准确率处于特定范围时有效。基线太低则缺乏好样本，太高则收益递减。建议先用 SFT 建立基础能力。

Nova Forge 提供三条定制路径：继续预训练（CPT）用于大量无标签领域文本；监督微调（SFT）用于 1,000-10,000 条高质量演示数据；强化微调（RFT）用于有明确奖励函数的场景。三者串联效果最佳，但每步可选。

对国内开发者而言，Nova Forge 的这套方法论有直接参考价值，但需注意几点：

可用性：Nova Forge 目前仅通过 AWS 服务提供，国内用户需要 AWS 账号，且数据可能存储在海外区域，涉及数据出境合规问题。如果数据敏感，建议先咨询法务。
国产平替：国内类似服务如阿里云百炼、百度千帆也提供微调能力，但 Nova Forge 的数据混合和 checkpoint 选择机制更系统化。国产平台目前较少公开讨论灾难性遗忘的缓解策略，开发者可借鉴本文思路在本地用 LoRA 等方法实验。
学习率调优：文中强调偏离默认学习率是训练不稳定的主因——这对国内用户同样适用。很多团队在微调时盲目调参，导致资源浪费。建议始终从平台默认值开始。
RFT 的适用场景：国内强化微调应用较少，但文中“基线准确率过低时先用 SFT”的建议很实用。对于客服、写作等场景，可先用少量高质量数据做 SFT，再考虑 RFT。

一个中文圈尚未讨论的盲点：数据混合中“精选数据集”的具体构成和版权问题。Nova Forge 使用的 Amazon Nova 数据集是否包含中文语料？如果涉及中文业务，混合比例如何调整？AWS 文档未明确说明，建议用户自行测试。

学习率是微调中最敏感的超参数，偏离 Nova Forge 默认值是训练不稳定的最常见原因。
数据混合（data mixing）是防止灾难性遗忘的关键，将你的数据与 Amazon Nova 精选数据集按比例混合。
RFT 仅在基线准确率处于特定范围时有效：太低则缺乏好样本，太高则收益递减。
三条路径串联（CPT → SFT → RFT）效果最佳，但每步可选，取决于数据和任务。
Nova Forge 支持三种 checkpoint：pre-trained、mid-trained、post-trained，分别适用于不同数据规模和下游需求。

微调不是调得越狠越好，平衡专业能力与通用性能的关键在于学习率、数据混合和 checkpoint 的合理配置。