AWS SageMaker AI 助力阿塞拜疆语大模型训练：低资源语言 LLM 构建实践

一句话看懂

Azercell 与 AWS 合作，在 SageMaker AI 上训练阿塞拜疆语 LLM，通过自定义分词器和内核优化，实现 2 倍编码效率提升和显著资源节省。

详细发生了什么

阿塞拜疆领先电信运营商 Azercell 想构建一个面向电信场景和客服聊天机器人的阿塞拜疆语大语言模型（LLM）。挑战在于：阿塞拜疆语是形态丰富的语言，训练数据有限，且没有现成的 LLM 训练蓝图。

在与 AWS Generative AI Innovation Center 的六周合作中，团队在 Amazon SageMaker AI 上建立了一套生产级框架。该框架基于 PyTorch、Hugging Face Transformers 和 Liger Kernels 等开源工具，在 ml.p5.48xlarge 实例上实现了训练吞吐量提升 23%、峰值 GPU 内存降低 58%。通过自定义分词器，每个词的 token 数减少了 2 倍，相当于在 128k 的 context window 中能容纳双倍内容。

训练流程分为三个阶段：1）开发高效的分词器；2）在 Llama 3.2 1B 上进行继续预训练（CPT）；3）使用 LoRA 进行监督微调，将模型转化为对话助手。每个阶段作为 SageMaker AI 训练任务独立运行，按实际计算时间付费。

中文圈视角

这项实践对中文圈有直接参考价值。首先，中文同样面临形态丰富（如词缀、复合词）的问题，但中文分词更依赖词汇边界。自定义分词器的方法可迁移到中文方言或少数民族语言（如藏语、维吾尔语）的 LLM 训练中。

其次，国内低资源语言模型开发常受限于算力和数据。该方案展示了如何通过 Liger Kernel 和 FSDP 优化在有限 GPU 上训练更大模型。国产平台如阿里云 PAI、华为云 ModelArts 也有类似分布式训练能力，但缺乏针对低资源语言的系统化方案。

最后，阿塞拜疆语作为小语种，其训练框架对中文圈出海企业（如面向东南亚、中亚的 AI 产品）有借鉴意义——如何用开源工具快速构建非英语语言模型。目前国内讨论多集中在英语和中文，对低资源语言的关注度不足。

几条值得记住的细节

自定义分词器将每个阿塞拜疆语单词的 token 数从 3.22 降至 1.59，编码效率提升 2 倍。
使用 FSDP 后，每 GPU 模型状态内存从 9.23 GB 降至 1.17 GB，释放了更大 batch size 的空间。
Liger Kernel 通过融合 GPU 内核操作，在 ml.p5.48xlarge 上实现 23% 的吞吐量提升和 58% 的内存降低。
训练采用按需实例，任务完成后自动终止，无闲置集群成本。
最终模型在验证集上的 Bits-Per-Byte 为 0.5795，优于基线 tokenizer 的 0.6830。

一句话总结

低资源语言 LLM 训练有章可循：自定义分词器加内核优化，可在有限预算下实现高效训练。