Liquid AI 发布 LFM2.5-8B-A1B：1.5B 活跃参数的端侧 MoE 模型，支持 128K 上下文和工具调用

一句话看懂

Liquid AI 发布 LFM2.5-8B-A1B，一款 8.3B 总参数但仅激活 1.5B 的稀疏 MoE 模型，可在笔记本和手机上运行，支持 128K 上下文、推理链和工具调用。

详细发生了什么

Liquid AI 于 2026 年 5 月 28 日发布 LFM2.5-8B-A1B，这是其 LFM2.5 系列的首款端侧模型。该模型采用稀疏 MoE 架构，总参数量 8.3B，但每次前向传播仅激活 1.5B 参数，大幅降低计算成本。模型包含 24 层，其中 18 层为双门控 LIV 卷积块，6 层为 GQA 层。上下文长度从上一代的 32K 提升至 128K，词表从 65,536 翻倍至 128,000，对非拉丁语系（如中文、日文、阿拉伯文）的压缩效率更高。训练数据从 12T tokens 扩展到 38T tokens，并经过两阶段上下文扩展和强化学习优化，针对“死亡循环”和幻觉问题进行了专门处理。

在基准测试中，LFM2.5-8B-A1B 相比前代 LFM2-8B-A1B 提升显著：AA-Omniscience 非幻觉率从 7.46 跃升至 63.47，IFEval 从 79.44 升至 91.84，MATH500 从 74.80 升至 88.76，Tau² Telecom 从 13.60 升至 88.07。在指令跟随方面，它仅用 1.5B 活跃参数就达到了 Gemma-4-26B-A4B-IT 的水平。

推理性能方面，在 M5 Max 上 CPU 解码可达 253 tokens/s，内存占用低于 6 GB；在手机上约 30 tokens/s；单张 H100 GPU 吞吐量达 18.5K tokens/s。模型支持 llama.cpp、MLX、vLLM、SGLang 等主流框架，并开源权重（LFM1.0 许可证）。

中文圈视角

对中文用户意味着什么？ 首先，LFM2.5-8B-A1B 原生支持中文，且 128K 词表对中文等非拉丁语系压缩效率更高，意味着在同等 token 预算下能处理更多中文内容。其次，1.5B 活跃参数使其可在普通笔记本甚至手机上运行，无需联网或 API key，数据完全本地化，这对注重隐私的中文用户是一大优势。

与国产模型的对比： 国内类似定位的模型如 DeepSeek 的 Janus-Pro 或面壁智能的 MiniCPM 系列，同样主打端侧部署。LFM2.5 的优势在于 128K 上下文和工具调用能力，但活跃参数更少（1.5B vs MiniCPM 的 2.4B）。不过，LFM2.5 是纯文本模型，不支持视觉输入，而 MiniCPM 支持多模态。此外，LFM2.5 的推理链模式会增加每次对话的 token 消耗，对实时性要求高的场景可能不是最优选择。

国内用户的使用门槛： 模型权重托管在 Hugging Face，国内用户可能需要代理访问。但开源社区（如 ModelScope）可能会镜像。工具调用默认输出 Pythonic 函数调用，可改为 JSON，方便集成到国内流行的 Agent 框架（如 Dify、FastGPT）。

监管与合规： 模型完全本地运行，数据不出设备，符合国内数据安全法规。但推理链可能输出敏感内容，开发者需自行添加内容过滤。

几条值得记住的细节

模型总参数 8.3B，每 token 仅激活 1.5B，适合消费级硬件。
上下文窗口 128K tokens，支持 9 种语言，中文压缩效率提升。
推理性能：M5 Max 上 253 tok/s，手机约 30 tok/s，H100 上 18.5K tok/s。
工具调用默认输出 Pythonic 函数调用，可改为 JSON。
开源权重，许可证 LFM1.0，支持 llama.cpp、vLLM 等框架。

一句话总结

LFM2.5-8B-A1B 让端侧设备也能运行具备 128K 上下文和工具调用能力的推理模型，中文用户可免费本地部署，隐私无忧。