AI 快讯 编译自 marktechpost #模型发布#端侧AI#MoE

Liquid AI 发布 LFM2.5-8B-A1B:1.5B 活跃参数的端侧 MoE 模型,支持 128K 上下文和工具调用

Liquid AI 推出 LFM2.5-8B-A1B,一款专为端侧部署设计的稀疏 MoE 模型,总参数量 8.3B 但每 token 仅激活 1.5B,可在消费级硬件上运行。支持 128K 上下文窗口、推理链和工具调用,开源权重。本文详解其架构、性能提升及对中文用户的实际意义。

编译发布 2026/05/28 原文发布 2026/05/28

一句话看懂

Liquid AI 发布 LFM2.5-8B-A1B,一款 8.3B 总参数但仅激活 1.5B 的稀疏 MoE 模型,可在笔记本和手机上运行,支持 128K 上下文、推理链和工具调用。

详细发生了什么

Liquid AI 于 2026 年 5 月 28 日发布 LFM2.5-8B-A1B,这是其 LFM2.5 系列的首款端侧模型。该模型采用稀疏 MoE 架构,总参数量 8.3B,但每次前向传播仅激活 1.5B 参数,大幅降低计算成本。模型包含 24 层,其中 18 层为双门控 LIV 卷积块,6 层为 GQA 层。上下文长度从上一代的 32K 提升至 128K,词表从 65,536 翻倍至 128,000,对非拉丁语系(如中文、日文、阿拉伯文)的压缩效率更高。训练数据从 12T tokens 扩展到 38T tokens,并经过两阶段上下文扩展和强化学习优化,针对“死亡循环”和幻觉问题进行了专门处理。

在基准测试中,LFM2.5-8B-A1B 相比前代 LFM2-8B-A1B 提升显著:AA-Omniscience 非幻觉率从 7.46 跃升至 63.47,IFEval 从 79.44 升至 91.84,MATH500 从 74.80 升至 88.76,Tau² Telecom 从 13.60 升至 88.07。在指令跟随方面,它仅用 1.5B 活跃参数就达到了 Gemma-4-26B-A4B-IT 的水平。

推理性能方面,在 M5 Max 上 CPU 解码可达 253 tokens/s,内存占用低于 6 GB;在手机上约 30 tokens/s;单张 H100 GPU 吞吐量达 18.5K tokens/s。模型支持 llama.cpp、MLX、vLLM、SGLang 等主流框架,并开源权重(LFM1.0 许可证)。

中文圈视角

对中文用户意味着什么? 首先,LFM2.5-8B-A1B 原生支持中文,且 128K 词表对中文等非拉丁语系压缩效率更高,意味着在同等 token 预算下能处理更多中文内容。其次,1.5B 活跃参数使其可在普通笔记本甚至手机上运行,无需联网或 API key,数据完全本地化,这对注重隐私的中文用户是一大优势。

与国产模型的对比: 国内类似定位的模型如 DeepSeek 的 Janus-Pro 或面壁智能的 MiniCPM 系列,同样主打端侧部署。LFM2.5 的优势在于 128K 上下文和工具调用能力,但活跃参数更少(1.5B vs MiniCPM 的 2.4B)。不过,LFM2.5 是纯文本模型,不支持视觉输入,而 MiniCPM 支持多模态。此外,LFM2.5 的推理链模式会增加每次对话的 token 消耗,对实时性要求高的场景可能不是最优选择。

国内用户的使用门槛: 模型权重托管在 Hugging Face,国内用户可能需要代理访问。但开源社区(如 ModelScope)可能会镜像。工具调用默认输出 Pythonic 函数调用,可改为 JSON,方便集成到国内流行的 Agent 框架(如 Dify、FastGPT)。

监管与合规: 模型完全本地运行,数据不出设备,符合国内数据安全法规。但推理链可能输出敏感内容,开发者需自行添加内容过滤。

几条值得记住的细节

  • 模型总参数 8.3B,每 token 仅激活 1.5B,适合消费级硬件。
  • 上下文窗口 128K tokens,支持 9 种语言,中文压缩效率提升。
  • 推理性能:M5 Max 上 253 tok/s,手机约 30 tok/s,H100 上 18.5K tok/s。
  • 工具调用默认输出 Pythonic 函数调用,可改为 JSON。
  • 开源权重,许可证 LFM1.0,支持 llama.cpp、vLLM 等框架。

一句话总结

LFM2.5-8B-A1B 让端侧设备也能运行具备 128K 上下文和工具调用能力的推理模型,中文用户可免费本地部署,隐私无忧。