AI 快讯 编译自 marktechpost #模型发布#知识注入#RAG

MEMO:无需修改LLM参数,训练专用记忆模型注入新知识的新框架

新加坡国立大学、MIT和A*STAR团队提出MEMO框架,通过训练一个独立的记忆模型来为LLM注入新知识,无需修改主模型参数。在多个基准测试中,MEMO性能优于RAG和微调方法,且支持模型合并实现增量知识更新。本文详解其原理、训练流程及对中文开发者的实用价值。

编译发布 2026/05/27 原文发布 2026/05/27

一句话看懂

新加坡国立大学、MIT和A*STAR联合提出MEMO框架,训练一个专用的小型记忆模型来存储新知识,主LLM保持冻结,通过多轮问答协议实现高效推理,性能显著超越RAG和微调。

详细发生了什么

大型语言模型在预训练后知识就固定了,无法跟上世界变化。全量重训成本过高,微调又可能导致灾难性遗忘。RAG虽然能检索外部文档,但容易受检索噪声干扰,且难以进行跨文档推理。

来自新加坡国立大学、MIT CSAIL、A*STAR和SMART的研究团队提出了MEMO(Memory as a Model)框架,将记忆与推理分离。MEMO包含两个核心组件:

  • MEMORY模型:一个专用的小型语言模型(实验中为Qwen2.5-14B-Instruct),通过监督微调将目标语料库的知识内化到参数中。
  • EXECUTIVE模型:主LLM(实验中为Qwen2.5-32B-Instruct或Gemini-3-Flash),保持冻结,仅通过标准输入输出接口与MEMORY模型交互。

训练分两步:首先用GENERATOR模型(Qwen2.5-32B-Instruct)将原始文档转换为反射QA数据集,包含事实抽取、合并、验证、实体暴露和跨文档合成五个步骤。其中跨文档合成步骤最为关键,消融实验显示移除它会导致NarrativeQA准确率从24.00%骤降至6.37%。然后对MEMORY模型进行SFT训练,损失只计算答案token。

推理时采用结构化多轮协议:先分解查询为原子子问题(Grounding),再逐步确认实体(Entity identification),最后检索事实并合成答案(Answer seeking and synthesis)。MEMORY模型的响应是紧凑的自然语言片段,长度与语料库规模无关,因此推理成本不会随文档数量增长。

在三个基准测试中,MEMO表现亮眼:

  • NarrativeQA(Gemini-3-Flash作为EXECUTIVE):53.58%,远超HippoRAG2的23.21%
  • MuSiQue:60.20% vs HippoRAG2的57.00%
  • BrowseComp-Plus:66.67% vs HippoRAG2的66.33%

MEMO对检索噪声具有鲁棒性:当添加干扰文档时,NV-Embed-V2和HippoRAG2准确率下降高达6.22%,而MEMO仅变化+0.55%。

此外,MEMO支持通过模型合并实现增量知识更新。当新语料到来时,独立训练一个新的MEMORY模型,然后将其任务向量与现有模型合并。在K=10个语料库时,合并比全量重训节省5.5倍GPU时间(240 vs 1,320 GPU-hours)。

中文圈视角

MEMO框架对中文开发者有几点直接价值:

  1. 无需修改主模型:主LLM可以是任何闭源或开源模型,包括GPT-4、Claude、DeepSeek等。这意味着你可以用MEMO为中文模型(如Qwen、DeepSeek、Kimi)注入私有知识,而无需访问其权重或进行微调。对于使用API的开发者,这尤其友好。

  2. 国产模型兼容性:实验中MEMORY模型使用了Qwen2.5-14B,说明该框架对中文模型原生支持。国内开发者可以用更小的中文模型(如Qwen2.5-7B)作为MEMORY,配合更大的EXECUTIVE模型(如Qwen2.5-72B或DeepSeek-V3)来构建知识增强系统。

  3. 替代RAG的痛点:中文RAG场景中,检索质量常因分词、语义匹配等问题不稳定。MEMO通过将知识内化到模型参数中,避免了检索噪声,且推理成本不随文档量增长。对于需要处理大量中文文档(如法律、医疗、金融)的应用,这可能是一个更可靠的方案。

  4. 增量更新成本低:国内企业经常需要更新知识库(如政策法规、产品文档)。MEMO的模型合并机制允许以线性成本添加新知识,而无需重训整个系统,这对于持续运营的AI产品很有吸引力。

不过,MEMO目前仍处于研究阶段,训练MEMORY模型需要大量计算资源(实验中使用了8×H100 GPU),且合并后的性能与全量重训仍有差距(NarrativeQA上低11-19%)。中文社区可以关注其后续优化和开源实现。

几条值得记住的细节

  • MEMORY模型为Qwen2.5-14B-Instruct,EXECUTIVE模型可以是Qwen2.5-32B-Instruct或Gemini-3-Flash,且更换EXECUTIVE时无需重训MEMORY。
  • 跨文档合成步骤是性能关键:消融后NarrativeQA准确率从24.00%降至6.37%。
  • 推理时MEMORY模型响应长度与语料库规模无关,避免了RAG的线性增长问题。
  • 在BrowseComp-Plus上,添加干扰文档后MEMO准确率变化仅+0.55%,而RAG方法下降超6%。
  • 模型合并支持增量知识更新:K=10时节省5.5倍GPU时间,但性能比全量重训低11-19%。

一句话总结

MEMO通过独立记忆模型为LLM注入新知识,无需修改主模型参数,性能超越RAG且支持低成本增量更新,为中文开发者提供了一种更灵活的知识增强方案。