MEMO：无需修改LLM参数，训练专用记忆模型注入新知识的新框架

一句话看懂

新加坡国立大学、MIT和A*STAR联合提出MEMO框架，训练一个专用的小型记忆模型来存储新知识，主LLM保持冻结，通过多轮问答协议实现高效推理，性能显著超越RAG和微调。

详细发生了什么

大型语言模型在预训练后知识就固定了，无法跟上世界变化。全量重训成本过高，微调又可能导致灾难性遗忘。RAG虽然能检索外部文档，但容易受检索噪声干扰，且难以进行跨文档推理。

来自新加坡国立大学、MIT CSAIL、A*STAR和SMART的研究团队提出了MEMO（Memory as a Model）框架，将记忆与推理分离。MEMO包含两个核心组件：

MEMORY模型：一个专用的小型语言模型（实验中为Qwen2.5-14B-Instruct），通过监督微调将目标语料库的知识内化到参数中。
EXECUTIVE模型：主LLM（实验中为Qwen2.5-32B-Instruct或Gemini-3-Flash），保持冻结，仅通过标准输入输出接口与MEMORY模型交互。

训练分两步：首先用GENERATOR模型（Qwen2.5-32B-Instruct）将原始文档转换为反射QA数据集，包含事实抽取、合并、验证、实体暴露和跨文档合成五个步骤。其中跨文档合成步骤最为关键，消融实验显示移除它会导致NarrativeQA准确率从24.00%骤降至6.37%。然后对MEMORY模型进行SFT训练，损失只计算答案token。

推理时采用结构化多轮协议：先分解查询为原子子问题（Grounding），再逐步确认实体（Entity identification），最后检索事实并合成答案（Answer seeking and synthesis）。MEMORY模型的响应是紧凑的自然语言片段，长度与语料库规模无关，因此推理成本不会随文档数量增长。

在三个基准测试中，MEMO表现亮眼：

NarrativeQA（Gemini-3-Flash作为EXECUTIVE）：53.58%，远超HippoRAG2的23.21%
MuSiQue：60.20% vs HippoRAG2的57.00%
BrowseComp-Plus：66.67% vs HippoRAG2的66.33%

MEMO对检索噪声具有鲁棒性：当添加干扰文档时，NV-Embed-V2和HippoRAG2准确率下降高达6.22%，而MEMO仅变化+0.55%。

此外，MEMO支持通过模型合并实现增量知识更新。当新语料到来时，独立训练一个新的MEMORY模型，然后将其任务向量与现有模型合并。在K=10个语料库时，合并比全量重训节省5.5倍GPU时间（240 vs 1,320 GPU-hours）。

中文圈视角

MEMO框架对中文开发者有几点直接价值：

无需修改主模型：主LLM可以是任何闭源或开源模型，包括GPT-4、Claude、DeepSeek等。这意味着你可以用MEMO为中文模型（如Qwen、DeepSeek、Kimi）注入私有知识，而无需访问其权重或进行微调。对于使用API的开发者，这尤其友好。
国产模型兼容性：实验中MEMORY模型使用了Qwen2.5-14B，说明该框架对中文模型原生支持。国内开发者可以用更小的中文模型（如Qwen2.5-7B）作为MEMORY，配合更大的EXECUTIVE模型（如Qwen2.5-72B或DeepSeek-V3）来构建知识增强系统。
替代RAG的痛点：中文RAG场景中，检索质量常因分词、语义匹配等问题不稳定。MEMO通过将知识内化到模型参数中，避免了检索噪声，且推理成本不随文档量增长。对于需要处理大量中文文档（如法律、医疗、金融）的应用，这可能是一个更可靠的方案。
增量更新成本低：国内企业经常需要更新知识库（如政策法规、产品文档）。MEMO的模型合并机制允许以线性成本添加新知识，而无需重训整个系统，这对于持续运营的AI产品很有吸引力。

不过，MEMO目前仍处于研究阶段，训练MEMORY模型需要大量计算资源（实验中使用了8×H100 GPU），且合并后的性能与全量重训仍有差距（NarrativeQA上低11-19%）。中文社区可以关注其后续优化和开源实现。

几条值得记住的细节

MEMORY模型为Qwen2.5-14B-Instruct，EXECUTIVE模型可以是Qwen2.5-32B-Instruct或Gemini-3-Flash，且更换EXECUTIVE时无需重训MEMORY。
跨文档合成步骤是性能关键：消融后NarrativeQA准确率从24.00%降至6.37%。
推理时MEMORY模型响应长度与语料库规模无关，避免了RAG的线性增长问题。
在BrowseComp-Plus上，添加干扰文档后MEMO准确率变化仅+0.55%，而RAG方法下降超6%。
模型合并支持增量知识更新：K=10时节省5.5倍GPU时间，但性能比全量重训低11-19%。

一句话总结

MEMO通过独立记忆模型为LLM注入新知识，无需修改主模型参数，性能超越RAG且支持低成本增量更新，为中文开发者提供了一种更灵活的知识增强方案。