字节跳动开源Lance：3B参数统一模型，同时搞定图像视频理解、生成与编辑

一句话看懂

字节跳动开源Lance，一个仅3B激活参数的原生统一多模态模型，能同时处理图像和视频的理解、生成与编辑，性能超越多个更大规模的专用模型。

详细发生了什么

字节跳动智能创作实验室（Intelligent Creation Lab）发布了Lance，一个开源的原生统一多模态模型，能够在一个框架内同时处理图像和视频的理解、生成与编辑。Lance仅使用3B激活参数，却在多个基准测试中超越了更大规模的模型。

Lance的能力分为三大输出族：文本（X2T）、图像（X2I）和视频（X2V）。理解方面涵盖图像/视频描述、视觉问答、OCR、视觉定位和推理；生成方面包括文生图、文生视频、图生视频、主体驱动生成、图像编辑和视频编辑，甚至支持跨模态的多轮一致性编辑。

架构上，Lance基于两个核心原则：统一上下文建模和解耦能力路径。它将所有输入（文本、图像、视频）转换为共享的交错多模态序列，使用Qwen2.5-VL的ViT编码器提取语义视觉token，Wan2.2的3D因果VAE编码器将图像和视频编码为连续潜在表示。模型采用双流混合专家架构，理解专家（LLM_UND）处理文本和语义视觉token，生成专家（LLM_GEN）处理VAE潜在token，两者共享上下文但不竞争参数。

训练分为四个阶段：预训练（1.5T tokens）、持续训练（300B tokens）、监督微调（72B tokens）和强化学习（GRPO），总训练预算不超过128块GPU。

性能方面，Lance在GenEval上得分0.90，与TUNA并列统一模型第一；VBench总分85.11，超越所有统一模型和多个专用生成模型；GEdit-Bench得分7.30，在图像编辑任务中领先；MVBench得分62.0，同样领先其他统一模型。

中文圈视角

Lance对中文圈用户意义重大，原因有三：

开源且参数高效：Lance仅3B激活参数，相比Janus-Pro-7B（GenEval 0.80）和Show-o2 7B（0.76），Lance以更小参数达到更高性能。这意味着普通开发者甚至可以在消费级GPU（40GB VRAM以上）上运行，降低了多模态AI的入门门槛。
国产模型生态的里程碑：Lance基于Qwen2.5-VL和Wan2.2，都是国产开源模型。字节跳动将其开源（Apache 2.0），中文开发者可以直接在GitHub上获取代码和模型权重，无需依赖海外API。这对于国内AI应用开发、学术研究都是极大的利好。
中文场景的天然适配：Lance的OCR能力（使用PaddleOCR作为奖励模型）和文本渲染能力，使其在中文文档处理、海报生成、视频字幕编辑等场景有天然优势。相比海外模型对中文支持不足，Lance原生支持中文输入输出。

不过需注意，Lance目前需要至少40GB VRAM的GPU和CUDA 12.4+，国内用户使用国产GPU（如昇腾）可能需要适配。此外，模型虽开源，但训练数据是否包含中文内容尚不明确，中文场景的微调可能需要额外工作。

几条值得记住的细节

参数效率惊人：Lance仅3B激活参数，在GenEval上得分0.90，与7B级别的Janus-Pro-7B（0.80）和Show-o2（0.76）相比优势明显。
视频生成超越专用模型：VBench总分85.11，超越HunyuanVideo（83.43）和Wan2.1-T2V（83.69）。
图像编辑全面领先：GEdit-Bench得分7.30，在背景更换、材质修改、运动变化、人像美化、主体移除/替换、色调迁移等子任务中均排名第一。
训练成本可控：整个训练流程仅需128块GPU，对于大型互联网公司来说成本相对可控。
开源协议友好：采用Apache 2.0许可证，允许商用和修改。

一句话总结

Lance用3B参数证明，统一多模态模型可以既小又强，对中文开发者来说，这是一个值得立即上手尝试的开源利器。