字节跳动开源Lance:3B参数统一模型,同时搞定图像视频理解、生成与编辑
字节跳动智能创作实验室发布Lance,一个仅3B激活参数的开源统一多模态模型,原生支持图像和视频的理解、生成与编辑。本文详解其架构、训练方法、性能表现,并分析对中文开发者和用户的实际意义。
一句话看懂
字节跳动开源Lance,一个仅3B激活参数的原生统一多模态模型,能同时处理图像和视频的理解、生成与编辑,性能超越多个更大规模的专用模型。
详细发生了什么
字节跳动智能创作实验室(Intelligent Creation Lab)发布了Lance,一个开源的原生统一多模态模型,能够在一个框架内同时处理图像和视频的理解、生成与编辑。Lance仅使用3B激活参数,却在多个基准测试中超越了更大规模的模型。
Lance的能力分为三大输出族:文本(X2T)、图像(X2I)和视频(X2V)。理解方面涵盖图像/视频描述、视觉问答、OCR、视觉定位和推理;生成方面包括文生图、文生视频、图生视频、主体驱动生成、图像编辑和视频编辑,甚至支持跨模态的多轮一致性编辑。
架构上,Lance基于两个核心原则:统一上下文建模和解耦能力路径。它将所有输入(文本、图像、视频)转换为共享的交错多模态序列,使用Qwen2.5-VL的ViT编码器提取语义视觉token,Wan2.2的3D因果VAE编码器将图像和视频编码为连续潜在表示。模型采用双流混合专家架构,理解专家(LLM_UND)处理文本和语义视觉token,生成专家(LLM_GEN)处理VAE潜在token,两者共享上下文但不竞争参数。
训练分为四个阶段:预训练(1.5T tokens)、持续训练(300B tokens)、监督微调(72B tokens)和强化学习(GRPO),总训练预算不超过128块GPU。
性能方面,Lance在GenEval上得分0.90,与TUNA并列统一模型第一;VBench总分85.11,超越所有统一模型和多个专用生成模型;GEdit-Bench得分7.30,在图像编辑任务中领先;MVBench得分62.0,同样领先其他统一模型。
中文圈视角
Lance对中文圈用户意义重大,原因有三:
-
开源且参数高效:Lance仅3B激活参数,相比Janus-Pro-7B(GenEval 0.80)和Show-o2 7B(0.76),Lance以更小参数达到更高性能。这意味着普通开发者甚至可以在消费级GPU(40GB VRAM以上)上运行,降低了多模态AI的入门门槛。
-
国产模型生态的里程碑:Lance基于Qwen2.5-VL和Wan2.2,都是国产开源模型。字节跳动将其开源(Apache 2.0),中文开发者可以直接在GitHub上获取代码和模型权重,无需依赖海外API。这对于国内AI应用开发、学术研究都是极大的利好。
-
中文场景的天然适配:Lance的OCR能力(使用PaddleOCR作为奖励模型)和文本渲染能力,使其在中文文档处理、海报生成、视频字幕编辑等场景有天然优势。相比海外模型对中文支持不足,Lance原生支持中文输入输出。
不过需注意,Lance目前需要至少40GB VRAM的GPU和CUDA 12.4+,国内用户使用国产GPU(如昇腾)可能需要适配。此外,模型虽开源,但训练数据是否包含中文内容尚不明确,中文场景的微调可能需要额外工作。
几条值得记住的细节
- 参数效率惊人:Lance仅3B激活参数,在GenEval上得分0.90,与7B级别的Janus-Pro-7B(0.80)和Show-o2(0.76)相比优势明显。
- 视频生成超越专用模型:VBench总分85.11,超越HunyuanVideo(83.43)和Wan2.1-T2V(83.69)。
- 图像编辑全面领先:GEdit-Bench得分7.30,在背景更换、材质修改、运动变化、人像美化、主体移除/替换、色调迁移等子任务中均排名第一。
- 训练成本可控:整个训练流程仅需128块GPU,对于大型互联网公司来说成本相对可控。
- 开源协议友好:采用Apache 2.0许可证,允许商用和修改。
一句话总结
Lance用3B参数证明,统一多模态模型可以既小又强,对中文开发者来说,这是一个值得立即上手尝试的开源利器。