Flux 模型怎么用?开源新王体验教程
Flux 模型怎么用?详解 Flux 画图、Flux dev、Flux 教程三大入门要点,开源文生图新王从零到出图的中文保姆教程
Flux 是 2024 年由 Black Forest Labs(前 Stable Diffusion 团队成员创立)开源的文生图模型系列,发布以来被社区称为「开源新王」——画质接近 Midjourney、文本理解远超 SD 系列、人体结构与手指准确率显著提升。一年时间里 Flux 已经成为 ComfyUI 和 Stable Diffusion 玩家的「必装新主力」。
这篇按「是什么 → 三个版本 → 怎么用 → 第一张图 → 进阶玩法 → 常见坑」6 段把 Flux 讲透。看完你能在自己电脑或在线服务跑出第一张 Flux 图,并知道它和 SDXL / SD 3 的取舍。
提醒:Flux 演化很快,新版本与生态变化频繁。本文基于截稿时社区共识。具体模型可用性、协议、定价以 blackforestlabs.ai 与 Hugging Face 官方仓库为准。
30 秒了解:Flux 是什么
Flux(Flux.1)是 Black Forest Labs 在 2024 年开源的文生图模型家族,主要包括三个版本:
| 版本 | 协议 | 体积 | 适合 |
|---|---|---|---|
| Flux.1 [pro] | 商业 API | 不开源 | 通过 API 调用,画质最高档 |
| Flux.1 [dev] | 非商业开源 | 约 23 GB | 个人玩家主力,社区生态最活跃 |
| Flux.1 [schnell] | Apache 2.0 商用友好 | 约 23 GB | 可商用、出图快(4 步出图) |
核心优势(相比 SDXL / SD 3):
- 文本理解远强:长 prompt、指代关系、空间关系都处理得更好
- 手指 / 人体结构准确率高:SD 系列的老大难被改善
- 图中嵌字能力强:能在图里直接生成可读的英文文字(中文还需 LoRA)
- 画质天花板高:氛围感和细节接近 Midjourney 入门档
- 生态融入快:ComfyUI、Forge、Diffusers 都已支持
适合谁
- 已经会用 SD / ComfyUI 的玩家升级换主力模型
- 追求人体准确性 + 文本理解的创作者
- 想要开源可商用画图模型的开发者([schnell] 版)
- 想要最强开源画质的极客
不适合谁
- 完全没用过 SD / ComfyUI 的纯小白(学习曲线和 SD 一样陡)
- 没有 NVIDIA 12GB+ 显卡的人(显存门槛比 SDXL 高)
- 只想点点鼠标出图的人(用在线服务更合适)
准备工作
硬件要求
| 部件 | 最低 | 推荐 |
|---|---|---|
| 显卡 | NVIDIA 12 GB | NVIDIA 16 GB+ |
| 显存 | 12 GB(紧) | 16 GB / 24 GB(舒适) |
| 内存 | 16 GB | 32 GB+ |
| 硬盘 | 50 GB(模型本身就 23 GB) | 100 GB+ SSD |
Flux 是显存大户——SDXL 12 GB 跑得动,Flux 12 GB 跑非常紧,真要舒服用建议 16 GB 起步。社区也有量化版本(FP8 / GGUF)能在 8 GB 显存跑,但质量略降。
三种主流使用方式
| 方式 | 难度 | 适合 |
|---|---|---|
| 在线服务(Replicate / fal.ai / RunDiffusion) | 低 | 试试看 / 偶尔用 |
| ComfyUI 本地(节点流) | 高 | 进阶玩家主力,工作流完整 |
| Forge / WebUI 本地 | 中 | 喜欢表单 UI 的玩家 |
新手起步推荐先用在线服务试 5-10 张,再决定要不要折腾本地部署。
详细操作步骤:方式一·在线服务
第 1 步:选一个在线平台
主流平台:
- fal.ai:实时出图、UI 现代
- Replicate:通用模型托管平台
- RunDiffusion:偏专业玩家
- Hugging Face Spaces:免费但慢,体验模型用
新手推荐 fal.ai —— 注册即用,体验最丝滑。
第 2 步:注册与充值
fal.ai 用 Google / GitHub 账号登录,通常给新用户免费额度。免费额度用完按调用量计费(每张几分到几毛美金,具体价格以平台当时为准)。
第 3 步:找 Flux 模型页
平台搜「flux」,会列出 [dev]、[schnell]、[pro] 三个变体。新手用 [schnell]——4 步出图、最快、最便宜。
第 4 步:写 prompt 出图
在模型页 prompt 框写:
A cute orange cat sitting by a window, soft morning light coming from the left, photorealistic, 8k, highly detailed
参数:
- Steps(步数):[schnell] 设 4,[dev] 设 20-28
- CFG / Guidance scale:[schnell] 设 0(或 1),[dev] 设 3-5
- Size:1024×1024 起步
- Seed:-1(随机)
点 Run 出图,约 5-30 秒得到结果。
[此处放截图:fal.ai Flux 出图结果]
第 5 步:下载与分享
出图后可直接下载到本地。fal.ai 默认提供输出图永久 URL,方便分享或集成到自家产品。
详细操作步骤:方式二·ComfyUI 本地
第 1 步:装好 ComfyUI
没装过的人先看 ComfyUI 教程 把基础玩通。
第 2 步:下载 Flux 模型文件
到 Hugging Face:
- 仓库
black-forest-labs/FLUX.1-dev(需要先在网页接受协议) - 或
black-forest-labs/FLUX.1-schnell(可商用)
下载文件:
flux1-dev.safetensors(约 23 GB)或flux1-schnell.safetensorsae.safetensors(VAE,约 335 MB)clip_l.safetensors和t5xxl_fp16.safetensors(文本编码器)
放置位置:
ComfyUI/models/unet/← Flux 主模型ComfyUI/models/vae/← VAEComfyUI/models/clip/← 两个 text encoder
第 3 步:加载官方工作流
ComfyUI 自带 Flux 工作流模板。菜单 → Workflow → Browse Templates → Flux,选基础工作流加载。
[此处放截图:ComfyUI Flux 工作流]
工作流节点结构通常是:
Load Diffusion Model → DualCLIPLoader → Flux Sampler → VAE Decode → Save
第 4 步:填 prompt 出图
在 CLIP Text Encode 节点写 prompt:
A photorealistic portrait of a woman wearing a white blouse, soft window light, shallow depth of field, 35mm film photography, highly detailed
参数(节点上调):
- Sampler:euler
- Scheduler:simple
- Steps:[schnell] 4 / [dev] 20-28
- CFG:[schnell] 1 / [dev] 3.5
点 Queue Prompt 出图,RTX 4090 约 5-10 秒,RTX 3060 约 30-60 秒。
第 5 步:加 LoRA / 进阶
Flux 的 LoRA 生态正在快速生长。Civitai 已经有几百个 Flux LoRA:
- 风格 LoRA(油画、电影、3D 风格)
- 人物 LoRA(公众人物相似度训练,注意肖像权)
- 概念 LoRA(特定材质、构图)
调用方式:在 ComfyUI 加 LoRA Loader 节点,串到 Flux 主模型节点之间。
5 个 Flux 进阶技巧
技巧 1:用「长描述」充分发挥文本理解
Flux 文本理解远超 SD 系列,长 prompt 不再是负担。试试这种段落式 prompt:
A cozy ramen shop in a Tokyo alley at night. The shop has warm yellow lanterns
glowing above the entrance, with steam rising from the open kitchen window.
A middle-aged chef in a white apron is preparing noodles, while two customers
sit at the counter. Outside, rain falls softly on the wet pavement, reflecting
the neon signs of nearby shops. Cinematic 35mm photography, film grain,
warm color palette, shallow depth of field.
SDXL 大概率会丢一些元素,Flux 能基本还原。
技巧 2:图中嵌英文文字
Flux 是少数能在图里生成可读英文文字的开源模型。试试:
A vintage bookstore window with a sign that reads
"WELCOME TO PAGE ONE" in elegant gold lettering.
出图通常能正确写出 “WELCOME TO PAGE ONE”(中文还得靠 LoRA)。
技巧 3:[schnell] 用于批量 + [dev] 用于精修
最优工作流:
- 用 [schnell](4 步、便宜、快)批量出 100 张概念图
- 选 5 张最满意的
- 用 [dev](28 步、精细)重跑这 5 张
- 出最终成品
单图成本和时间都最优。
技巧 4:用 Forge UI 简化体验
不想学 ComfyUI 节点流的人可以装 Forge(基于 AUTOMATIC1111 WebUI 的优化版本,原生支持 Flux)。UI 像 SD WebUI 一样表单式,参数填好点 Generate 即可,对从 SD WebUI 转过来的人零门槛。
技巧 5:训自己的 Flux LoRA
Flux LoRA 训练已经成熟。工具链:
- Kohya_ss GUI 已支持 Flux 训练(详见 LoRA 训练教程)
- 显存要求:24 GB(紧),社区 LoRA 压缩方案能降到 16 GB
- 训练数据:和 SD LoRA 类似,15-50 张高质量图 + 打 tag
常见坑 + 解决办法
| 现象 | 原因 | 解决 |
|---|---|---|
| ComfyUI 报 out of memory | 显存不够 | 用 fp8 / GGUF 量化版 / 减小分辨率 |
| 出图速度比 SDXL 慢很多 | Flux 模型本身大 | 这是正常的,[schnell] 比 [dev] 快 5-7 倍 |
| Hugging Face 下不到模型 | 没接受协议 | 在 Flux 仓库页点 Accept license |
| 文本编码器没找到 | t5xxl 路径不对 | 放到 ComfyUI/models/clip/ 目录 |
| 出图风格偏「商业感」 | Flux 默认审美偏向 | 加风格词或用 LoRA 风格化 |
| 中文 prompt 出图歪 | Flux 主要训英文 | 用 GPT / 豆包翻成英文 prompt |
| [dev] 商用被警告 | 协议限制 | 商用换 [schnell](Apache 2.0)或买 [pro] API |
| LoRA 调用没效果 | LoRA 不是给 Flux 训的 | 确认是 Flux 专用 LoRA(不通用于 SD) |
实战案例:用 Flux 做一张电影感人像
下面给一个完整的电影感写实人像 prompt + 参数模板:
Flux [dev] - 电影感写实人像实战模板
工具:ComfyUI + Flux.1 [dev] 模型
正向 prompt(英文): A close-up cinematic portrait of a young woman with long auburn hair, wearing a beige wool sweater, sitting in a sunlit cafe by a large window. Soft golden hour light streaming from the right side, creating warm highlights on her face. She has a gentle introspective expression, looking slightly off-camera. The background shows a blurred bookshelf with vintage books. Shot on Kodak Portra 400 film, 85mm f1.4 lens, shallow depth of field, film grain, warm color palette, photorealistic, highly detailed, professional photography.
参数设置:
- Sampler: euler
- Scheduler: simple
- Steps: 28
- CFG / Guidance scale: 3.5
- Width x Height: 832 x 1216(竖版人像)
- Seed: -1(随机)
ComfyUI 工作流:
- Load Diffusion Model 节点选 flux1-dev.safetensors
- DualCLIPLoader 节点选 clip_l.safetensors + t5xxl_fp16.safetensors
- CLIP Text Encode 节点贴 prompt
- KSampler 设以上参数
- VAE Decode + Save Image
预期效果:
- RTX 4090 约 8-12 秒出图
- RTX 3060 约 60-90 秒出图
- 画质接近 Midjourney 入门档
- 人脸 / 手部准确率明显优于 SDXL
后续优化方向:
- 加风格 LoRA 进一步风格化
- 用同 seed 调 prompt 出系列图
- 用 Flux Redux 工具做风格迁移
- 训自家 LoRA 锁定特定人物 / 风格
跑通这套你就进入 Flux 玩家阵营——之后能从 Civitai 直接抄成熟工作流,能力上限和 Midjourney 用户在同一档。
Flux vs 其他主流文生图模型
| 维度 | Flux | SDXL | SD 3.5 | Midjourney v6 |
|---|---|---|---|---|
| 开源 / 闭源 | 开源(dev/schnell) | 开源 | 开源 | 闭源 |
| 显存需求 | 12-16 GB | 6-8 GB | 12 GB | 不需本地 |
| 画质天花板 | 极高 | 高 | 高 | 极高 |
| 文本理解 | 极强 | 中 | 强 | 强 |
| 图中文字 | 强(英文) | 弱 | 强 | 中 |
| 人体准确 | 强 | 中 | 强 | 强 |
| 商用许可 | schnell 可商用 | 看微调模型 | 看协议 | Pro 起 |
| 社区生态 | 快速生长 | 最庞大 | 中 | 不需 |
| 上手难度 | 中(同 SD) | 中 | 中 | 低 |
整体格局:
- 想要最强画质 + 开源:Flux
- 想要最庞大社区资源:SDXL(LoRA 几万、ControlNet 完备)
- 想要零门槛极致画质:Midjourney
- 想要简单出图免折腾:即梦 AI / 文心一格
一个判断「我该上 Flux 吗」的 prompt
把下面发给豆包 / DeepSeek / ChatGPT,帮你判断:
我在考虑要不要把主力 AI 画图换到 Flux,请帮我做一个具体判断。
我的情况:
- 我现在用的工具:「SD WebUI / ComfyUI / Midjourney / 即梦 / 文心一格 / 没用过 SD」
- 我的显卡:「具体型号,如 RTX 3060 12GB / RTX 4070 16GB / 没独显」
- 我的主要用途:「日常出图玩 / 自媒体配图 / 商业项目 / 学术研究 / 开发自家产品」
- 我对画质要求:「能用就行 / 中等以上 / 必须顶级」
- 我对学习成本接受度:「能花 2-4 小时折腾 / 只想立刻能用」
- 我对商用授权关心程度:「不商用 / 偶尔商用 / 重度商用」
请帮我:
- 给一个明确判断:上 Flux / 继续用现有工具 / 用 Flux 在线服务而非本地
- 推荐我用 Flux 的哪个版本:[dev] / [schnell] / [pro] API
- 推荐我用什么界面:ComfyUI / Forge / 在线服务
- 给一个新手起步 prompt 模板
- 提醒我有什么坑要注意
请直接给一个明确判断,不要让我自己选。
九成情况下得到的建议会落在:「显卡够 + 已会 SD → 上 [dev] 用 ComfyUI;显卡不够或不会 SD → 先用 fal.ai 在线试 → 重度用再考虑本地」。
进阶 / 下一步
- Stable Diffusion 本地部署 - SD 基础(Flux 的前置)
- ComfyUI 教程 - Flux 主流玩法
- LoRA 训练教程 - 训自己的 Flux LoRA
- Midjourney 教程 - 闭源对照组
- AI 画图选哪个 - 完整选型决策
- AI 画图教程 - 回 ai-image 总览
最后一句忠告:Flux 是 2024-2026 这两年开源文生图最重要的进化——不是「锦上添花」,是**「能力上限直接抬高一档」**。如果你已经会 SD、显卡够,直接换 Flux 主力没毛病;如果你刚入门,先用在线服务试 5-10 张看看是否值得为它折腾本地。