Stable Diffusion 本地部署保姆教程(Windows)
Stable Diffusion 本地部署怎么做?详解 SD 部署、SD 本地、SD WebUI 三种主流方案,Windows 显卡环境从零到出图全流程教程
Stable Diffusion 是目前开源画图领域的事实标准——免费、本地跑、模型生态最丰富、二次创作自由度最高。代价是:对硬件有要求 + 部署有学习成本。
这篇按「硬件确认 → 选方案 → 安装环境 → 下载模型 → 启动 WebUI → 第一张图 → 常见坑」7 步走一遍 Windows 本地部署全流程。看完你能在自己电脑上跑出第一张 Stable Diffusion 图。
提醒:本文以 Windows + NVIDIA 显卡为主线。Mac 用户用 Diffusers / Draw Things 等专门方案,AMD 用户能装但兼容性差,没独立显卡的用 CPU 模式可以跑但慢到不实用。
30 秒了解:Stable Diffusion 是什么
Stable Diffusion 是 Stability AI 在 2022 年开源的文生图扩散模型,从 SD 1.5 → SDXL → SD 3.x 持续迭代,目前社区仍是最活跃的开源画图生态。
核心特征:
- 开源免费:模型可以下载到本地,自己跑
- 本地运行:数据不出本地、断网能画、隐私 100%
- 生态最丰富:LoRA、ControlNet、各种 checkpoint 模型几万个
- 可商用:基础模型 CreativeML Open RAIL-M 协议允许商用(具体看每个微调模型自己的协议)
- 学习曲线陡:相对 Midjourney / 即梦上手难度高
三种主流的「Stable Diffusion 使用方式」
| 方案 | 复杂度 | 适合 |
|---|---|---|
| AUTOMATIC1111 WebUI(这篇主讲) | 中等 | 个人学习、新手起步 |
| ComfyUI(节点式工作流) | 高 | 进阶 / 工作流定制 |
| 在线服务 / 云端(如 RunDiffusion、TensorArt) | 低 | 不想折腾硬件 |
本文聚焦最普及的 AUTOMATIC1111 WebUI 本地部署。进阶节点式玩法看 ComfyUI 教程。
准备工作:硬件与软件确认
硬件最低要求
| 部件 | 最低 | 推荐 | 备注 |
|---|---|---|---|
| 显卡(GPU) | NVIDIA 4GB 显存 | NVIDIA 8GB+ 显存 | 核心瓶颈,AMD 兼容性差 |
| 显存 | 4GB | 8GB / 12GB / 16GB | 显存大=能跑更大模型 |
| 内存(RAM) | 8GB | 16GB+ | 影响多任务 |
| 硬盘 | 30GB 空间 | 100GB+ SSD | 模型每个 2-7GB,多了占空间 |
| CPU | 中端 | 中高端 | 不是瓶颈 |
| 系统 | Windows 10 | Windows 10/11 | Mac 用其他方案 |
没有 NVIDIA 显卡? 三个出路:① 升级硬件 ② 用云端服务(如 [Stable Diffusion 在线版] 关键词搜)③ 用其他更友好的工具如 即梦 AI。
显卡显存对应的可玩范围
| 显存 | 能玩的模型 | 体验 |
|---|---|---|
| 4GB | SD 1.5(基础) | 勉强能跑、慢 |
| 6GB | SD 1.5 + 小 LoRA | 基础够用 |
| 8GB | SDXL 基础 | 新手主力档 |
| 12GB | SDXL + ControlNet | 舒适 |
| 16GB+ | SD 3.x + 复杂工作流 | 专业档 |
| 24GB | Flux 等最新大模型 | 顶配 |
软件准备
- Windows 10 或 11
- 一个浏览器(Chrome / Edge 都行)
- 一个稳定的网络(下载模型几 GB 起步)
- 会用命令行的基本概念(至少认识 cmd 窗口)
详细操作步骤
第 1 步:安装 Python 3.10
Stable Diffusion WebUI 当前主流要求 Python 3.10(不是 3.11 或 3.12,版本号一定要对)。
- 打开 python.org/downloads → 找 Python 3.10.x 版本(具体小版本以官网当时可用为准)
- 下载 Windows installer (64-bit)
- 安装时务必勾选 Add Python to PATH(最关键的一步)
- 安装完成后打开 cmd,输入
python --version确认版本
[此处放截图:Python 安装界面,红框标注 Add to PATH 勾选位置]
如果你电脑已经有其他 Python 版本,建议用 venv / pyenv 隔离,避免环境污染。
第 2 步:安装 Git
Git 用来从 GitHub 拉取 WebUI 源代码。
- 打开 git-scm.com/downloads → 下载 Windows 版
- 一路下一步安装,默认设置即可
- 安装完打开 cmd 输入
git --version确认
第 3 步:克隆 AUTOMATIC1111 WebUI
选一个英文路径的文件夹(避免中文路径,否则可能报错),比如 D:\AI\sd-webui。
打开 cmd,cd 到这个文件夹,执行:
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
完成后会有一个 stable-diffusion-webui 文件夹,几百 MB。
[此处放截图:cmd 里 git clone 完成]
第 4 步:下载第一个模型
模型是 SD 的「画风核心」。新手起步推荐先下一个经典 SD 1.5 模型 试水。
- 打开模型站点(如 civitai.com / huggingface.co/stabilityai)
- 找 「sd-v1-5-pruned.safetensors」 或者社区微调的写实 / 动漫模型
- 下载到本地(文件 4-7GB)
- 放到
stable-diffusion-webui\models\Stable-diffusion\文件夹下
[此处放截图:模型文件放置位置目录]
Civitai 上的模型分写实派(如 RealisticVision、ChilloutMix 系列名称)和动漫派(如 Counterfeit、AnythingV5 系列),按自己审美喜好选 1-2 个起步。
第 5 步:启动 WebUI
回到 stable-diffusion-webui 文件夹,双击 webui-user.bat 启动。
第一次启动会自动下载依赖(约 5-10 GB),全程要联网,约 10-30 分钟。
[此处放截图:cmd 里 WebUI 启动日志]
启动成功后 cmd 会显示类似:
Running on local URL: http://127.0.0.1:7860
打开浏览器输入这个地址,看到 WebUI 界面即成功。
[此处放截图:AUTOMATIC1111 WebUI 主界面]
第 6 步:画第一张图
WebUI 顶部默认是 txt2img(文生图)标签。
操作:
- 左上 prompt 框:输入正向描述,如
a cute orange cat sitting on window, soft morning light, photorealistic, 8k - negative prompt 框:输入不想出现的内容,如
low quality, blurry, deformed - Sampling method:保持默认(DPM++ 2M Karras 是常用平衡选项)
- Sampling steps:20-30(步数越多越精细但越慢)
- Width / Height:512×512(SD 1.5)或 1024×1024(SDXL)
- CFG Scale:7(控制 prompt 服从度,7-12 是常用区间)
- Batch count:1(一次出几组)
- 点 Generate 出图
第一张图通常 30 秒到 2 分钟出(取决于显卡)。出图后自动保存到 outputs\txt2img-images\ 文件夹。
[此处放截图:第一张出图结果]
第 7 步:进阶——加 LoRA / ControlNet
WebUI 装好后,装一些扩展才能解锁完整潜力:
- LoRA:「微调风格 / 角色」的小模型,从 civitai 下载放到
models\Lora\下,在 prompt 里用<lora:文件名:权重>调用 - ControlNet:「用一张参考图控制构图 / 姿势 / 边缘」的强大插件,从 Extensions 标签搜安装
- VAE:「画质增强」模块,部分模型自带需要单独配套 VAE
这些每个都能写一篇专门教程,先把基础流跑通再玩扩展。
5 个 SD 新手必知的进阶技巧
技巧 1:参数模板新手起步公式
不知道怎么设参数?背下这个保守公式:
- 模型:写实选 RealisticVision,动漫选 AnythingV5(举例)
- Sampler:DPM++ 2M Karras
- Steps:25
- CFG:7
- Width × Height:512×768(人像)或 768×512(横屏)
- Hires fix:开启,放大到 2 倍
跑这套80% 的图能开局不歪。等你拍出问题再针对性调参。
技巧 2:Negative prompt 的「万能公式」
很多人忘了写 negative prompt。一个常用模板:
low quality, worst quality, blurry, deformed, ugly, bad anatomy, extra fingers, mutated hands, watermark, signature, text
这段抄进去能避开 80% 的”AI 味烂图”。
技巧 3:种子(Seed)锁定调参法
你画出一张「构图不错但细节不对」的图,记下它的 Seed 号(图旁边显示),下次:
- Seed 填同一个数字
- 改 prompt 里要修的部分
- 重新出图 = 同样构图 + 你想要的修改
这是 SD 比闭源工具强的地方——完全可复现。
技巧 4:Hires fix 出 2K 图
WebUI 默认出 512×512,画质和细节不够现代审美。开启 Hires fix:
- 勾选 Hires fix → 选 R-ESRGAN 4x+ 之类的放大算法
- Upscale 设 2.0
- Denoising strength 设 0.3-0.5
出图自动是 1024×1024 或更大,细节远超原生 512。
技巧 5:用 Civitai 抄成熟 prompt
Civitai 每张图都附带作者用的完整 prompt + 参数。新手起步直接抄成熟作品比自己摸索快 10 倍:
- 看到喜欢的图 → 点开看详情 → 复制 prompt 和参数
- 在自己 WebUI 复刻一遍
- 出图差不多后再改细节
常见坑 + 解决办法
| 现象 | 原因 | 解决 |
|---|---|---|
| 启动报错 CUDA out of memory | 显存不够 | 减小图片分辨率 / 减小 Batch size / 加 --medvram 启动参数 |
| Python 找不到 | 没勾 Add to PATH | 重装 Python 时务必勾 |
| 下载依赖卡住 | 网络问题 | 用代理 / 镜像源 |
| 模型放进去 WebUI 看不到 | 路径不对 / 没刷新 | 确认在 models\Stable-diffusion\ 下,WebUI 点刷新 |
| 出来的图全黑 | VAE 不匹配 / fp16 问题 | 启动参数加 --no-half-vae |
| 出图速度太慢 | 显卡太弱 | 升级硬件 / 用云端 / 换 更易用的工具 |
| 中文路径报错 | SD 不支持中文路径 | 整个安装文件夹路径全英文 |
| 启动 WebUI 后无 URL | 端口被占 / 防火墙 | 改启动参数 --port 7861 换端口 |
实战案例:跑通一张高质量写实人像
下面给一个从安装到出图的完整 prompt + 参数模板:
Stable Diffusion 实战 - 高质量写实人像
模型选择: RealisticVision V5.x 或类似写实派 checkpoint(从 civitai 下载)
正向 prompt: RAW photo, a beautiful young woman with long brown hair, wearing a beige sweater, sitting in a cozy cafe by the window, soft morning light coming from the left, looking at camera with a gentle smile, 35mm photography, Kodak film, shallow depth of field, highly detailed, 8k uhd, masterpiece, best quality
Negative prompt: low quality, worst quality, blurry, deformed, ugly, bad anatomy, extra fingers, mutated hands, watermark, signature, text, cartoon, anime, 3d render
参数设置:
- Sampling method: DPM++ 2M Karras
- Sampling steps: 28
- Width × Height: 512 × 768
- CFG Scale: 7
- Seed: -1(随机)
- Hires fix: ON
- Upscaler: R-ESRGAN 4x+
- Upscale by: 2.0
- Denoising strength: 0.4
操作流程:
- WebUI 里粘贴以上 prompt 和参数
- 点 Generate 出图
- 出来 4 张选 1 张满意的
- 记下满意那张的 Seed 号
- 用同样 Seed + 微调 prompt 进一步精修
- 满意后图自动保存到 outputs 文件夹
预期结果: 约 1-2 分钟出一张 1024×1536 的高质量人像 画质接近 Midjourney 入门水平 后续可用 LoRA 进一步加风格
第一张图跑出来后,接下来的乐趣才真正开始——SD 的核心价值不是「画一张」,是**「无限自定义、完全控制、零成本试错」**。
Stable Diffusion vs 其他工具的取舍
| 维度 | Stable Diffusion 本地 | Midjourney | 即梦 AI | GPT Image |
|---|---|---|---|---|
| 上手难度 | 高 | 高(Discord) | 低 | 最低 |
| 长期成本 | 0(一次性硬件) | 月费 $10+ | 免费起步 | Plus $20/月 |
| 可定制度 | 极高 | 低 | 中 | 中 |
| 隐私 | 本地 100% | 公开(除非 Stealth) | 走云 | 走云 |
| 商用授权 | 看模型协议 | Pro 起 | 看协议 | Plus 含 |
| 适合人群 | 极客 / 创作者 / 设计师 | 重度视觉创作 | 自媒体 | 偶尔用 |
详细对比看 AI 画图选哪个 和 Midjourney 教程。
一个判断「我要不要装本地 SD」的 prompt
把下面发给豆包 / DeepSeek / ChatGPT,帮你判断:
我在考虑要不要装 Stable Diffusion 本地版,请帮我做一个具体判断。
我的情况:
- 我的显卡:「具体型号,如 RTX 3060 8GB / RTX 4070 12GB / 没有独显 / 不清楚」
- 我的目的:「学习探索 / 商用客户图 / 隐私敏感(不能上云)/ 单纯好玩 / 二次元创作」
- 我每周大约画多少图:「5 张以内 / 5-20 张 / 20+ 张 / 几百张」
- 我对学习成本的接受度:「能花 1-2 周折腾 / 只想立刻就能用 / 介于之间」
- 我目前用的工具:「Midjourney / 即梦 / ChatGPT / 没用过」
请帮我:
- 给一个明确判断:装 / 不装 / 先用云端试再决定
- 如果装,推荐的方案是 WebUI 还是 ComfyUI
- 如果不装,推荐替代方案
- 提醒我有什么坑要注意
请直接给一个明确判断,不要让我做选择题。
九成新手得到的建议会是:「先用 Midjourney / 即梦熟悉文生图玩法,发现卡瓶颈了再上 SD」。这就对了——SD 是工具的天花板,但不是入门工具。
进阶 / 下一步
- ComfyUI 入门教程 - 节点式工作流玩法
- Midjourney 怎么用 - 闭源天花板对比
- 即梦 AI 怎么用 - 国产免费替代
- GPT Image 教程 - ChatGPT 内置画图
- AI 画图选哪个 - 完整选型决策
最后一句忠告:SD 是「会越用越爽」的工具,但前 1-2 周非常劝退。如果你打算长期做 AI 视觉创作 / 客户项目 / 二次元同人,这个学习成本值得;如果只是偶尔出图,直接用 即梦 AI 或 ChatGPT 内画图 更划算。