Fw: [分享] 因flux2与Z-image新玩具/首次安装ComfyUI avans PTT批踢踢实业坊

Fw: [分享] 因flux2与Z-image新玩具/首次安装ComfyUI

楼主: avans (阿纬) 2025-11-30 04:55:41

※ [本文转录自 AI_Art 看板 #1fArg07P ]
作者: avans (阿纬) 看板: AI_Art
标题: [分享] 因flux2与Z-image新玩具/首次安装ComfyUI
时间: Sun Nov 30 04:41:06 2025
多年来我一直都是忠贞的stable-diffusion-webui-forge玩家
未考虑使用舒适(ComfyUI)
其实只是因为懒得换环境(w
这次新推出的flux2与Z-image新玩具
本来还有参考在huggingface上面的FLUX.2-dev spaces专案
想在本地玩玩看
专案中是使用diffusers的Flux2Pipeline来加载模型与执行
不过不管是FLUX.2-dev-bnb-4bit还是flux2_dev_Q2_K.gguf
执行时都要耗费爆量的vram
完全无法运行
毕竟FLUX.2-dev有32B 参数
以前经验LLM超过8B不量化
执行起来就会很吃力了
后来在reddit看到ComfyUI 8GB VRAM + 18GB RAM usage
可在300~500秒生成一张图片
https://www.reddit.com/r/StableDiffusion/comments/1p6zmjv/
我不晓得ComfyUI是如何控制vram不会爆量
也许是model cpu offload之类的
总之我就开始了首次的ComfyUI安装
底下介绍给有打算安装ComfyUI的新手(我也是才玩1天而已)
1. 安装ComfyUI
首先在ComfyUI官网有执行档可以安装
在github中也有打包好的可携版本(包含python)
* 在github的README.md中也有介绍手动安装方式
https://github.com/comfyanonymous/ComfyUI/releases
因为我是3060 12G所以我选择
ComfyUI_windows_portable_nvidia_cu128.7z
* cu126, cu128这个是CUDA版本，12.6、12.8 or 13.0
下载后解压缩到任意目录中
里面会有run_nvidia_gpu_fast_fp16_accumulation.bat 档案
这会将模型以fp16精度方式来加速执行
品质稍微降低，不过无所谓
重要的是能降低vram用量
2. ComfyUI流程范本
之前我已知道ComfyUI执行方式
都必须透过连接节点制作对应功能的流程
不过我完全不晓得官方有内建多项流程范本
这有点惊艳到我
最新版本已经内建Flux.2 DEV了
https://i.meee.com.tw/Rq04OJB.png
使用官方范本的好处是会显示缺少的模型
并且可直接下载
https://i.meee.com.tw/rjv0BMT.png
不过这个范本是使用fp8精度模型
仍需使用巨量的vram
https://i.meee.com.tw/0kMjkDe.png
所以官方范本不适合我的环境
3. GGUF量化版本
后来在huggingface上面找到有提供flux2-dev的gguf档案
而且连text_encoders都是gguf量化版本
更棒的是连workflow流程档案都有
流程档案:
workflow-flux2-dev-gguf.json
或
workflow-demo-01.png
ComfyUI生成的图片本身都会崁入workflow
将json或图片拖曳至ComfyUI上面就会自动显示所需的节点
https://huggingface.co/gguf-org/flux2-dev-gguf
https://raw.githubusercontent.com/calcuis/comfy/master/flux2-dev.png
你所需要下载的档案有3个
文字编码器、模型档案、vae档案
下载后放置至对应的ComfyUI目录
drag cow to > ./ComfyUI/models/text_encoders/
drag flux2 to > ./ComfyUI/models/diffusion_models/
drag pig to > ./ComfyUI/models/vae/
gguf量化版本有q2、q3、q4、q5、q6、q8、iq4 (详细定义需要查一下)
我自己是下载底下三个来使用:
cow-mistral3-small-iq4_xs.gguf
flux2-dev-iq4_xs.gguf
pig_flux2_vae_fp32-f16.gguf
4. 必装套件ComfyUI Manager
https://github.com/Comfy-Org/ComfyUI-Manager
这个我一开始不晓得要安装
后来查询后才知道这绝对是所有ComfyUI使用者
都需要使用的重要套件
因为workflow的节点不会只有官方版本
民间设计的节点五花八门
缺少节点就完全无法执行
甚至还存在有所谓的私有节点
以RH开头的好像是runcomfy线上网站专用的
ex. RH_captioner、RH_LLMAPI_NODE...
如下图例子，缺少的节点会是红色框
https://i.meee.com.tw/9lQCHP9.png
而ComfyUI-Manager就是管理节点的强大工具
在安装该套件之前
需要确认系统已经有安装git软件
(git是程式开发的版控软件)
按照README.md说明方式:
使用cmd接口移动至ComfyUI/custom_nodes的路径，输入底下指定后再重启ComfyUI
git clone https://github.com/ltdrdata/ComfyUI-Manager comfyui-manager
https://i.meee.com.tw/EwJ56LX.png
重启后会在任意流程的上方出现如下图的接口
点选Manager按钮后，会跳出ComfyUI Manager选单
https://i.meee.com.tw/clLhtxa.png
目前我只会使用底下两个功能
(1) Custom Nodes Manager
在此页面中会搜寻网络上所有公开的节点
在上方也可由选单执行Filter过滤内容与搜寻特定目标
如下图默认是All会显示全部
https://i.meee.com.tw/HYSKruc.png
例如选择Installed，他就会列出已安装套件，可执行更新或移除
https://i.meee.com.tw/5MoKW16.png
* 可看到在Nodes字段中有的有写数字，这个是该套件内含的节点数量
(2) Install Missing Custom Nodes
点选此按钮后，其实出现的与上面页面相同
只是在过滤条件中是选Missing
https://i.meee.com.tw/LyqPcuC.png
https://i.meee.com.tw/elhKnvG.png
点安装按钮需要选择版本，没有喜好的话通常选最新的
安装后需要重启ComfyUI，节点才会生效
不过需要注意的是此功能只能找到7~9成的套件
因为有的节点名称与套件名称完全不同
这种就需要在网络上搜寻确认对应的套件名称
5. 介绍一下工作流程: workflow-flux2-dev-gguf
https://i.meee.com.tw/MWuEBdt.png
(1) 参考图
这个workflow已有设计两个参考图片，如果要更多参考图就需要自行串接:
加载图片1 => 将影像缩放至总像素数1 => VAE 编码1 => ReferenceLatent1
GGUF VAE Loader => VAE 编码1
加载图片2 => 将影像缩放至总像素数2 => VAE 编码2 => ReferenceLatent2
GGUF VAE Loader => VAE 编码2
这里要注意一下，图片红框处ReferenceLatent是红色的
这是什么意思? 原来作者好心(XD)帮你将参考图功能停用了
如底下Note写的内容，要用鼠标点一下节点，在按CTRL+B来启用节点
Note: Unbypass (CTRL-B) the ReferenceLatent nodes to give ref images.
Chain more of them to give more images.
我一开始也不晓得，想说参考图怎么都没作用，后来才注意到被关闭了
不过启用参考图，执行速度也会降低，所以也不能启用太多参考图
(2) 正向提示词
GGUF CLIP Loader => CLIP Text Encode (Positive Prompt) => FluxGuidance =>
ReferenceLatent1
因为CLIP是gguf量化版本，所以此处是使用GGUF CLIP Loader来加载
如果是标准的CLIP模型，就直接使用CLIPLoader
Flux2使用的Text Encode是参数非常庞大的Mistral-3 24B
本身能理解多语言，直接输入中、日语也完全没问题
待会还会介绍的Z-image也类似，他使用的Text Encode是Qwen3-4B
参数虽小许多，但是输入中、日语也没什么问题
仔细观察会看到ReferenceLatent1有参考图也有Prompt
然后两个ReferenceLatent还会串接在一起，再输出给引导器使用
ReferenceLatent1 => ReferenceLatent2
若ReferenceLatent未启用时(红色)
就只会给模型输入Positive Prompt而已
(3) 加载flux2模型与VAE
GGUF VAE Loader => VAE 解码 => 储存图片
GGUF Loader => 基础引导器 => SamplerCustomAdvanced => VAE 解码
ReferenceLatent2 => 基础引导器 => SamplerCustomAdvanced
因为我这里使用的是gguf量化版本
所以节点是GGUF Loader与GGUF VAE Loader
目前GGUF有两个套件
https://i.meee.com.tw/V6XuuCr.png
此工作流使用的是gguf
https://github.com/calcuis/gguf
(4) SamplerCustomAdvanced等节点
https://i.meee.com.tw/lUItSiB.png
Empty Flux 2 Latent => SamplerCustomAdvanced
随机噪声 => SamplerCustomAdvanced
K采样器选择 => SamplerCustomAdvanced
Flux2Scheduler => SamplerCustomAdvanced
这几个节点用途有玩过SD的应该都会知晓
就是设定输出宽高、批次大小、seed、取样器、生图步数(steps)
(5) 执行速度
我的环境3060 12G、批次大小2、1024x1024、steps 20
每个it约30秒左右，一张图约5分钟
100%|███████████████████| 20/20 [09:21<00:00, 28.08s/it]
网络上看到其他人跑的速度，好像5060ti 16gb会快一倍的样子
以上是目前玩玩flux2-dev与ComfyUI小心得
虽然出图速度非常慢，不过能在本地玩Nano Banana也是挺有趣的
____________
再来底下介绍一下Z-image
1. Z Image Turbo模型
目前已公布的是Z Image Turbo模型，参数为6B
与FLUX.1 [dev]同样为蒸馏模型(distilled diffusion model)
____________
https://github.com/Tongyi-MAI/Z-Image
底下是官方github中的模型介绍说明(Gemini翻译)
Z-Image 是一款强大且高效的图像生成模型，拥有 60 亿（6B）参数。
目前共有三种变体：
Z-Image-Turbo –
Z-Image 的蒸馏版本，仅需 8 次 NFE（函数评估次数）
即可达到甚至超越领先竞品的水准。
它在企业级 H800 GPU 上具备亚秒级的推理延迟，
并能轻松在 16G VRAM 的消费级装置上运行。
该模型在写实图像生成、中英双语文字绘制
以及强大的指令遵循能力方面表现出色。
Z-Image-Base –
非蒸馏的基础模型。借由释出此检查点（checkpoint），
我们旨在释放社群驱动微调与客制化开发的无限潜力。
Z-Image-Edit –
专为图像编辑任务而基于 Z-Image 进行微调的变体。
它支援具备出色指令遵循能力的创意“图生图”（image-to-image）生成，
能根据自然语言提示词进行精准的编辑。
____________
从说明中可看到Turbo版本只能文生图，
更具实用性的图生图尚须等待Z-Image-Edit推出。
____________
2. 模型与workflow
Turbo版本模型档案与workflow都在底下网页中可下载
ComfyUI_examples
https://comfyanonymous.github.io/ComfyUI_examples/z_image/
同样要下载文字编码器、模型档案、vae档案
下载后一样要放置至对应的ComfyUI目录
Text encoder file: qwen_3_4b.safetensors
(goes in ComfyUI/models/text_encoders/).
diffusion model file: z_image_turbo_bf16.safetensors
(goes in ComfyUI/models/diffusion_models/).
VAE: ae.safetensors the Flux 1 VAE if you don’t have it already
(goes in ComfyUI/models/vae/)
好像也有gguf版本，不过我就没试过了
因为一般版本跑起来轻轻松松
下图是workflow
https://i.meee.com.tw/LoQ3SYF.png
因为没有参考图，所以节点挺简单的
3. 执行速度
我的环境3060 12G、批次大小2、1024x1024、steps 9
每个it约2.35秒左右，一张图约10.5秒就完成
100%|███████████████████| 9/9 [00:21<00:00, 2.35s/it]
跟flux2比起来出图速度根本是飞天了
所以网络上很多人是期待Z Image能成为SDXL的接班模型
除了速度快之外还有一点很重要是模型授权
Z Image是Apache-2.0 license
FLUX.2 [dev]是非商业且非生产用途的授权(Non-Commercial License v2.0)
最后还有一点NFSW...中国模型xd

作者: attacksoil (击壤) 2025-11-30 08:13:00

好

作者: drice (冰影) 2025-11-30 08:21:00

好耶

作者: errantry34 (mondan) 2025-11-30 08:33:00

推详细解说

继续阅读