ComfyUI中使用GGUF模型降低显存占用教程

清夏晚风

ComfyUI中使用GGUF模型降低显存占用教程

什么是GGUF格式

GGUF(GPT Generative Unified Format)是一种专门用于大语言模型推理的模型文件新格式,具有以下优势:

  • 兼容性更好:支持更多模型结构
  • 信息更丰富:文件内可保存模型结构、参数、词表等元数据
  • 体积优化:支持多种量化方式,缩小文件体积
  • 生态广泛:被Ollama、llama.cpp、ComfyUI等多个AI工具支持

准备工作

1. 下载GGUF模型

FLUX Kontext模型的GGUF版本可以从魔搭社区下载:
https://www.modelscope.cn/models/QuantStack/FLUX.1-Kontext-dev-GGUF/files

  • 下载所需量化等级的模型(flux1-kontext-dev-Q4_K_S.gguf)
  • 下载ae.safetensors模型

根据显存大小选择合适的模型:
量化等级与显存关系

  • 显存较小:选择Q2、Q4等小体积模型
  • 显存较大:可选择Q6、Q8等更高质量模型
  • 模型大小从4.02GB到23.8G不等

下载完成后,将模型文件放入ComfyUI\models\unet文件夹中。

2. 安装GGUF插件

需要安装专门的插件来加载GGUF模型:

方法一:通过ComfyUI Manager安装

  1. 打开ComfyUI,点击右上角的Manager按钮
  2. 选择节点管理
  3. 搜索”ComfyUI-GGUF”
  4. 选择Star数量最多的插件,点击Install安装
  5. 安装完成后重启ComfyUI

方法二:手动安装

插件地址:https://github.com/city96/ComfyUI-GGUF.git
在ComfyUI\custom_nodes目录执行:

1
git clone https://github.com/city96/ComfyUI-GGUF.git

配置工作流

1. 添加GGUF节点

重启ComfyUI后:

  1. 双击工作流空白处
  2. 输入”GGUF”搜索相关节点
  3. 选择并添加”Unet Loader”节点
  4. 如果之前已放置模型,记得刷新节点定义

2. 连接节点

  1. 将原先连接到”Load Diffusion Model”的线断开
  2. 连接到新添加的”Unet Loader”节点
  3. 在Unet Loader节点中通过unet_name选择下载的GGUF模型

3. 优化CLIP加载器(可选)

为进一步节省显存,可以替换CLIP加载器:

  1. 使用GGUF格式的CLIP模型(如”t5-v1_1-xxl-encoder-gguf”)
  2. 同样从上述魔搭社区 city96/t5-v1_1-xxl-encoder-gguf仓库下载
  3. 选择数字较小的模型文件以节省显存

显存占用情况

根据测试,使用GGUF模型后显存占用显著降低:

  • 系统其他软件约占用3GB显存
  • FLUX模型实际使用约7.5GB显存
  • 理论上8GB显存可以勉强运行
  • 12GB显存可以轻松驾驭

注意事项

  1. 模型质量:较小尺寸的模型可能会有轻微质量损失,但整体效果可接受
  2. 刷新节点:添加新模型后如未显示,需刷新节点定义
  3. 测试案例:在汽车换色等测试中,最小尺寸模型仍能完成主要任务
  4. 性能优化:可进一步研究加速方案,据说能将生成时间缩短至20-30秒/张

通过以上步骤,您可以在显存有限的设备上运行FLUX等大型模型,享受AI图像生成的乐趣。

  • Title: ComfyUI中使用GGUF模型降低显存占用教程
  • Author: 清夏晚风
  • Created at : 2025-12-20 00:00:00
  • Updated at : 2026-01-13 16:48:23
  • Link: https://blog.kimikkorow.eu.org/AI相关工具/图片生成/ComfyUI/01.GGUF/
  • License: This work is licensed under CC BY-NC-SA 4.0.