在 RTX 5090 上的 ComfyUI 中进行稳定扩散 XL(SDXL 基础版 + 精炼版)基准测试

在本基准测试中,我们测试了在配备 RTX 5090 GPU 服务器的 ComfyUI 上运行的 Stable Diffusion XL (SDXL) Base + Refiner。目标是测量使用 ComfyUI 基于免费工作流的界面进行高分辨率 AI 图像创建时的图像生成速度、显存占用率以及整体体验。

测试概述

服务器配置:

  • GPU: NVIDIA RTX 5090 (32 GB VRAM)
  • CPU: 双 Intel Xeon E5-2697 v4(36 核,72 线程)
  • 256GB 内存
  • 240GB SSD + 2TB NVMe + 8TB SATA
  • 操作系统: Windows 11

模型:

工作流程和设置

我们选择了 SDXL Base + Refiner 工作流模板,该模板运行基础模型执行初始步骤,并运行精炼模型执行最终的细节增强。

生成设置:

  • 分辨率: 1024 × 1024
  • 步骤:共 25 步
  • 精炼结束步骤:20(精炼运行最后 5 个步骤)
  • 采样器:默认(Euler 或 DPM++ 取决于模板)
  • 批次大小:已测试 1 和 4(同时生成的图像数量)
  • 精度:fp16(ComfyUI 中自动设置)

绩效结果

批次大小VRAM 峰值使用率每项工作的时间输出计数
1~75% (~24 GB)6.21秒1张图片
4100% (~32 GB)15.11秒4张图片
sd-refiner-comfyui-5090
sd-refiner-comfyui-5090-benchmark

观察结果:

  • 增加批量大小会显著提高 VRAM 使用率,因为多个图像潜在图和注意力图是同时处理的。
  • RTX 5090 在满 VRAM 负载下可轻松并行处理 4× 1024×1024 图像。
  • ComfyUI 可在同一工作流程中高效地在基础模型和精炼模型之间切换,无需人工干预。

AI 图像生成的最佳 GPU(1024×1024,steps=25,end_at_step=20)

批次大小VRAM 要求每项工作的时间
1≈ 10~12GB基本上在 16GB GPU(A4000、V100)上运行
2≈ 18~20GB需要 20GB 或更大的 VRAM(例如 A5000、RTX4090)
4≈ 32~36GB需要 32-48GB GPU(RTX5090、A6000 等)
⚠ 如果分辨率增加(例如 2048×2048),vRAM 使用率将呈二次方增长,并且 GPU VRAM 将很快耗尽。

质量与模型行为

  • 不同的模型在不同的风格和提示下表现出色——SDXL Base + Refiner 通常比仅有基础的工作流程产生更连贯、更详细、更逼真的图像。
  • 要获得最佳结果仍然需要及时调整和实验。
  • 没有应用量化——SDXL 的 Hugging Face 版本是全精度的,这意味着与量化的 LLM 相比,VRAM 要求相对较高。

用户体验

  • ComfyUI 基于节点的工作流程使得可视化和修改图像生成管道(模型、采样器、提示输入、保存节点)变得容易。
  • RTX 5090 可以顺利处理工作负载,但由于中美之间的网络延迟,CPU 瓶颈影响了远程桌面的响应速度。升级到较新的 CPU 或优化 RDP 编码可以提高远程控制的流畅度。
测试的功能:
  • 模型库——管理和加载不同的检查点
  • 节点库——大量的处理和实用节点集合
  • 工作流系统——常见设置的模板(例如,SDXL Base + Refiner)
  • 队列——按顺序安排多个生成

结论

RTX 5090 在 ComfyUI 中提供了出色的 Stable Diffusion XL 性能:
  • 使用 SDXL Base + Refiner 能够在约 15 秒内生成四张 1024×1024 的图像。
  • 充分利用 VRAM 容量来处理大批量。
  • 为 AI 图像生成提供灵活、免费且可扩展的工作流环境。
对于专业用途,ComfyUI 的免费工具 + API 货币化模型使其对业余爱好者和生产流程都具有吸引力,前提是硬件满足 VRAM 要求(建议 SDXL Base + Refiner 使用 12 GB+,大批量使用 24 GB)。
标签:

稳定的 Diffusion XL 基准测试、SDXL Base、SDXL Refiner、ComfyUI 性能、RTX 5090 AI 图像生成、VRAM 使用情况、AI 基准测试、Hugging Face SDXL、SDXL 工作流程、AI 图像渲染测试