测试概述
服务器配置:
- GPU: NVIDIA RTX 5090 (32 GB VRAM)
- CPU: 双 Intel Xeon E5-2697 v4(36 核,72 线程)
- 256GB 内存
- 240GB SSD + 2TB NVMe + 8TB SATA
- 操作系统: Windows 11
模型:
- sd_xl_base_1.0.safetensors (~5.1 GB)
- sd_xl_refiner_1.0.safetensors (~6.1 GB)
- 直接通过 ComfyUI 模型管理器下载(来源:Hugging Face)
工作流程和设置
我们选择了 SDXL Base + Refiner 工作流模板,该模板运行基础模型执行初始步骤,并运行精炼模型执行最终的细节增强。
生成设置:
- 分辨率: 1024 × 1024
- 步骤:共 25 步
- 精炼结束步骤:20(精炼运行最后 5 个步骤)
- 采样器:默认(Euler 或 DPM++ 取决于模板)
- 批次大小:已测试 1 和 4(同时生成的图像数量)
- 精度:fp16(ComfyUI 中自动设置)
绩效结果
批次大小 | VRAM 峰值使用率 | 每项工作的时间 | 输出计数 |
---|---|---|---|
1 | ~75% (~24 GB) | 6.21秒 | 1张图片 |
4 | 100% (~32 GB) | 15.11秒 | 4张图片 |
观察结果:
- 增加批量大小会显著提高 VRAM 使用率,因为多个图像潜在图和注意力图是同时处理的。
- RTX 5090 在满 VRAM 负载下可轻松并行处理 4× 1024×1024 图像。
- ComfyUI 可在同一工作流程中高效地在基础模型和精炼模型之间切换,无需人工干预。
AI 图像生成的最佳 GPU(1024×1024,steps=25,end_at_step=20)
批次大小 | VRAM 要求 | 每项工作的时间 |
---|---|---|
1 | ≈ 10~12GB | 基本上在 16GB GPU(A4000、V100)上运行 |
2 | ≈ 18~20GB | 需要 20GB 或更大的 VRAM(例如 A5000、RTX4090) |
4 | ≈ 32~36GB | 需要 32-48GB GPU(RTX5090、A6000 等) |
⚠ 如果分辨率增加(例如 2048×2048),vRAM 使用率将呈二次方增长,并且 GPU VRAM 将很快耗尽。
质量与模型行为
- 不同的模型在不同的风格和提示下表现出色——SDXL Base + Refiner 通常比仅有基础的工作流程产生更连贯、更详细、更逼真的图像。
- 要获得最佳结果仍然需要及时调整和实验。
- 没有应用量化——SDXL 的 Hugging Face 版本是全精度的,这意味着与量化的 LLM 相比,VRAM 要求相对较高。
用户体验
- ComfyUI 基于节点的工作流程使得可视化和修改图像生成管道(模型、采样器、提示输入、保存节点)变得容易。
- RTX 5090 可以顺利处理工作负载,但由于中美之间的网络延迟,CPU 瓶颈影响了远程桌面的响应速度。升级到较新的 CPU 或优化 RDP 编码可以提高远程控制的流畅度。
测试的功能:
- 模型库——管理和加载不同的检查点
- 节点库——大量的处理和实用节点集合
- 工作流系统——常见设置的模板(例如,SDXL Base + Refiner)
- 队列——按顺序安排多个生成
结论
RTX 5090 在 ComfyUI 中提供了出色的 Stable Diffusion XL 性能:
- 使用 SDXL Base + Refiner 能够在约 15 秒内生成四张 1024×1024 的图像。
- 充分利用 VRAM 容量来处理大批量。
- 为 AI 图像生成提供灵活、免费且可扩展的工作流环境。
对于专业用途,ComfyUI 的免费工具 + API 货币化模型使其对业余爱好者和生产流程都具有吸引力,前提是硬件满足 VRAM 要求(建议 SDXL Base + Refiner 使用 12 GB+,大批量使用 24 GB)。
标签:
稳定的 Diffusion XL 基准测试、SDXL Base、SDXL Refiner、ComfyUI 性能、RTX 5090 AI 图像生成、VRAM 使用情况、AI 基准测试、Hugging Face SDXL、SDXL 工作流程、AI 图像渲染测试