RTX 5090 Ollama 基准测试:一款面向消费者的高性能显卡

如果您正在寻找一款强大且经济实惠的 GPU 用于在 Ollama 上运行 32B 大型语言模型(LLM),那么无需再寻觅,Nvidia RTX 5090 就是您的理想之选。凭借其前沿架构,RTX 5090 的性能可与 Nvidia H100 相媲美,但价格却要实惠得多。在这份基准测试报告中,我们将展示 RTX 5090 为何是 32B LLM 推理的最佳单 GPU 选项,以及它与 A100、H100 和 RTX 4090 等其他 GPU 的比较情况。

测试概览

服务器配置:

  • CPU类型: Dual Gold 6148
  • 内存: 256GB RAM
  • 存储: 240GB SSD + 2TB NVMe + 8TB SATA
  • 带宽: 1Gbps
  • 操作系统: Ubuntu 22.0

单台5090详细信息:

  • GPU类型: Nvidia GeForce RTX 5090
  • 微架构: Ada Lovelace
  • 计算能力: 12.0
  • 核心数: 20,480
  • Tensor 核心数: 680
  • 显存: 32 GB GDDR7
  • FP32 性能: 109.7 TFLOPS

框架:

  • Ollama 0.6.5

这种配置使其成为深度学习,LLM推理和AI模型训练的理想RTX 5090托管解决方案。

Nvidia RTX 5090 上的 Ollama 基准测试结果

Modelsgemma3gemma3llama3.1deepseek-r1deepseek-r1qwen2.5qwen2.5qwq
参数12b27b8b14b32b14b32b32b
大小 (GB)8.1174.99.0209.02020
量化44444444
运行Ollama0.6.5Ollama0.6.5Ollama0.6.5Ollama0.6.5Ollama0.6.5Ollama0.6.5Ollama0.6.5Ollama0.6.5
下载速度(mb/s)113113113113113113113113
CPU 速率6.9%7.0%0.2%1.0%1.7%1.5%1.4%1.4%
内存速率2.8%3.4%3.5%3.7%3.6%3.6%3.6%3.1%
GPU 内存32.8%82%82%66.3%95%66.5%95%94%
GPU UTL53%66%15%65%75%68%80%88%
评估率(tokens/s)70.3747.33149.9589.1345.5189.9345.0757.17
记录实时 RTX 5090 GPU 服务器资源消耗数据:

分析与见解

1. 新一代极致性能

RTX5090 拥有 32B 模型最快的单 GPU 评估速度,比 H100 或 A100 配置更经济,可以高效处理 gemma3、qwen2.5、deepseek-r1 和 llama3 模型,非常适合基于 Ollama 的 LLM 推理设置。

2. 32GB VRAM 限制

虽然 RTX 5090 擅长运行 32B 模型,但由于其 32GB 显存容量,它无法在单 GPU 模式下运行 70B 或 110B 模型。你需要两块 RTX 5090 才能运行像 llama3:70b 这样的模型。

3. 注意散热,延长使用寿命

密切关注 GPU 温度。测试期间,部分型号的 GPU 温度可能会超过 80°C。如果需要长时间运行,请务必开启散热风扇。

Ollama 上 32b LLM 的 RTX5090、H100、A100、RTX4090 和 A6000 对比

当比较 5 种高端 GPU 配置上 Ollama 上的 deepseek-r1:32b 模型的性能时,结果可能会让您感到惊讶:
GPU 类型Nvidia RTX5090Nvidia H100Nvidia A100 40GBNvidia RTX4090Nvidia RTX A6000
模型deepseek-r1:32bdeepseek-r1:32bdeepseek-r1:32bdeepseek-r1:32bdeepseek-r1:32b
评估率(tokens/s)45.5145.3635.0134.2226.23
RTX 5090 的性能优于 A100,甚至在 32B 模型的单 LLM 评估速度上略胜 H100,同时价格也便宜得多。

RTX 5090 GPU 托管 32B LLM

我们专用的 RTX 5090 GPU 服务器针对 LLM 推理、微调和深度学习工作负载进行了优化。它配备 32GB 内存,能够高效处理高达 400 亿个参数的 ollama 模型。

GPU物理服务器 - A6000

¥ 3389.00/月
两年
立即订购
  • CPU: 36核E5-2697v4*2
  • 内存: 256GB DDR4
  • 系统盘: 240GB SSD
  • 数据盘: 2TB NVMe + 8TB SATA
  • 系统: Win10/Linux
  • 其他: 独立IP,100M-1G带宽
  • 独显: Nvidia RTX A6000
  • 显存: 48GB GDDR6
  • CUDA核心: 10752
  • 单精度浮点: 38.71 TFLOPS

结论:RTX 5090 是 400 亿以下 Ollama LLM 的最佳单 GPU

RTX 5090 最适合高达 32B 的 LLM,例如 deepseek-r1、qwen2.5、gemma3、llama3。70B 以上的模型可以使用双卡进行推断。选择 RTX 5090,以实惠的价格获得最高的 Ollama 性能。

标签:

Nvidia RTX 5090 托管、RTX 5090 Ollama 基准测试、适用于 32B LLM 的 RTX 5090、适用于 32B 推理的最佳 GPU、ollama RTX 5090、单 GPU LLM 托管、适用于 LLM 的廉价 GPU、H100 与 RTX 5090、A100 与 RTX 5090、RTX 5090 LLM 推理