测试概览
服务器配置:
- CPU类型: Dual Gold 6148
- 内存: 256GB RAM
- 存储: 240GB SSD + 2TB NVMe + 8TB SATA
- 带宽: 1Gbps
- 操作系统: Ubuntu 22.0
单台5090详细信息:
- GPU类型: Nvidia GeForce RTX 5090
- 微架构: Ada Lovelace
- 计算能力: 12.0
- 核心数: 20,480
- Tensor 核心数: 680
- 显存: 32 GB GDDR7
- FP32 性能: 109.7 TFLOPS
框架:
- Ollama 0.6.5
这种配置使其成为深度学习,LLM推理和AI模型训练的理想RTX 5090托管解决方案。
Nvidia RTX 5090 上的 Ollama 基准测试结果
Models | gemma3 | gemma3 | llama3.1 | deepseek-r1 | deepseek-r1 | qwen2.5 | qwen2.5 | qwq |
---|---|---|---|---|---|---|---|---|
参数 | 12b | 27b | 8b | 14b | 32b | 14b | 32b | 32b |
大小 (GB) | 8.1 | 17 | 4.9 | 9.0 | 20 | 9.0 | 20 | 20 |
量化 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 |
运行 | Ollama0.6.5 | Ollama0.6.5 | Ollama0.6.5 | Ollama0.6.5 | Ollama0.6.5 | Ollama0.6.5 | Ollama0.6.5 | Ollama0.6.5 |
下载速度(mb/s) | 113 | 113 | 113 | 113 | 113 | 113 | 113 | 113 |
CPU 速率 | 6.9% | 7.0% | 0.2% | 1.0% | 1.7% | 1.5% | 1.4% | 1.4% |
内存速率 | 2.8% | 3.4% | 3.5% | 3.7% | 3.6% | 3.6% | 3.6% | 3.1% |
GPU 内存 | 32.8% | 82% | 82% | 66.3% | 95% | 66.5% | 95% | 94% |
GPU UTL | 53% | 66% | 15% | 65% | 75% | 68% | 80% | 88% |
评估率(tokens/s) | 70.37 | 47.33 | 149.95 | 89.13 | 45.51 | 89.93 | 45.07 | 57.17 |
记录实时 RTX 5090 GPU 服务器资源消耗数据:
分析与见解
1. 新一代极致性能
RTX5090 拥有 32B 模型最快的单 GPU 评估速度,比 H100 或 A100 配置更经济,可以高效处理 gemma3、qwen2.5、deepseek-r1 和 llama3 模型,非常适合基于 Ollama 的 LLM 推理设置。
2. 32GB VRAM 限制
虽然 RTX 5090 擅长运行 32B 模型,但由于其 32GB 显存容量,它无法在单 GPU 模式下运行 70B 或 110B 模型。你需要两块 RTX 5090 才能运行像 llama3:70b 这样的模型。
3. 注意散热,延长使用寿命
密切关注 GPU 温度。测试期间,部分型号的 GPU 温度可能会超过 80°C。如果需要长时间运行,请务必开启散热风扇。
Ollama 上 32b LLM 的 RTX5090、H100、A100、RTX4090 和 A6000 对比
当比较 5 种高端 GPU 配置上 Ollama 上的 deepseek-r1:32b 模型的性能时,结果可能会让您感到惊讶:
GPU 类型 | Nvidia RTX5090 | Nvidia H100 | Nvidia A100 40GB | Nvidia RTX4090 | Nvidia RTX A6000 |
---|---|---|---|---|---|
模型 | deepseek-r1:32b | deepseek-r1:32b | deepseek-r1:32b | deepseek-r1:32b | deepseek-r1:32b |
评估率(tokens/s) | 45.51 | 45.36 | 35.01 | 34.22 | 26.23 |
RTX 5090 的性能优于 A100,甚至在 32B 模型的单 LLM 评估速度上略胜 H100,同时价格也便宜得多。
RTX 5090 GPU 托管 32B LLM
我们专用的 RTX 5090 GPU 服务器针对 LLM 推理、微调和深度学习工作负载进行了优化。它配备 32GB 内存,能够高效处理高达 400 亿个参数的 ollama 模型。
GPU物理服务器 - A6000
¥ 3389.00/月
月付季付年付两年付
立即订购- CPU: 36核E5-2697v4*2
- 内存: 256GB DDR4
- 系统盘: 240GB SSD
- 数据盘: 2TB NVMe + 8TB SATA
- 系统: Win10/Linux
- 其他: 独立IP,100M-1G带宽
- 独显: Nvidia RTX A6000
- 显存: 48GB GDDR6
- CUDA核心: 10752
- 单精度浮点: 38.71 TFLOPS
结论:RTX 5090 是 400 亿以下 Ollama LLM 的最佳单 GPU
RTX 5090 最适合高达 32B 的 LLM,例如 deepseek-r1、qwen2.5、gemma3、llama3。70B 以上的模型可以使用双卡进行推断。选择 RTX 5090,以实惠的价格获得最高的 Ollama 性能。
标签:
Nvidia RTX 5090 托管、RTX 5090 Ollama 基准测试、适用于 32B LLM 的 RTX 5090、适用于 32B 推理的最佳 GPU、ollama RTX 5090、单 GPU LLM 托管、适用于 LLM 的廉价 GPU、H100 与 RTX 5090、A100 与 RTX 5090、RTX 5090 LLM 推理