

RTX 5090 Ollama 基准测试：一款面向消费者的高性能显卡

如果您正在寻找一款强大且经济实惠的 GPU 用于在 Ollama 上运行 32B 大型语言模型（LLM），那么无需再寻觅，Nvidia RTX 5090 就是您的理想之选。凭借其前沿架构，RTX 5090 的性能可与 Nvidia H100 相媲美，但价格却要实惠得多。在这份基准测试报告中，我们将展示 RTX 5090 为何是 32B LLM 推理的最佳单 GPU 选项，以及它与 A100、H100 和 RTX 4090 等其他 GPU 的比较情况。

测试概览

服务器配置：

CPU类型: Dual Gold 6148
内存: 256GB RAM
存储: 240GB SSD + 2TB NVMe + 8TB SATA
带宽: 1Gbps
操作系统: Ubuntu 22.0

单台5090详细信息：

GPU类型: Nvidia GeForce RTX 5090
微架构: Ada Lovelace
计算能力: 12.0
核心数: 20,480
Tensor 核心数: 680
显存: 32 GB GDDR7
FP32 性能: 109.7 TFLOPS

框架:

Ollama 0.6.5

这种配置使其成为深度学习，LLM推理和AI模型训练的理想RTX 5090托管解决方案。

Nvidia RTX 5090 上的 Ollama 基准测试结果

Models	gemma3	gemma3	llama3.1	deepseek-r1	deepseek-r1	qwen2.5	qwen2.5	qwq
参数	12b	27b	8b	14b	32b	14b	32b	32b
大小 (GB)	8.1	17	4.9	9.0	20	9.0	20	20
量化	4	4	4	4	4	4	4	4
运行	Ollama0.6.5	Ollama0.6.5	Ollama0.6.5	Ollama0.6.5	Ollama0.6.5	Ollama0.6.5	Ollama0.6.5	Ollama0.6.5
下载速度(mb/s)	113	113	113	113	113	113	113	113
CPU 速率	6.9%	7.0%	0.2%	1.0%	1.7%	1.5%	1.4%	1.4%
内存速率	2.8%	3.4%	3.5%	3.7%	3.6%	3.6%	3.6%	3.1%
GPU 内存	32.8%	82%	82%	66.3%	95%	66.5%	95%	94%
GPU UTL	53%	66%	15%	65%	75%	68%	80%	88%
评估率(tokens/s)	70.37	47.33	149.95	89.13	45.51	89.93	45.07	57.17

记录实时 RTX 5090 GPU 服务器资源消耗数据：

分析与见解

1. 新一代极致性能

RTX5090 拥有 32B 模型最快的单 GPU 评估速度，比 H100 或 A100 配置更经济，可以高效处理 gemma3、qwen2.5、deepseek-r1 和 llama3 模型，非常适合基于 Ollama 的 LLM 推理设置。

2. 32GB VRAM 限制

虽然 RTX 5090 擅长运行 32B 模型，但由于其 32GB 显存容量，它无法在单 GPU 模式下运行 70B 或 110B 模型。你需要两块 RTX 5090 才能运行像 llama3:70b 这样的模型。

3. 注意散热，延长使用寿命

密切关注 GPU 温度。测试期间，部分型号的 GPU 温度可能会超过 80°C。如果需要长时间运行，请务必开启散热风扇。

Ollama 上 32b LLM 的 RTX5090、H100、A100、RTX4090 和 A6000 对比

当比较 5 种高端 GPU 配置上 Ollama 上的 deepseek-r1:32b 模型的性能时，结果可能会让您感到惊讶：

GPU 类型	Nvidia RTX5090	Nvidia H100	Nvidia A100 40GB	Nvidia RTX4090	Nvidia RTX A6000
模型	deepseek-r1:32b	deepseek-r1:32b	deepseek-r1:32b	deepseek-r1:32b	deepseek-r1:32b
评估率(tokens/s)	45.51	45.36	35.01	34.22	26.23

RTX 5090 的性能优于 A100，甚至在 32B 模型的单 LLM 评估速度上略胜 H100，同时价格也便宜得多。

RTX 5090 GPU 托管 32B LLM

我们专用的 RTX 5090 GPU 服务器针对 LLM 推理、微调和深度学习工作负载进行了优化。它配备 32GB 内存，能够高效处理高达 400 亿个参数的 ollama 模型。

GPU物理服务器 - A6000

￥ 3389.00/月

月付季付年付两年付

立即订购

CPU： 36核E5-2697v4*2
内存： 256GB DDR4
系统盘： 240GB SSD
数据盘： 2TB NVMe + 8TB SATA
系统： Win10/Linux
其他：独立IP，100M-1G带宽

独显: Nvidia RTX A6000
显存： 48GB GDDR6
CUDA核心： 10752
单精度浮点： 38.71 TFLOPS

结论：RTX 5090 是 400 亿以下 Ollama LLM 的最佳单 GPU

RTX 5090 最适合高达 32B 的 LLM，例如 deepseek-r1、qwen2.5、gemma3、llama3。70B 以上的模型可以使用双卡进行推断。选择 RTX 5090，以实惠的价格获得最高的 Ollama 性能。

标签：

Nvidia RTX 5090 托管、RTX 5090 Ollama 基准测试、适用于 32B LLM 的 RTX 5090、适用于 32B 推理的最佳 GPU、ollama RTX 5090、单 GPU LLM 托管、适用于 LLM 的廉价 GPU、H100 与 RTX 5090、A100 与 RTX 5090、RTX 5090 LLM 推理