2× RTX 5090 Ollama 基准测试:用于 70B 大语言模型推理的最佳性价比 GPU

想要在自有基础设施上以最快且最具性价比的方式托管 70B 参数的大型语言模型(LLM)吗?来看看双 RTX 5090 配置——这是一代最新的 NVIDIA 消费级 GPU,性能超越 A100,可与 H100 媲美,同时价格仅为其一小部分

在本次基准测试报告中,我们评估了 2× RTX 5090 GPU 在 Ollama 0.6.5 下运行 DeepSeek-R1 70B、LLaMA 3.3 70B 以及 Qwen 2.5 72B & 110B 模型的性能。如果您正在研究 RTX 5090 的 LLM 推理、RTX 5090 Ollama 基准测试,或寻找 A100/H100 的更低成本替代方案,这份分析将非常适合您。

测试概览

服务器配置:

  • 价格:$999.0/月
  • CPU:双 Intel Xeon Gold 6148
  • 内存:256GB RAM
  • 存储:240GB SSD + 2TB NVMe + 8TB SATA
  • 网络:1Gbps
  • 操作系统:Ubuntu 22.0

单个 RTX 5090 详情:

  • GPU:Nvidia GeForce RTX 5090
  • 微架构:Ada Lovelace
  • 计算能力:12.0
  • CUDA 核心数:20,480
  • Tensor 核心数:680
  • 显存:32 GB GDDR7
  • FP32 性能:109.7 TFLOPS

框架:

  • Ollama 0.6.5

该配置使其成为 双 RTX 5090 托管 的理想方案,适用于深度学习、大型语言模型(LLM)推理及 AI 模型训练。

Nvidia 双 RTX 5090 上的 Ollama 基准测试结果

Modelsdeepseek-r1llama3.3qwen2.5qwen
参数70b70b72b110b
大小 (GB)43434763
量化4444
运行Ollama0.6.5Ollama0.6.5Ollama0.6.5Ollama0.6.5
下载速度(mb/s)113113113113
CPU 速率1.3%1.3%1.3%33-35%
内存速率2.1%2.1%2.1%2.1%
GPU 内存(2 张卡)70.9%, 70.4%71%, 75%77.9%, 77.6%94%, 91%
GPU UTL(2 张卡)45%, 48%47%, 45%45%, 48%20%, 20%
评估率(tokens/s)27.0326.8524.157.22
记录实时 2× RTX 5090 GPU 服务器资源消耗数据:

分析与见解

1. 性价比最佳

双 RTX 5090 配置在 70B 模型上的评估速度可达 27 tokens/s —— 性能可与 H100 相匹配,同时成本显著更低。

2. 比 H100 更经济

RTX 5090(消费级 GPU)的成本约为 H100 的 35–45%。在使用 Ollama 托管量化的 70B 模型时,可实现相当的性能表现。

3. 64GB 显存限制

  • 虽然可以在满显卡利用率下顺利运行 70B 和 72B 模型,但 110B Qwen 模型表现不佳:GPU 使用率被限制在 20%,评估速度降至仅 7.22 tokens/s。
  • 这表明,即使经过量化,64GB 显存仍不足以流畅推理 110B 及以上的大型语言模型(LLM)。

双 RTX 5090 vs. 双 A100 vs. H100 在 Ollama 上运行 70B 大型语言模型(LLM)的对比

在对比三种高端 GPU 配置下 LLaMA 3.3 70B 模型 在 Ollama 上的性能时,结果可能会让您感到意外:
指标Nvidia 2*RTX5090Nvidia H100Nvidia 2*A100 40GB
模型llama3.3:70bllama3.3:70bllama3.3:70b
评估速度(tokens/s)26.8524.3418.91
双 RTX 5090 配置在 原始评估速度(Eval Rate) 上超越了 H100 和双 A100 40GB,为该 70B 模型在 Ollama 中提供了最高的 每秒 tokens 输出。这使得 RTX 5090 不仅是一个高性价比的选择,更是该类别中的性能领先者——非常适合那些需要运行高参数 LLM,但无法使用昂贵企业级 GPU 的开发者和企业。

双 RTX 5090 GPU 托管用于大型语言模型(LLM)

我们的专用 双 RTX 5090 GPU 服务器 已针对大型语言模型(LLM)推理、微调和深度学习工作负载进行了优化。配备 64GB 显存,能够高效运行 Ollama 模型,支持 高达 100B 参数。

GPU物理服务器 - A6000

¥ 3389.00/月
两年
立即订购
  • CPU: 36核E5-2697v4*2
  • 内存: 256GB DDR4
  • 系统盘: 240GB SSD
  • 数据盘: 2TB NVMe + 8TB SATA
  • 系统: Win10/Linux
  • 其他: 独立IP,100M-1G带宽
  • 独显: Nvidia RTX A6000
  • 显存: 48GB GDDR6
  • CUDA核心: 10752
  • 单精度浮点: 38.71 TFLOPS

双 RTX 5090 是运行 70B 大型语言模型(LLM)的理想选择

无论您是在寻找 LLaMA 3.3 70B 的最佳 GPU、运行 DeepSeek-R1 70B 的最经济方案,还是想查看 Ollama 5090 托管基准测试,结论都是明确的:👉 双 RTX 5090 是托管高达 72B LLM 的新最佳选择。

Tags:

Nvidia RTX 5090 托管, RTX 5090 Ollama, 双 RTX 5090 基准测试, RTX 5090 与 H100 推理对比, 70B 大型语言模型最佳 GPU, 双 RTX 5090 LLM 推理, DeepSeek 70B 基准测试, LLaMA 3 70B Ollama, HuggingFace 70B GPU, Ollama 5090 结果, 大型语言模型经济型 GPU, 110B LLM 硬件需求