测试概览
服务器配置:
- 价格:$999.0/月
- CPU:双 Intel Xeon Gold 6148
- 内存:256GB RAM
- 存储:240GB SSD + 2TB NVMe + 8TB SATA
- 网络:1Gbps
- 操作系统:Ubuntu 22.0
单个 RTX 5090 详情:
- GPU:Nvidia GeForce RTX 5090
- 微架构:Ada Lovelace
- 计算能力:12.0
- CUDA 核心数:20,480
- Tensor 核心数:680
- 显存:32 GB GDDR7
- FP32 性能:109.7 TFLOPS
框架:
- Ollama 0.6.5
该配置使其成为 双 RTX 5090 托管 的理想方案,适用于深度学习、大型语言模型(LLM)推理及 AI 模型训练。
Nvidia 双 RTX 5090 上的 Ollama 基准测试结果
Models | deepseek-r1 | llama3.3 | qwen2.5 | qwen |
---|---|---|---|---|
参数 | 70b | 70b | 72b | 110b |
大小 (GB) | 43 | 43 | 47 | 63 |
量化 | 4 | 4 | 4 | 4 |
运行 | Ollama0.6.5 | Ollama0.6.5 | Ollama0.6.5 | Ollama0.6.5 |
下载速度(mb/s) | 113 | 113 | 113 | 113 |
CPU 速率 | 1.3% | 1.3% | 1.3% | 33-35% |
内存速率 | 2.1% | 2.1% | 2.1% | 2.1% |
GPU 内存(2 张卡) | 70.9%, 70.4% | 71%, 75% | 77.9%, 77.6% | 94%, 91% |
GPU UTL(2 张卡) | 45%, 48% | 47%, 45% | 45%, 48% | 20%, 20% |
评估率(tokens/s) | 27.03 | 26.85 | 24.15 | 7.22 |
记录实时 2× RTX 5090 GPU 服务器资源消耗数据:
分析与见解
1. 性价比最佳
双 RTX 5090 配置在 70B 模型上的评估速度可达 27 tokens/s —— 性能可与 H100 相匹配,同时成本显著更低。
2. 比 H100 更经济
RTX 5090(消费级 GPU)的成本约为 H100 的 35–45%。在使用 Ollama 托管量化的 70B 模型时,可实现相当的性能表现。
3. 64GB 显存限制
- 虽然可以在满显卡利用率下顺利运行 70B 和 72B 模型,但 110B Qwen 模型表现不佳:GPU 使用率被限制在 20%,评估速度降至仅 7.22 tokens/s。
- 这表明,即使经过量化,64GB 显存仍不足以流畅推理 110B 及以上的大型语言模型(LLM)。
双 RTX 5090 vs. 双 A100 vs. H100 在 Ollama 上运行 70B 大型语言模型(LLM)的对比
在对比三种高端 GPU 配置下 LLaMA 3.3 70B 模型 在 Ollama 上的性能时,结果可能会让您感到意外:
指标 | Nvidia 2*RTX5090 | Nvidia H100 | Nvidia 2*A100 40GB |
---|---|---|---|
模型 | llama3.3:70b | llama3.3:70b | llama3.3:70b |
评估速度(tokens/s) | 26.85 | 24.34 | 18.91 |
双 RTX 5090 配置在 原始评估速度(Eval Rate) 上超越了 H100 和双 A100 40GB,为该 70B 模型在 Ollama 中提供了最高的 每秒 tokens 输出。这使得 RTX 5090 不仅是一个高性价比的选择,更是该类别中的性能领先者——非常适合那些需要运行高参数 LLM,但无法使用昂贵企业级 GPU 的开发者和企业。
双 RTX 5090 GPU 托管用于大型语言模型(LLM)
我们的专用 双 RTX 5090 GPU 服务器 已针对大型语言模型(LLM)推理、微调和深度学习工作负载进行了优化。配备 64GB 显存,能够高效运行 Ollama 模型,支持 高达 100B 参数。
GPU物理服务器 - A6000
¥ 3389.00/月
月付季付年付两年付
立即订购- CPU: 36核E5-2697v4*2
- 内存: 256GB DDR4
- 系统盘: 240GB SSD
- 数据盘: 2TB NVMe + 8TB SATA
- 系统: Win10/Linux
- 其他: 独立IP,100M-1G带宽
- 独显: Nvidia RTX A6000
- 显存: 48GB GDDR6
- CUDA核心: 10752
- 单精度浮点: 38.71 TFLOPS
双 RTX 5090 是运行 70B 大型语言模型(LLM)的理想选择
无论您是在寻找 LLaMA 3.3 70B 的最佳 GPU、运行 DeepSeek-R1 70B 的最经济方案,还是想查看 Ollama 5090 托管基准测试,结论都是明确的:👉 双 RTX 5090 是托管高达 72B LLM 的新最佳选择。
Tags:
Nvidia RTX 5090 托管, RTX 5090 Ollama, 双 RTX 5090 基准测试, RTX 5090 与 H100 推理对比, 70B 大型语言模型最佳 GPU, 双 RTX 5090 LLM 推理, DeepSeek 70B 基准测试, LLaMA 3 70B Ollama, HuggingFace 70B GPU, Ollama 5090 结果, 大型语言模型经济型 GPU, 110B LLM 硬件需求