在 NVIDIA RTX 4090 GPU 服务器上使用 Ollama 对大型语言模型(LLMs)进行性能基准测试:深入分析

在优化大型语言模型(LLM)性能的竞赛中,硬件效率起着至关重要的作用。NVIDIA RTX 4090 是一款配备 24GB GDDR6X 显存的高性能 GPU,当它与 Ollama——一款用于运行 LLM 的前沿平台——结合使用时,为开发者和企业提供了极具吸引力的解决方案。本文将深入探讨 RTX 4090 性能测试及 Ollama 性能测试,评估其在 GPU 服务器上托管和运行各类大型语言模型(如 deepseek-r1、LLaMA、Qwen、Gemma 等)的能力

服务器规格

以下是我们测试中使用的 RTX 4090 托管服务器的详细规格:

服务器配置:

  • 价格:409.00美元/月
  • CPU:双18核E5-2697v4(36核,72线程)
  • 内存:256GB
  • 存储:240GB SSD + 2TB NVMe + 8TB SATA
  • 网络:100Mbps-1Gbps连接
  • 操作系统:Windows 11 Pro
  • 软件:Ollama 版本 0.5.4

GPU详细信息:

  • 显卡:Nvidia GeForce RTX 4090
  • 计算能力:8.9
  • 微架构:Ada Lovelace
  • CUDA核心:16,384
  • 张量核心:512
  • GPU内存:24GB GDDR6X
  • FP32 性能:82.6 TFLOPS

NVIDIA RTX 4090 拥有 82.6 TFLOPS FP32 性能、16,384 个 CUDA 核心和 512 个 Tensor 核心,在计算能力和成本效益方面均胜过大多数消费级 GPU。

在 Ollama 平台上使用 RTX 4090 对大型语言模型(LLM)的推理能力进行测试

这些模型的参数规模从 8B 到 40B 不等,涵盖轻量级到中型的大型语言模型(LLM),提供了多样化的测试范围。本次评估使用 Ollama 0.5.4 进行,对以下语言模型进行了性能测试:
  • LLaMA 系列:LLaMA 2 (13B)、LLaMA 3.1 (8B)
  • Qwen系列:Qwen(14B、32B)
  • Phi系列:Phi4(14B)
  • Mistral 型号:Mistral-small (22B)
  • 猎鹰系列:猎鹰(40B)
  • 杰玛和 LLaVA:杰玛2 (27B)、LLaVA (34B)

基准测试结果:Ollama GPU RTX 4090 性能指标

RTX 4090 的表现非常出色,尤其是在小型到中型模型上。关键指标总结如下:
模型deepseek-r1deepseek-r1llama2llama3.1qwen2.5qwen2.5gemma2phi4qwqllava
参数14b32b13b8b14b32b27b14b32b34b
尺寸9207.44.9920169.12019
量化4444444444
正在运行Ollama0.5.7Ollama0.5.7Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4
下载速度(mb/s)12121212121212121212
CPU 速率2%3%1%2%3%3%2%3%2%2%
内存速率3%3%3%3%3%3%3%3%3%3%
GPU 虚拟内存45%90%41%65%45%90%78%47%90%92%
GPU 执行时间95%98%92%94%96%97%96%97%99%97%
评估率(令牌/秒)58.6234.2270.9095.5163.9234.3937.9768.6231.8036.67
用于记录 RTX 4090 GPU 服务器实时资源消耗数据的视频
屏幕截图:点击放大查看
ollama run deepseek-r1:32bollama run llama2:13bollama run llama3.1:8bollama run qwen2.5:14bollama run qwen2.5:32bollama run gemma2:27bollama run phi4:14bollama run qwq:32bollama run llava:34bollama run qwen:14bollama run qwen:32b

关键见解

1. 小型到中型模型(8B–34B)

RTX 4090 在托管轻量级和中型大型语言模型(LLM)方面表现出色,评估速度可达每秒 70 个 token。对于 LLaMA 2(13B)和 deepseek-r1(34B)等模型,它能够持续利用 92%-96% 的 GPU 容量,高效运行,同时不会造成 CPU 过载(CPU 利用率仅 1%-3%)。

2. 对于 40B 模型能力不足

对于像 Falcon(40B)这样的大型模型,GPU 出现了负载迹象,评估速度下降至每秒 8.61 个 token。尽管 Ollama 使用了 4 位量化,但 24GB 的显存限制仍使 RTX 4090 难以以最佳速度处理这些工作负载。

3. 性价比高

适用于参数规模最高达 36B 的大型语言模型(LLM)基准测试。在小型到中型推理任务中可提供相当的性能表现。
Metric各种型号的价值
下载速度所有型号均为 12 MB/s,订购 1gbps 带宽附加组件时为 118 MB/s。
CPU利用率维持1-3%
RAM利用率维持2-4%
GPU vRAM 利用率41-92%。车型越大,利用率越高。
GPU利用率92%+。保持高利用率。
评估速度30+ token/s,建议使用36b以下型号。

与其他显卡的性能对比

在 24GB 显卡中,RTX 4090 在 FP32 性能和 CUDA 核心数量上占据优势,使其成为推理任务中最具性价比的选择。虽然 A6000 可以处理 36B–70B 参数的模型,但在处理 8B–36B 模型时,其计算吞吐量明显低于 4090。尽管 RTX 4090 在性能上有优势,但它无法高效处理参数超过 40B 的模型。这类模型通常需要 48GB 以上的显存(例如 NVIDIA A6000、H100 或 A100),突显了超大型 LLM 的硬件限制。

GPU物理服务器 - A6000

¥ 3389.00/月
两年
立即订购
  • CPU: 36核E5-2697v4*2
  • 内存: 256GB DDR4
  • 系统盘: 240GB SSD
  • 数据盘: 2TB NVMe + 8TB SATA
  • 系统: Win10/Linux
  • 其他: 独立IP,100M-1G带宽
  • 独显: Nvidia RTX A6000
  • 显存: 48GB GDDR6
  • CUDA核心: 10752
  • 单精度浮点: 38.71 TFLOPS

总结与建议

NVIDIA RTX 4090 的性能基准展示了其处理大型语言模型(LLM)推理工作负载的卓越能力,尤其是在小型到中型模型上。与 Ollama 配合使用时,这一组合为开发者和企业提供了一个强大且性价比高的解决方案,使其能够在不超出预算的情况下获得高性能。

然而,对于更大型的模型和更高的扩展性需求,可能需要像 NVIDIA A100 这样的 GPU 或多 GPU 配置。尽管如此,对于大多数实际应用场景来说,RTX 4090 托管解决方案在大型语言模型(LLM)基准测试领域仍具有变革性意义。

Tags:

RTX 4090, Ollama, 大型语言模型, 人工智能基准测试, GPU 性能, NVIDIA GPU, AI 模型托管, 4 位量化, Falcon 40B, LLaMA 2, GPU 服务器, 机器学习, RTX 4090 性能测试, Ollama 性能测试, NVIDIA GPU, 大型语言模型性能, GPU 服务器托管, 4 位量化, Falcon 40B, LLaMA 2 benchmark, AI 模型托管, GPU 服务器性能