在 Ollama 上运行大语言模型:Nvidia H100 GPU 服务器性能基准测试

随着大语言模型(LLM)和人工智能应用的兴起,对高性能 GPU 托管的需求前所未有。基于 Hopper 架构 的 英伟达 H100 GPU 是目前用于 AI 和深度学习工作负载最强大的 GPU 之一。本文对 Ollama 在 H100 GPU 服务器上的性能进行了基准测试,分析其高效处理大语言模型的能力。

服务器规格

我们在一台专用 H100 GPU 服务器 上进行了基准测试,其配置如下:

服务器配置:

  • 价格:2599.0 美元/月
  • CPU:双18核Intel Xeon E5-2697v4
  • 内存:192GB
  • 存储:240GB SSD + 2TB NVMe + 8TB SATA
  • 网络:1Gbps
  • 操作系统:Windows Server 2022

GPU详细信息:

  • 显卡:Nvidia H100
  • 微架构:Hopper
  • 计算能力:9.0
  • CUDA核心:14,592
  • 张量核心:456
  • 内存:80GB HBM2e
  • FP32 性能:183 TFLOPS

该配置使其成为 深度学习、大语言模型推理和人工智能模型训练 的理想 H100 托管解决方案。

在 H100 GPU 上对 Ollama 进行基准测试

我们在 Ollama 0.5.7 上测试了多种大语言模型(LLM),包括 DeepSeek、Qwen 和 LLaMA,覆盖了不同参数规模的模型。
模型deepseek-r1deepseek-r1deepseek-r1qwenqwenqwenqwen2llama3llama3.1llama3.3zephyrmixtral
参数14b32b70b32b72b110b72b70b70b70b141b8x22b
尺寸9GB20GB43GB18GB41GB63GB41GB40GB43GB43GB80GB80GB
量化444444444444
正在运行Ollama0.5.7Ollama0.5.7Ollama0.5.7Ollama0.5.7Ollama0.5.7Ollama0.5.7Ollama0.5.7Ollama0.5.7Ollama0.5.7Ollama0.5.7Ollama0.5.7Ollama0.5.7
下载速度(mb/s)113113113113113113113113113113113113
CPU 速率5%4%4%4%3%3%4%3%4%3%2%3%
内存速率4%3%4%4%4%3%3%3%3%3%4%4%
GPU 执行时间75%83%92%72%83%90%86%9190%93%83%83%
评估率(令牌/秒)75.0245.3624.9448.2328.1720.1928.2826.9425.2024.3438.6238.28
Record real-time H100 gpu server resource consumption data:
截图:点击放大查看
ollama run deepseek-r1:14bollama run deepseek-r1:32bollama run deepseek-r1:70bollama run qwen:32bollama run qwen:72bollama run qwen:110bollama run qwen2:72bollama run llama3:70bollama run llama3.1:70bollama run llama3.3:70bollama run zephyr:141bollama run mixtral:8x22b

分析与见解

1. CPU利用率

在所有模型测试中,CPU 使用率均保持在 5% 以下,这表明 H100 几乎将所有计算任务都卸载到了 GPU 上。

2. RAM利用率

内存使用率保持在 3-4% 左右,这进一步确认大部分计算处理都发生在 H100 GPU 的 HBM2e 显存 上。

3. Ollama 在 H100 上的表现

  • DeepSeek 14B 模型 的 令牌吞吐量最高,为 75.02 tokens/s,使其在低端大语言模型应用中效率最高。
  • 像 Qwen 110B 和 LLaMA 3.3 70B 这样的大型模型,GPU 利用率提升至 90-100%,同时评估速度相应下降至约 20 tokens/s。
  • H100 GPU 即使在高负载情况下,也能高效处理 70B+ 规模的模型,因此非常适合用于 大语言模型托管和人工智能推理。

H100 与 A100 在大语言模型(LLM)中的对比

  • 得益于更高的 FLOPS 和更先进的 张量核心,H100 在 Ollama 基准测试和大语言模型推理中显著优于 A100。
  • 如果您需要运行 70B~110B 规模的模型,H100 是更优的选择,尤其适用于 实时应用场景。
指标Nvidia H100Nvidia A100 80GB
架构Hopper 架构Ampere 架构
CUDA 核心14,5926,912
张量核心456432
内存配备 80GB HBM2e 高带宽显存配备 80GB HBM2 高带宽显存
FP32 TFLOPS18319.5
LLM 表现快 2 倍基线

H100 GPU 大语言模型托管

我们的专用 H100 GPU 服务器 针对大语言模型推理、微调以及深度学习工作负载进行了优化。配备 80GB HBM2e 显存,可高效处理 高达 110B 参数的模型。

GPU物理服务器 - A6000

¥ 3389.00/月
两年
立即订购
  • CPU: 36核E5-2697v4*2
  • 内存: 256GB DDR4
  • 系统盘: 240GB SSD
  • 数据盘: 2TB NVMe + 8TB SATA
  • 系统: Win10/Linux
  • 其他: 独立IP,100M-1G带宽
  • 独显: Nvidia RTX A6000
  • 显存: 48GB GDDR6
  • CUDA核心: 10752
  • 单精度浮点: 38.71 TFLOPS

总结与建议

英伟达 H100 GPU 在大语言模型推理和人工智能工作负载中表现出卓越的性能。在 H100 服务器上运行 Ollama 可以让用户高效处理大规模 AI 模型,同时实现高吞吐量和低延迟

对于需要 大语言模型托管、H100 GPU 托管 或 高性能 AI 计算 的用户,我们的专用 H100 GPU 服务器 是最佳选择。

Tags:

Nvidia H100, GPU 服务器, 大语言模型推理, Ollama 人工智能推理, 大型模型, 深度学习, GPU 云计算, H100 与 A100 对比, 人工智能托管