评估:在 Nvidia A40 GPU 服务器上使用 Ollama 运行大型语言模型的性能

随着大型语言模型(LLM)的不断发展,研究人员和企业越来越需要高性能硬件来托管和运行这些模型。本报告评估了在 Ollama 平台上运行 LLM 时 Nvidia A40 GPU 的性能,并基于实际数据提供了详细的分析与见解。

测试环境与配置

以下是我们测试中使用的 Nvidia A40 托管服务器的详细规格:

服务器配置:

  • CPU:双18核E5-2697v4(36核,72线程)
  • 内存:256GB
  • 存储:240GB SSD + 2TB NVMe + 8TB SATA
  • 网络:100Mbps-1Gbps连接
  • 操作系统:Windows 11 Pro

GPU详细信息:

  • 显卡:Nvidia A40
  • 计算能力:8.6
  • 微架构:Ampere
  • CUDA核心:10,752
  • 张量核心:336
  • GPU内存:48GB GDDR6
  • FP32 性能:37.48 TFLOPS

超大显存(48GB)确保 A40 服务器能够运行 70B 参数模型。

在 Ollama 平台上使用 A40 测试大型语言模型的推理能力

测试涵盖了多种模型,例如 Meta 的 LLaMA 系列(70B、34B 等)、Qwen 系列(32B、72B)以及 Llava 和 Gemma2 等其他模型。每个模型都使用 4 位量化 运行,以优化内存和性能,测试的具体语言模型如下:
  • Llama2 (70B)
  • Llama3 (70B)
  • Llama3.1 (70B)
  • Llama3.3 (70B)
  • Qwen (32B, 72B)
  • Qwen2.5 (14B, 32B, 72B)
  • Gemma2 (27B)
  • Llava (34B)
  • QWQ (32B)

基准测试结果:Ollama GPU A40 性能指标

Nvidia A40 表现良好,尤其在中型模型上表现突出。关键指标总结如下:
模型llama2llama3llama3.1llama3.3qwenqwenqwen2.5qwen2.5qwen2.5gemma2llavaqwq
参数70b70b70b70b32b72b14b32b72b27b34b32b
大小39GB40GB43GB43GB18GB41GB9GB20GB47GB16GB19GB20GB
量化444444444444
正在运行Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4Ollama0.5.4
下载速度(mb/s)111111111111111111111111
CPU 速率2%2%3%2%3%17-22%2%2%30-40%3%3%2%
内存速率3%3%3%3%3%3%3%3%3%3%3%4%
GPU 执行时间98%94%94%94%90%66%83%92%42-50%89%94%90%
评估率(令牌/秒)13.5213.1512.0912.1024.888.4644.5923.045.7829.1725.8423.11
用于记录 A40 GPU 服务器实时资源消耗数据的视频:
截图:点击放大查看
ollama run llama2:70bollama run llama3:70bollama run llama3.1:70bollama run llama3.3:70bollama run qwen:32bollama run qwen:72bollama run qwen2.5:14bollama run qwen2.5:32bollama run qwen2.5:72bollama run gemma2:27bollama run llava:34bollama run qwq:32b

关键见解

1. A40 处理能力上限

Nvidia A40 的 48GB 显存可以稳定运行参数量高达 700 亿的模型(例如 LLaMA2 和 LLaMA3)。在此规模下,GPU 利用率达到 94%-98%,推理速度为 12-13 tokens/s。
  • 然而,对于像 Qwen:72B 这样的模型,尽管显存充足,推理速度却显著下降至 8.46 tokens/s,这表明 GPU 的性能上限。由此可见,A40 并不适合持续运行超大规模模型(参数量 720 亿及以上)。
  • 2. 中型模型(32B-34B)的性能表现

    对于参数量为 32B-34B 的模型(例如 Qwen:32B、Llava:34B),A40 的表现非常出色:
    • GPU 利用率:稳定在 90%-94%
    • 推理速度:23-26 tokens/s
    这使得 A40 非常适合中型模型,能够在高推理速度的同时,高效利用显存和计算资源。

    3. 小型模型的高效运行

    对于小型模型(例如 Qwen2.5:14B),显存和计算需求显著降低。在这些情况下:
    • GPU 利用率:42%-83%
    • 推理速度:44.59 tokens/s
    A40 在需要同时运行多个小型模型的场景中表现出极高的性价比。

    Nvidia A40 的优势

    1. 高效的内存管理

    凭借 48GB GDDR6 显存,A40 可稳定运行参数量高达 70B 的模型,并支持 4 位量化 来节省内存。

    2. 高推理性能

    在处理中型模型(32B-34B)时,25 tokens/s 的推理速度显著提升了推理效率。

    3. 多场景适应性

    无论运行超大模型还是小型模型,A40 都能根据任务需求动态分配资源。

    限制与建议

    1. 对超大模型支持有限

    对于参数量超过 70B 的模型,A40 的性能受到限制。对于此类工作负载,建议考虑使用 A100 或 H100 等 GPU。

    2. 网络瓶颈

    测试期间的下载速度平均为 11MB/s,可能会延迟超大模型的加载。建议升级到更快的网络环境。

    对比:Nvidia A40 与 A6000

    Nvidia A40 和 Nvidia A6000 都配备了 48GB 显存,使其能够运行参数量高达 700 亿的模型,并具有相似的性能。在实际应用中,这两款 GPU 在处理像 LLaMA2:70B 这样的模型任务时几乎可以互换,其推理速度和 GPU 利用率的差异非常小。

    然而,对于参数量超过 720 亿的模型,无论是 A40 还是 A6000 都无法保持足够的推理速度或稳定性。对于此类超大模型,强烈推荐使用显存更高的 GPU,例如 A100 80GB 或 H100。这些 GPU 提供显著更高的内存带宽和计算能力,能够确保下一代大型语言模型的流畅运行。

    A100 80GB 在同时托管多个大型模型时尤其具有成本效益,而 H100 则代表了 AI 工作负载的性能巅峰,非常适合前沿研究和生产环境。

    GPU物理服务器 - A40

    ¥ 3079.00/月
    两年
    立即订购
    • CPU: 36核E5-2697v4*2
    • 内存: 256GB DDR4
    • 系统盘: 240GB SSD
    • 数据盘: 2TB NVMe + 8TB SATA
    • 系统: Win10/Linux
    • 其他: 独立IP,100M-1G带宽
    • 独显: Nvidia A40
    • 显存: 48GB GDDR6
    • CUDA核心: 10752
    • 单精度浮点: 37.48 TFLOPS

    GPU物理服务器 - A6000

    ¥ 3389.00/月
    两年
    立即订购
    • CPU: 36核E5-2697v4*2
    • 内存: 256GB DDR4
    • 系统盘: 240GB SSD
    • 数据盘: 2TB NVMe + 8TB SATA
    • 系统: Win10/Linux
    • 其他: 独立IP,100M-1G带宽
    • 独显: Nvidia RTX A6000
    • 显存: 48GB GDDR6
    • CUDA核心: 10752
    • 单精度浮点: 38.71 TFLOPS

    结论:Nvidia A40 在大型语言模型中的表现如何?

    总体而言,Nvidia A40 是一款性价比极高的 GPU,尤其适用于中型和小型大型语言模型的推理任务。其 48GB 显存能够稳定支持参数量高达 700 亿的模型,推理速度可达 13 tokens/s,而对于参数量 32B-34B 的模型,其表现更佳。

    如果您正在寻找用于托管 LLM 的 GPU 服务器,Nvidia A40 是一个非常有竞争力的选择。它以合理的成本提供出色的性能,适合模型开发和生产部署。

    标签:

    A40 基准测试, Nvidia A40, Ollama 基准测试, LLM A40, A40 测试, A40 GPU, Nvidia A40 GPU, A40 托管, A40 与 A6000 对比, LLM 托管, Nvidia A40 服务器, A100 与 A40 对比, H100 与 A40 对比, Ollama A40