Ollama GPU 基准测试：使用P1000 专用服务器推理大语言模型



帮助文档

技术问答

关于我们

测试服务器环境

美国服务器测试环境配置了以下硬件和软件规格：

服务器配置:

CPU：八核 Xeon E5-2690
内存：32GB
存储：120GB SSD + 960GB SSD
带宽：100Mbps
操作系统：Ubuntu 24.0

GPU详细信息：

GPU型号：Nvidia Quadro P1000
微架构：Pascal
计算能力：6.1
CUDA 核心数：640
GPU内存：4GB GDDR5
FP32 性能：1.894 TFLOPS

基准测试结果：Ollama GPU P1000 性能指标

以下是我们在 P1000 GPU 上运行模型时获得的基准测试结果：

模型	llama3.2	llama3.2	gemma2	codegemma	qwen2.5	qwen2.5	qwen2.5	tinyllama	phi3.5
参数	1b	3b	2b	2b	0.5b	1.5b	3b	1.1b	3.8b
尺寸	1.3GB	2GB	1.6GB	1.6GB	395MB	1.1GB	1.9GB	638MB	2.2GB
量化	4	4	4	4	4	4	4	4	4
运行平台	Ollama0.5.4	Ollama0.5.4	Ollama0.5.4	Ollama0.5.4	Ollama0.5.4	Ollama0.5.4	Ollama0.5.4	Ollama0.5.4	Ollama0.5.4
下载速度(mb/s)	11	11	11	11	11	11	11	11	11
CPU 占用率	6.7%	6.3%	6.3%	6.3%	6.5%	6.3%	6.3%	6.4%	6.4%
RAM 占用率	4.5%	4.8%	4.9%	5.0%	5.4%	5.4%	4.0%	4.0%	4.2%
GPU 内存占用率	51.9%	80.2%	72.4%	53.4%	20%	37.2%	60.8%	33.2%	74%
GPU 利用率	92%	95%	89%	96%	80%	89%	95%	93%	97%
模型输出速率(tokens/s)	28.90	19.97	19.46	30.59	54.78	34.43	17.92	62.33	18.87

记录实时gpu服务器资源消耗数据：

屏幕截图：点击放大并查看

关键要点总结

1. 在有限资源上的卓越 GPU 效率

尽管配备了 Nvidia Quadro P1000 等中低端 GPU，Ollama 在所有测试模型中都表现出了出色的 GPU 利用率（89-97%）。得益于 Ollama 的 4 位量化，服务器的 4GB GPU 内存足以处理高达 3.8B 参数的模型。

2. 评估速率与模型大小的差异

TinyLlama（11 亿个参数）等较轻的模型实现了 62.33 个 token/s 的评估速度，非常适合低延迟应用。Phi3.5（38 亿个参数）和 Llama3.2-3B 等较重的模型以 18-20 个 token/s 的速度处理，从而平衡了计算需求和性能。

3. 最小化的 CPU 和 RAM 负载

即使对于3B的模型，CPU 和 RAM 的利用率也保持极低。这为同一台服务器上的额外工作负载留出了空间，而不会影响性能。

度量标准	各种模型的值
下载速度	所有模型均为 11 MB/s
CPU 利用率	各模型之间在 6.3% 到 6.7% 之间
RAM 利用率	始终在 4% 到 5.4% 之间
GPU vRAM 利用率	20%（Qwen2.5）到 80.2%（Llama3.2-3B）
GPU 利用率	在 89% 到 97% 之间，展示了高效的 GPU 利用
评估速度	从 17.92 tokens/s（Qwen2.5）到 62.33 tokens/s（TinyLlama）

适合Ollama 的 P1000 GPU 服务器应用场景

边缘 AI 部署：适用于寻求在中端服务器上以经济高效的方式部署 AI 应用程序的企业。
LLM 测试和原型设计：开发人员可以在受限的 GPU 环境下测试不同的模型，在扩展到更大的基础设施之前获得有关其行为的宝贵见解。
教育目的：大学和实验室可以使用此类设置来培训学生或执行小规模的法学硕士研究项目。

📢 开始租用 P1000 GPU 托管 LLM

如果您希望优化 0.5b~4b 的 AI 推理任务，请立即探索我们的 P1000 专用服务器托管选项！

GPU物理服务器 - P1000

￥ 459.00/月

月付季付年付两年付

立即订购

CPU： 8核E5-2690
内存： 32GB DDR3
系统盘： 120GB SSD
数据盘： 960GB SSD
系统： Win10/Linux
其他：独立IP，100M-1G带宽

独显：Nvidia P1000
显存： 4GB GDDR5
CUDA核心： 640
单精度浮点： 1.894 TFLOPS

GPU物理服务器 - T1000

￥ 739.00/月

月付季付年付两年付

立即订购

CPU： 8核E5-2690
内存： 64GB DDR3
系统盘： 120GB SSD
数据盘： 960GB SSD
系统： Win10/Linux
其他：独立IP，100M-1G带宽

独显： Nvidia Quadro T1000
显存： 8GB GDDR6
CUDA核心： 896
单精度浮点： 2.5 TFLOPS

GPU物理服务器 - RTX 4060

￥ 1109.00/月

月付季付年付两年付

立即订购

CPU： 8核E5-2690
内存： 64GB DDR3
系统盘： 120GB SSD
数据盘： 960GB SSD
系统： Win10/Linux
其他：独立IP，100M-1G带宽

独显：RTX4060
显存： 8GB GDDR6
CUDA核心： 3072
单精度浮点： 15.11 TFLOPS

GPU云服务器 - A4000

￥ 1109.00/月

月付季付年付两年付

立即订购

配置： 24核32GB, 独立IP
存储： 320GB SSD系统盘
带宽： 300Mbps 不限流
赠送：每2周一次自动备份
系统： Win10/Linux
其他： 1个独立IP

独显： Nvidia RTX A4000
显存： 16GB GDDR6
CUDA核心： 6144
单精度浮点： 19.2 TFLOPS

结论：针对 GPU 服务器优化 Ollama

这项基准测试表明，即使在内存受限的情况下，Ollama 也能有效利用基于 Pascal 的 Nvidia Quadro P1000 GPU。虽然这类服务器不是为高端数据中心应用而设计的，但它为测试、开发和小规模 LLM 部署提供了实用的解决方案。

如果您考虑在类似硬件上部署 Ollama，请确保量化设置正确并监控 GPU 利用率以最大化吞吐量。对于较大的模型或生产用途，升级到具有更高内存容量（例如 8GB 或 16GB）的 GPU 将提供更好的性能。

标签:

Ollama GPU 性能、Ollama LLM 基准测试、在 P1000 GPU 上运行大型语言模型、Nvidia GPU 的 Ollama 测试结果

Ollama P1000 基准测试：在 Ollama P1000 GPU 服务器上运行 LLM

测试服务器环境

服务器配置:

GPU详细信息：

基准测试结果：Ollama GPU P1000 性能指标

关键要点总结

1. 在有限资源上的卓越 GPU 效率

2. 评估速率与模型大小的差异

3. 最小化的 CPU 和 RAM 负载

适合Ollama 的 P1000 GPU 服务器应用场景

📢 开始租用 P1000 GPU 托管 LLM

结论：针对 GPU 服务器优化 Ollama