模型 | llama3.2 | llama3.2 | gemma2 | codegemma | qwen2.5 | qwen2.5 | qwen2.5 | tinyllama | phi3.5 |
---|---|---|---|---|---|---|---|---|---|
参数 | 1b | 3b | 2b | 2b | 0.5b | 1.5b | 3b | 1.1b | 3.8b |
尺寸 | 1.3GB | 2GB | 1.6GB | 1.6GB | 395MB | 1.1GB | 1.9GB | 638MB | 2.2GB |
量化 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 |
运行平台 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 | Ollama0.5.4 |
下载速度(mb/s) | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 | 11 |
CPU 占用率 | 6.7% | 6.3% | 6.3% | 6.3% | 6.5% | 6.3% | 6.3% | 6.4% | 6.4% |
RAM 占用率 | 4.5% | 4.8% | 4.9% | 5.0% | 5.4% | 5.4% | 4.0% | 4.0% | 4.2% |
GPU 内存占用率 | 51.9% | 80.2% | 72.4% | 53.4% | 20% | 37.2% | 60.8% | 33.2% | 74% |
GPU 利用率 | 92% | 95% | 89% | 96% | 80% | 89% | 95% | 93% | 97% |
模型输出速率(tokens/s) | 28.90 | 19.97 | 19.46 | 30.59 | 54.78 | 34.43 | 17.92 | 62.33 | 18.87 |
度量标准 | 各种模型的值 |
---|---|
下载速度 | 所有模型均为 11 MB/s |
CPU 利用率 | 各模型之间在 6.3% 到 6.7% 之间 |
RAM 利用率 | 始终在 4% 到 5.4% 之间 |
GPU vRAM 利用率 | 20%(Qwen2.5)到 80.2%(Llama3.2-3B) |
GPU 利用率 | 在 89% 到 97% 之间,展示了高效的 GPU 利用 |
评估速度 | 从 17.92 tokens/s(Qwen2.5)到 62.33 tokens/s(TinyLlama) |
GPU物理服务器 - P1000
GPU物理服务器 - T1000
GPU云服务器 - A4000
这项基准测试表明,即使在内存受限的情况下,Ollama 也能有效利用基于 Pascal 的 Nvidia Quadro P1000 GPU。虽然这类服务器不是为高端数据中心应用而设计的,但它为测试、开发和小规模 LLM 部署提供了实用的解决方案。
如果您考虑在类似硬件上部署 Ollama,请确保量化设置正确并监控 GPU 利用率以最大化吞吐量。对于较大的模型或生产用途,升级到具有更高内存容量(例如 8GB 或 16GB)的 GPU 将提供更好的性能。
Ollama GPU 性能、Ollama LLM 基准测试、在 P1000 GPU 上运行大型语言模型、Nvidia GPU 的 Ollama 测试结果