此配置可确保 AI 推理工作负载的最佳性能,使其成为 Ollama VPS 托管和 LLM 推理任务的可靠选择。
模型 | deepseek-r1 | deepseek-r1 | deepseek-r1 | deepseek-coder-v2 | llama2 | llama2 | llama3.1 | mistral | gemma2 | gemma2 | qwen2.5 | qwen2.5 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
参数 | 7b | 8b | 14b | 16b | 7b | 13b | 8b | 7b | 9b | 27b | 7b | 14b |
大小(GB) | 4.7 | 4.9 | 9 | 8.9 | 3.8 | 7.4 | 4.9 | 4.1 | 5.4 | 16 | 4.7 | 9.0 |
量化 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 | 4 |
运行平台 | Ollama0.5.11 | Ollama0.5.11 | Ollama0.5.11 | Ollama0.5.11 | Ollama0.5.11 | Ollama0.5.11 | Ollama0.5.11 | Ollama0.5.11 | Ollama0.5.11 | Ollama0.5.11 | Ollama0.5.11 | Ollama0.5.11 |
下载速度(mb/s) | 36 | 36 | 36 | 36 | 36 | 36 | 36 | 36 | 36 | 36 | 36 | 36 |
CPU 使用率 | 8% | 7% | 8% | 8% | 8% | 8% | 8% | 8% | 7% | 70-86% | 8% | 7% |
RAM 使用率 | 16% | 18% | 17% | 16% | 15% | 15% | 15% | 18% | 19% | 21% | 16% | 17% |
GPU 使用率 | 77% | 78% | 83% | 40% | 82% | 89% | 78% | 81% | 73% | 1% | 12% | 80% |
模型输出速率(tokens/s) | 52.61 | 51.60 | 30.20 | 22.89 | 65.06 | 38.46 | 51.35 | 64.16 | 39.04 | 2.38 | 52.68 | 30.05 |
LLaMA 2 7B 和 Mistral 7B 模型表现优异,评估速度分别达到 65.06 个 token/s 和 64.16 个 token/s。它们在 GPU 利用率和推理速度之间实现了平衡,非常适合 Ollama A4000 VPS 上的实时应用。
GPU云服务器 - A4000
GPU物理服务器 - V100
GPU物理服务器 - A5000
GPU物理服务器 - A6000
本次基准测试清楚地表明,NVIDIA A4000 VPS 托管是运行中型 AI 模型(如 Ollama LLMs)的理想选择。如果您在寻找兼具性价比与稳定性能的 VPS 方案,A4000 VPS 托管值得考虑。然而,对于 24B-32B 规模的更大型模型,可能需要更强大的 GPU 解决方案。
想获取更多 Ollama 基准测试、GPU VPS 托管评测及 AI 性能测试,敬请关注我们的最新更新!
ollama vps、ollama a4000、a4000 vps 托管、基准 a4000、ollama 基准、用于 llms 推理的 a4000、nvidia a4000 租赁、用于 ai 的 gpu vps、ollama 模型性能、深度学习 vps、在 a4000 上部署 ollama