Ollma基准测试工具(适用于Deepseek)
每个模型——从轻量级的DeepSeek-R1 1.5B到更大的7B、14B和32B版本——都在RTX 3060、3090、4090和A100等主流GPU上进行了评估。这有助于用户在使用Ollama运行DeepSeek模型时,根据性能和成本效益选择最合适的GPU。
模型名称 | 大小(4位量化) | 推荐显卡(GPU) | 令牌/秒 |
---|---|---|---|
deepseek-coder:1.3b | 776MB | P1000 < T1000 < GTX1650 < GTX1660 < RTX2060 | 28.9-50.32 |
deepSeek-r1:1.5B | 1.1GB | P1000 < T1000 < GTX1650 < GTX1660 < RTX2060 | 25.3-43.12 |
deepseek-coder:6.7b | 3.8GB | T1000 < RTX3060 Ti < RTX4060 < A4000 < RTX5060 < V100 | 26.55-90.02 |
deepSeek-r1:7B | 4.7GB | T1000 < RTX3060 Ti < RTX4060 < A4000 < RTX5060 < V100 | 26.70-87.10 |
deepSeek-r1:8B | 5.2GB | T1000 < RTX3060 Ti < RTX4060 < A4000 < RTX5060 < V100 | 21.51-87.03 |
deepSeek-r1:14B | 9.0GB | A4000 < A5000 < V100 | 30.2-48.63 |
deepseek-v2:16B | 8.9GB | A4000 < A5000 < V100 | 22.89-69.16 |
deepSeek-r1:32B | 20GB | A5000 < RTX4090 < A100-40gb < RTX5090 | 24.21-45.51 |
deepseek-coder:33b | 19GB | A5000 < RTX4090 < A100-40gb < RTX5090 | 25.05-46.71 |
deepSeek-r1:70B | 43GB | A40 < A6000 < 2*A100-40gb < A100-80gb < H100 < 2*RTX5090 | 13.65-27.03 |
deepseek-v2:236B | 133GB | 2*A100-80gb < 2*H100 | -- |
deepSeek-r1:671B | 404GB | 6*A100-80gb < 6*H100 | -- |
deepseek-v3:671B | 404GB | 6*A100-80gb < 6*H100 | -- |
模型名称 | 大小(16位量化) | 推荐的显卡(GPU) | 并发请求 | 令牌/秒 |
---|---|---|---|---|
deepseek-ai/DeepSeek‑R1‑Distill‑Qwen‑1.5B | ~3GB | T1000 < RTX3060 < RTX4060 < 2*RTX3060 < 2*RTX4060 < A4000 < V100 | 50 | 1500-5000 |
deepseek-ai/deepseek‑coder‑6.7b‑instruct | ~13.4GB | A5000 < RTX4090 | 50 | 1375-4120 |
deepseek-ai/Janus‑Pro‑7B | ~14GB | A5000 < RTX4090 | 50 | 1333-4009 |
deepseek-ai/DeepSeek‑R1‑Distill‑Qwen‑7B | ~14GB | A5000 < RTX4090 | 50 | 1333-4009 |
deepseek-ai/DeepSeek‑R1‑Distill‑Llama‑8B | ~16GB | 2*A4000 < 2*V100 < A5000 < RTX4090 | 50 | 1450-2769 |
deepseek-ai/DeepSeek‑R1‑Distill‑Qwen‑14B | ~28GB | 3*V100 < 2*A5000 < A40 < A6000 < A100-40gb < 2*RTX4090 | 50 | 449-861 |
deepseek-ai/DeepSeek‑R1‑Distill‑Qwen‑32B | ~65GB | A100-80gb < 2*A100-40gb < 2*A6000 < H100 | 50 | 577-1480 |
deepseek-ai/deepseek‑coder‑33b‑instruct | ~66GB | A100-80gb < 2*A100-40gb < 2*A6000 < H100 | 50 | 570-1470 |
deepseek-ai/DeepSeek‑R1‑Distill‑Llama‑70B | ~135GB | 4*A6000 | 50 | 466 |
deepseek-ai/DeepSeek‑Prover‑V2‑671B | ~1350GB | -- | -- | -- |
deepseek-ai/DeepSeek‑V3 | ~1350GB | -- | -- | -- |
deepseek-ai/DeepSeek‑R1 | ~1350GB | -- | -- | -- |
deepseek-ai/DeepSeek‑R1‑0528 | ~1350GB | -- | -- | -- |
deepseek-ai/DeepSeek‑V3‑0324 | ~1350GB | -- | -- | -- |
GPU物理服务器 - P1000
GPU物理服务器 - T1000
GPU物理服务器 - GTX 1650
GPU物理服务器 - GTX 1660
GPU云服务器 - A4000
GPU物理服务器 - RTX 2060
GPU物理服务器 - RTX 3060 Ti
GPU物理服务器 - V100
GPU物理服务器 - A5000
GPU物理服务器 - 2xRTX 3060 Ti
GPU物理服务器 - 3xRTX 3060 Ti
GPU物理服务器 - 2xA5000
GPU物理服务器 - A40
GPU物理服务器 - 3xA5000
DeepSeek 托管服务允许用户通过自建环境或云端 API 部署、推理或微调 DeepSeek 模型(如 R1、V2、V3 或 Distill 变体)。DeepSeek 托管服务类型包括自建部署和大型语言模型即服务(LLMaaS)。
✅ S自托管部署指在GPU服务器(如A100、4090、H100)上使用推理引擎(如vLLM、TGI或Ollama)进行部署,用户可控制模型文件、批量处理、内存使用及API逻辑。
✅ 大型语言模型即服务(LLMaaS) 通过API提供商使用DeepSeek模型,无需部署,只需调用API即可。
功能 / 方面 | 🖥️ 自托管 DeepSeek 部署 | ☁️ DeepSeek LLM 即服务(LLMaaS) |
---|---|---|
部署位置 | 运行在你自己的 GPU 服务器上(如 A100、4090、H100) | 云端部署,通过 API 平台访问 |
模型控制权 | ✅ 完全控制模型权重、版本、更新 | ❌ 受限 —— 只能使用服务商提供的模型 |
自定义能力 | 完全支持 —— 微调、LoRA、量化统统都行 | 几乎没有自定义选项 |
隐私与数据安全 | ✅ 数据本地处理 —— 适合敏感数据场景 | ❌ 数据需发送到第三方云 API |
性能调优 | 可自由调控:批处理大小、并发、缓存机制等 | 预设参数,调优空间有限 |
支持模型 | 任意 DeepSeek 模型(R1、V2、V3、Distill 等) | 仅限服务商提供的模型 |
推理引擎选择 | 可选用 vLLM、TGI、Ollama、llama.cpp、自定义栈等 | 引擎不可见 —— 由服务商决定 |
启动时间 | 启动慢 —— 需要自己部署配置 | 即刻使用 —— API 开箱即用 |
可扩展性 | 需自己管理基础设施 | 由服务商自动扩展 |
成本模式 | 前期成本高(买硬件),但长期规模化更省 | 按调用或 Token 收费 —— 成本可预期,但规模大时很贵 |
使用场景适配度 | 适合研发、私有部署、大规模负载 | 适合原型验证、演示、小规模使用 |
示例平台 | 专属 GPU 服务器、本地集群 | DBM、Together.ai、OpenRouter.ai、Fireworks.ai、Groq |