check_circle高性能
我们的AI服务器配备了顶级Nvidia GPU,以确保卓越的计算性能。
GPU物理服务器 - P600
GPU物理服务器 - P620
GPU物理服务器 - P1000
GPU物理服务器 - GTX 1650
GPU物理服务器 - T1000
GPU云服务器 - A4000
GPU物理服务器 - GTX 1660
GPU物理服务器 - RTX 2060
GPU物理服务器 - RTX 2060升级款
GPU物理服务器 - P100
GPU物理服务器 - RTX 3060 Ti
GPU物理服务器 - V100
GPU物理服务器 - A5000
GPU物理服务器 - 2xRTX 3060 Ti
GPU物理服务器 - 3xRTX 3060 Ti
GPU物理服务器 - A6000
GPU物理服务器 - A40
GPU物理服务器 - 2xA5000
GPU物理服务器 - 3xV100
GPU物理服务器 - 3xA5000
GPU物理服务器 - 3xA6000
GPU物理服务器 - 4xA6000
GPU物理服务器 - 8xA6000
vLLM 托管
Hugging Face 托管
LangChain 托管
独立IP | ¥16/月/IPv4 或 IPV6 | 最多额外购买3个。需要 ARIN 证明 |
带宽升级 | 升级到200M:¥80/月 升级到1000M:¥160/月 | |
内存 | 16GB:¥40/月 32GB:¥70/月 64GB:¥140/月 128GB:¥250/月 256GB:¥400/月 | |
SSD 盘 | 240GB SSD: ¥40/月 960GB SSD: ¥80/月 2TB SSD: ¥160/月 4TB SSD: ¥240/月 | |
NVMe 盘 | 960GB NVMe: ¥80/月 2TB NVMe: ¥160/月 4TB NVMe: ¥240/月 | |
SATA 盘 | 2TB SATA: ¥80/月 4TB SATA: ¥160/月 8TB SATA: ¥240/月 16TB SATA : ¥320/月 | |
HDMI虚拟适配器(HDMI Dummy) | ¥69/一次性收费 | |
GPU-NVlink | NVLink 1个(桥接2xA5000):240元/月 NVLink 1个(桥接2xA6000):240元/月 NVLink 2个(桥接4xA6000):480元/月 NVLink 3个(桥接6xA6000):720元/月 NVLink 4个(桥接8xA6000):960元/月 |
模型名称 | 大小(4-bit 量化) | 推荐GPU | Tokens/秒 |
---|---|---|---|
deepSeek-r1:7B | 4.7GB | T1000 < RTX3060 Ti < RTX4060 < A4000 < RTX5060 < V100 | 26.70-87.10 |
deepSeek-r1:8B | 5.2GB | T1000 < RTX3060 Ti < RTX4060 < A4000 < RTX5060 < V100 | 21.51-87.03 |
deepSeek-r1:14B | 9.0GB | A4000 < A5000 < V100 | 30.2-48.63 |
deepSeek-r1:32B | 20GB | A5000 < RTX4090 < A100-40gb < RTX5090 | 24.21-45.51 |
deepSeek-r1:70B | 43GB | A40 < A6000 < 2A100-40gb < A100-80gb < H100 < 2RTX5090 | 13.65-27.03 |
deepseek-v2:236B | 133GB | 2A100-80gb < 2H100 | -- |
llama3.2:1b | 1.3GB | P1000 < GTX1650 < GTX1660 < RTX2060 < T1000 < RTX3060 Ti < RTX4060 < RTX5060 | 28.09-100.10 |
llama3.1:8b | 4.9GB | T1000 < RTX3060 Ti < RTX4060 < RTX5060 < A4000 < V100 | 21.51-84.07 |
llama3:70b | 40GB | A40 < A6000 < 2A100-40gb < A100-80gb < H100 < 2RTX5090 | 13.15-26.85 |
llama3.2-vision:90b | 55GB | 2A100-40gb < A100-80gb < H100 < 2RTX5090 | ~12-20 |
llama3.1:405b | 243GB | 8A6000 < 4A100-80gb < 4*H100 | -- |
gemma2:2b | 1.6GB | P1000 < GTX1650 < GTX1660 < RTX2060 | 19.46-38.42 |
gemma3:4b | 3.3GB | GTX1650 < GTX1660 < RTX2060 < T1000 < RTX3060 Ti < RTX4060 < RTX5060 | 28.36-80.96 |
gemma3n:e2b | 5.6GB | T1000 < RTX3060 Ti < RTX4060 < RTX5060 | 30.26-56.36 |
gemma3n:e4b | 7.5GB | A4000 < A5000 < V100 < RTX4090 | 38.46-70.90 |
gemma3:12b | 8.1GB | A4000 < A5000 < V100 < RTX4090 | 30.01-67.92 |
gemma3:27b | 17GB | A5000 < RTX4090 < A100-40gb < H100 = RTX5090 | 28.79-47.33 |
qwen3:14b | 9.3GB | A4000 < A5000 < V100 | 30.05-49.38 |
qwen2.5:7b | 4.7GB | T1000 < RTX3060 Ti < RTX4060 < RTX5060 | 21.08-62.32 |
qwen2.5:72b | 47GB | 2A100-40gb < A100-80gb < H100 < 2RTX5090 | 19.88-24.15 |
qwen3:235b | 142GB | 4A100-40gb < 2H100 | ~10-20 |
mistral:7b / openorca / lite / dolphin | 4.1–4.4GB | T1000 < RTX3060 < RTX4060 < RTX5060 | 23.79-73.17 |
mistral-nemo:12b | 7.1GB | A4000 < V100 | 38.46-67.51 |
mistral-small:22b / 24b | 13–14GB | A5000 < RTX4090 < RTX5090 | 37.07-65.07 |
mistral-large:123b | 73GB | A100-80gb < H100 | ~30 |
模型名称 | 大小(16-bit 量化) | 推荐GPU | 并发请求数 | Tokens/秒 |
---|---|---|---|---|
deepseek-ai/deepseek-coder-6.7b-instruct | ~13.4GB | A5000 < RTX4090 | 50 | 1375–4120 |
deepseek-ai/DeepSeek-R1-Distill-Llama-8B | ~16GB | 2A4000 < 2V100 < A5000 < RTX4090 | 50 | 1450–2769 |
deepseek-ai/deepseek-coder-33b-instruct | ~66GB | A100-80gb < 2A100-40gb < 2A6000 < H100 | 50 | 570–1470 |
deepseek-ai/DeepSeek-R1-Distill-Llama-70B | ~135GB | 4*A6000 | 50 | 466 |
meta-llama/Llama-3.2-3B-Instruct | 6.2GB | A4000 < A5000 < V100 < RTX4090 | 50–300 | 1375–7214.10 |
meta-llama/Llama-3.3-70B-Instruct / 3.1-70B / Meta-3-70B | 132GB | 4A100-40gb, 2A100-80gb, 2*H100 | 50 | ~295.52–990.61 |
google/gemma-3-4b-it | 8.1GB | A4000 < A5000 < V100 < RTX4090 | 50 | 2014.88–7214.10 |
google/gemma-2-9b-it | 18GB | A5000 < A6000 < RTX4090 | 50 | 951.23–1663.13 |
google/gemma-3-12b-it | 23GB | A100-40gb < 2*A100-40gb < H100 | 50 | 477.49–4193.44 |
google/gemma-3-27b-it | 51GB | 2*A100-40gb < A100-80gb < H100 | 50 | 1231.99–1990.61 |
Qwen/Qwen2-VL-2B-Instruct | ~5GB | A4000 < V100 | 50 | ~3000 |
Qwen/Qwen2.5-VL-3B-Instruct | ~7GB | A5000 < RTX4090 | 50 | 2714.88–6980.31 |
Qwen/Qwen2.5-VL-7B-Instruct | ~15GB | A5000 < RTX4090 | 50 | 1333.92–4009.29 |
Qwen/Qwen2.5-VL-32B-Instruct | ~65GB | 2*A100-40gb < H100 | 50 | 577.17–1481.62 |
Qwen/Qwen2.5-VL-72B-Instruct-AWQ | 137GB | 4A100-40gb < 2H100 < 4*A6000 | 50 | 154.56–449.51 |
mistralai/Pixtral-12B-2409 | ~25GB | A100-40gb < A6000 < 2*RTX4090 | 50 | 713.45–861.14 |
mistralai/Mistral-Small-3.2-24B-Instruct-2506 | ~47GB | 2*A100-40gb < H100 | 50 | ~1200–2000 |
mistralai/Pixtral-Large-Instruct-2411 | 292GB | 8*A6000 | 50 | ~466 |
说明:
推荐GPU:从左到右性能由低到高
Tokens/秒:基于基准测试数据