第五代Tensor核心
第五代Tensor核心的性能相比上一代提升最高3倍,并新增对FP4精度 和DLSS 4多帧生成技术(Multi Frame Generation) 的支持。可加速智能代理与生成式AI应用,同时推动内容创作和图形渲染性能提升。
| 模型 | gpt-oss | gpt-oss | deepseek-r1 | deepseek-r1 | gemma3 | llama3.3 | qwen3 | qwen2.5 |
|---|---|---|---|---|---|---|---|---|
| 参数规模 | 20b | 120b | 32b | 70b | 27b | 70b | 32b | 72b |
| 模型体积 | 14 | 65 | 20 | 43 | 17 | 43 | 20 | 47 |
| GPU利用率 | 65% | 60% | 87% | 94% | 83% | 94% | 90% | 93% |
| GPU显存占用 | 33% | 77% | 98% | 41% | 18% | 41% | 20% | 45% |
| 推理速度 (tokens/s) | 185.09 | 134.28 | 64.31 | 32.04 | 61.49 | 31.96 | 55.96 | 29.15 |
| 模型 | Llama-3.1-8B | gemma-3-12b-it | gpt-oss-20b | gpt-oss-120b | DeepSeek-R1-Distill-Llama-8B | DeepSeek-R1-Distill-Qwen-14B | DeepSeek-R1-Distill-Qwen-32B | Qwen3-8B | Qwen3-14B | Qwen3-VL-32B-Instruct |
|---|---|---|---|---|---|---|---|---|---|---|
| 量化方式 | BF16 | BF16 | MXFP4 | MXFP4 | BF16 | BF16 | BF16 | BF16 | BF16 | BF16 |
| 模型体积(GB) | 15GB | 23GB | 13GB | 61GB | 15GB | 28GB | 62GB | 15GB | 28GB | 63GB |
| 请求数量 | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 50 | 50 |
| 基准测试时长(s) | 10.93 | 19.23 | 7.99 | 19.68 | 10.89 | 18.66 | 36.19 | 11.29 | 17.20 | 37.67 |
| 请求吞吐量 (req/s) | 4.57 | 2.60 | 6.25 | 2.54 | 4.59 | 2.68 | 1.38 | 4.43 | 2.91 | 1.33 |
| 输入吞吐量 (tokens/s) | 452.7 | 257.4 | 625.49 | 254.11 | 454.63 | 265.33 | 136.78 | 443.01 | 290.62 | 132.95 |
| 输出吞吐量 (tokens/s) | 2743.63 | 1560.03 | 3752.90 | 1524.66 | 2755.33 | 1608.06 | 829.02 | 2658.02 | 1743.76 | 796.45 |
| 总吞吐量 (tokens/s) | 3196.33 | 1817.43 | 4378.39 | 1778.77 | 3209.96 | 1873.39 | 965.80 | 3101.03 | 2034.38 | 929.20 |