广泛的LLM支持
选择 GPT-OSS 的 GPU 托管计划
GPU物理服务器 - V100
- CPU: 24核E5-2690v3*2
- 内存: 128GB DDR4
- 系统盘: 240GB SSD
- 数据盘: 2TB SSD
- 系统: Win10/Linux
- 其他: 独立IP,100M-1G带宽
- 独显: Nvidia V100
- 显存: 16GB HBM2
- CUDA核心: 5120
- 单精度浮点: 14 TFLOPS
GPU物理服务器 - A6000
- CPU: 36核E5-2697v4*2
- 内存: 256GB DDR4
- 系统盘: 240GB SSD
- 数据盘: 2TB NVMe + 8TB SATA
- 系统: Win10/Linux
- 其他: 独立IP,100M-1G带宽
- 独显: Nvidia RTX A6000
- 显存: 48GB GDDR6
- CUDA核心: 10752
- 单精度浮点: 38.71 TFLOPS
什么是 GPT OSS
OpenAI GPT-OSS 是 OpenAI 于 2025 年 8 月 6 日发布的突破性开放式大型语言模型 (LLM) 系列。GPT-OSS 专为本地部署、透明性和商业用途而设计,可提供强大的 AI 功能,同时解决与 GPT-3.5/4 等封闭 API 模型相关的隐私、成本和定制挑战。
功能亮点
- Agentic 功能: 使用模型的原生功能进行函数调用、网页浏览(Ollama 提供内置网页搜索,可以选择启用该功能以使用最新信息扩充模型)、python 工具调用和结构化输出。
- 完整的思路: 完全访问模型的推理过程,从而更轻松地进行调试并增强对输出的信任。
- 可配置的推理力度: 根据您的具体用例和延迟需求轻松调整推理力度(低、中、高)。
- 可微调: 通过参数微调完全根据您的特定用例定制模型。
- 宽松的 Apache 2.0 许可证: 自由构建,不受版权限制或专利风险 - 非常适合实验、定制和商业部署。
功能概述
- 总参数分别为21B and 117B ,其中有效参数分别为 3.6B 和 5.1B。
- 使用 mxfp4 格式.的,4 位量化方案。仅适用于 MoE 权重。如上所述, 120B 适用于单个 80 GB GPU 和 20B 适用于单个 16 GB GPU。
- 推理,纯文本模型;具有思路链和可调节的推理努力程度。
- 使用变压器、vLLM、llama.cpp 和 ollama进行推理实现。
- 许可证: Apache 2.0,带有少量补充使用政策。
GPT-OSS-120B 与 GPT-OSS-20B
GPT-OSS-120B
- 一个包含1170 亿个参数的专家混合模型(每个标记约有51 亿个活跃参数)。
- D专为高推理和通用用途而设计,提供与 OpenAI 专有o4‑mini模型相当的性能。
- 从架构上看,它有36层,每层有128位专家,其中每个代币有 4 位活跃专家。
GPT-OSS-20B
- 一个较小的210亿参数模型,每个标记大约有36 亿个活跃参数。
- 针对本地或边缘部署进行了优化—在具有**≈16 GB GPU 内存**的设备上运行良好。
- 专为延迟敏感的代理工作流、工具使用和快速原型设计而设计,具有较低的计算开销。
摘要表
模型 | 总参数 | 活动参数 | 图层 | 每层专家 | 活跃专家 | 图形处理器 |
---|---|---|---|---|---|---|
GPT-OSS-120B | ~117 B | ~5.1 B | 36 | 128 | 4 | 2xA100, A100 80GB, H100 |
GPT-OSS-20B | ~21 B | ~3.6 B | ~24 | 32 | 4 | V100, A4000, RTX 4090, RTX 5090 |
基准测试结果
来自 OpenAI GPT OSS 模型,与 o3 和 o4-mini 相比(来源:OpenAI)。
为什么选择 Database Mart 的 GPT‑OSS?
NVIDIA GPU 集群
裸机服务器,不共享
99.9% 正常运行时间保证
24/7/365专家支持
灵活的设置
GPT-OSS 托管常见问题解答
1. 什么是GPT-OSS?
GPT-OSS 是指一系列开源大型语言模型 (LLM),例如 gpt-oss-20b
和 gpt-oss-120b
,旨在替代 GPT-4 等专有模型。这些模型可以自托管,以实现私密、安全且可自定义的使用。
2. 什么是 gpt-oss-20b
和 gpt-oss-120b
?
- gpt-oss-20b: 一个 200 亿参数模型,适合在单个高端 GPU 或多 GPU 系统上进行强大的推理。
- gpt-oss-120b: 一个 1200 亿参数的模型,需要高内存带宽,通常还需要多个 GPU 才能实现最佳性能。
3. 推荐什么样的GPU服务器?
为了高效运行 GPT-OSS 模型,我们建议:
- 对于 20B: 1× A4000 16GB, 或 1× RTX 4090 24GB
- 对于 120B: 1× A100 80GB, 或 2× A100 40GB ,带 NVLink 或高速互连
DatabaseMart 提供 GPU 服务器,具有灵活的每小时/每月定价来满足这些需求。
4. 我需要安装特殊的软件吗?
是的。要运行 GPT-OSS 模型,通常需要:
- Ollama, vLLM, 或 Open WebUI 作为推理服务器
- Python ≥ 3.10
- 用于 GPU 加速的 CUDA 驱动程序
- 来自 Hugging Face 或其他开放存储库的模型权重
我们可以根据要求预先安装这些。
5. 我可以使用 Ollama 运行 GPT-OSS 吗?
是的。您可以通过 Ollama配置并下载权重来 gpt-oss-20b
加载其他模型。Ollama 还提供本地 API 以便与应用程序集成。Modelfile
6. 数据是否私密且安全?
当然。由于 GPT-OSS 在您的专用 GPU 服务器上运行,因此不会将任何数据发送到第三方 API。对于注重隐私的用户和企业来说,它是理想的选择。
7. 我可以在 Docker 容器中运行 GPT-OSS 吗?
是的,我们的服务器完全支持具有 GPU 直通功能的 Docker。您可以使用 Ollama、文本生成 Web UI 或 vLLM 的 Docker 镜像来容器化您的 LLM 工作负载。
8. 你们提供预安装环境吗?
是的。订购时,您可以选择:
- 预装 Ollama, Python, CUDA
- 您选择的型号 (例如
gpt-oss-20b
) - 已准备好 Web UI 或 API 界面
只需在设置过程中让我们的团队了解您的偏好。
9. 如何开始使用 GPT-OSS 托管?
- 在 DatabaseMart.com上选择兼容的 GPU 服务器
- 请求 GPT-OSS 环境设置
- 通过 SSH 或 Web 界面访问您的服务器
- 开始以完全控制和隐私的方式生成