OpenAI GPT-OSS 托管

Ollama 与 OpenAI 合作,将其最新的先进开放权重模型引入 Ollama。20B 和 120B 这两个模型带来了全新的本地聊天体验,专为强大的推理能力、代理任务和丰富的开发者用例而设计。

选择 GPT-OSS 的 GPU 托管计划

释放 OpenAI 的 GPT-OSS 模型的强大功能——由 Database Mart 在企业级 NVIDIA GPU 服务器上完全托管和管理。

GPU物理服务器 - V100

¥ 1849.00/月
两年
立即订购
  • CPU: 24核E5-2690v3*2
  • 内存: 128GB DDR4
  • 系统盘: 240GB SSD
  • 数据盘: 2TB SSD
  • 系统: Win10/Linux
  • 其他: 独立IP,100M-1G带宽
  • 独显: Nvidia V100
  • 显存: 16GB HBM2
  • CUDA核心: 5120
  • 单精度浮点: 14 TFLOPS

GPU物理服务器-A4000

¥ 1729.00/月
两年
立即订购
  • CPU: 24核E5-2697v2*2
  • 内存: 128GB DDR3
  • 系统盘: 240GB SSD
  • 数据盘: 2TB SSD
  • 系统: Win10/Linux
  • 其他: 独立IP,100M-1G带宽
  • 独显:RTX A4000
  • 显存: 16GB GDDR6
  • CUDA核心: 6144
  • 单精度浮点: 19.2 TFLOPS

GPU物理服务器 - A6000

¥ 3389.00/月
两年
立即订购
  • CPU: 36核E5-2697v4*2
  • 内存: 256GB DDR4
  • 系统盘: 240GB SSD
  • 数据盘: 2TB NVMe + 8TB SATA
  • 系统: Win10/Linux
  • 其他: 独立IP,100M-1G带宽
  • 独显: Nvidia RTX A6000
  • 显存: 48GB GDDR6
  • CUDA核心: 10752
  • 单精度浮点: 38.71 TFLOPS

什么是 GPT OSS

GPT OSS 是 OpenAI 推出的全新开源模型系列!这是 OpenAI 备受期待的开放权重版本,旨在实现强大的推理能力、代理任务以及丰富的开发者用例。

OpenAI GPT-OSS 是 OpenAI 于 2025 年 8 月 6 日发布的突破性开放式大型语言模型 (LLM) 系列。GPT-OSS 专为本地部署、透明性和商业用途而设计,可提供强大的 AI 功能,同时解决与 GPT-3.5/4 等封闭 API 模型相关的隐私、成本和定制挑战。

功能亮点

  • Agentic 功能: 使用模型的原生功能进行函数调用、网页浏览(Ollama 提供内置网页搜索,可以选择启用该功能以使用最新信息扩充模型)、python 工具调用和结构化输出。
  • 完整的思路: 完全访问模型的推理过程,从而更轻松地进行调试并增强对输出的信任。
  • 可配置的推理力度: 根据您的具体用例和延迟需求轻松调整推理力度(低、中、高)。
  • 可微调: 通过参数微调完全根据您的特定用例定制模型。
  • 宽松的 Apache 2.0 许可证: 自由构建,不受版权限制或专利风险 - 非常适合实验、定制和商业部署。

功能概述

  • 总参数分别为21B and 117B ,其中有效参数分别为 3.6B 和 5.1B。
  • 使用 mxfp4 格式.的,4 位量化方案。仅适用于 MoE 权重。如上所述, 120B 适用于单个 80 GB GPU20B 适用于单个 16 GB GPU
  • 推理,纯文本模型;具有思路链和可调节的推理努力程度。
  • 使用变压器、vLLM、llama.cpp 和 ollama进行推理实现。
  • 许可证: Apache 2.0,带有少量补充使用政策。

GPT-OSS-120B 与 GPT-OSS-20B

GPT-OSS-120B

  • 一个包含1170 亿个参数的专家混合模型(每个标记约有51 亿个活跃参数)。
  • D专为高推理和通用用途而设计,提供与 OpenAI 专有o4‑mini模型相当的性能。
  • 从架构上看,它有36层,每层有128位专家,其中每个代币有 4 位活跃专家

GPT-OSS-20B

  • 一个较小的210亿参数模型,每个标记大约有36 亿个活跃参数
  • 针对本地或边缘部署进行了优化—在具有**≈16 GB GPU 内存**的设备上运行良好。
  • 专为延迟敏感的代理工作流、工具使用和快速原型设计而设计,具有较低的计算开销。

摘要表

模型 总参数 活动参数 图层 每层专家 活跃专家 图形处理器
GPT-OSS-120B ~117 B ~5.1 B 36 128 4 2xA100, A100 80GB, H100
GPT-OSS-20B ~21 B ~3.6 B ~24 32 4 V100, A4000, RTX 4090, RTX 5090

基准测试结果

来自 OpenAI GPT OSS 模型,与 o3 和 o4-mini 相比(来源:OpenAI)。

ISPConfig

为什么选择 Database Mart 的 GPT‑OSS?

Llama 2 和 ChatGPT 都是大型语言模型,旨在生成类似人类的文本。然而,两者之间存在着关键的区别。

广泛的LLM支持

通过 Ollama、vLLM、LLaMA、Mistral 框架部署 gpt-oss-20B、gpt-oss-120B 等的定制服务器。

NVIDIA GPU 集群

可使用高 VRAM 卡 - RTX 4090 (24GB)、RTX A6000 (48GB)、A100 (40/80GB) - 非常适合大规模 gpt-oss 部署。

裸机服务器,不共享

消除虚拟机管理程序开销并确保推理工作负载的最大 GPU 性能。

99.9% 正常运行时间保证

拥有美国数据中心和企业级基础设施,保证高正常运行时间。

24/7/365专家支持

可通过实时聊天、票证或电子邮件获得免费帮助 — — 对于 VPS 免费,对于专用 GPU 服务器则提供专业帮助。

灵活的设置

从独立 GPU 机器或自定义多 GPU 配置中进行选择 - 只需告诉我们您的部署需求。

GPT-OSS 托管常见问题解答

以下是有关 GPT-OSS 托管的最常见问题。

1. 什么是GPT-OSS?

GPT-OSS 是指一系列开源大型语言模型 (LLM),例如 gpt-oss-20bgpt-oss-120b,旨在替代 GPT-4 等专有模型。这些模型可以自托管,以实现私密、安全且可自定义的使用。


2. 什么是 gpt-oss-20bgpt-oss-120b?

  • gpt-oss-20b: 一个 200 亿参数模型,适合在单个高端 GPU 或多 GPU 系统上进行强大的推理。
  • gpt-oss-120b: 一个 1200 亿参数的模型,需要高内存带宽,通常还需要多个 GPU 才能实现最佳性能。

3. 推荐什么样的GPU服务器?

为了高效运行 GPT-OSS 模型,我们建议:

  • 对于 20B: 1× A4000 16GB, 或 1× RTX 4090 24GB
  • 对于 120B: 1× A100 80GB, 或 2× A100 40GB ,带 NVLink 或高速互连

DatabaseMart 提供 GPU 服务器,具有灵活的每小时/每月定价来满足这些需求。


4. 我需要安装特殊的软件吗?

是的。要运行 GPT-OSS 模型,通常需要:

  • Ollama, vLLM, 或 Open WebUI 作为推理服务器
  • Python ≥ 3.10
  • 用于 GPU 加速的 CUDA 驱动程序
  • 来自 Hugging Face 或其他开放存储库的模型权重

我们可以根据要求预先安装这些。


5. 我可以使用 Ollama 运行 GPT-OSS 吗?

是的。您可以通过 Ollama配置并下载权重来 gpt-oss-20b加载其他模型。Ollama 还提供本地 API 以便与应用程序集成。Modelfile


6. 数据是否私密且安全?

当然。由于 GPT-OSS 在您的专用 GPU 服务器上运行,因此不会将任何数据发送到第三方 API。对于注重隐私的用户和企业来说,它是理想的选择。


7. 我可以在 Docker 容器中运行 GPT-OSS 吗?

是的,我们的服务器完全支持具有 GPU 直通功能的 Docker。您可以使用 Ollama、文本生成 Web UI 或 vLLM 的 Docker 镜像来容器化您的 LLM 工作负载。


8. 你们提供预安装环境吗?

是的。订购时,您可以选择:

  • 预装 Ollama, Python, CUDA
  • 您选择的型号 (例如 gpt-oss-20b)
  • 已准备好 Web UI 或 API 界面

只需在设置过程中让我们的团队了解您的偏好。


9. 如何开始使用 GPT-OSS 托管?

  1. DatabaseMart.com上选择兼容的 GPU 服务器
  2. 请求 GPT-OSS 环境设置
  3. 通过 SSH 或 Web 界面访问您的服务器
  4. 开始以完全控制和隐私的方式生成