Ollama Hosting,使用 Ollama 部署您自己的 AI 聊天机器人

Ollama 是一款自托管的 AI 解决方案,可在本地或您自己的基础架构上运行开源大型语言模型,例如 Deepseek、Gemma、Llama、Mistral 和其他 LLM。GPUMart 提供了适用于 Ollama 的最佳预算 GPU 服务器列表,以确保您能够充分利用这款出色的应用程序。

选择您的 Ollama 托管计划

Database Mart 为 Ollama 提供最经济实惠的 GPU 服务器。经济实惠的 Ollama 主机托管是部署您自己的 AI 聊天机器人的理想之选。注意:运行 7B 模型至少需要 8 GB 的 VRAM(GPU 内存),运行 13B 模型至少需要 16 GB,运行 33B 模型至少需要 32 GB,运行 70B 模型至少需要 64 GB。

GPU物理服务器-A4000

  • CPU: 24核E5-2697v2*2
  • 内存: 128GB DDR3
  • 系统盘: 240GB SSD
  • 数据盘: 2TB SSD
  • 系统: Win10/Linux
  • 其他: 独立IP,100M-1G带宽
  • 独显:RTX A4000
  • 显存: 16GB GDDR6
  • CUDA核心: 6144
  • 单精度浮点: 19.2 TFLOPS
两年
¥ 1729.00/月

GPU物理服务器 - V100

  • CPU: 24核E5-2690v3*2
  • 内存: 128GB DDR4
  • 系统盘: 240GB SSD
  • 数据盘: 2TB SSD
  • 系统: Win10/Linux
  • 其他: 独立IP,100M-1G带宽
  • 独显: Nvidia V100
  • 显存: 16GB HBM2
  • CUDA核心: 5120
  • 单精度浮点: 14 TFLOPS
两年
¥ 1849.00/月

GPU物理服务器 - A5000

  • CPU: 24核E5-2697v2*2
  • 内存: 128GB DDR3
  • 系统盘: 240GB SSD
  • 数据盘: 2TB SSD
  • 系统: Win10/Linux
  • 其他: 独立IP,100M-1G带宽
  • 独显: Nvidia RTX A5000
  • 显存: 24GB GDDR6
  • CUDA核心: 8192
  • 单精度浮点: 27.8 TFLOPS
两年
¥ 2449.00/月

GPU物理服务器 - A6000

  • CPU: 36核E5-2697v4*2
  • 内存: 256GB DDR4
  • 系统盘: 240GB SSD
  • 数据盘: 2TB NVMe + 8TB SATA
  • 系统: Win10/Linux
  • 其他: 独立IP,100M-1G带宽
  • 独显: Nvidia RTX A6000
  • 显存: 48GB GDDR6
  • CUDA核心: 10752
  • 单精度浮点: 38.71 TFLOPS
两年
¥ 3389.00/月

热门 LLMs 及 GPU 推荐

如果您在 Ollama 平台上运行模型,选择合适的 NVIDIA GPU 对于性能和成本效益至关重要。>>点击此处查看更多型号推荐
DeepSeek
型号名称参数模型尺寸推荐的 GPU 卡
DeepSeek R17B4.7GBGTX 1660 6GB 或更高
DeepSeek R18B4.9GBGTX 1660 6GB 或更高
DeepSeek R114B9.0GBRTX A4000 16GB 或更高版本
DeepSeek R132B20GBRTX 4090, RTX A5000 24GB, A100 40GB
DeepSeek R170B43GBRTX A6000, A40 48GB
DeepSeek R1671B404GB尚不支持
Deepseek-coder-v216B8.9GBRTX A4000 16GB 或更高版本
Deepseek-coder-v2236B133GB2xA100 80GB, 4xA100 40GB
Qwen
型号名称参数模型尺寸推荐的 GPU 卡
Qwen2.57B4.7GBGTX 1660 6GB 或更高
Qwen2.514B9GBRTX A4000 16GB 或更高版本
Qwen2.532B20GBRTX 4090 24GB, RTX A5000 24GB
Qwen2.572B47GBA100 80GB, H100
Qwen 2.5 Coder14B9.0GBRTX A4000 16GB 或更高版本
Qwen 2.5 Coder32B20GBRTX 4090 24GB, RTX A5000 24GB 或更高版本
Llama
型号名称参数模型尺寸推荐的 GPU 卡
Llama 3.370B43GBA6000 48GB, A40 48GB 或更高版本
Llama 3.18B4.9GBGTX 1660 6GB 或更高
Llama 3.170B43GBA6000 48GB, A40 48GB 或更高版本
Llama 3.1405B243GB4xA100 80GB 或更高
Gemma
型号名称参数模型尺寸推荐的 GPU 卡
Gemma 29B5.4GBRTX 3060 Ti 8GB 或更高
Gemma 227B16GBRTX 4090, A5000 或更高版本
Phi
型号名称参数模型尺寸推荐的 GPU 卡
Phi-414B9.1GBRTX A4000 16GB 或更高版本
Phi-314B7.9GBRTX A4000 16GB 或更高版本

如何使用 Ollama AI 在本地运行 LLM

在Database Mart,只需 10 分钟即可在具有专用或多 GPU 设置的裸机服务器上部署 Ollama。
trip_origin
步骤 1

订购 GPU 服务器

点击立即订购,在订购页面上,选择预装的 Ollama 操作系统镜像进行自动安装。或者,选择标准操作系统,并在部署后手动安装 Ollama。
trip_origin
步骤 2

安装Ollama AI

如果您选择了标准操作系统,请远程登录您的 GPU 服务器,并从官方网站安装最新版本的 Ollama 。安装步骤与本地部署相同。
trip_origin
步骤 3

下载 LLM 模型

选择并下载与 Ollama 兼容的预训练 LLM 模型。您可以根据需求探索不同的模型:
trip_origin
步骤 4

与模型聊天

直接从终端或通过 Ollama 的 API 开始与您的模型交互,以便集成到应用程序中。

Ollama 托管的4个核心功能

Ollama 的易用性、灵活性和强大的 LLM 使其可供广泛的用户使用。
高性能GPU专用服务器
易于使用
Ollama 的 API 简洁易用,可轻松加载、运行 LLM 并与其交互。您无需具备丰富的编程知识,即可快速上手完成基本任务。
自由部署任何模型
灵活性
Ollama 提供了一个多功能平台,用于探索法学硕士 (LLM) 的各种应用。你可以使用它进行文本生成、语言翻译、创意写作等等。
灵活配置,按需扩展
强大的 LLMs
Ollama 包含预训练的 LLM,例如 Llama 2,以其庞大的规模和强大的功能而闻名。它还支持根据您的特定需求定制 LLM 的训练。
一键部署和管理工具
社区支持
Ollama 积极参与 LLM 社区,提供文档、教程和开源代码以促进协作和知识共享。

快速入门指南

利用我们的高性能 GPU 服务器大规模运行 Ollama。我们的专家精心设计了指南,帮助您部署、定制和优化 Ollama,以适应您的 AI 工作流程——无论是微调模型、构建 RAG 应用,还是通过 API 集成。

Ollama GPU 基准测试 – 模型性能

我们对包括 P1000、T1000、GTX 1660、RTX 4060、RTX 2060、RTX 3060 Ti、A4000、V100、A5000、RTX 4090、A40、A6000、A100 40GB、Dual A100 和 H100 在内的 GPU 进行了 LLM 基准测试。探索结果,为您的工作负载选择理想的 GPU 服务器。

GPU 专用服务器 - P1000

GPU 专用服务器 - T1000

GPU 专用服务器 - GTX 1660

GPU 专用服务器 - RTX 4060

GPU 专用服务器 - RTX 2060

GPU 专用服务器 - RTX 3060 Ti

GPU 专用服务器 - A4000

GPU 专用服务器 - V100

GPU 专用服务器 - A5000

GPU 专用服务器 - RTX 4090

GPU 专用服务器 - A40

GPU 专用服务器 - RTX A6000

GPU 专用服务器 - A100(40GB)

多GPU 专用服务器 - 2xA100(2x40GB)

GPU 专用服务器 - H100

Ollama 托管常见问题解答

以下是有关 Ollama 托管服务的最常见问题。

Ollama 是什么?

Ollama 是一个旨在在您的计算机上本地运行开源大型语言模型 (LLM) 的平台。它支持多种模型,包括 Llama 2、Code Llama 等,并将模型权重、配置和数据捆绑到一个由 Modelfile 定义的包中。Ollama 是一个可扩展的平台,支持为各种应用程序创建、导入和使用自定义或现有语言模型。

哪些 Nvidia GPU 适合运行 Ollama?

Ollama 支持计算能力 5.0 及以上的 Nvidia GPU。请检查您的显卡的计算兼容性,确认其是否受支持:https://developer.nvidia.com/cuda-gpus.
各系列最低支持显卡示例:Quadro K620/P600, Tesla P100, GeForce GTX 1650, Nvidia V100, RTX 4000。

在哪里可以找到 Ollama GitHub 存储库?

Ollama GitHub 仓库是所有与 Ollama 相关资源的中心。您可以在 GitHub 上搜索“Ollama”或点击此链接 (https://github.com/ollama/ollama),查找源代码、文档和社区讨论。

如何使用 Ollama Docker 镜像?

使用 Ollama Docker 镜像 (https://hub.docker.com/r/ollama/ollama) 非常简单。安装 Docker 后,您可以拉取 Ollama 镜像并使用简单的 shell 命令运行它。详细步骤请参阅本文的第二部分。

Ollama 与 Windows 兼容吗?

是的,Ollama 提供跨平台支持,包括 Windows 10 及更高版本。您可以从 Ollama 下载页面 (https://ollama.com/download/windows) 或 GitHub 仓库下载 Windows 可执行文件,然后按照安装说明进行操作。

Ollama 可以利用 GPU 获得更好的性能吗?

是的,Ollama 可以利用 GPU 加速来加速模型推理。这对于计算密集型任务尤其有用。

什么是 Ollama-UI,它如何增强用户体验?

Ollama-UI 是一个图形用户界面,让您可以更轻松地管理本地语言模型。它提供了一种用户友好的方式来运行、停止和管理模型。Ollama 拥有许多优秀的开源聊天 UI,例如聊天机器人 UI、Open WebUI 等。

Ollama 如何与 LangChain 集成?

Ollama 和 LangChain 可以结合使用,打造强大的语言模型应用。LangChain 提供语言模型,Ollama 提供本地运行平台。