LLMaaS 定价 – 具有强大 GPU 的可扩展推理 API
LLMaaS 使用 vLLM 后端框架来推断 Hugging Face 上的 16 位量化模型。用户可以通过 HTTPS API 访问,无需部署。您可以使用您常用的 SDK 通过 HTTPS 端点进行连接。每个套餐都提供专用 GPU 访问,不共享资源。
LLMaaS
Serverless-V100*3
$ 0.69/Hour
17% OFF (Was $0.83)
Order Now- OS: Linux
- GPU: Nvidia V100
- Architecture: Volta
- CUDA Cores: 5,120
- GPU Memory: 3 x 16GB HBM2
- GPU Count: 3
- Best for LLMs under 14B:
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Llama-8B
- DeepSeek-R1-Distill-Qwen-7B
- Llama-3.1-8B-Instruct
- Qwen3-14B
- ...
LLMaaS
Serverless-A40
$ 0.76/Hour
13% OFF (Was $0.87)
Order Now- OS: Linux
- GPU: Nvidia A40
- Architecture: Ampere
- CUDA Cores: 10,752
- GPU Memory: 48GB GDDR6
- GPU Count: 1
- Best for LLMs under 14B:
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Llama-8B
- DeepSeek-R1-Distill-Qwen-7B
- Llama-3.1-8B-Instruct
- Qwen3-14B
- ...
LLMaaS
Serverless-A100-40GB
$ 0.79/Hour
25% OFF (Was $1.05)
Order Now- OS: Linux
- GPU: Nvidia A100
- Architecture: Ampere
- CUDA Cores: 6,912
- GPU Memory: 40GB HBM2
- GPU Count: 1
- Best for LLMs under 14B:
- DeepSeek-R1-Distill-Qwen-14B
- DeepSeek-R1-Distill-Llama-8B
- DeepSeek-R1-Distill-Qwen-7B
- Llama-3.1-8B-Instruct
- Qwen3-14B
- Gemma-3-12B
- ...
LLMaaS
Serverless-A100-80GB
$ 1.69/Hour
28% OFF (Was $2.35)
Order Now- OS: Linux
- GPU: Nvidia A100
- Architecture: Ampere
- CUDA Cores: 6,912
- GPU Memory: 80GB HBM2e
- GPU Count: 1
- Best for LLMs under 32B:
- DeepSeek-R1-Distill-Qwen-32B
- Qwen2.5-32B-Instruct
- Qwen3-32B
- Qwen3-14B
- Gemma-3-12B
- ...
快速入门:LLMaaS 的无服务器 API
只需 4 个步骤,您即可拥有自己的 LLM API。这是一份无服务器快速入门指南,可帮助您设置帐户并开始使用。
选择无服务器 LLM 产品,创建API 密钥,并充值积分.
选择一个GPU 实例并创建一个专用端点,命名您的端点名称并选择一个模型。
LLM 模型将自动部署,您可以在几分钟内享受您的专用 LLM API。
LLMaaS 相对于自托管 LLM 的优势
LLMaaS(大型语言模型即服务)相较于传统的LLM Hosting(在自建或托管的GPU服务器上部署模型)具有显著的优势。
通过 API 立即使用
LLMaaS 提供开箱即用的 API,无需开发人员管理模型下载、部署、环境配置或依赖项。这使得开发人员无需 DevOps 经验即可快速集成或测试 LLM 功能。
按需付费
无需购买整套 GPU 服务器。按小时计费和按需使用,使其成为临时部署、原型设计和教育用途的理想之选。初创公司、实验室和学生可以低成本体验强大的 LLM 推理功能。
无服务器扩展
LLMaaS 自动分配后端计算资源,具备冷启动优化、资源调度、异常处理等功能,适合 AI 聊天机器人、智能问答 API 等请求量波动较大的业务。
优化推理堆栈
LLMaaS 内置优化的 vLLM 推理引擎,高度优化了模型性能和延迟。在同等 GPU 上,LLMaaS 通常能够提供更快的响应时间和更低的内存占用。
安全与隔离
每个LLMaaS API实例运行在隔离的容器环境中,确保请求安全和数据隐私,适用于医疗、金融、教育等敏感行业的模型调用。
通过多模型支持进行快速实验
LLMaaS 支持在不同模型(例如 Qwen、DeepSeek、Gemma、Phi-3 等)之间灵活切换,无需重新部署,非常适合 A/B 测试、多模型对比和产品快速迭代。
图书馆:我们支持的 LLM 模型
我们为不同的工作负载提供多样化的先进 LLM 库——从推理密集型任务到轻量级、经济高效的推理。使用我们的 API,您可以即时切换模型,无需重新部署。
DeepSeek 服务
DeepSeek-R1 最适合高级推理、编码和多步骤逻辑,在复杂问题解决、数学推理和基于研究的任务中实现高精度。
Qwen 服务
Qwen(Qwen-3、Qwen-2.5、Qwen-Max)拥有优秀的中英文双语能力和强大的长文本理解能力,最适合多语言任务和企业聊天机器人。
Llama 服务
LLaMA(meta LLaMA 3/3.1)提供灵活的许可、对利基业务领域的适应性以及开源定制和微调的便利性。
Gemma 服务
Gemma(Google Gemma 2/3)模型体积小,在有限的硬件上高效,推理速度快,适用于轻量级部署和边缘AI场景。
Mistral 服务
Mistral(Mistral 7B / Mixtral 8x7B)是一种快速高效的稀疏混合专家架构。它最适合低延迟推理和经济高效的生产。
更多内容即将推出
Claude、GPT 和其他用于特殊用例的尖端 LLM。
LLMaaS 如何运作
✅ 注册并获取 API 密钥
用户首先需要在 LLMaaS 平台上注册一个账号。注册后,平台会分配一个唯一的 API 密钥,用于身份验证和服务调用。此 API 密钥如同通行证,防止未经授权的访问,并帮助平台跟踪使用情况和计费。
✅ 选择模型
用户从平台的模型库中选择所需的 LLM,例如 LLaMA、GPT 和 Gemma。不同模型的推理速度、参数大小、能力范围和价格可能有所不同。我们还支持多版本或微调模型,以便针对特定任务进行优化。
✅ 调用 API 获取推理结果
用户向 API 发送请求(例如问题、提示或数据)。模型在云端运行并返回结果。此过程对用户透明,无需担心模型部署和硬件管理等细节。
✅ 推理结果展示
返回的结果可能是文本、结构化数据或代码,具体取决于模型的功能。推理费用将根据实际使用时间自动扣除。
推理 API 如何工作
✅ 身份验证
API 需要 API 密钥或令牌,以确保只有授权用户才能发出请求。
✅ 请求提交
客户端通过 HTTP 请求(通常为带有 JSON 负载的 POST 格式)发送输入数据(提示、图像、音频等)。
✅ 模型执行
API 服务器通过选定的 AI 模型运行输入。这可能涉及 GPU 推理、批处理和低延迟优化。
✅ 响应交付
API 返回处理后的输出,这些输出可能是:生成的文本、翻译的句子、生成的图像或视频以及音频转录。
常见问题解答:LLM 即服务和推理 API
什么是 LLM 即服务 (LLMaaS)?
LLM 即服务 (LLMaaS) 是一种基于云的解决方案,我们在我们的基础架构上托管和运行大型语言模型 (LLM)。您可以通过推理 API 访问它们,无需担心 GPU 设置、扩展或模型部署。
你们提供多种 LLM API 推理模型吗?
是的。我们的 LLM 服务支持多种模型,包括 DeepSeek-R1、Qwen、LLaMA、Gemma 和 Mistral,因此您可以选择最适合您任务的模型。
你们支持多 GPU LLM 推理吗?
可以。对于大型模型(30B 到 70B 以上),我们使用多 GPU LLM 配置来实现更快的处理速度和更长的上下文窗口。
LLM 即服务的定价模式是什么?
我们提供按需付费和订阅两种方案。您可以从免费套餐开始,并随着使用量的增长进行升级。
你们的 LLM 服务安全性如何?
所有 API 调用均使用 HTTPS 加密,数据在内存中处理(无存储),并且我们支持敏感工作负载的私有部署。
LLM 托管和 LLMaaS 有什么区别?
LLM 托管意味着租用 GPU 服务器并自行部署模型。LLMaaS 意味着您可以省去托管的复杂性——我们提供即用型 API,让您可以立即开始发送请求。
我可以在不购买硬件的情况下在 GPU 上运行 LLM 吗?
当然可以。使用我们基于 GPU 的 LLM 推理 API,您只需按使用时间或处理的令牌付费——无需购买昂贵的 GPU。
你们的 LLMaaS 是否适合生产级工作负载?
是的。我们提供高可用性端点、自动扩缩、负载均衡和监控功能,确保生产级应用程序的可靠性能。
你们提供针对 LLM 模型的自定义微调服务吗?
是的,我们提供微调服务,以便您在通过我们的 API 部署之前,根据您的业务特定数据集调整 LLM。
您的推理 API 的延迟是多少?
对于小型到中型模型 (2B-13B),短提示的平均延迟低于 300 毫秒。大型模型使用优化的 GPU 流水线来保持较低的响应时间。
标签:
LLMaaS、推理 API、LLaMA 即服务、AI 托管、大型语言模型 API、机器学习推理、AI API 密钥、云 AI 部署、LLaMA API、AI 即服务