如何在 Windows 上安装和使用 Whisper AI 进行语音识别



Whisper AI 简介

什么是 Whisper AI？

OpenAI Whisper AI 是一种通用语音识别模型。它是在大量不同音频数据集上进行训练的，也是一个多任务模型，可以执行多语言语音识别、语音翻译和语言识别。

Whisper 是一系列用于自动语音识别 (ASR) 的预训练模型，由 OpenAI 的 Alec Radford 等人于 2022 年 9 月发布。 Whisper 经过大量带注释的音频转录数据的预训练。用于训练的注释音频持续时间高达 680,000 小时，因此其性能可与最先进的 ASR 系统相媲美。

可用的型号和支持的语言

Whisper当前有五种模型尺寸，其中四种只有英文版本，提供速度和准确性的权衡。以下是可用模型的名称以及它们相对于大型模型的大致内存要求和推理速度；实际速度可能会有所不同，具体取决于许多因素，包括可用的硬件。

2022年12月，OpenAI发布了改进的大型模型，名为large-v2，并于2023年11月发布了large-v3。

系统要求

Python 3.8–3.11

Windows 10, 11

Git, Conda, Pytorch

GPU 支持需要支持 CUDA® 的卡、4GB以上显卡内存

安装 Whisper AI 的 5 个步骤

本指南使用GPUMart上的高级GPU - V100计划，该计划配备专用的NVIDIA V100显卡，具有16GB HBM2 GPU内存，可以轻松运行最新的large-v3多语言模型。由于 Whisper 有很多依赖项需要运行，因此安装 Whisper 的过程有点长但很简单。主要包括以下5个步骤。

第 1 步 - 安装 Git

单击此处 (https://git-scm.com/download/win) 下载适用于 Windows 的最新 64 位版本的 Git，然后右键单击下载的文件并以管理员身份运行安装程序。

第 2 步 - 安装 Miniconda3 并创建 Python 3.10 环境

Miniconda 是 Anaconda 提供的最小安装程序。请下载最新的Miniconda安装程序（https://docs.anaconda.com/free/miniconda/）并完成安装。

Whisper 需要 Python3.8+。您的计算机上需要安装 Python 3.8-3.11 和最新版本的 PyTorch。如果您想将这些实验与其他工作隔离开来，可以使用 conda 设置一个虚拟环境。

> conda create -n Whisper python=3.10.11
> conda activate Whisper

第 3 步 - 安装支持 CUDA 12.1 的 PyTorch Stable(2.3.0)

Whisper 需要最新版本的 PyTorch。

> conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia

第 4 步 - 安装 Chocolatey 和 ffmpeg

打开 PowerShell 终端并从 PS C:\> 提示符运行以下命令：

> Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))

如果您没有看到任何错误，那么您就可以使用 Chocolatey 了！ Whisper 还需要 FFmpeg，一个音频处理库。如果您的计算机上尚未安装 FFmpeg，请使用以下命令之一进行安装。

> choco install ffmpeg

第 5 步 - 安装 Whisper AI

从 Whisper GitHub 存储库中提取并安装最新的提交及其 Python 依赖项：

> pip install git+https://github.com/openai/whisper.git

如何使用 Whisper 进行语音转文本转录

使用命令行

以下命令将使用媒体模型转录音频文件中的语音：

> whisper audio.wav --model medium

默认设置（选择小模型）非常适合转录英语。要转录包含非英语语音的音频文件，您可以使用 --language 选项指定语言：

> whisper chinese.mp3 --language Chinese

添加 --tasktranslate 会将演讲翻译成英语：

> whisper chinese.mp3 --language Chinese --task translate

指定输出格式和路径：

> whisper Arthur.mp3 --model large-v3 --output_format txt --output_dir .\output

要了解更多使用方法，请查看帮助：

> whisper -h

使用Python编程

使用 Python 编写代码实现语音转录，简单示例如下：

import whisper

model = whisper.load_model("base")
result = model.transcribe("audio.mp3")
print(result["text"])

使用 JupyterLab 工作台

如果您尚未安装JupyterLab，请先安装，然后启动。参考命令行如下。

(Whisper) PS > conda install -c conda-forge jupyterlab
(Whisper) PS > jupyter lab

结语

在本教程中，我们将介绍 Windows 上 Whisper AI 的入门基础知识。 Whisper AI 为 Windows 用户提供了强大且直观的语音识别解决方案。通过遵循本指南中概述的步骤，您可以在 Windows 操作系统上轻松安装和使用 Whisper AI。当您采用免提方式完成各种任务时，体验语音识别技术的便利和高效。

附加 - 适合运行 Whisper AI 的 GPU 服务器推荐

请根据您需要使用的最大模型尺寸选择合适的GPU服务器，中型型号需要 5G VRAM，大型型号需要 10GB VRAM。

GPU物理服务器 - P1000

￥ 459.00/月

月付季付年付两年付

立即订购

CPU： 8核E5-2690
内存： 32GB DDR3
系统盘： 120GB SSD
数据盘： 960GB SSD
系统： Win10/Linux
其他：独立IP，100M-1G带宽

独显：Nvidia P1000
显存： 4GB GDDR5
CUDA核心： 640
单精度浮点： 1.894 TFLOPS

GPU物理服务器 - GTX 1650

￥ 739.00/月

月付季付年付两年付

立即订购

CPU： 8核E5-2667v3
内存： 64GB DDR4
系统盘： 120GB SSD
数据盘： 960GB SSD
系统： Win10/Linux
其他：独立IP，100M-1G带宽

独显： Nvidia GTX 1650
显存： 4GB GDDR5
CUDA核心： 896
单精度浮点： 3.0 TFLOPS

年中特惠

GPU物理服务器 - GTX 1660

￥ 671.40/月

立省40% (原价￥1119.00)

月付季付年付两年付

立即订购

CPU： 16核E5-2660*2
内存： 64GB DDR3
系统盘： 120GB SSD
数据盘： 960GB SSD
系统： Win10/Linux
其他：独立IP，100M-1G带宽

独显： Nvidia GTX 1660
显存： 6GB GDDR6
CUDA核心： 1408
单精度浮点： 5.0 TFLOPS

GPU物理服务器 - RTX 2060

￥ 1239.00/月

月付季付年付两年付

立即订购

CPU： 16核E5-2660*2
内存： 128GB DDR3
系统盘： 120GB SSD
数据盘： 960GB SSD
系统： Win10/Linux
其他：独立IP，100M-1G带宽

独显： Nvidia RTX 2060
显存： 6GB GDDR6
CUDA核心： 1920
单精度浮点： 6.5 TFLOPS

GPU物理服务器 - RTX 3060 Ti

￥ 1499.00/月

月付季付年付两年付

立即订购

CPU： 24核E5-2697v2*2
内存： 128GB DDR3
系统盘： 240GB SSD
数据盘： 2TB SSD
系统： Win10/Linux
其他：独立IP，100M-1G带宽

独显：RTX 3060 Ti
显存： 8GB GDDR6
CUDA核心： 4864
单精度浮点： 16.2 TFLOPS

GPU物理服务器 - V100

￥ 1849.00/月

月付季付年付两年付

立即订购

CPU： 24核E5-2690v3*2
内存： 128GB DDR4
系统盘： 240GB SSD
数据盘： 2TB SSD
系统： Win10/Linux
其他：独立IP，100M-1G带宽

独显： Nvidia V100
显存： 16GB HBM2
CUDA核心： 5120
单精度浮点： 14 TFLOPS

GPU云服务器 - A4000

￥ 1109.00/月

月付季付年付两年付

立即订购

配置： 24核32GB, 独立IP
存储： 320GB SSD系统盘
带宽： 300Mbps 不限流
赠送：每2周一次自动备份
系统： Win10/Linux
其他： 1个独立IP

独显： Nvidia RTX A4000
显存： 16GB GDDR6
CUDA核心： 6144
单精度浮点： 19.2 TFLOPS

GPU物理服务器 - RTX 4060

￥ 1109.00/月

月付季付年付两年付

立即订购

CPU： 8核E5-2690
内存： 64GB DDR3
系统盘： 120GB SSD
数据盘： 960GB SSD
系统： Win10/Linux
其他：独立IP，100M-1G带宽

独显：RTX4060
显存： 8GB GDDR6
CUDA核心： 3072
单精度浮点： 15.11 TFLOPS

如果您没有找到合适的GPU服务器方案，请给我们留言。

邮箱 *

姓名

公司

留言 *