Whisper AI 简介
什么是 Whisper AI?
OpenAI Whisper AI 是一种通用语音识别模型。它是在大量不同音频数据集上进行训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。
Whisper 是一系列用于自动语音识别 (ASR) 的预训练模型,由 OpenAI 的 Alec Radford 等人于 2022 年 9 月发布。 Whisper 经过大量带注释的音频转录数据的预训练。用于训练的注释音频持续时间高达 680,000 小时,因此其性能可与最先进的 ASR 系统相媲美。
可用的型号和支持的语言
Whisper当前有五种模型尺寸,其中四种只有英文版本,提供速度和准确性的权衡。以下是可用模型的名称以及它们相对于大型模型的大致内存要求和推理速度;实际速度可能会有所不同,具体取决于许多因素,包括可用的硬件。
2022年12月,OpenAI发布了改进的大型模型,名为large-v2,并于2023年11月发布了large-v3。
系统要求
Python 3.8–3.11
Windows 10, 11
Git, Conda, Pytorch
GPU 支持需要支持 CUDA® 的卡、4GB以上显卡内存
安装 Whisper AI 的 5 个步骤
本指南使用GPUMart上的高级GPU - V100计划,该计划配备专用的NVIDIA V100显卡,具有16GB HBM2 GPU内存,可以轻松运行最新的large-v3多语言模型。由于 Whisper 有很多依赖项需要运行,因此安装 Whisper 的过程有点长但很简单。主要包括以下5个步骤。
第 1 步 - 安装 Git
单击此处 (https://git-scm.com/download/win) 下载适用于 Windows 的最新 64 位版本的 Git,然后右键单击下载的文件并以管理员身份运行安装程序。
第 2 步 - 安装 Miniconda3 并创建 Python 3.10 环境
Miniconda 是 Anaconda 提供的最小安装程序。请下载最新的Miniconda安装程序(https://docs.anaconda.com/free/miniconda/)并完成安装。
Whisper 需要 Python3.8+。您的计算机上需要安装 Python 3.8-3.11 和最新版本的 PyTorch。如果您想将这些实验与其他工作隔离开来,可以使用 conda 设置一个虚拟环境。
> conda create -n Whisper python=3.10.11 > conda activate Whisper
第 3 步 - 安装支持 CUDA 12.1 的 PyTorch Stable(2.3.0)
Whisper 需要最新版本的 PyTorch。
> conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
第 4 步 - 安装 Chocolatey 和 ffmpeg
打开 PowerShell 终端并从 PS C:\> 提示符运行以下命令:
> Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
如果您没有看到任何错误,那么您就可以使用 Chocolatey 了! Whisper 还需要 FFmpeg,一个音频处理库。如果您的计算机上尚未安装 FFmpeg,请使用以下命令之一进行安装。
> choco install ffmpeg
第 5 步 - 安装 Whisper AI
从 Whisper GitHub 存储库中提取并安装最新的提交及其 Python 依赖项:
> pip install git+https://github.com/openai/whisper.git
如何使用 Whisper 进行语音转文本转录
使用命令行
以下命令将使用媒体模型转录音频文件中的语音:
> whisper audio.wav --model medium
默认设置(选择小模型)非常适合转录英语。要转录包含非英语语音的音频文件,您可以使用 --language 选项指定语言:
> whisper chinese.mp3 --language Chinese
添加 --tasktranslate 会将演讲翻译成英语:
> whisper chinese.mp3 --language Chinese --task translate
指定输出格式和路径:
> whisper Arthur.mp3 --model large-v3 --output_format txt --output_dir .\output
要了解更多使用方法,请查看帮助:
> whisper -h
使用Python编程
使用 Python 编写代码实现语音转录,简单示例如下:
import whisper model = whisper.load_model("base") result = model.transcribe("audio.mp3") print(result["text"])
使用 JupyterLab 工作台
如果您尚未安装JupyterLab,请先安装,然后启动。参考命令行如下。
(Whisper) PS > conda install -c conda-forge jupyterlab (Whisper) PS > jupyter lab
结语
在本教程中,我们将介绍 Windows 上 Whisper AI 的入门基础知识。 Whisper AI 为 Windows 用户提供了强大且直观的语音识别解决方案。通过遵循本指南中概述的步骤,您可以在 Windows 操作系统上轻松安装和使用 Whisper AI。当您采用免提方式完成各种任务时,体验语音识别技术的便利和高效。
附加 - 适合运行 Whisper AI 的 GPU 服务器推荐
GPU物理服务器 - P1000
- CPU: 8核E5-2690
- 内存: 32GB DDR3
- 系统盘: 120GB SSD
- 数据盘: 960GB SSD
- 系统: Win10/Linux
- 其他: 独立IP,100M-1G带宽
- 独显:Nvidia P1000
- 显存: 4GB GDDR5
- CUDA核心: 640
- 单精度浮点: 1.894 TFLOPS
GPU物理服务器 - GTX 1650
- CPU: 8核E5-2667v3
- 内存: 64GB DDR4
- 系统盘: 120GB SSD
- 数据盘: 960GB SSD
- 系统: Win10/Linux
- 其他: 独立IP,100M-1G带宽
- 独显: Nvidia GTX 1650
- 显存: 4GB GDDR5
- CUDA核心: 896
- 单精度浮点: 3.0 TFLOPS
GPU物理服务器 - GTX 1660
- CPU: 16核E5-2660*2
- 内存: 64GB DDR3
- 系统盘: 120GB SSD
- 数据盘: 960GB SSD
- 系统: Win10/Linux
- 其他: 独立IP,100M-1G带宽
- 独显: Nvidia GTX 1660
- 显存: 6GB GDDR6
- CUDA核心: 1408
- 单精度浮点: 5.0 TFLOPS
GPU物理服务器 - RTX 2060
- CPU: 16核E5-2660*2
- 内存: 128GB DDR3
- 系统盘: 120GB SSD
- 数据盘: 960GB SSD
- 系统: Win10/Linux
- 其他: 独立IP,100M-1G带宽
- 独显: Nvidia RTX 2060
- 显存: 6GB GDDR6
- CUDA核心: 1920
- 单精度浮点: 6.5 TFLOPS
GPU物理服务器 - RTX 3060 Ti
- CPU: 24核E5-2697v2*2
- 内存: 128GB DDR3
- 系统盘: 240GB SSD
- 数据盘: 2TB SSD
- 系统: Win10/Linux
- 其他: 独立IP,100M-1G带宽
- 独显:RTX 3060 Ti
- 显存: 8GB GDDR6
- CUDA核心: 4864
- 单精度浮点: 16.2 TFLOPS
GPU物理服务器 - V100
- CPU: 24核E5-2690v3*2
- 内存: 128GB DDR4
- 系统盘: 240GB SSD
- 数据盘: 2TB SSD
- 系统: Win10/Linux
- 其他: 独立IP,100M-1G带宽
- 独显: Nvidia V100
- 显存: 16GB HBM2
- CUDA核心: 5120
- 单精度浮点: 14 TFLOPS
GPU云服务器 - A4000
- 配置: 24核32GB, 独立IP
- 存储: 320GB SSD系统盘
- 带宽: 300Mbps 不限流
- 赠送: 每2周一次自动备份
- 系统: Win10/Linux
- 其他: 1个独立IP
- 独显: Nvidia RTX A4000
- 显存: 16GB GDDR6
- CUDA核心: 6144
- 单精度浮点: 19.2 TFLOPS
如果您没有找到合适的GPU服务器方案,请给我们留言。