OpenAI Whisper AI 是一种通用语音识别模型。它是在大量不同音频数据集上进行训练的,也是一个多任务模型,可以执行多语言语音识别、语音翻译和语言识别。
Whisper 是一系列用于自动语音识别 (ASR) 的预训练模型,由 OpenAI 的 Alec Radford 等人于 2022 年 9 月发布。 Whisper 经过大量带注释的音频转录数据的预训练。用于训练的注释音频持续时间高达 680,000 小时,因此其性能可与最先进的 ASR 系统相媲美。
Whisper当前有五种模型尺寸,其中四种只有英文版本,提供速度和准确性的权衡。以下是可用模型的名称以及它们相对于大型模型的大致内存要求和推理速度;实际速度可能会有所不同,具体取决于许多因素,包括可用的硬件。
2022年12月,OpenAI发布了改进的大型模型,名为large-v2,并于2023年11月发布了large-v3。
Python 3.8–3.11
Windows 10, 11
Git, Conda, Pytorch
GPU 支持需要支持 CUDA® 的卡、4GB以上显卡内存
本指南使用GPUMart上的高级GPU - V100计划,该计划配备专用的NVIDIA V100显卡,具有16GB HBM2 GPU内存,可以轻松运行最新的large-v3多语言模型。由于 Whisper 有很多依赖项需要运行,因此安装 Whisper 的过程有点长但很简单。主要包括以下5个步骤。
单击此处 (https://git-scm.com/download/win) 下载适用于 Windows 的最新 64 位版本的 Git,然后右键单击下载的文件并以管理员身份运行安装程序。
Miniconda 是 Anaconda 提供的最小安装程序。请下载最新的Miniconda安装程序(https://docs.anaconda.com/free/miniconda/)并完成安装。
Whisper 需要 Python3.8+。您的计算机上需要安装 Python 3.8-3.11 和最新版本的 PyTorch。如果您想将这些实验与其他工作隔离开来,可以使用 conda 设置一个虚拟环境。
> conda create -n Whisper python=3.10.11 > conda activate Whisper
Whisper 需要最新版本的 PyTorch。
> conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
打开 PowerShell 终端并从 PS C:\> 提示符运行以下命令:
> Set-ExecutionPolicy Bypass -Scope Process -Force; [System.Net.ServicePointManager]::SecurityProtocol = [System.Net.ServicePointManager]::SecurityProtocol -bor 3072; iex ((New-Object System.Net.WebClient).DownloadString('https://community.chocolatey.org/install.ps1'))
如果您没有看到任何错误,那么您就可以使用 Chocolatey 了! Whisper 还需要 FFmpeg,一个音频处理库。如果您的计算机上尚未安装 FFmpeg,请使用以下命令之一进行安装。
> choco install ffmpeg
从 Whisper GitHub 存储库中提取并安装最新的提交及其 Python 依赖项:
> pip install git+https://github.com/openai/whisper.git
以下命令将使用媒体模型转录音频文件中的语音:
> whisper audio.wav --model medium
默认设置(选择小模型)非常适合转录英语。要转录包含非英语语音的音频文件,您可以使用 --language 选项指定语言:
> whisper chinese.mp3 --language Chinese
添加 --tasktranslate 会将演讲翻译成英语:
> whisper chinese.mp3 --language Chinese --task translate
指定输出格式和路径:
> whisper Arthur.mp3 --model large-v3 --output_format txt --output_dir .\output
要了解更多使用方法,请查看帮助:
> whisper -h
使用 Python 编写代码实现语音转录,简单示例如下:
import whisper model = whisper.load_model("base") result = model.transcribe("audio.mp3") print(result["text"])
如果您尚未安装JupyterLab,请先安装,然后启动。参考命令行如下。
(Whisper) PS > conda install -c conda-forge jupyterlab (Whisper) PS > jupyter lab
在本教程中,我们将介绍 Windows 上 Whisper AI 的入门基础知识。 Whisper AI 为 Windows 用户提供了强大且直观的语音识别解决方案。通过遵循本指南中概述的步骤,您可以在 Windows 操作系统上轻松安装和使用 Whisper AI。当您采用免提方式完成各种任务时,体验语音识别技术的便利和高效。
GPU物理服务器 - P1000
GPU物理服务器 - GTX 1650
GPU物理服务器 - GTX 1660
GPU物理服务器 - RTX 2060
GPU物理服务器 - RTX 3060 Ti
GPU物理服务器 - V100
GPU云服务器 - A4000
如果您没有找到合适的GPU服务器方案,请给我们留言。