Whisper 是一款语音转文字软件，具有实时自动语音识别和音频视频文案提取功能

很多人在录音采访等工作中，需要实时录音并在后期将谈话内容整理成文字。如果人工处理，非常耗时，而且难以根据音频文件生成字幕。因此，对于自媒体视频制作者来说，语音转文字软件非常实用。这里跟大家分享一个免费又好用的软件： Whisper。它是 Whisper.cpp 实现的 Windows 移植，是 OpenAI 的 Whisper 自动语音识别（ASR）模型的 C++端口。github 项目地址：https://github.com/Const-me/Whisper 关于模型选择，显卡显存 5G 以上的可以使用 ggml-large.bin 模型，4G 显存的可以使用 ggml-medium.bin 模型，2G 显存的可以使用 ggml-small.bin 模型。模型越大，识别精度越高，语音转文字效果越好。软件和模型下载到本地电脑上之后，双击运行【WhisperDesktop.exe】，先选择所需的模型，可以根据自己电脑配置自行选择，然后点击【OK】。转录本地音频文件进入下一个操作界面后，选择需要语音转文字的音频文件所说的语言。如果是英文音频，选择的语言是中文，那么软件会将英文音频识别并翻译成中文后输出文字内容，但翻译输出的中文是繁体的。选择好音频文件、输出路径和输出文件名后，点击按钮【Transcribe】即可开始转换。 4 分 37 秒的音频用了 1 分 7 秒时间就处理完了，速度还算可以。而且文字识别效果挺好的。以前做视频字幕时，常用剪映里面的智能字幕功能，自动识别人声并生成字幕，整体上能识别出来，但还是有很多地方有错别字，需要完整看一遍挨着修改。这个软件也可以生成带时间轴的字幕，而且识别精度更高，需要修改的地方更少，不需要特意用剪映来生成字幕，这个软件操作起来更方便快捷。实时转录这个软件还有实时转录功能，可以将别人讲话的声音立即转换成文字。点击底部中央的按钮【Audio Captuer】，启动实时转录界面。勾选【Save to text file】，然后选择输出路径和文件名，也可以生成带时间轴的文字内容。点击按钮【captuer】就可以开始实时对讲话的内容进行转录了。需要注意的是，实时转录效果相对转录音频文件略差一些，说话发音越标准，转录效果越好。

我的笔记