Whisper 是一款语音转文字软件,具有实时自动语音识别和音频视频文案提取功能

很多人在录音采访等工作中,需要实时录音并在后期将谈话内容整理成文字。如果人工处理,非常耗时,而且难以根据音频文件生成字幕。因此,对于自媒体视频制作者来说,语音转文字软件非常实用。 这里跟大家分享一个免费又好用的软件: Whisper。它是 Whisper.cpp 实现的 Windows 移植,是 OpenAI 的 Whisper 自动语音识别(ASR)模型的 C++端口。github 项目地址:https://github.com/Const-me/Whisper 关于模型选择,显卡显存 5G 以上的可以使用 ggml-large.bin 模型,4G 显存的可以使用 ggml-medium.bin 模型,2G 显存的可以使用 ggml-small.bin 模型。模型越大,识别精度越高,语音转文字效果越好。 软件和模型下载到本地电脑上之后,双击运行【WhisperDesktop.exe】,先选择所需的模型,可以根据自己电脑配置自行选择,然后点击【OK】。 转录本地音频文件 进入下一个操作界面后,选择需要语音转文字的音频文件所说的语言。如果是英文音频,选择的语言是中文,那么软件会将英文音频识别并翻译成中文后输出文字内容,但翻译输出的中文是繁体的。选择好音频文件、输出路径和输出文件名后,点击按钮【Transcribe】即可开始转换。 4 分 37 秒的音频用了 1 分 7 秒时间就处理完了,速度还算可以。而且文字识别效果挺好的。以前做视频字幕时,常用剪映里面的智能字幕功能,自动识别人声并生成字幕,整体上能识别出来,但还是有很多地方有错别字,需要完整看一遍挨着修改。这个软件也可以生成带时间轴的字幕,而且识别精度更高,需要修改的地方更少,不需要特意用剪映来生成字幕,这个软件操作起来更方便快捷。 实时转录 这个软件还有实时转录功能,可以将别人讲话的声音立即转换成文字。点击底部中央的按钮【Audio Captuer】,启动实时转录界面。勾选【Save to text file】,然后选择输出路径和文件名,也可以生成带时间轴的文字内容。点击按钮【captuer】就可以开始实时对讲话的内容进行转录了。 需要注意的是,实时转录效果相对转录音频文件略差一些,说话发音越标准,转录效果越好。
我的笔记