跳转到主要内容

你猜怎么着?Sam Altman刚刚在DevDay主题演讲中透露了一些很棒的东西,那就是来自OpenAI的开源Whisper v3。这不仅仅是对已经令人印象深刻的Whisper v2的升级;这就像是进入了语音识别的未来。

可以将大v3想象成您熟悉的语音转文本工具,但它功能强大,能流利地使用多种语言。现在,这很重要,对吧?

但最棒的是,你不需要一些高端装备就可以使用它。如果你担心你的设置可能跟不上,我们会为你提供Replicate。

无论你家里有什么技术,这都是你体验大v3所有酷炫功能的方式。

那么,准备好看看Whisper large v3是怎么回事了吗?让我们深入了解一下为什么这是镇上的热门话题!

1.什么是Whisper-v3?

由OpenAI推出的Whisper-v3代表了语音识别技术的突破。这种被称为“大v3”的高级型号与前代Whisper v2建立在相同的架构上,但有显著的增强。与早期版本中使用的80个频率箱相比,Whisper-v3使用了128个梅尔频率箱,并包括一个新的粤语语言标记。它擅长理解和转录各种语言,使其成为语音到文本转换中各种应用的通用工具。

2. Whisper-v3如何增强语音识别?

Whisper-v3的特点与训练

  • 高级架构:Whisper-v3保持了与以前的大型模型相同的基本架构,为语音识别奠定了坚实的基础。
  • 增加Mel频率仓:该型号使用128个Mel频率箱,而不是早期版本中使用的80个,增强了其音频处理能力。
  • 新语言符号:包括广东话的新语言符号,扩大其语言范围。
  • 广泛的培训数据:使用Whisper large v2对100万小时的弱标记音频和400万小时的伪标记音频进行培训,确保广泛的语言和方言覆盖。
  • 改进的错误率降低:与Whisper large v2相比,错误率降低了10%至20%,这标志着在准确性方面取得了显著进步。
  • 多语言和多任务训练:该模型能够进行语音识别和语音翻译,基于多语言数据进行训练,用于多种用途。
  • 预测能力:对于语音识别,它可以预测与音频相同语言的转录。对于语音翻译,它会转录成不同的语言。

3 Whisper v2与Whisper v3的主要区别是什么?

比较性能和功能

根据所提供的图像,如Common Voice 15和FLEURS数据集的性能比较图所示,以下是Whisper-v2和Whisper-v3型号之间的关键差异:

性能指标:该图显示了一个并排比较,使用条形图表示各种语言的单词错误率(WER)或字符错误率(CER)百分比。

降低错误率:在这两个数据集中,Whisper-v3通常具有较低的WER或CER百分比,这表明在大多数语言的语音识别中具有更好的性能和更少的错误。

语言覆盖率:两个版本的模型都覆盖了多种语言,但Whisper-v3显示出错误率的提高,反映了模型处理和理解不同语言和方言的能力的提高。

顶级表演者:在Common Voice 15数据集中,与Whisper-v2相比,荷兰语、西班牙语和韩语等语言的Whisper-v3的错误率明显较低。同样,在FLEURS数据集中,西班牙语、意大利语和韩语是改进最显著的语言之一。

改进范围:虽然改进因语言而异,但趋势是错误率从v2明显降低到v3。对于某些语言来说,这种改进是相当显著的,而对于其他语言来说,则更为温和。

数据集一致性:Common Voice 15和FLEURS数据集的改进趋势是一致的,加强了Whisper-v3中的整体增强。

4 Whisper-v3的技术要求是什么?

解决VRAM需求和硬件难题

好吧,让我们来分解Whisper-v3的VRAM要求,并讨论硬件有限的用户如何仍然可以参与其中。

因此,Whisper-v3就像语音识别世界上最新的超级跑车——它强大而快速。但就像超级跑车需要合适的燃料来行驶一样,Whisper-v3需要VRAM,而且需要大量的VRAM。型号越大,它消耗的VRAM就越多。以下是您对每种尺码的关注:

  • 微型:只是一个约1GB的VRAM的小吃。
  • 基本型号:也很瘦,需要大约1 GB。
  • 小型:开始感到饥饿,需要大约2 GB。
  • 中等型号:一个坚实的5GB,以保持它的运行。
  • 大型型号:大型食客,需要大约10 GB的VRAM。

随着每种型号的尺寸从小到大,VRAM的需求都在增加,最大型号的最大容量为10 GB。对于那些在更老式的设置上运行的人来说,这可能是一个真正的障碍,即使是一个强大的i7 Intel CPU也可能会出现故障,发出FP16警告,基本上是说:“我需要更多的电源!

但别担心,有一个变通办法。输入Replicate。将Replicate视为一座桥梁,让您无需升级硬件即可跨越到大型机型之地。这是一个平台,让你可以通过云来利用Whisper-v3的力量。因此,即使您的系统的VRAM更为适中,您仍然可以像专业人士一样使用Replicate来转录音频。

5.如何在没有高VRAM的情况下复制使用Whisper-v3的帮助?

要在没有高VRAM的情况下使用Whisper-v3,Replicate提供了一个用户友好的云平台,允许您运行Whisper-v3等型号,而无需担心本地硬件的VRAM限制。以下是Replicate如何成为您正在寻找的解决方案:

  • 基于云的处理:Replicate在他们的云服务器上运行Whisper-v3模型,这意味着你不使用自己计算机的资源。
  • 可访问性:它使任何有互联网连接的人都可以访问Whisper-v3,而不需要强大的GPU。
  • 用户友好:Replicate提供了一个简单的API来与Whisper-v3交互,简化了所有技能级别用户的流程。
  • 经济高效:对于无法负担硬件升级费用的用户,Replicate提供了一个更经济实惠的选项。
  • 可扩展性:无论您需要处理一个音频文件还是数千个音频文件,Replicate都可以扩展以满足您的需求,而无需任何额外的设置。

6.分步指南:如何将Whisper-v3与Replicate一起使用

准备好利用Whisper-v3的力量满足您的语音转文本需求了吗?我制作了一个用户友好的指南,帮助您使用Replicate导航流程,即使您没有配备高VRAM。此外,我还整理了一个脚本,您可以在我们的GitHub存储库中找到该脚本,该脚本可以自动执行该过程,从而轻松地从指定文件夹转录音频文件,并以交互方式决定是否继续处理下一个文件。让我们深入了解这些步骤,并一起探索代码:

安装Python客户端:首先在Python环境中安装Replicate客户端。

pip install replicate

API令牌身份验证:将API令牌安全存储在.env文件中。使用dotenv库将其加载到脚本中。

import os
from dotenv import load_dotenv
load_dotenv()

设置Replicate客户端:使用环境中的API令牌初始化Replicate客户端。

client = replicate.Client()

指定音频文件夹路径:定义包含音频文件的文件夹的路径。

audio_folder_path = './audio'

转录音频文件:创建一个函数,使用Replicate在音频文件上运行Whisper-v3模型。

# Function to transcribe an audio file
def transcribe_audio(file_path):
    # Running the whisper-large-v3 model on the audio file
    output = client.run(
        "nateraw/whisper-large-v3:e13f98aa561f28e01abc92a01a4d48d792bea2d8d1a4f9e858098d794f4fe63f",
        input={"filepath": open(file_path, "rb")}
    )
    return output

交互式用户决策:实现一个功能,询问用户是否要继续到下一个文件。

def ask_continue():
    answer = input("Do you want to process the next audio file? (yes/no): ")
    return answer.strip().lower() == "yes"

处理文件夹中的音频文件:循环浏览指定文件夹中的每个文件,转录它们,并询问是否继续下一个。

def process_audio_files(folder_path):
    for filename in os.listdir(folder_path):
        # Code to transcribe and ask for continuation

执行主函数:运行您的主函数来处理音频文件。

if __name__ == "__main__":
    process_audio_files(audio_folder_path)

https://github.com/bighadj22/Whisper-Large-V3

配置翻译和时间戳

想把你的转录提高到一个新的水平吗?我们的代码非常灵活,允许您轻松添加翻译和时间戳。如果你想把你的转录本翻译成英语,或者为每个口语片段添加时间戳,下面是你可以调整代码的方法:

翻译:要将文本翻译成英语,只需将translate参数设置为True即可。此功能可自动将语音从源语言转换为英语。

时间戳:如果您需要每个转录片段的时间戳,请将return_Timestamps参数设置为True以启用该参数。

解释输出

音频测试示例:在我们的测试中,我们使用了这个示例

Audio Example for Testing: For our test, we used this Example

这段音频片段的特点是对人工智能应用程序在语音到文本转换方面的能力进行了清晰、口语化的叙述。

转录展示:

Whisper-v3为该音频制作的转录如下:

“将音频语音轻松转换为文本的人工智能应用程序。准备好快速准确地从音频文件中生成自定义文本。”

准确性分析:转录准确地捕捉音频文件的内容。它展示了Whisper-v3在将口语转换为书面文本方面的有效性,同时保持了原始演讲的含义和语气。转录是连贯的,没有重大错误,显示了模型的准确性。

7 Whisper Large-v3用户反馈:关键性能问题

基于OpenAI的Whisper项目对v3版本的大讨论,一些用户分享了他们对Whisper v3模型的准确性和性能的体验。用户强调的要点包括:

  • 重复和幻觉:用户报告模型存在重复句子或产生幻觉的问题,尤其是在日语和韩语中。与v2相比,这个问题在v3中更为普遍。
  • 与较长音频不对齐:一些用户遇到较长音频文件的时间问题,随着文件的进展,时间戳变得越来越不对齐。
  • 标点符号和大写的问题:有人观察到Whisper v3有时无法准确转录标点符号和大小写,尤其是与v2模型相比。
  • 不同语言的不同性能:用户提到Whisper的性能因语言而异,有些语言的准确性比其他语言高。
  • 模型与沉默/间歇语音作斗争:该模型在准确转录沉默或间歇语音部分方面仍然面临挑战。
  • 这些用户体验表明了Whisper v3的某些局限性和需要改进的地方,尤其是在不同语言和音频条件下的一致性和准确性方面。
  • 阅读更多:Elevenlabs配音和视频翻译:完整指南

8结论:

总之,OpenAI的Whisper large v3是语音识别技术的一个突破性进展,提供了比其前身Whisper v2更强的功能。

凭借其广泛的语言覆盖范围、提高的错误率以及增加Mel频率箱和广东话支持等高级功能,大v3作为一种功能强大且高效的工具脱颖而出。

此外,它与Replicate等平台的兼容性使其即使对硬件有限的用户也能访问,从而使先进的语音转文本技术民主化。

尽管取得了这些进步,但用户体验指出了需要改进的领域,例如重复方面的挑战、某些语言中的幻觉、较长音频中的时间错位以及标点符号和大写字母的不一致。

这些见解突显出,尽管Whisper large v3是向前迈出的一大步,但它仍在不断发展,在不同语言和音频条件下,准确性和一致性还有提高的空间。

文章链接