跳转到主要内容

标签(标签)

资源精选(342) Go开发(108) Go语言(103) Go(99) angular(82) LLM(75) 大语言模型(63) 人工智能(53) 前端开发(50) LangChain(43) golang(43) 机器学习(39) Go工程师(38) Go程序员(38) Go开发者(36) React(33) Go基础(29) Python(24) Vue(22) Web开发(20) Web技术(19) 精选资源(19) 深度学习(19) Java(18) ChatGTP(17) Cookie(16) android(16) 前端框架(13) JavaScript(13) Next.js(12) 安卓(11) 聊天机器人(10) typescript(10) 资料精选(10) NLP(10) 第三方Cookie(9) Redwoodjs(9) LLMOps(9) Go语言中级开发(9) 自然语言处理(9) PostgreSQL(9) 区块链(9) mlops(9) 安全(9) 全栈开发(8) ChatGPT(8) OpenAI(8) Linux(8) AI(8) GraphQL(8) iOS(8) 软件架构(7) Go语言高级开发(7) AWS(7) C++(7) 数据科学(7) whisper(6) Prisma(6) 隐私保护(6) RAG(6) JSON(6) DevOps(6) 数据可视化(6) wasm(6) 计算机视觉(6) 算法(6) Rust(6) 微服务(6) 隐私沙盒(5) FedCM(5) 语音识别(5) Angular开发(5) 快速应用开发(5) 提示工程(5) Agent(5) LLaMA(5) 低代码开发(5) Go测试(5) gorm(5) REST API(5) 推荐系统(5) WebAssembly(5) GameDev(5) CMS(5) CSS(5) machine-learning(5) 机器人(5) 游戏开发(5) Blockchain(5) Web安全(5) Kotlin(5) 低代码平台(5) 机器学习资源(5) Go资源(5) Nodejs(5) PHP(5) Swift(5) 智能体(4) devin(4) Blitz(4) javascript框架(4) Redwood(4) GDPR(4) 生成式人工智能(4) Angular16(4) Alpaca(4) 编程语言(4) SAML(4) JWT(4) JSON处理(4) Go并发(4) kafka(4) 移动开发(4) 移动应用(4) security(4) 隐私(4) spring-boot(4) 物联网(4) nextjs(4) 网络安全(4) API(4) Ruby(4) 信息安全(4) flutter(4) 专家智能体(3) Chrome(3) CHIPS(3) 3PC(3) SSE(3) 人工智能软件工程师(3) LLM Agent(3) Remix(3) Ubuntu(3) GPT4All(3) 软件开发(3) 问答系统(3) 开发工具(3) 最佳实践(3) RxJS(3) SSR(3) Node.js(3) Dolly(3) 移动应用开发(3) 低代码(3) IAM(3) Web框架(3) CORS(3) 基准测试(3) Go语言数据库开发(3) Oauth2(3) 并发(3) 主题(3) Theme(3) earth(3) nginx(3) 软件工程(3) azure(3) keycloak(3) 生产力工具(3) gpt3(3) 工作流(3) C(3) jupyter(3) 认证(3) prometheus(3) GAN(3) Spring(3) 逆向工程(3) 应用安全(3) Docker(3) Django(3) R(3) .NET(3) 大数据(3) Hacking(3) 渗透测试(3) C++资源(3) Mac(3) 微信小程序(3) Python资源(3) JHipster(3) 大型语言模型(2) 语言模型(2) 可穿戴设备(2) JDK(2) SQL(2) Apache(2) Hashicorp Vault(2) Spring Cloud Vault(2) Go语言Web开发(2) Go测试工程师(2) WebSocket(2) 容器化(2) AES(2) 加密(2) 输入验证(2) ORM(2) Fiber(2) Postgres(2) Gorilla Mux(2) Go数据库开发(2) 模块(2) 泛型(2) 指针(2) HTTP(2) PostgreSQL开发(2) Vault(2) K8s(2) Spring boot(2) R语言(2) 深度学习资源(2) 半监督学习(2) semi-supervised-learning(2) architecture(2) 普罗米修斯(2) 嵌入模型(2) productivity(2) 编码(2) Qt(2) 前端(2) Rust语言(2) NeRF(2) 神经辐射场(2) 元宇宙(2) CPP(2) 数据分析(2) spark(2) 流处理(2) Ionic(2) 人体姿势估计(2) human-pose-estimation(2) 视频处理(2) deep-learning(2) kotlin语言(2) kotlin开发(2) burp(2) Chatbot(2) npm(2) quantum(2) OCR(2) 游戏(2) game(2) 内容管理系统(2) MySQL(2) python-books(2) pentest(2) opengl(2) IDE(2) 漏洞赏金(2) Web(2) 知识图谱(2) PyTorch(2) 数据库(2) reverse-engineering(2) 数据工程(2) swift开发(2) rest(2) robotics(2) ios-animation(2) 知识蒸馏(2) 安卓开发(2) nestjs(2) solidity(2) 爬虫(2) 面试(2) 容器(2) C++精选(2) 人工智能资源(2) Machine Learning(2) 备忘单(2) 编程书籍(2) angular资源(2) 速查表(2) cheatsheets(2) SecOps(2) mlops资源(2) R资源(2) DDD(2) 架构设计模式(2) 量化(2) Hacking资源(2) 强化学习(2) flask(2) 设计(2) 性能(2) Sysadmin(2) 系统管理员(2) Java资源(2) 机器学习精选(2) android资源(2) android-UI(2) Mac资源(2) iOS资源(2) Vue资源(2) flutter资源(2) JavaScript精选(2) JavaScript资源(2) Rust开发(2) deeplearning(2) RAD(2)

你猜怎么着?Sam Altman刚刚在DevDay主题演讲中透露了一些很棒的东西,那就是来自OpenAI的开源Whisper v3。这不仅仅是对已经令人印象深刻的Whisper v2的升级;这就像是进入了语音识别的未来。

可以将大v3想象成您熟悉的语音转文本工具,但它功能强大,能流利地使用多种语言。现在,这很重要,对吧?

但最棒的是,你不需要一些高端装备就可以使用它。如果你担心你的设置可能跟不上,我们会为你提供Replicate。

无论你家里有什么技术,这都是你体验大v3所有酷炫功能的方式。

那么,准备好看看Whisper large v3是怎么回事了吗?让我们深入了解一下为什么这是镇上的热门话题!

1.什么是Whisper-v3?

由OpenAI推出的Whisper-v3代表了语音识别技术的突破。这种被称为“大v3”的高级型号与前代Whisper v2建立在相同的架构上,但有显著的增强。与早期版本中使用的80个频率箱相比,Whisper-v3使用了128个梅尔频率箱,并包括一个新的粤语语言标记。它擅长理解和转录各种语言,使其成为语音到文本转换中各种应用的通用工具。

2. Whisper-v3如何增强语音识别?

Whisper-v3的特点与训练

  • 高级架构:Whisper-v3保持了与以前的大型模型相同的基本架构,为语音识别奠定了坚实的基础。
  • 增加Mel频率仓:该型号使用128个Mel频率箱,而不是早期版本中使用的80个,增强了其音频处理能力。
  • 新语言符号:包括广东话的新语言符号,扩大其语言范围。
  • 广泛的培训数据:使用Whisper large v2对100万小时的弱标记音频和400万小时的伪标记音频进行培训,确保广泛的语言和方言覆盖。
  • 改进的错误率降低:与Whisper large v2相比,错误率降低了10%至20%,这标志着在准确性方面取得了显著进步。
  • 多语言和多任务训练:该模型能够进行语音识别和语音翻译,基于多语言数据进行训练,用于多种用途。
  • 预测能力:对于语音识别,它可以预测与音频相同语言的转录。对于语音翻译,它会转录成不同的语言。

3 Whisper v2与Whisper v3的主要区别是什么?

比较性能和功能

根据所提供的图像,如Common Voice 15和FLEURS数据集的性能比较图所示,以下是Whisper-v2和Whisper-v3型号之间的关键差异:

性能指标:该图显示了一个并排比较,使用条形图表示各种语言的单词错误率(WER)或字符错误率(CER)百分比。

降低错误率:在这两个数据集中,Whisper-v3通常具有较低的WER或CER百分比,这表明在大多数语言的语音识别中具有更好的性能和更少的错误。

语言覆盖率:两个版本的模型都覆盖了多种语言,但Whisper-v3显示出错误率的提高,反映了模型处理和理解不同语言和方言的能力的提高。

顶级表演者:在Common Voice 15数据集中,与Whisper-v2相比,荷兰语、西班牙语和韩语等语言的Whisper-v3的错误率明显较低。同样,在FLEURS数据集中,西班牙语、意大利语和韩语是改进最显著的语言之一。

改进范围:虽然改进因语言而异,但趋势是错误率从v2明显降低到v3。对于某些语言来说,这种改进是相当显著的,而对于其他语言来说,则更为温和。

数据集一致性:Common Voice 15和FLEURS数据集的改进趋势是一致的,加强了Whisper-v3中的整体增强。

4 Whisper-v3的技术要求是什么?

解决VRAM需求和硬件难题

好吧,让我们来分解Whisper-v3的VRAM要求,并讨论硬件有限的用户如何仍然可以参与其中。

因此,Whisper-v3就像语音识别世界上最新的超级跑车——它强大而快速。但就像超级跑车需要合适的燃料来行驶一样,Whisper-v3需要VRAM,而且需要大量的VRAM。型号越大,它消耗的VRAM就越多。以下是您对每种尺码的关注:

  • 微型:只是一个约1GB的VRAM的小吃。
  • 基本型号:也很瘦,需要大约1 GB。
  • 小型:开始感到饥饿,需要大约2 GB。
  • 中等型号:一个坚实的5GB,以保持它的运行。
  • 大型型号:大型食客,需要大约10 GB的VRAM。

随着每种型号的尺寸从小到大,VRAM的需求都在增加,最大型号的最大容量为10 GB。对于那些在更老式的设置上运行的人来说,这可能是一个真正的障碍,即使是一个强大的i7 Intel CPU也可能会出现故障,发出FP16警告,基本上是说:“我需要更多的电源!

但别担心,有一个变通办法。输入Replicate。将Replicate视为一座桥梁,让您无需升级硬件即可跨越到大型机型之地。这是一个平台,让你可以通过云来利用Whisper-v3的力量。因此,即使您的系统的VRAM更为适中,您仍然可以像专业人士一样使用Replicate来转录音频。

5.如何在没有高VRAM的情况下复制使用Whisper-v3的帮助?