硅谷热议:最快语音转文字模型
创始人
2025-11-13 00:21:03
0

闻乐 发自 凹非寺

量子位 | 公众号 QbitAI

最强语音转文字模型,正在硅谷被热议。

直接把“快、 准、全”三个字拉到了新高度。

来自AI语音独角兽公司ElevenLabs,刚刚发布了Scribe v2 Realtime实时语音转文本模型,网友表示:Next-Level。

何出此言?还得看它这组王炸数据——

150毫秒的超低延迟,93.5%的高准确率,还覆盖了90多种语言

要知道,人类眨一次眼的平均时长在100-400毫秒……这就意味着,你说完一句话眨下眼,文字就已经同步到屏幕上了。

小测一下

不仅延迟低,准确率也破新高。

据官方数据,Scribe v2 Realtime在针对前30种常用语言的FLEURS基准测试里,准确率飙到93.5%,在一众同赛道模型中表现突出。

就算环境吵闹,方言讲话、或者说话内容里夹着一堆专业术语,它也能精准抓住每一个关键词,甚至能辨别你的笑声是大笑还是苦笑(doge)。

适配能力也比较全面。在音频格式方面,像PCM(8-48kHz)、μ-law 编码等常用类型都能支持。语音活动检测功能可以精准检测语音起止,手动提交控制能让使用者自主决定何时最终确定转录内容,便于实现定制化的音频流处理和更高精度的微调。

还有90多种语言随意切换,从常见的主流语言到相对小众的语种,基本都能涵盖,对于有跨国需求的用户来说,不用再为了不同语言切换不同工具。

看上去是挺厉害,咱也小测了一下!

这里提供了一段相声里的绕口令片段,可以看出延迟确实比较低,而且过程中还能对实时转录的文字进行调整。

但对于中文里一些生活化的表达拿捏得还不是很到位,比如“五月单五”这个说法。但整体的准确率还是比较高的。

其实,在Scribe v2 Realtime推出前,实时语音转文本赛道已历经多轮技术迭代,但长期存在痛点集群。

早期阶段,该领域以传统统计模型为主,但识别准确率低,在带背景噪音的场景中错误率常超30%,且延迟普遍在1秒以上,难以满足会议记录、实时客服等场景的需求。

随着深度学习技术渗透,模型虽然提升了准确率,但多语言支持能力薄弱,主流模型仅覆盖20-30种语言,且对小众语言或复杂口音的适配性极差。

所以,此前行业内存在速度与精度不可兼得的困境。这一矛盾直至Transformer架构在语音领域应用后才逐步缓解。

现在,Scribe v2 Realtime实现了毫秒级延迟+90%以上准确率的突破。

虽然官方还没有发布明确的技术报告,但在AI语音这条赛道上,ElevenLabs卷出了新水平。

实际上,这家公司也以此为特色,圈内小有名气。

全力押注语音

ElevenLabs成立于2022年,是一家聚焦AI语音技术的科技企业,于2022年在伦敦正式成立。

其创始团队核心成员包括前谷歌机器学习工程师Piotr Dąbkowski与前Palantir策略师Mati Staniszewski。

成立后,公司在商业层面实现快速突破,仅20个月就突破1亿美元营收,后续10个月内进一步增长至2亿美元。

在今年1月完成的1.8亿美元C轮融资后,其估值达到33亿美元。

创始人Mati Staniszewski表示,公司创立之初,AI领域的方向多得让人眼花缭乱,而他们一开始就坚定地押注在语音上。目前,公司拥有全球Top100 AI语音方向研究员。

ElevenLabs并不把自己看作一个250人的大团队,而是20个5-10人的小团队,且团队内部不设头衔,任何人都可成为关键决策者,灵活调动,高效运作。

该公司之前推出的Eleven v3文本转语音模型,支持70多种语言,还能进行多人对话聊天,因为自然、生动的语言表现力已经大获好评。

如今,在语音实时转录这条赛道上,Scribe v2 Realtime又成了新的天花板。

参考链接:

[1]https://elevenlabs.io/realtime-speech-to-text

[2]https://x.com/elevenlabsio/status/1988282248445976987

相关内容

热门资讯

崖州湾国家实验室联合华为发布农... 新华社三亚11月11日电(记者罗江)11月11日,崖州湾国家实验室联合华为公司在海南三亚发布面向农业...
退费、全部关闭!知名快递公司回... 近日,有网友发布视频称,丰巢快递柜无法跳过赞赏页面取件,消息引发关注。 该网友表示,在丰巢快递柜取件...
北京市组团参加2025智慧农业... 近日,由农业农村部对外经济合作中心主办、广西壮族自治区农业农村厅和南宁市人民政府承办的2025智慧农...
华为联合崖州湾国家实验室发布“... 本报讯 (记者贾丽)11月11日,在2025年植物表型组学国际研讨会上,崖州湾国家实验室与华为技术有...
苹果手表选购指南:三款热门型号... 一、为什么你需要一块苹果智能手表 清晨被轻柔的震动唤醒,抬手查看今日天气;会议中 discreet...
硅谷热议:最快语音转文字模型 闻乐 发自 凹非寺 量子位 | 公众号 QbitAI 最强语音转文字模型,正在硅谷被热议。 直接把“...
透视数据(来玩德州app)智星... 透视数据(来玩德州app)智星德州菠萝辅助器(透视)都是是真的有挂(详细辅助可靠技巧)1、操作简单,...
微扑克辅助机器人(微扑克)微扑... 微扑克辅助机器人(微扑克)微扑克辅助安卓版本(透视)一贯真的是有挂(详细辅助透视教程)1、构建自己的...
辅助透视(线上德州)德州之星外... 辅助透视(线上德州)德州之星外挂(透视)都是是真的有挂(详细辅助必备教程);1、这是跨平台的德州之星...
微扑克辅助软件(微扑克)微扑克... 微扑克辅助软件(微扑克)微扑克辅助是真的吗(透视)原来是有挂(详细辅助攻略教程);1、微扑克辅助软件...