近日,翻译领域,科技巨头谷歌甩出一个大招:
将刚刚升级的Gemini 2.5 Flash 原生语音模型整合进Google 翻译,推出一项耳机实时语音翻译的测试版功能。该功能适配任何耳机,用户只要戴上耳机,都能进行实时翻译,获取单向的同声传译。更重要的一点是,翻译可以保留讲话者的语气、重音和语速。
任意耳机零成本实时翻译、AI翻译“带情绪”,这每一点在当前的翻译市场都是相当炸裂的。它将给翻译和语言学习行业带来不小的影响,翻译背后的智能硬件,如翻译耳机、AI眼镜或许也会受到一定冲击,我爱音频网报道。
这是Google官方发布的Gemini实时语音翻译功能的演示视频。
视频显示,你只要干三件事,就能实时翻译:戴上耳机、打开Google翻译APP、点击Live translate。
此次谷歌推出的AI同声传译功能,接入了Gemini 2.5 Flash 原生语音模型,相当于给翻译工具外挂了一个大脑,使得最终的实时翻译体验较传统有显著的提升。
任意耳机秒变“同传神器”
今年9月,苹果在AirPods Pro 3中首次推出实时翻译功能。但要使用该功能,必须搭配一部已启用Apple Intelligence、并升级到iOS 26或更新版本的iPhone使用。目前仅支持iPhone 15 Pro及以上机型。
与苹果“实时翻译”需绑定指定机型不同,谷歌的这个新功能因为是基于Gemini 2.5 Flash 原生语音模型,所以它可以适配任何机型。
无论是老旧有线耳机、普通蓝牙耳机,还是AI耳机,只需连接安装Google翻译APP的安卓设备,即可激活同声传译功能。
从“逐字直译”到“带情绪传递”
传统机器翻译,大多是生硬、逐字逐句去翻译,偏重信息翻译的准确性,体验感比较差。
Google新的AI同声传译功能,首次实现翻译“带情绪”。谷歌产品管理副总裁Rose Yao的介绍,这项功能不仅能翻译语音,还能保留说话者的语调、重音和说话节奏,从而让对话更加自然,也更容易区分不同的发言者。
比如英语说话者的调侃语调、西班牙语的热情重音、中文的含蓄语速,Google实时翻译通过Gemini 2.5 Flash原生音频处理技术都能完整保留这些特征。
单向聆听与双向对话全覆盖
当你戴耳机,打开Google的实时翻译功能之后,它就会自动持续监听你周围环境的语言。
你出国旅游,在地铁、街上、餐厅、酒店……所有地点,不管别人讲日语、韩语、德语,你的耳机都能传来中文的播报。你参加国外学术会议、听外文演讲、讲座、观看电影,它也都能实时翻译成中文。
当你需要跨语言交流时,也不用担心。双方只要都戴上耳机,Google翻译系统就会自动识别说话者语言,无需提前设置语种,将对方的语言实时翻译成你的母语传递到你的耳机,同时将你的回应翻译后通过手机播报给对方,实现双向流畅沟通。
演示视频展示了四个人跨语言交流的场景,四个人分别说韩语、英语、中文、德语,Google实时翻译可以在多人环境中识别出主要的说话者,并能在对话中途切换语言。
目前,Google实时翻译支持超过70种语言和2000个语言对的语音翻译。
据悉,耳机实时语音翻译的测试版功能从上周五已经开始向美国、墨西哥和印度的所有安卓设备推送,2026年会进一步支持苹果iOS生态以及更多国家和地区。
不过,不少体验该功能的海外网友表示,「实时翻译、识别不够准确」。
据谷歌披露, 相较先前版本的模型,新升级的Gemini 2.5 Flash 原生语音模型的准确率已提升至71.5%,多轮对话质量从62%上升到83%,它在变得更靠谱,但准确率确实有待提升,尤其专业学术领域。
在谷歌入局前,市场上的同声传译方案主要由三类玩家主导。
一是以科大讯飞翻译机、时空壶翻译耳机为代表,这类厂商将翻译系统嵌入专属硬件实现同声传译功能。它们翻译的准确率很高,甚至可高达95%,是目前翻译准确率最高的一类方案。而且,具有离线翻译、专业领域(如医疗、法律)定制化的核心竞争优势。
但这类方案,硬件成本很高,也导致产品售价多在千元级。当前时空壶热销的 Timekettle W4 Pro 同声翻译耳机售价2699元,讯飞 iFLYBUDS Pro 3售价也要1184元。它们主要面向商务精英、政务人员等高端用户,难以普及到普通用户。
二是以苹果为代表,有自己生态的。它今年发布的AirPods Pro 3首次搭载AI实时语音翻译功能。
它的“同声传译”需要依赖自家硬件生态,必须搭配已启用Apple Intelligence 的 iPhone才能使用。这意味着非苹果用户或使用旧款设备的用户无法享受到苹果的同声传译功能。
而且AirPods Pro 3实时翻译支持的语种较少,目前仅支持英语、法语、德语、葡萄牙语、西班牙语5种语言,远低于谷歌的70种。AirPods Pro 3国行版暂未支持实时翻译功能。
三是以Nebulabuds为代表的轻量化APP方案。它通过手机APP连接普通耳机实现翻译。
这类方案没有任何硬件成本,获大量中低端耳机采用,成为此前耳机厂商实时翻译较快上市的一种方案。它支持双耳翻译、音视频通话翻译、同声传译等功能,翻译准确性也可以到93%。
但Nebulabuds的翻译能力其实依赖的第三方AI大模型,国内版主要接入了豆包、DeepSeek,海外版则接入OpenAI的ChatGPT。这类方案,它需要耳机厂商和Nebulabuds进行商业合作,扫描耳机激活码才能将普通耳机升级为实时翻译,还没有普及到所有耳机都能使用。
与上面三类玩家相比,谷歌新推出的AI同声传译方案,它不需要任何硬件成本,也不用搭配指定机型,所有耳机下载Google翻译APP后连接耳机都能用上实时翻译功能。
在一定程度上,谷歌的AI同声传译填补了上述三类方案的空白。它实现了所有耳机都能用实时翻译,实时翻译将不再能成为耳机的“卖点”。但有一说一,谷歌这个方案,翻译准确度还有待提升,还替代不了科大讯飞、时空壶的离线翻译、专业领域翻译。
基于Gemini 2.5 Flash 原生语音模型,谷歌推出AI同声传译功能,实现任意耳机升级为翻译耳机,翻译还突破性还原说话者的语调、语速和节奏,支持单向聆听与双向对话,很好地提升了翻译体验。
这种全新同声传译方案将对传统依靠硬件或苹果生态的方案造成一定冲击,耳机、AI眼镜不再能单纯依靠“实时翻译”作为产品卖点。