让AI听懂方言 中国电信发布首个支持30种方言混说语音大模型
创始人
2024-05-25 20:40:53
0

作者:郝俊慧 来源:IT时报

“唔该查吓电话费吖”、“侬帮阿拉查下话费好伐?”粤语、上海话、四川话······中国电信万号智能客服每天接到几百万通电话,其中很大比例用方言拨打,尤其是“老少边穷”地区,一些老人习惯说方言,甚至只会说方言,智能客服及人工客服都难以理解,沟通效率难免大打折扣。据统计,全国仍有约20%人口未普及普通话,他们常常被隔绝在智能信息服务之外,难以享受到AI时代的便利。

近日,中国电信人工智能研究院(TeleAI)发布业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型,打破单一模型只能识别特定单一方言的困境,可同时识别理解粤语、上海话、四川话、温州话等30多种方言,是国内支持最多方言的语音识别大模型。

目前,星辰超多方言语音识别大模型已在福建、江西等地的10000客服热线落地。

用AI守护方言

方言是中国文化多样性的瑰宝,传承丰富的历史文化内涵;方言也是不同区域文化的灵魂,凝聚人们乡情的根源,具有丰富的人文价值。然而,很多方言却在社会经济快速发展中不断消亡,保护方言传承语言文化已迫在眉睫。

AI正在为传承语言文化注入全新生命力。方言语料采集、记录和归纳后,需保证能被后人正确理解。

中国幅员辽阔,“百里不同俗,十里不同音”,各种方言语法语音特征各不相同,传统的方言研究依赖于调查者主观感知标注,人力工程量巨大且难以系统标注。而AI能够更高效、系统地对方言进行整理归纳,对方言保护和传承意义重大。

构建高质量方言数据库,是方言保护和研究的基础。当前,中国电信人工智能研究院已构建超30种,超30万小时的高质量方言数据库,方言数据库在丰富性和高质量等层面均居于业内前列。

中国电信人工智能研究院(TeleAI)坚持自主研发创新,在中国电信CTO、人工智能研究院院长李学龙带领下,推出了星辰语音大模型,通过超大规模语音预训练和多方言联合建模,率先实现单一模型支持30种方言自由混说语音识别,是国内支持最多方言、覆盖人口最多的语音大模型;研发团队首创“蒸馏+膨胀”联合训练算法,解决超大规模多场景数据集和大规模参数条件下,预训练坍缩的问题,实现1B参数80层模型稳定训练;星辰语音大模型也是业内首个开源的基于离散语音表征的语音识别大模型,通过“从语音到token再到文本”的建模新范式,将推理时语音传输比特率降低数十倍。

斩获国际赛事冠军

星辰语音大模型以绝对领先的性能,斩获多个国际权威赛事冠军。在权威国际语音顶会INTERSPEECH2024离散语音单元建模挑战赛上,凭借星辰语音识别大模型的领先技术,中国电信人工智能研究院语音团队斩获语音识别赛道冠军。

在业内知名的多方言语音识别数据集KeSpeech任务上,星辰语音大模型打破纪录,领先之前最优结果20%,以高达92.97%的字准确率刷新最优结果。同时在NIST(美国国家标准与技术研究院)组织的Babel低资源语音识别项目电话粤语赛道上,刷新记录取得目前业内最好结果。

极佳的性能保证用户与星辰语音大模型对话,无需刻意切换普通话,也无需提高音量放慢语速,可以像和家人讲话一样自然地畅所欲言。

搭建AI时代沟通桥梁

随着AI技术高速发展,人们享受着智能化、无人化服务的便利。然而,老少边穷地区及很多老人,由于方言限制,正逐渐被AI时代抛弃。中国电信坚定地承担央企责任,用AI搭建沟通的桥梁,让每一个人都能享受AI时代便利。同时,中国电信有几亿用户和丰富应用场景,天然具备数据飞轮飞速转动的优势,无疑将促进技术更快进步,更好地服务每一个人。

据悉,星辰语音大模型已广泛应用落地。星辰语音大模型已在福建、江西、广西、北京、内蒙等地的中国电信万号智能客服试点应用,接入星辰大模型以后,万号智能客服秒懂30种方言,自然流畅地服务用户,实现日均处理约200万通电话;智能客服翼声平台接入星辰大模型的语音理解和分析能力,实现31省全覆盖,每天处理125万通客服电话。

此外,星辰语音大模型还落地多地市的12345平台,赋能客服人员秒懂30种方言,更自然流畅理解更多市民需求,提升沟通效率,助力政务工作智能化升级,更高效、便捷地为每一位市民提供服务。

在中国国际大数据产业博览会上,星辰语音大模型让数字人“能听会说”,数字人“数数”,声音甜美生动、与康辉同台主持,中英文随意切换的,交流对话自然流畅,广受好评。

星辰语音大模型现已对外开源,携手合作伙伴及个人开发者,开发面向更多场景的应用,共同守护方言、传承语言文化,助力AI普惠。未来,中国电信人工智能研究院将持续深耕研发创新,不断提高支持方言的数量和准确度,计划建成首个覆盖全国333个地市方言和主要少数民族语言的语音识别大模型,切实让老少边穷、老年人等每个人都能享受到AI时代的便利。

相关内容

热门资讯

和讯荀芽:A股后续走势将如何演... 韩国股市当日大跌6%并触发熔断,同日A股大盘失守4000点,创业板指数跌幅接近3%。在外围市场大幅回...
淳栋触控取得机械手指及机械手专... 国家知识产权局信息显示,苏州淳栋触控机器人有限公司取得一项名为“机械手指及机械手”的专利,授权公告号...
钉钉歪了,阿里能一锤敲正吗? 记者 钱玉娟 在大搞组织变革与业务重组之后,阿里巴巴集团再度因其内部文化管理问题站上了舆论的风口浪尖...
海尔取得拼接式冰箱专利,保持拼... 国家知识产权局信息显示,青岛海尔电冰箱有限公司;海尔智家股份有限公司取得一项名为“拼接式冰箱”的专利...
市卫生健康委青年理论学习小组参... 智享科技赋能卫健 研学实干淬炼初心 为深入贯彻落实新发展理念,推动政治理论学习与数字化建设深度融合,...
原创 卖... 我先放个猛料,这事儿不是心血来潮,我可是费了半天劲,在他们内部渠道套来绝对的独家(全网都是)消息,他...
小鹏汽车由盈转亏后,何小鹏却要... 界面新闻记者 | 刘泽然 界面新闻编辑 | 周姝祺 小鹏汽车CEO何小鹏将亲自兼任小鹏机器人业务...
2026年游戏手机推荐排行榜:... 一、电竞旗舰巅峰对决 当2K分辨率遇上144Hz刷新率,这块来自三星的珠峰屏就像为指尖安装了磁悬浮...
英伟达、亚马逊等巨头参投 德国... 财联社6月11日讯(编辑 牛占林)德国人形机器人公司Neura Robotics在最新一轮融资中获得...
银发餐饮:为何万亿市场,却难觅... 银发经济的餐饮蓝海:为何万亿市场,却难觅一个成功品牌? —— 藏在“三低”需求里的真金,为什么你挖不...