使用FunASR处理语音识别
创始人
2024-11-29 10:03:34
0

FunASR是阿里的一个语音识别工具,比SpeechRecognition功能多安装也很简单;

官方介绍:FunASR是一个基础语音识别工具包,提供多种功能,包括语音识别(ASR)、语音端点检测(VAD)、标点恢复、语言模型、说话人验证、说话人分离和多人对话语音识别等。FunASR提供了便捷的脚本和教程,支持预训练好的模型的推理与微调。

网址:FunASR/README_zh.md at main · alibaba-damo-academy/FunASR · GitHub

安装直接用:pip install funasr  -i https://pypi.tuna.tsinghua.edu.cn/simple

读取音频需要(我没ffmpeg):pip install torchaudio  -i https://pypi.tuna.tsinghua.edu.cn/simple

官网说:如果需要使用工业预训练模型,安装modelscope(可选)pip install modelscope  -i https://pypi.tuna.tsinghua.edu.cn/simple

如果按照官网的代码直接使用model名,第一次使用这个model时,会自动下载对应的model,会在C:\Users\你的用户名\.cache目录里新建modelscope文件夹,将所用到的model下载到里面;

model = AutoModel(model="paraformer-zh",  vad_model="fsmn-vad", punc_model="ct-punc",                    # spk_model="cam++"                   )

所用到的model会在/modelscope/hub/iic/目录里找到,可以拷贝出来使用,代码里直接指定model目录;

也可以自己去他们网站下载model拿来用:FunASR/model_zoo at main · alibaba-damo-academy/FunASR · GitHub

model直接搞出来用:

语音转文字demo:

#!/usr/bin/env python3 # coding = utf-8 """ # Project: workspace_py # File: test_funasr.py # Author: XWF # Time: 2024/4/15 16:14 """  from funasr import AutoModel  print('test')  model_path = 'models/modelscope/hub/iic/speech_seaco_paraformer_large_asr_nat-zh-cn-16k-common-vocab8404-pytorch' vad_path = 'models/modelscope/hub/iic/speech_fsmn_vad_zh-cn-16k-common-pytorch' punc_path = 'models/modelscope/hub/iic/punc_ct-transformer_zh-cn-common-vocab272727-pytorch' model = AutoModel(model=model_path,  # model_revision="v2.0.4",                   vad_model=vad_path,  # vad_model_revision="v2.0.4", vad_kwargs={},                   punc_model=punc_path,  # punc_model_revision="v2.0.4", punc_kwargs={},                   # device='cuda:0',                   device='cpu',                   ncpu=4,                   # spk_model="cam++", spk_model_revision="v2.0.4",                   disable_log=True,                   disable_pbar=True                   )  res = model.generate(input='test_24000_16.wav', batch_size_s=300) print(res) print(type(res), type(res[0]), res[0].get('text'))  # res = model.generate(input='test_8000_16.pcm', batch_size_s=300) # print(res) # print(res[0].get('text'))  with open('test_24000_16.wav', 'rb') as f:     wav_data = f.read() res = model.generate(input=wav_data,batch_size_s=1) print(res)  with open('test_8000_16.pcm', 'rb') as f:     pcm_data = f.read() res = model.generate(input=pcm_data, batch_size_s=1) print(res)

运行结果:

弄到model后直接使用model目录指定model就行,不用再下载了,也不用指定版本;

也可以使用各个model_version指定版本,下载的时候会使用指定的版本下载;

在AutoModel里使用disable_log=True和disable_pbar=True可以关闭那些红红的打印日志,不然满屏幕就会这样:

但是不知道input='test_8000_16.pcm'为啥老是找不到文件报错,跑不通,设置了fs好像也不行;

官网还有许多其他的功能可以去看看;

关于input直接用wav文件正确,但用wav的bytes就识别不对的问题,我去GitHup提问有人告诉我直接使用wav文件,会识别wav头重新调整采样率等信息,而使用bytes不会重新采样,所以使用非16k的会识别错误,得到的方法大概就是换用8k的模型,或者设置采样率参数;

但是设置的fs参数可能需要自己调,好像也不一定就直接是采样率,可能跟别的有关;

相关内容

热门资讯

第4分钟开挂!途游手游辅助,友... 第4分钟开挂!途游手游辅助,友友联盟辅助软件下载,技巧教程-2026最新版本1、友友联盟辅助软件下载...
第2分钟脚本!土豪联盟辅助器,... 第2分钟脚本!土豪联盟辅助器,哈灵脚本辅助,原来是有挂(有挂辅助)-哔哩哔哩1、土豪联盟辅助器机器人...
6分钟解迷!宝宝浙江游戏免费开... 6分钟解迷!宝宝浙江游戏免费开挂(辅助挂)竟然有挂,2025新版教程(详细教程)-哔哩哔哩宝宝浙江游...
第一分钟开挂!聚财平台辅助,腾... 第一分钟开挂!聚财平台辅助,腾达填大坑辅助器,高科技教程-2026最新版本1、第一分钟开挂!聚财平台...
六分钟揭露!闲乐互娱源码(辅助... 六分钟揭露!闲乐互娱源码(辅助挂)其实存在有挂,揭秘教程(果真有挂)-哔哩哔哩1、闲乐互娱源码系统规...
第一分钟方法!心悦踢坑神器软件... 第一分钟方法!心悦踢坑神器软件下载,皇豪互众插件,原来是真的挂(讲解有挂)-哔哩哔哩;1、起透看视 ...
第五分钟开挂!聚友联盟免费辅助... 第五分钟开挂!聚友联盟免费辅助器下载,四川游戏家园辅助软件下载,新2025版-2026最新版本1)四...
六分钟推荐!传送屋辅助脚本(辅... 六分钟推荐!传送屋辅助脚本(辅助挂)本来存在有挂,新2025教程(有挂规律)-哔哩哔哩传送屋辅助脚本...
八分钟app!金虎爷辅助器,兴... 八分钟app!金虎爷辅助器,兴动互娱辅助器视频,都是真的是有挂(有挂详细)-哔哩哔哩1、任何兴动互娱...
2分钟开挂!多乐游戏小程序辅助... 2分钟开挂!多乐游戏小程序辅助,八闽掌上十八卦脚本,2025教程-2026最新版本1、该软件可以轻松...