5月7日,人工智能基础大模型公司阶跃星辰与数字音乐平台 ACE Studio ,联合发布开源音乐大模型“ACE-Step”(音跃),据悉模型参数量为3.5B,具备快速高质量生成、强可控性、易于拓展等特点,同时支持多种语言的歌曲生成,涵盖中文、英文、日文、韩文、西班牙文、俄语等 19 种语言。
阶跃星辰方面介绍,作为一个通用性强的音乐基础模型,ACE-Step 支持包括 LoRA (定制音乐风格)和 ControlNet(人声驱动伴奏生成) 在内的多种微调方式,可灵活适配音频编辑、人声合成、伴奏生成、声线克隆、风格迁移等多种下游任务,相比此前的开源音乐模型,具有真·全曲生成、精准时长控制、灵活输入格式、多语言与多风格生成四大优势。
另外,当前技术普遍面临生成速度、音乐连贯性和可控性之间的固有权衡。例如基于LLM的模型(如Yue、SongGen)擅长歌词对齐,但存在推理速度慢和音质问题;而扩散模型(如DiffRhythm)能实现更快合成,却往往缺乏全局结构连贯性。而ACE-Step通过融合扩散生成、Sana深度压缩自编码器(DCAE)和轻量级线性Transformer架构,成功弥合了这一鸿沟。
ACE-Step 模型架构图
该模型在训练阶段创新性地采用MERT和m-hubert实现语义表征对齐(REPA)技术,从而加速收敛。实验表明,在A100 GPU上仅需20秒即可生成长达4分钟的音乐,比基于LLM的基线快15倍,同时在旋律、和声与节奏维度均展现出更优的音乐连贯性和歌词对齐能力。ACE-Step也能保留精细的声学细节,支持语音克隆、歌词编辑、混音改编及分轨生成(如歌词转人声、演唱转伴奏)等高级控制功能。
ACE-Step 目前提供两种生成模式:快速和慢速模式。最快 15 秒即可生成一整首歌,慢速模式也仅需 32 秒。
同时,ACE-Step 不仅仅是一个“生成器”,还是一个全能的“编辑器”,它为创作者提供了两个关键功能:Edit 和 Retake/Repaint。
其中,Edit 功能可以使创作者在不改变旋律的情况下,精确修改已生成歌曲的歌词内容、语气或情感表达,确保每行歌词与整体音乐风格完美契合。
而如果生成的作品不完全符合创作需求,创作者可以使用 Retake 功能重新生成一首风格相似、结构类似的歌曲,或者通过 Repaint 对特定部分(如旋律或歌词)进行局部调整,进一步优化作品。
据悉,作为全球开源可商用的SOTA级音乐大模型,ACE-Step已开放GitHub代码库及API接口。开发者可基于其构建AI作曲、智能配乐、虚拟歌手等应用,而音乐人则能实现从灵感生成到混音母带的全程AI辅助。