阶跃星辰再推开源模型，与ACE Studio联合发布ACE-Step音跃大模型_科技资讯

阶跃星辰再推开源模型，与ACE Studio联合发布ACE-Step音跃大模型

创始人

2025-05-08 00:20:55

0次

5月7日，人工智能基础大模型公司阶跃星辰与数字音乐平台 ACE Studio ，联合发布开源音乐大模型“ACE-Step”（音跃），据悉模型参数量为3.5B，具备快速高质量生成、强可控性、易于拓展等特点，同时支持多种语言的歌曲生成，涵盖中文、英文、日文、韩文、西班牙文、俄语等 19 种语言。

阶跃星辰方面介绍，作为一个通用性强的音乐基础模型，ACE-Step 支持包括 LoRA （定制音乐风格）和 ControlNet（人声驱动伴奏生成）在内的多种微调方式，可灵活适配音频编辑、人声合成、伴奏生成、声线克隆、风格迁移等多种下游任务，相比此前的开源音乐模型，具有真·全曲生成、精准时长控制、灵活输入格式、多语言与多风格生成四大优势。

另外，当前技术普遍面临生成速度、音乐连贯性和可控性之间的固有权衡。例如基于LLM的模型（如Yue、SongGen）擅长歌词对齐，但存在推理速度慢和音质问题；而扩散模型（如DiffRhythm）能实现更快合成，却往往缺乏全局结构连贯性。而ACE-Step通过融合扩散生成、Sana深度压缩自编码器（DCAE）和轻量级线性Transformer架构，成功弥合了这一鸿沟。

ACE-Step 模型架构图

该模型在训练阶段创新性地采用MERT和m-hubert实现语义表征对齐（REPA）技术，从而加速收敛。实验表明，在A100 GPU上仅需20秒即可生成长达4分钟的音乐，比基于LLM的基线快15倍，同时在旋律、和声与节奏维度均展现出更优的音乐连贯性和歌词对齐能力。ACE-Step也能保留精细的声学细节，支持语音克隆、歌词编辑、混音改编及分轨生成（如歌词转人声、演唱转伴奏）等高级控制功能。

ACE-Step 目前提供两种生成模式：快速和慢速模式。最快 15 秒即可生成一整首歌，慢速模式也仅需 32 秒。

同时，ACE-Step 不仅仅是一个“生成器”，还是一个全能的“编辑器”，它为创作者提供了两个关键功能：Edit 和 Retake/Repaint。

其中，Edit 功能可以使创作者在不改变旋律的情况下，精确修改已生成歌曲的歌词内容、语气或情感表达，确保每行歌词与整体音乐风格完美契合。

而如果生成的作品不完全符合创作需求，创作者可以使用 Retake 功能重新生成一首风格相似、结构类似的歌曲，或者通过 Repaint 对特定部分（如旋律或歌词）进行局部调整，进一步优化作品。

据悉，作为全球开源可商用的SOTA级音乐大模型，ACE-Step已开放GitHub代码库及API接口。开发者可基于其构建AI作曲、智能配乐、虚拟歌手等应用，而音乐人则能实现从灵感生成到混音母带的全程AI辅助。

上一篇：“超高清视听科技展”将亮相第二十七届科博会

下一篇：热点讨论!浙江游戏大厅开外挂(透视)的确真的有挂(详细教程)-哔哩哔哩

阶跃星辰再推开源模型，与ACE Studio联合发布ACE-Step音跃大模型

相关内容

热门资讯