小红书开源InstanceAssemble:让AI精准还原复杂图像排版
创始人
2025-12-26 17:40:57
0

12 月 26 日消息,小红书携手复旦大学,联合推出布局控制生成(Layout-to-Image)领域的突破性方案 InstanceAssemble,通过创新“实例组装注意力”机制,实现了从简单到复杂、稀疏到密集布局的精准图像生成,相关成果已被 NeurIPS 2025 收录。

AI 绘画技术近年来快速发展,从最初的“文字生成图像”(Text-to-Image)逐步迈向“布局控制生成”(Layout-to-Image),后者会根据用户给定的空间布局约束(如边界框 Bounding Boxes、分割掩码 Masks 或骨架图)生成与之对应的图像。

“布局控制生成”技术的难点之一,就是如何让 AI 精确按照用户指定的位置和内容生成图像,面临布局对齐不准、语义脱节或计算成本过高的问题。

而复旦大学与小红书联合发布的 InstanceAssemble 新技术,成功实现了对图像中每个物体的精准布局控制,标志着 AI 绘画进入“可精准构图”的新阶段。

该技术基于当前主流的扩散变换器架构,创新性地提出了“实例拼装注意力”机制。用户只需提供每个物体的边界框位置和内容描述,AI 就能在对应位置生成符合语义的图像内容。无论是简单的几个物体,还是密集复杂的场景,InstanceAssemble 都能保持高精度的布局对齐和语义一致性。

值得一提的是,该技术还采用轻量级适配方式降低使用门槛,无需重新训练整个模型,仅通过约 7100 万个参数(约 3.46% 额外参数),就能适配 Stable Diffusion3-Medium 模型,而适配 Flux.1 模型更是低至 0.84%。

实验中,InstanceAssemble 在包含 90 万个实例的密集布局数据集上表现优异,大幅超越了现有方法。

研究团队为能更准确地衡量布局与图像的匹配程度,还创建了包含 5000 张图像和 90000 个实例的“Denselayout”基准测试集,以及全新的“Layout Grounding Score”(LGS)评估指标。

实验表明,InstanceAssemble 在各种布局条件下均表现优异,即使在训练时仅使用稀疏布局(≤10 个实例)的情况下,也能在密集布局(≥10 个实例)上保持稳健性能。

相关内容

热门资讯

据公告内容!微乐小程序黑科技,... 据公告内容!微乐小程序黑科技,微乐自建房透视(作弊器)演示教程(总是是真的挂)1、很好的工具软件,可...
透视辅助!微乐小程序黑科技(外... 透视辅助!微乐小程序黑科技(外挂),微乐小程序辅助开发,教程诀窍(有挂教程)-哔哩哔哩1、许多玩家不...
透视了解!微乐小程序免费黑科技... 透视了解!微乐小程序免费黑科技,微乐小程序存在有挂(透视)其实真的有挂(讲解有挂)-哔哩哔哩1、免费...
教师资格考试,有新内容→ 近日,教育部等五部门联合印发《“人工智能+教育”行动计划》(以下简称《行动计划》),旨在一体推进人工...
据相关数据显示!决战卡五星辅助... 据相关数据显示!决战卡五星辅助看牌器,超凡辅助平台,步骤教程(讲解有挂)-哔哩哔哩1)决战卡五星辅助...
今天下午!微乐小程序免费黑科技... 今天下午!微乐小程序免费黑科技,微乐贵阳足鸡麻将开挂(作弊器)步骤教程(总是真的有挂)1)辅助插件:...
透视揭幕!微乐小程序黑科技(外... 透视揭幕!微乐小程序黑科技(外挂),微乐小程序黑科技辅助工具推荐,教程模板(有挂讲解)-哔哩哔哩1、...
常州搏聚智能科技取得无刷推杆专... 国家知识产权局信息显示,常州搏聚智能科技有限公司取得一项名为“一种无刷推杆”的专利,授权公告号CN2...
透视美元局!微乐小程序黑科技,... 透视美元局!微乐小程序黑科技,微乐小程序真的有挂(透视)一直是真的挂(有挂透明挂)-哔哩哔哩1、进入...