当模型不再“一次成型”,数据不再“一锤子买卖”,人工智能的技术范式正在经历一系列重要变化。
长久以来,AI开发遵循一条典型的链条:采集数据、清洗标注、训练模型、部署上线。此后,模型便进入相对“冻结”的状态,直到下一次版本升级。这种“训练-部署-停滞”的静态模式,在实验室环境下能够取得可验证的效果,但在应对真实世界的数据分布变化与长尾场景时,其局限性逐渐显现。
近期,中国信通院人工智能研究所发布的《人工智能模数共振体系研究报告(2026年)》值得关注。该报告在第九届数字中国建设峰会上正式发布,首次系统阐述了“模数共振”这一技术范式的定义、内涵、核心要素与协同机制。报告指出,传统AI开发模式呈现出典型的“线性断裂”特征:反馈信号被截断,数据与模型之间缺乏闭环迭代,这被认为是AI产业化落地面临挑战的重要原因之一。
以下我们先聚焦技术范式层面进行解读。
01
为什么“闭环”成为AI工程化的新关注点?
过去五年,AI界普遍关注“规模法则”:算力越强、参数越多、数据越大,模型能力越强。
随着基础架构趋同、算力普惠化,业界逐渐认识到:模型能力的天花板与数据质量及迭代效率的关系日益密切。单纯扩大规模的边际贡献正在趋于平稳,而高质量数据集的规模与闭环迭代的敏捷度,正逐步成为影响企业核心竞争力的重要变量。
报告捕捉到了这一转向:能建立“数据飞轮”的企业,可以在垂直场景中持续打磨模型精度,逐步构建起技术壁垒。这可以看作是模数共振体系诞生的产业背景——它试图回应“实验室模型在真实场景中表现下降”这一普遍现象。
报告明确了“模数共振”的具体内涵:建立数据质量提升、模型优化与应用反馈的协同联动及闭环迭代机制,实现数据动态适配模型需求、模型输出反哺数据质量提升。
TalkingData洞察
许多企业拥有海量数据和不错的基础模型,但模型上线后的性能衰减问题往往未被充分重视。原因之一是缺乏有效的闭环反馈机制——模型表现出现波动时,很难快速判断是数据分布发生了变化,还是测试场景与实际应用场景存在差异。闭环可以看作是保障AI资产持续保值的重要基础设施。
02
闭环实践中面临哪些值得关注的挑战?
构建“数据⇄模型”的闭环,在理论上具有较强说服力,但在工程落地中仍存在一些需要克服的难点。
第一,数据与模型的映射关系有待进一步透明化。
模型在某个任务上表现不及预期,究竟是数据标注的问题,还是模型架构本身存在局限?传统测试通常只能给出整体评分,难以实现精准归因。归因能力的不足,使得定向优化缺乏明确依据。
第二,测试体系与动态场景的适配性有待提升。
许多模型使用固定的测试集。而固定测试集容易导致评估结果与真实场景脱节——模型可能在特定数据集上表现良好,但面对动态变化的业务环境时效果可能打折扣。报告指出,“测试场景与实际应用场景脱节”是一个值得关注的问题。
第三,组织流程的协同性需要加强。
业务部门采集数据,技术部门处理数据,算法团队训练模型,运维团队负责部署——四个角色之间如果缺乏有效的反馈通道,模型表现出现变化时就难以快速定位原因,数据质量问题的源头修复也较为困难。
这些挑战表明,闭环不仅是技术问题,也涉及评测体系、组织协同、工程工具等多个维度。报告的价值在于系统性地梳理了这些问题。
TalkingData洞察
部分在闭环实践上进展较快的企业,其优势往往不仅在于技术领先,更在于率先建立了跨部门的协同机制。例如设立AI资产委员会,定期复盘模型在生产环境的表现,并据此驱动数据修复任务。技术工具可以采购,但组织协同需要企业自行构建。
03
模数共振体系提供了哪些可操作的框架?
报告给出了相对具体的操作框架。以下三大协同机制值得关注。
其一,模型-数据关联映射关系。
这一机制可以理解为一种“导航”功能,将“输入数据特征-模型能力需求-输出性能目标”进行匹配。例如,如果模型准确率未达预期,可以审视“特征-标注值”映射关系;如果召回率偏低,则需要关注“场景-特征”映射。有了清晰的映射,优化方向更为明确。
其二,闭环迭代能力机制。
报告将迭代分解为规则迭代、技术迭代、机制迭代三个层面。规则迭代指清洗、标注、标准化等规则的动态升级;技术迭代指引入主动学习、半监督标注等自动化工具;机制迭代则是跨部门协同流程的重塑。三层迭代相互支撑,推动数据集从“一次性项目”向“持续性工程”转变。
其三,模型自适应性能测试系统。
这是报告中技术含量较高的部分。它突破了“固定测试集+单一指标”的局限,能够根据模型类型、任务场景动态生成测试集,并将不达标的指标归因到数据层面或模型层面。这意味着测试不仅是终点评估,也可以成为诊断的起点。
TalkingData洞察
“归因定位”能力在实际工程中具有实用价值。借助归因分析框架,企业能够更快速地定位模型性能波动的源头——是新增数据分布与训练数据存在差异,还是标注标准发生了变化。归因是精准迭代的前提,而这一能力需要评测工具与组织流程的共同支撑。
04
闭环在产业中已有哪些探索?
报告指出,闭环迭代正在被产业验证。
在语音、图像等多模态场景,通过动态模型优化机制,部分企业已实现90%以上的自动标注覆盖率,有效压缩了人工成本。
在通用基座模型训练领域,“弱监督+自监督+少量人工校验”的动态迭代体系正在被采用,有案例显示标注成本可降低近99%,效率提升超百倍。
此外,在对话模型优化方面,通过建立大规模人工审核数据集修正错误标注映射,模型的准确率与对话质量得到显著提升。
这些实践的共同特点是:不再将数据视为一次性消耗品,而是把模型反馈作为数据优化的驱动力。这呼应了模数共振体系所倡导的“数据滋养模型、模型反哺数据”的共生逻辑。
TalkingData洞察
从这些案例可以看到,数据与模型的闭环迭代正在多个行业被验证。无论是语音、图像等感知任务,还是对话生成等认知任务,建立“反馈-优化”循环都能显著提升效率和效果。这一模式对于拥有规模化数据资产和模型应用场景的企业具有普遍参考价值。
从“开环”到“闭环”,还有哪些路要走?
报告指出,未来模数共振体系将朝着“智能化、自动化、一体化”方向演进,最终实现“数据即模型、模型即数据”的共生状态。这一目标的实现仍有若干需要持续攻关的方向。
1、评测数据集的质量与覆盖度有待提升。
高质量的评测数据是闭环的“温度计”。报告提到,“方升”基准测试体系将持续增加复杂推理、多模态、智能体等方向的评测数据集,这为闭环提供了更可靠的度量工具。
2、自动化工具仍有较大发展空间。
3、组织协同机制需要逐步建立。
闭环迭代要求业务、数据、算法、运维四方协同,这对许多企业而言是需要持续探索的课题。
模数共振体系的技术框架本身并不复杂,真正的挑战在于将其嵌入真实的生产流程。对于已经拥有规模化数据资产和模型应用场景的企业,可以考虑从“建立模型-数据映射关系”和“引入自适应测试”两个切口入手,逐步构建数据飞轮。
从静态训练到动态进化,模数共振体系提供了一条值得关注的工程路径。它提示我们:AI的下一阶段发展,不仅体现在模型参数的扩展,也体现在闭环设计能力的提升上。
免责声明:
本文基于中国信息通信研究院人工智能研究所公开发布的《人工智能模数共振体系研究报告(2026年)》撰写,引用内容已标明出处。文中所有分析、观点及解读均为基于公开信息的独立判断,不代表报告编制单位或任何其他机构的立场。文章内容仅供参考,不构成任何投资或决策建议。
下一篇预告:
如果说技术范式的转变影响着AI的进化方向,那么数据角色的重塑则决定了进化的基础资源从何而来。当高质量数据集不再是被动消耗的“原料”,而是与模型形成双向反馈的“活资产”,企业的数据战略需要做哪些调整?下一篇将从数据价值角度继续解读。