新V观海外:数据集和基准测试变革预示AI能力突变
创始人
2024-05-29 12:42:11
0

经济观察报 社论 陈沛/文纵观AI领域近几十年来的发展历程,除了算法层面的架构创新和算力层面的规模倍增,数据层面的变革也是驱动AI发展的重要一环。

例如,十几年前ImageNet和MS COCO的出现,极大推动了计算机视觉和物体识别应用的发展。而近两年以OpenAI的GPT系列模型为代表的生成式AI,则是使用大规模来自网页、书籍、文章的文本数据进行训练,涌现出了突破性的生成能力。

在数据层面,主要涉及数据集和基准测试两个领域。前者为AI模型提供训练和微调的材料,后者提供了评估AI模型性能的标准方法。

在数据集领域,高质量多模态数据集频现

数据集包括了AI模型学习和模仿的数据,数据集的质量直接影响到模型的效果。一个高质量数据集通常兼具多样性、代表性、平衡性、规模性等特点。

多样性确保模型能够处理各种输入,代表性保证数据集真实反映现实世界分布情况,平衡性避免模型产生偏见,规模性则可以提高模型的泛化能力。

为提升AI模型处理多模态信息的能力,近期业界陆续出现了谷歌的DOCCI、字节跳动的COCONut、Reka AI的Vibe-Eval、MBZUAI的CVRR-ES等多模态高质量数据集,涵盖图片、文本、视频等形式,训练AI模型识别视频、理解图像、分析语境和生成推理结果。

在基准测试领域,动态测试愈发受到重视

基准测试是评估AI模型性能的重要工具,通常包括一系列设计好的问答任务,用来系统评估AI模型在特定任务上的表现,帮助AI研究者和开发者了解模型在实际应用中的有效性和局限性,以及比较不同模型的性能得分。

但是这些基准测试都是静态测试,如果AI模型仅针对某一基准进行训练微调,那么可能会出现过拟合,用户实际体验到的能力反而一般。因此以Chatbot Arena为代表的实时动态测试被认为更能符合模型实际能力。

近期,Chatbot Arena背后团队进一步推出了升级版Arena Hard排行榜,完全基于500个高质量评估的动态测试结果进行排名,并且减少了不同模型能力置信区间重叠的情况,拉开得分差距。动态测试的理念正在受到更多关注。

数据集和基准测试开始面临新的挑战

首先,高质量数据集的构建非常耗时,人工标注的工作成本也非常高昂。其次,每一类基准测试,都要在效率、成本、有效性之间寻找平衡。最后,随着AI应用快速发展,旧的数据集和基准测试可能很快就会过时,无法满足新的需求。

在如今的AI数据层面,通过“众包+调查”的方法广泛收集数据和反馈,或是通过合成技术控制数据生成,成为业内的关注焦点。研究社区也在持续发布开放的数据集和评估方法,以供研究使用。新的基准测试也在不断被开发出来,用来评估模型在更复杂、更接近现实世界场景中的能力。

透过这些数据层面的变革,我们不仅可以期待出现更多高质量数据集与基准测试,还可以预见AI技术能力的下一次突变或许就在不远的未来。

相关内容

热门资讯

连日来!新九哥智能辅助软件!本... 连日来!新九哥智能辅助软件!本来真的有辅助挂(新版有挂)-哔哩哔哩1)新九哥智能辅助软件有没有挂:进...
透明私人局!聚星ai辅助工具收... 透明私人局!聚星ai辅助工具收费多少,佛手大菠萝13道挂哪里,推荐教程(讲解有挂)-哔哩哔哩1、不需...
为了进一步!新西楚辅助!都是真... 为了进一步!新西楚辅助!都是真的是有辅助器(的确有挂)-哔哩哔哩1、不需要AI权限,帮助你快速的进行...
盘点一款!有没有人wepoke... 盘点一款!有没有人wepoker,德州圈脚本,教你教程(真是有挂)-哔哩哔哩所有人都在同一条线上,像...
现有说明如下!手游辅助脚本平台... 现有说明如下!手游辅助脚本平台!果然有挂辅助器(有挂讲解)-哔哩哔哩1、用户打开应用后不用登录就可以...
总算了解!德普之星辅助器,we... 总算了解!德普之星辅助器,wepoker可以开透视吗,详细教程(有挂存在)-哔哩哔哩1、操作简单,无...
近期!朋朋政和软件辅助!总是是... 近期!朋朋政和软件辅助!总是是真的辅助神器(有挂辅助)-哔哩哔哩1、朋朋政和软件辅助有没有辅助教程、...
今日焦点!pokemmo脚本最... 今日焦点!pokemmo脚本最新版,wejoker内置辅助,解密教程(有挂教程)-哔哩哔哩pokem...
有了最新消息!新众亿辅助!果然... 有了最新消息!新众亿辅助!果然是真的辅助工具(有挂教程)-哔哩哔哩1、每一步都需要思考,不同水平的挑...
揭秘!佛手在线大菠萝为什么都输... 揭秘!佛手在线大菠萝为什么都输,智星德州插件最新版本更新内容详解,揭幕教程(的确有挂)-哔哩哔哩1、...