从性能竞赛到可靠应用:阿里、蚂蚁在WAIC分别发布重要成果
创始人
2025-07-27 23:01:28
0

东方网记者程琦7月27日报道:当AI大模型的“百模大战”进入深水区,业界的关注点正从单纯的能力比拼,转向更深层次的两个核心问题:如何持续突破性能天花板,以及如何解决“幻觉”问题,让AI真正成为可靠的生产力。在正在举行的2025世界人工智能大会上,阿里巴巴与蚂蚁集团分别就这两大议题交出了重磅答卷。

通义千问“三连发”,引领全球开源AI浪潮

在由阿里云主办的“开源·开放”论坛上,阿里巴巴再次展示了其在开源领域的领导力。本周,通义千问接连发布三款重磅模型,并迅速登顶多个全球权威榜单,引发全球开发者关注。

据了解,三款重磅大模型,分别斩获基础模型、编程模型和推理模型等主流领域全球开源冠军:千问3最新版基础模型(非思考版),被权威AI研究机构ArtificialAnalysis评为“全球最智能的非思考基础模型”;千问3推理模型比肩顶级闭源模型Gemini2.5pro、o4-mini,并斩获推理模型的全球开源冠军;AI编程模型Qwen3-Coder在代码能力及Agent调用能力方面取得重大突破,超越GPT4.1、Claude4等顶尖闭源模型,被开发者誉为「全球最好的编程模型」,一举登顶全球最大开源社区HuggingFace模型总榜冠军。

阿里云副总裁叶杰平表示,通义千问已实现全尺寸、全模态的全面开源,真正打破了开源与闭源模型的技术壁垒。这一系列开源举措在全球引发热潮,海外模型平台OpenRouter数据显示,千问API调用量三天内突破1000亿Tokens,热度超越GPT、Claude等。截至目前,通义千问家族的全球下载量已突破4亿,成为全球第一的开源模型家族。

破解“幻觉”,蚂蚁开源高阶程序(HOP)探索可靠应用

当大模型的能力日益强大,“幻觉”问题也成为其进入金融、医疗等严肃专业领域最大的“拦路虎”。在另一场聚焦专业生产力的论坛上,蚂蚁集团旗下蚂蚁密算宣布开源“高阶程序(High-Order Program,简称HOP)”大模型可信应用技术框架,为破解这一难题提供了全新思路。

浙江大学教授陈纯在论坛上指出,幻觉是智力的必然代价,关键不在于消灭智力,而在于构建能容错的工程化保障框架。

蚂蚁集团副总裁韦韬对此观点表示认同,他以人类工程类比:“个体的人容易犯错,但我们却能通过可靠的工程体系完成登月等复杂任务。”他认为,大模型的可靠应用,不应寄望于模型本身“十全十美”,而应通过智能体系与工程体系的结合来保障。

HOP框架正是基于此理念。它借鉴了人类工程管理中的标准作业程序(SOP)和检查清单等机制,通过将业务逻辑程序化、融入场景知识图谱,并在全流程中贯穿核验机制,从而将大模型不确定的“智力”输出,转化为可信、可控的专业生产力。

以金融联合风控为例,应用HOP框架后,原本依赖人工、流程冗长的建模周期被极大缩短,并实现了风控全链路的智能化与自动化执行,在确保高精度的同时,显著提升了效率和可靠性。

韦韬表示:“大模型可靠性的解法,不在于模型本身,而在于工程化和智能化的融合。我们开源HOP,就是希望与行业一起,将大模型从‘助手’真正变成规模化的‘专业生产力’,并催生出新的杀手级应用。”

相关内容

热门资讯

杭州萧山机场以旧换新充电宝!全... 7月24日,杭州萧山机场T4航站楼内,一个特别的摊位引来无数中外旅客的驻足,摊位上堆放各品牌全新的充...
中国机器人产业稳居全球第一梯队... 央视网消息:2025世界人工智能大会暨人工智能全球治理高级别会议7月26日至28日在上海举行,大会展...
圣创伟业取得表面界面张力测试搅... 金融界2025年7月26日消息,国家知识产权局信息显示,四川圣创伟业能源科技有限公司取得一项名为“一...
浙江鸿凌取得保温杯杯体清洗用放... 金融界2025年7月26日消息,国家知识产权局信息显示,浙江鸿凌工贸有限公司取得一项名为“一种保温杯...
大模型走到十字路口,未来机会在... 封面新闻记者 边雪 上海报道 站在十字路口的大模型,既需仰望星空的大胆设想,也离不开脚踏实地的智慧。...
13个站点刷新历史极值!本轮华... 本文转自【央视新闻客户端】; 进入7月下旬,我国北方多地开启了多雨模式,河北、内蒙古多地出现破纪录的...
事关央企人工智能,国务院国资委... “要瞄准战略意义强,经济收益高,民生关联紧的高价值场景,聚焦小切口大纵深,加大布局突破力度,落地一批...
科大讯飞与无锡市建立战略合作关... 来源:市场资讯 (来源:科大讯飞集团) 7月27日,无锡市委书记杜小刚带队赴上海,与科大讯飞股份有限...
女生想学视频剪辑难吗?过来人掏... 最近收到好多姐妹私信:"女生学视频剪辑会不会特别难啊?我完全零基础能行吗?" 作为一个从剪辑小白摸爬...
原创 凌... 不是演习,不是动画,是真刀真枪干上去了。 凌晨三点,北京飞控中心灯火通明,屏幕上跳动的绿点叫北斗三号...