苹果推出Ferret-UI Lite端侧AI模型:3B参数看懂复杂屏幕
创始人
2026-02-21 08:41:32
0

IT之家 2 月 21 日消息,苹果研究团队在最新论文中,推出展示 Ferret-UI Lite 端侧 AI 模型,仅有 30 亿(3B)参数,却在性能上匹配甚至超越了体积大 24 倍的大型模型。

IT之家注:Ferret-UI Lite 是专为移动设备打造的多模态大语言模型(MLLM),参数量仅为 30 亿(3B),属于典型的“轻量级”模型,可以在算力有限的手机端,精准理解与操作复杂图形用户界面(UI)。

不过在多项基准测试中,Ferret-UI Lite 的性能不仅追平,甚至超越了参数量高达其 24 倍的大型服务器端模型。

在核心技术方面,通用大模型往往难以看清手机屏幕上微小的图标和文本,而 Ferret-UI Lite 通过引入“推理时裁剪(Inference-time Cropping)”技术解决了这一痛点。

模型在处理任务时,会先进行一次粗略预测,然后智能地“剪切”并放大相关区域,就像人眼凑近观察细节一样,再次进行精准识别。这种策略让小模型无需处理海量图像数据,也能捕捉到界面中的关键信息,从而更好理解屏幕元素。

在训练方面,研究团队为了解决高质量训练数据匮乏的问题,构建了一套合成数据生成系统。该系统包含“任务生成器”、“规划器”、“执行者”和“批评者”四个角色,让 AI 在模拟环境中不断尝试操作、犯错并自我修正。

这种机制不仅生成了海量训练样本,还让模型学会了如何应对现实操作中的错误与意外情况(如点击无反应或弹出干扰窗口),其效果远优于单纯依赖人工标注的清洁数据。

测试结果显示,该模型在执行短流程、基础 UI 操作时表现优异,但在处理复杂的多步长任务时仍有提升空间。

最重要的是,Ferret-UI Lite 能够完全在本地运行,无需将屏幕截图上传至云端服务器,这在赋予手机“自动操作 App”能力的同时,最大程度地保障了用户隐私。

IT之家附上参考地址

相关内容

热门资讯

2阶段熟悉“财神13游戏辅助器... 2阶段熟悉“财神13游戏辅助器脚本”原先有开挂辅助插件(真是有挂);无需打开直接搜索薇:136704...
透视智能ai!wepoker模... 透视智能ai!wepoker模拟器哪个好用,wpk辅助器(本来有开挂辅助平台);无需打开直接搜索打开...
九分钟练习!新星游辅助软件试用... 九分钟练习!新星游辅助软件试用版(透视)新上游通用挂是真的吗(有挂秘籍)1、下载安装好新星游辅助软件...
第4分钟了解!樱花之盛低价挂,... 第4分钟了解!樱花之盛低价挂,悟空大厅辅助,介绍教程(的确有挂);无需打开直接搜索薇:1367043...
第三阶段体悟“朋朋政和510k... 第三阶段体悟“朋朋政和510k辅助”起初有开挂辅助工具(有挂透视);无需打开直接搜索加薇136704...
透视了解!hhpoker辅助器... 透视了解!hhpoker辅助器视频,we poker辅助器下载(原本有开挂辅助插件);无需打开直接搜...
第五分钟经验!九神大厅辅助(透... 第五分钟经验!九神大厅辅助(透视)财神十三张脚本辅助(果真有挂);无需打开直接搜索加薇1367043...
三分钟了解!pokemmo手机... 三分钟了解!pokemmo手机脚本,德普之星有辅助软件吗,力荐教程(有挂辅助);无需打开直接搜索加薇...
9秒钟指导“丽水都莱辅助器”素... 9秒钟指导“丽水都莱辅助器”素来有开挂辅助下载(了解有挂);无需打开直接搜索加(薇:13670430...
透明肯定!wepoker私人局... 透明肯定!wepoker私人局透视方法,佛手在线大菠萝智能辅助器(原先有开挂辅助下载);无需打开直接...