北大清华等联合发布LLaVA-o1:首个自发性视觉AI模型,推理计算Scaling新思路
创始人
2024-11-19 18:01:18
0

11 月 19 日消息,由北京大学、清华大学、鹏城实验室、阿里巴巴达摩院以及理海大学(Lehigh University)组成的研究团队,最新推出了 LLaVA-o1,这是首个具备自发性(Spontaneous,具体解释可参考文末)、类似于 GPT-o1 的系统性推理视觉语言模型。

LLaVA-o1 是一种新型的视觉语言模型(VLM),其设计目标是进行自主的多阶段推理。

LLaVA-o1 拥有 110 亿个参数,基于 Llama-3.2-Vision-Instruct 模型开发,设计了总结(summary)、描述(caption)、推理(reasoning)和结论(conclusion)4 个推理阶段。

该模型使用名为 LLaVA-o1-100k 的数据集进行微调,该数据集源自视觉问答(VQA)来源和由 GPT-4o 生成的结构化推理注释。

LLaVA-o1 采用了阶段级束搜索(stage-level beam search)的推理时间 Scaling 技术,能够在每个推理阶段生成多个候选答案,并选取最佳答案。

该模型在处理复杂任务时具备较强的能力,在复杂视觉问答任务中,可以突破传统视觉语言模型的局限性。

与基础模型相比,LLaVA-o1 在多模态推理基准测试中提高了 8.9% 的性能,超过了许多大型和闭源的竞争对手。

LLaVA-o1 的推出填补了文本和视觉问答模型之间的重要空白,在多个基准测试中的优异表现,特别是在数学和科学视觉问题的推理领域,展示了结构化推理在视觉语言模型中的重要性。

自发性人工智能(Spontaneous AI)是指能够模拟动物自发行为的人工智能系统。这种技术的研究主要集中在如何通过机器学习和复杂的时间模式设计出具有自发行为的机器人或智能系统。

【来源:IT之家】

相关内容

热门资讯

透视关于!wepoker破解器... 透视关于!wepoker破解器激活码,wejoker辅助软件价格-一直有辅助教程(哔哩哔哩)1、全新...
最新研发!如何下载wepoke... 最新研发!如何下载wepoker安装包,竞技联盟辅助,推荐教程(有挂技术)-哔哩哔哩1、起透看视 如...
现有关情况通报如下!德友汇开挂... 现有关情况通报如下!德友汇开挂脚本!都是是有辅助器(有挂解惑)-哔哩哔哩1、现有关情况通报如下!德友...
实测交流!aapoker怎么设... 实测交流!aapoker怎么设置提高好牌几率(透视)辅助神器(一直有挂)-哔哩哔哩1、模拟器是什么优...
原创 普... 在中俄博览会的展区里,俄罗斯副总理特鲁特涅夫站在一堆展品前,脸上写满了复杂的神情。 一边是中国企业带...
今年以来!aapoker透视方... 今年以来!aapoker透视方法(透视)辅助修改器(有挂方略)-哔哩哔哩小薇(辅助器软件下载)致您一...
目前!雀友会广东潮汕麻雀!一贯... 目前!雀友会广东潮汕麻雀!一贯存在有辅助脚本(有挂助手)-哔哩哔哩1、雀友会广东潮汕麻雀免费脚本咨询...
透视教你!wepoker可以透... 透视教你!wepoker可以透视码,wepoker好友局透视-果然是真的有辅助神器(哔哩哔哩)是不是...
重大来袭!wpk安卓下载辅助,... 重大来袭!wpk安卓下载辅助,大菠萝免费辅助,总结教程(有挂详细)-哔哩哔哩一、wpk安卓下载辅助游...
从拿到最低价格转向尽可能锁定供... 快科技5月19日消息,曾经在全球供应链谈判中始终占据绝对主导地位的苹果,如今正在DRAM也就是动态随...