【深圳商报讯】(首席记者 袁静娴)2023年,IDEA研究院团队推出了广受关注的开集检测模型Grounding DINO,这些开源模型被国内外很多团队用于各类视觉及多模态应用中。5月24日,记者从IDEA研究院获悉,该团队推出全新升级版Grounding DINO1.5。模型分为Pro和Edge两个版本,其中Edge版实现了端侧可部署的革命性突破,已部署在英伟达的Orin NX卡上,将强力赋能具身智能、自动驾驶等新型应用场景。
据该团队介绍,Grounding DINO1.5在其前身Grounding DINO的基础上,通过结合更大的视觉backbone扩大模型尺寸,并使用超过2000万的Grounding数据获得了丰富的语料,大幅提升了检测精度和速度,且通过Pro和Edge版本分别针对不同应用场景进行了优化。
Grounding DINO1.5 Pro版本实现了当前开集目标检测的最先进水平(SOTA),在图像和文本的语义理解上表现出色,能够快速、准确地根据语言提示检测和识别图像中的目标对象。
在其他需要处理大量复杂数据的领域,如电商、社交媒体和自动驾驶等,Grounding DINO 1.5 Pro也具有强大应用价值。 例如,在电商领域,该模型可以帮助快速标注商品图像,优化搜索和推荐系统。在社交媒体中,该模型能自动标注用户上传的图片,提升内容审核和分类的效率。
在端侧部署方面,Grounding DINO1.5 Edge版本展现了其独特的优势。记者了解到,通过模型结构优化,成功部署在英伟达的Orin NX卡上,并实现了10FPS的推理速度。该团队表示,相比业界现有的其他模型,Grounding DINO1.5 Edge的这一能力属于首创,为大模型的端侧部署开辟了新的领域。
例如,在目前最火爆的具身智能领域,在端侧部署的开集检测模型可以使机器人真正和开放环境进行交互。在自动驾驶领域,Grounding DINO1.5 Edge未来可以在车辆上实时运行,实现高效的目标检测和环境感知,提高驾驶安全性。在智能安防中,该模型能快速处理视频监控数据,实时检测异常行为,提升安全监控的响应速度。