机器之心报道
机器之心编辑部
不久前,NeurIPS 2025 顺利举办,作为人工智能学术界的顶级会议之一,其中不乏学术界大佬的工作和演讲。
有一项荣誉的颁发显得格外厚重且众望所归 —— 由任少卿、何恺明、Ross Girshick 和孙剑合著的经典论文 《Faster R-CNN》,摘得了 「时间检验奖」 (Test of Time Award)。
凡是接触过计算机视觉的人,对这个名字绝不陌生。自 2015 年发表以来,《Faster R-CNN》无疑成为了该领域最具里程碑意义的工作之一。它不仅一举奠定了现代目标检测框架的核心范式,更像是一座灯塔,深刻影响并指引了随后整整十年的视觉模型发展方向。
作为这一历史性时刻的见证与总结,何恺明在大会上发表了题为 《视觉目标检测简史》 (A Brief History of Visual Object Detection) 的演讲。
何恺明演讲 PPT 已经公开,可以参阅以下链接:
https://people.csail.mit.edu/kaiming/neurips2025talk/neurips2025_fasterrcnn_kaiming.pdf
从何恺明的演讲内容来看,这不单是一个技术汇报,更像是一部计算机如何学会「看世界」的英雄史诗,总结了 30 年来视觉目标检测的发展历程。演讲中介绍的每一个工作,都获得了不同顶会的时间检验奖,对视觉智能的发展起到了决定性的作用。
你是否好奇:为什么现在的 AI 能在一瞬间识别出照片里的猫、狗、汽车甚至它们的位置,而在十几年前这却被认为是几乎不可能的任务?
让我们跟随大神的视角,穿越回那个「原始」的时代,看看这一路是如何走来的。
原始:手工打磨的「放大镜」
在深度学习爆发之前,计算机视觉科学家们更像是「工匠」。
人脸检测的早期尝试: 早在 90 年代,科学家们就开始尝试用神经网络和统计学方法找人脸:
特征工程的黄金时代: 既然「整张脸」难找,那就找「关键点」和「纹理」。随后的几年,特征描述符成为了主角:
痛点在哪里?特征是人设计的(Hand-crafted),分类器(比如 SVM)只能在这些有限的信息上工作 。这种方法不仅慢,而且很难适应复杂的场景。
破晓:AlexNet 与 R-CNN 的「暴力美学」
2012 年,AlexNet 横空出世,深度学习证明了它提取特征的能力远超人类手工设计 。但是,怎么用它来做目标检测呢?
深度学习的惊雷:2012 年,AlexNet (Krizhevsky et al.) 在 ImageNet 竞赛中以压倒性优势夺冠。它证明了深层卷积神经网络(CNN)提取特征的能力远超人类手工设计。
R-CNN:从分类到检测 但是,怎么用 CNN 做目标检测(框出物体位置)? 2014 年,Girshick 等人提出了划时代的 R-CNN (Region-based CNN) 。它的思路很直接:
巅峰:Faster R-CNN 的「速度进化」
R-CNN 让每个候选框都过一遍 CNN,计算量巨大。科学家们开始思考如何复用计算。
最终的瓶颈: 即便如此,候选框(Region Proposals)依然依赖那个笨重的传统算法(Selective Search),这成为了系统的速度瓶颈。
2015 年,Faster R-CNN 的诞生:何恺明团队提出了 RPN (Region Proposal Network) 。他们从 1991 年 LeCun 等人的 「空间位移神经网络」 (Space Displacement Net) 中获得灵感,让神经网络自己在特征图上「滑动」,通过预设的 Anchor (锚点) 来预测物体可能存在的位置。
至此,目标检测的所有环节 —— 提议、特征提取、分类、回归 —— 全部被神经网络接管,实现了真正的「端到端」实时检测。速度和精度双重飞跃,计算机视觉终于迈入了实时检测的时代。
迷雾后的新世界:Transformer 与万物
Faster R-CNN 开启了一个时代,但探索从未停止。演讲的后半部分,何恺明展示了技术的洪流如何继续奔涌:
既然要快,能不能连「候选框」这个步骤都不要了?
在这个「大航海时代」我们学到了什么?
我们在过去的几十年里学到了什么?
何恺明说:「Write object detection papers and win Test of Time Awards :)」(写目标检测论文然后拿到时间检验奖 :) )
演讲最后,他用一张 Nano-Banana 生成的非常有寓意的图作为结尾:一艘船驶向迷雾中的大海。
他说,科学探索就像是驶入迷雾 。
从手工特征到 CNN,再到 Transformer,每一次飞跃都是探险者在迷雾中发现的新大陆。Faster R-CNN 不仅仅是一个算法,它教会了我们:当旧的组件成为瓶颈时,用更强大的可学习模型去取代它。
在下一个十年,计算机视觉的「圣杯」会是什么?