视觉的进化与人工智能的未来
大约5.4亿年前,地球笼罩在一片黑暗中。这并不是因为缺乏光线,而是因为生命体还没有发展出视觉能力。尽管阳光能够穿透海洋深达1000米,海底的热液喷口也发出光芒,生命在其中蓬勃发展,但在这些古老的海洋中却找不到一个眼睛,没有视网膜、角膜或晶状体。所有的光芒和生命都未曾被看到过。那时,看到这个概念根本不存在,这种能力从未被实现过,直到有一天它被创造了出来。
三叶虫与视觉的诞生
出于我们刚刚开始理解的原因,三叶虫作为首批能够感知光的生物出现了。它们是第一个能够发现自身之外存在某种东西的生物,发现了一个由多个“自我”组成的世界。视力的诞生被认为引发了寒武纪大爆发,这一时期大量动物物种出现在化石记录中。视觉最初是一个被动的体验,仅仅是让光进入,但很快就变得更加主动。神经系统开始进化,视力转化为洞察力,看到变成了理解,理解带来了行动,所有这些都催生了智能。
计算机视觉的进展
今天,我们不再满足于自然赋予的视觉智能。好奇心驱使我们创造出能够像我们一样甚至更智能地“看”的机器。九年前,我在这个舞台上发布了计算机视觉领域的早期进展报告。三股强大的力量首次汇聚:一种叫做神经网络的算法家族、快速的专业硬件图形处理单元(GPU)和大数据,比如我的实验室花费多年策划的包含1500万张图像的ImageNet。这些力量共同推动了现代AI时代的到来。
我们已经走了很远。当时,仅仅为图像贴标签就是一个重大突破,但这些算法的速度和准确性迅速提高。年度ImageNet挑战赛衡量了这一进展,并且我们更进一步,创造了能够分割对象或预测其动态关系的算法,这些工作都是由我的学生和合作者完成的。
生成性AI的崛起
更有甚者,回想起我上次展示的第一个能够用人类自然语言描述照片的计算机视觉算法,那是我和我出色的前学生安德烈·卡帕西一起完成的。当时,我试探性地问他:“安德烈,我们能让计算机反过来做吗?”他笑着说:“哈哈,那不可能。”然而,如你所见,这个帖子展示了最近的不可能变为可能。这要归功于一类叫做扩散模型的算法,它推动了今天生成性AI的发展,能够将人类提示的句子转化为全新的照片和视频。许多人已经看到了OpenAI的Sora的最新令人印象深刻的成果,但即使没有大量的GPU,我的学生和合作者也开发出了名为Walt的生成视频模型,比Sora早了几个月。你们现在看到的就是其中的一些结果。
当然,还有改进的空间。看看那只猫的眼睛,它在波浪下穿行却丝毫不湿,这真是个“猫天大祸”。
空间智能的未来
多年来,我一直在说,拍照不等同于看见和理解。今天,我想补充一点,仅仅看见是不够的。看见是为了行动和学习。当我们在三维空间和时间中作用于这个世界时,我们学习,并学会更好地看和行动。自然界创造了一个由“空间智能”驱动的良性循环。
为了向你们展示你们的空间智能在不断做些什么,请看这张图片。举手示意一下,如果你觉得你想做些什么。
在不到一秒钟的时间里,你的大脑看到了这杯水的几何形状,它在三维空间中的位置,以及它与桌子、猫和其他所有事物的关系。你可以预测接下来会发生什么。行动的冲动是所有具有空间智能的生命体与生俱来的,它将感知与行动联系起来。
如果我们想让AI超越其当前的能力,我们需要的不仅是能够看和说的AI,我们需要能够行动的AI。
实际上,我们在空间智能方面取得了令人兴奋的进展。最近在空间智能方面的里程碑是教计算机看、学、做并学会更好地看和做。这并不容易。自然界花了数百万年时间来进化空间智能,这依赖于眼睛接收光线,将二维图像投射到视网膜上,然后大脑将这些数据转化为三维信息。最近,谷歌的一组研究人员开发出一种算法,能够将一堆照片转化为三维空间,如我们这里展示的例子。我的学生和合作者更进一步,创造了一个算法,能够通过一张输入图像生成三维形状。这里有更多的例子。回想起我们谈到的可以将人类句子转化为视频的计算机程序,密歇根大学的一组研究人员找到了一种方法,将句子转化为三维房间布局,如图所示。而我的同事们在斯坦福大学及其学生们开发了一种算法,能够通过一张图像生成无限可能的空间供观众探索。
机器人学习和行为数据库
这些都是未来可能性的初步迹象。一个人类可以将整个世界转化为数字形式并模拟其丰富性和细微差别的未来。自然界在我们各自的头脑中隐含地做了这些事情,而空间智能技术则希望为我们的集体意识做到这一点。
随着空间智能进展的加速,这一良性循环中的新纪元正在我们眼前展开。这种来回交流正在催化机器人学习,这是任何需要理解和与三维世界互动的智能系统的关键组成部分。
十年前,我的实验室推出了一个包含数百万高质量照片的数据库ImageNet,帮助训练计算机看。今天,我们正在用行为和动作做同样的事情,以训练计算机和机器人如何在三维世界中行动。但与收集静态图像不同,我们开发了由三维空间模型驱动的模拟环境,使计算机能够在无限多样的可能性中学习行动。你们现在看到的只是一个小部分例子,这些例子用于教导我们的机器人,这是由我的实验室领导的一个名为Behavior的项目。
我们在机器人语言智能方面也取得了令人兴奋的进展。使用基于大型语言模型的输入,我的学生和合作者们是首批展示机器人手臂能够根据口头指令执行多种任务的团队之一,例如打开抽屉或拔掉充电的手机,甚至制作三明治,使用面包、生菜、西红柿,甚至为用户放上餐巾纸。虽然我通常希望我的三明治内容更丰富一些,但这是一个良好的开始。
健康领域的应用
在那个原始海洋中,在我们的古代,视觉能力的出现引发了与其他生命形式的寒武纪大爆发。今天,这种光线正在照进数字头脑。空间智能正在使机器不仅能够相互互动,还能够与人类以及真实或虚拟的三维世界互动。随着这一未来逐渐成型,它将对许多生命产生深远影响。以医疗保健为例,过去十年间,我的实验室在应用AI应对影响患者结果和医疗人员倦怠的挑战方面迈出了第一步。与斯坦福医学院及其合作医院的合作者一起,我们正在试点智能传感器,能够检测医护人员进入病房前是否正确洗手,或跟踪手术器械,或在患者面临身体风险(如跌倒)时提醒护理团队。我们认为这些技术是一种环境智能,类似于额外的眼睛,确实会有所不同。但我希望能为我们的患者、临床医生和护理人员提供更多互动帮助,他们也迫切需要额外的帮手。想象一下,一个自主机器人在医护人员专注于患者时运输医疗用品,或者增强现实引导外科医生进行更安全、更快速、创伤更小的手术。
或者想象一下,重度瘫痪患者通过脑电波控制机器人完成日常任务。你们看到的是我最近实验室的一个试点研究的未来一瞥。在这个视频中,机器人手臂仅通过脑电信号(非侵入性地通过脑电图帽收集)控制,正在烹饪一顿日式寿喜烧。
视觉的出现半亿年前将一个黑暗的世界颠覆了过来。它引发了最深刻的进化过程:动物世界智能的发展。AI在过去十年的惊人进步同样令人瞩目。但我相信,数字寒武纪大爆发的全部潜力只有在我们为计算机和机器人赋予空间智能时才能完全实现,就像自然界对我们所做的一样。
这是一个激动人心的时刻,我们教导我们的数字伙伴学会在我们称之为家的美丽三维空间中推理和互动,并创造更多我们可以共同探索的新世界。实现这一未来并不容易。这需要我们所有人采取深思熟虑的步骤,开发始终将人类置于中心的技术。但如果我们做对了,拥有空间智能的计算机和机器人不仅会成为有用的工具,还会成为可信赖的伙伴,提升我们的生产力和人性,同时尊重我们的个人尊严,提升我们的集体繁荣。
我最期待的未来是一个AI变得更加敏锐、有洞察力和空间意识的未来,它们将与我们一起追求更好的方式来创造一个更美好的世界。
原视频:https://www.ted.com/