3DWorld模拟虚拟世界中的物理和可视化。图源:甘创等人。
麻省理工学院、哈佛大学和斯坦福大学的研究人员开发了一个名为ThreeDWorld (TDW)的新平台,这使得一个丰富的虚拟世界成为可能,就像走进《黑客帝国》(the Matrix)一样。新平台通过模拟室内外高保真音频和视觉环境,允许用户和物体像在现实生活中一样根据物理定律进行交互,实时计算并执行流体、软体和刚体的对象方向、物理特性和速度,产生准确的碰撞和碰撞声音。
TDW的独特之处在于,它的设计极为灵活,便于推广。实时合成的真实场景照片和音频渲染,可以编译成视听数据集,通过场景内的交互进行修改,适用于人类和神经网络的学习和预测。不同类型的机器人化身也可以在受控模拟中形成,以规划和执行其在现实世界的任务。例如,使用虚拟现实(VR),人类在虚拟空间内的注意力和游戏行为可以为真实世界提供数据。
麻省理工学院研究人员甘创表示:“我们正在努力构建一个通用模拟平台,为各种人工智能应用模拟真实世界的丰富交互。”创造真实的虚拟世界来研究人类行为和训练机器人一直是人工智能和认知科学研究人员的梦想。项目负责人Josh McDermott表示:“目前大多数人工智能都是基于监督学习的,而监督学习依赖于由人类注释的图像或声音组成的庞大数据集。”这些数据集的编译成本很高,因而成为了研究瓶颈。而物体的物理属性,比如质量,可能根本就无法进行标注。TDW可以通过生成所有参数和注释已知场景来为更多应用提供支持。
McDermott指出:“TDW的另一个优势是,它为理解学习过程提供了一个可控的设置,并促进了人工智能机器人的改进。依靠反复试验的机器人系统,可以在不会造成物理伤害的环境中进行学习测试。此外,它为了解人类的感知和认知打开了大门,可能会根据这些认知创造出非常丰富的感官场景,在那里你仍然可以完全了解并控制环境中正在发生的事情。”
框架背后
TDW将听觉、视觉、认知和知觉智能的研究结合在一个平台上。McDermott说:“我们都对建立虚拟世界以训练人工智能系统的想法很感兴趣,希望之后能将这些系统用作大脑模型。所以我们会在虚拟环境中设置人机互动,收集人类真实的感官数据,这将会促进研究进展。”
为实现这一目标,研究人员在一个名为Unity3D Engine的视频游戏平台上构建了TDW,并致力于在没有任何动画的情况下整合视觉和听觉数据渲染。模拟由两个组件组成:构建和控制器。构建可以渲染图像、合成音频和运行物理模拟,控制器是一个基于python的接口,用户可以在其中向构建发送命令。研究人员从一个广泛的3D模型库中提取对象(如家具、动物和车辆)来构建和填充一个场景。这些模型准确地响应灯光的变化,它们在场景中的材料组成和方向决定了它们在空间中的物理行为。动态照明模型准确地模拟场景照明,形成与一天中适当时间和太阳角度相对应的阴影和调光。此外,团队还创建了虚拟的平面图,在其中填充虚拟角色。为了合成真实的音频,TDW使用了碰撞声的生成模型,这些声音是由模拟中的碰撞或其他对象交互触发的。TDW还根据空间和物体的几何形状模拟了噪声衰减和混响。
TDW中的两个物理引擎一个用于刚体,另一个用于柔软物体和流体,可以为相互作用的物体变形和反应提供动力。TDW可以执行质量、体积、密度以及作用于材料上的任何摩擦力或其他力的瞬时计算,这使得机器学习模型能够学习具有不同物理属性的物体如何交互。
研究人员可以通过控制器的命令直接对一个物体施加一个力,比如让一个虚拟球运动起来。虚拟角色可以通过能够执行任务实验的关节肢体在空间中以某种方式行动。最后,让用户与虚拟环境交互,生成机器学习模型,从中学习人类行为的数据。
更丰富的AI体验
为了试验和演示TDW的独特性、功能和应用,该团队运行了一系列测试,比较了由TDW和其他虚拟模拟生成的数据集。结果表明,跟同类竞争对手相比,TDW具有显著优势。在图像分类测试中,对场景图像快照进行训练的神经网络优于其他模拟图像的快照,接近于对真实世界图像进行训练的系统。研究人员还根据TDW中掉落在物体表面的小物体的音频剪辑生成并训练了一个材料分类模型,并要求它识别相互作用的材料类型。此外,利用TDW训练的神经网络进行的物体掉落测试显示,视听结合是识别物体物理属性的最佳方法,这推动了视听整合的进一步研究。
事实证明,TDW尤其适用于设计和测试理解场景中物理事件如何随时间发展的系统,这包括促进基准模型或算法进行物理预测,例如, 物体堆叠的稳定性,或物体在碰撞后的运动。TDW还可以将人类的好奇心和预测能力与评估不同场景中社会互动的机器进行比较。
甘创指出:“这些应用只是冰山一角。通过扩展TDW的物理模拟能力,可以更准确地描述现实世界。我们正试图创建新的基准来推进人工智能技术,揭示许多迄今为止难以研究的新问题。”