为何自动驾驶汽车不需要雷达？特斯拉首席AI科学家给出了解释（组图）

2021-07-05 来源：腾讯科技原文链接评论5条

制造全自动驾驶汽车需要哪些技术支持？对于这个问题的答案，不同公司和研究人员意见不一。实际上，实现自动驾驶的方法有很多，从仅需摄像头和计算机视觉到计算机视觉与先进传感器相结合等不一而足。其中，特斯拉始终是基于纯视觉自动驾驶方法的拥护者，在今年的计算机视觉与模式识别会议(CVPR)上，该公司首席AI科学家安德烈·卡帕西（Andrej Karpathy）解释了原因。

为何自动驾驶汽车不需要雷达？特斯拉首席AI科学家给出了解释（组图） - 1

过去几年，卡帕西始终负责领导着特斯拉的自动驾驶项目。他在CVPR 2021自动驾驶研讨会上发表讲话，详细介绍了特斯拉是如何开发深度学习系统的，这些系统只需要视频输入就能理解汽车的周围环境。卡帕西还认为，特斯拉最有可能让基于视觉的自动驾驶汽车成为现实。

通用计算机视觉系统

深度神经网络是自动驾驶技术堆栈的主要组成部分之一，主要分析车载摄像头中的道路、标志、汽车、障碍物和行人。但深度学习在检测图像中的对象时也会出错，为此大多数自动驾驶汽车公司（包括谷歌母公司Alphabet旗下自动驾驶汽车子公司Waymo）都使用激光雷达，它可通过向各个方向发射激光束来创建汽车周围3D地图。激光雷达提供了额外的信息，可以填补神经网络留下的空白。

然而，将激光雷达添加到自动驾驶技术堆栈中也十分复杂。卡帕西说：“你必须用激光雷达预先绘制环境地图，然后必须创建高清地图，并将所有车道和红绿灯标志纳入其中，还要弄清楚它们如何相互作用。在测试时，你只需定位到该地图即可驾车四处走动。然而，要精确绘制自动驾驶汽车将行驶每个地点的地图是极其困难的。同时，收集、构建和维护这些高清激光雷达地图缺乏可扩展性，要使这些基础设施保持最新也非常困难。”

特斯拉在其自动驾驶技术堆栈中不使用激光雷达和高清地图。卡帕西解释说：“所有发生的事情，都是第一次发生在车里，这基于车身周围的八个摄像头拍摄的视频。”

自动驾驶技术必须弄清楚车道在哪里，红绿灯在哪里，它们的状态怎样，哪些是与车辆相关的。而且这项技术必须在没有任何关于它正在导航的道路的预定义信息情况下完成所有这些操作。卡帕西承认，基于视觉的自动驾驶在技术上更加困难，因为它需要仅基于视频馈送就能运行的神经网络。但他说：“当你把它真正投入使用，它就像是通用计算机视觉系统，基本上可以部署在地球上的任何地方。”

有了通用视觉系统，你的车就不再需要任何辅助装置了。卡帕西表示，特斯拉已经在朝这个方向发展了。此前，该公司的汽车使用雷达和摄像头相结合的方式支持自动驾驶，但其最近开始推出没有配备雷达的汽车。他说：“我们移除了雷达，这些车只靠视觉驾驶。因为特斯拉的深度学习系统表现已经比雷达好100倍，现在雷达开始拖后腿。”

有监督学习

反对纯计算机视觉自动驾驶方法的主要论点是，神经网络是否可以在没有激光雷达高清地图帮助的情况下进行测距，并估计存在的不确定性。卡帕西说：“显然，人类靠视觉开车，所以我们的神经网络能够处理视觉输入，以了解我们周围物体的深度和速度。但最大的问题是，合成神经网络是否也能做到这一点。我认为，在过去的几个月里，我们内部对这个问题的回答是明确而肯定的。”

特斯拉的工程师们想要开发一种深度学习系统，该系统可以对物体进行深度、速度和加速度的检测。他们决定将这一挑战作为一个有监督学习问题来对待。在这个问题中，神经网络在对注释数据进行训练后，学习检测对象及其相关属性。

为何自动驾驶汽车不需要雷达？特斯拉首席AI科学家给出了解释（组图） - 2

为了训练他们的深度学习架构，特斯拉团队需要一个由数百万个视频组成的海量数据集，并仔细地用它们所包含的对象及其属性进行注释。创建自动驾驶汽车数据集尤其棘手，工程师必须确保找到不太常见的道路设置和边缘情况。卡帕西表示：“当你有了大型的、干净的、多样化的数据集，你在上面训练大型的神经网络时，我们在实践中发现有成功的可能性。”

自动标记数据集

特斯拉在全球销售了数百万辆装有摄像头的汽车，可以很好地收集训练汽车视觉深度学习模型所需的数据。特斯拉自动驾驶团队积累了1.5PB的数据，其中包括100万个10秒长的视频和60亿个用边界框、深度和速度标注的对象。但给这样的数据集贴上标签是个巨大的挑战。一种方法是通过数据标签公司或Amazon Turk等在线平台对其进行手动注释。但这将需要大量的人工，可能需要巨额支出，而且整个过程十分缓慢。

取而代之的是，特斯拉团队使用了一种自动标签技术，该技术结合了神经网络、雷达数据和人工审查。由于数据集是离线注释的，神经网络可以回播视频，将其预测与地面事实进行比较，并调整其参数。这与所谓的“测试时间推理”形成对比，在后者的情况下，所有事情都是实时发生的，深度学习模型无法进行追索。

离线注释还使工程师能够应用非常强大的计算密集型对象检测网络，这些网络不能部署在汽车上，也不能用于实时、低延迟的应用。他们使用雷达传感器数据进一步验证了神经网络的推论。所有这些都提高了标签网络的精度。卡帕西说：“如果你处于离线状态，可以从中获益，所以你可以更好地冷静地融合不同的传感器数据。此外，你还可以让人类参与近来，他们可以进行清理、验证、编辑等工作。”

不过，卡帕西没有说明需要多少人力才能对自动标签系统进行最终更正，但人类认知在引导自动标签系统走向正确方向方面发挥了关键作用。

在开发数据集时，特斯拉团队发现了200多个触发器，这些触发器表明物体检测需要调整。这些问题包括不同摄像头的检测结果不一致，或者摄像头和雷达之间的检测结果不一致。他们还确定了可能需要特别注意的场景，如隧道进出和顶部有物体的汽车。

开发和掌握所有这些触发器花了四个月的时间。随着标签网络变得更好，它被以“影子模式”部署，这意味着它被安装在消费汽车上，在不向汽车发出命令的情况下静默运行，并将网络的输出与传统网络、雷达和驱动程序的行为进行比较。

特斯拉团队经历了七次数据工程迭代。他们从一个初始数据集开始，并在此基础上训练他们的神经网络。然后，他们在真实汽车的“影子模式”下部署深度学习，并使用触发器来检测不一致、错误和特殊情况。然后对错误进行修改、更正。如果有必要，他们还会将新数据添加到数据集中。卡帕西说：“我们一遍又一遍地重复这个循环，直到网络变得非常棒！”

因此，该体系结构可以更好地描述为一个具有巧妙分工的半自动标签系统。在该系统中，神经网络负责重复性的工作，而人类负责解决高级认知问题和罕见案例。

有趣的是，当一位与会者问卡帕西触发器的生成是否可以自动化时，他说：“自动化触发器是个非常棘手的场景，因为你可以有通用的触发器，但它们不能正确地表示错误模式。例如，很难自动具有触发进入和退出隧道的触发器。这是你作为一个人必须通过直觉获得的能力，这是个巨大挑战，目前还不清楚其具体原理。”

分层深度学习体系结构

特斯拉的自动驾驶团队需要非常高效和设计良好的神经网络，以最大限度地利用他们收集的高质量数据集。该公司创建了一个由不同神经网络组成的分层深度学习体系结构，这些神经网络负责处理信息，并将其输出反馈给下一组网络。

为何自动驾驶汽车不需要雷达？特斯拉首席AI科学家给出了解释（组图） - 3

深度学习模型使用卷积神经网络从安装在汽车周围的八个摄像头拍摄的视频中提取特征，并使用变换神经网络将它们融合在一起。然后，它将它们在时间上融合，这对于轨迹预测和平滑推理不一致等任务非常重要。然后，空间和时间特征被输入到神经网络的分层结构中，卡帕西将这种结构描述为头部、躯体和终端。他说：“你之所以想要这种分层结构，是因为你对大量的输出感兴趣，但你负担不起每个输出都有对应神经网络的代价。”

分层结构使得特斯拉可以为执行不同的任务重用组件，并允许在不同的推理路径之间共享特征。

网络模块化架构的另一个好处是分布式开发的可能性。特斯拉目前雇佣了一个庞大的机器学习工程师团队，致力于自动驾驶神经网络的研发。他们中的每一个人都在网络的某个小组件上工作，并将他们的研究结果插入到更大的网络中。卡帕西说：“我们有个大约20人的团队，他们全职负责训练神经网络。他们都在独立的神经网络上合作。”

垂直整合优势

在CVPR的演讲中，卡帕西分享了许多关于特斯拉正在用来训练和微调其深度学习模型的超级计算机细节。整个计算群集由80个节点组成，每个节点包含8个英伟达A100 GPU和80 GB显存，总计5760个GPU和超过450 TB的VRAM。这台超级计算机还具有10PB的NVME超高速存储和640Tbps的联网容量，以连接所有节点，并允许对神经网络进行高效的分布式训练。

特斯拉还拥有并制造安装在其汽车内的AI芯片。卡帕西说：“这些芯片是专门为我们想要为全自动驾驶应用运行的神经网络而设计的。”

特斯拉的一大优势是垂直整合能力。该公司拥有整个自动驾驶汽车技术堆栈，它生产汽车和自动驾驶硬件，在收集已售出数百万辆汽车各种遥测和视频数据方面处于独特的地位。该公司还在其专有数据集、内部特殊计算集群上创建和训练其神经网络，并通过对其汽车进行影子测试来验证和微调网络。当然，特斯拉拥有一支由机器学习工程师、研究人员和硬件设计师组成的杰出团队，可以将所有部件组合起来。

卡帕西说：“你可以在堆栈的所有层面上共同设计，没有第三方在拖你的后腿。你完全掌握了自己的命运，我认为这是不可思议的。”

这种创建数据、调整机器学习模型并将其部署在许多汽车上的垂直整合和重复循环，使特斯拉在实现仅限视觉的自动驾驶汽车能力方面处于独特的地位。在演讲中，卡帕西展示了几个例子，显示新的神经网络本身就超过了与雷达信息相结合的传统ML模型。如果系统继续改进，正如卡帕西所说，特斯拉可能会走上淘汰激光雷达的轨道。而且，任何其他公司可能都无法复制特斯拉的做法。

未解决的问题。

但问题仍然存在，在目前的状态下，深度学习是否足以克服自动驾驶的所有挑战。当然，目标检测、速度和距离估计在驾驶中起着重要作用。但人类的视觉还具有许多其他复杂的功能，科学家们称之为视觉的“暗物质”。这些都是对不同环境的视觉输入和导航进行有意识和潜意识分析的重要组成部分。

深度学习模型也很难做出因果推理，当模型面临以前从未见过的新情况时，这可能是个巨大的障碍。因此，虽然特斯拉已经成功地创建了一个非常庞大和多样化的数据集，但开放道路的环境非常复杂，可能会遇到许多出人意料或模型从未见过的情况。

AI社区的分歧在于，你是需要明确地将因果关系和推理集成到深度神经网络中，还是可以通过“直接拟合”(Direct Fit)克服因果关系障碍。在这种情况下，一个分布良好的大型数据集就足以实现通用的深度学习。特斯拉基于视觉的自动驾驶团队似乎倾向于后者，但这项技术需要经受时间的考验。

关键词：特斯拉雷达汽车

转载声明：本文为转载发布，仅代表原作者或原平台态度，不代表我方观点。今日澳洲仅提供信息发布平台，文章或有适当删改。对转载有异议和删稿要求的原著方，可联络[email protected]。