【技术】汽车端到端大模型：AI对驾驶规则的深度学习-车市号

【技术】汽车端到端大模型：AI对驾驶规则的深度学习

汽车族杂志

34065 2024-04-15

从2023年ChatGPT的横空出世，再到今年Sora模型的诞生，端到端大模型在多个领域都展现出了其强大的潜力，在汽车行业中亦是如此。

何为“端到端”

在深度学习领域，"端到端"通常指的是只需输入原始数据就能直接输出最终结果的AI模型。通过大量高质量数据进行训练，端到端大模型能够逐渐提升其智能水平。在汽车行业中，该技术可应用到自动驾驶领域，从而取代传统自动驾驶技术。

传统的模块化自动驾驶系统通常将感知、决策和控制分为独立的模块，每个模块专注于解决特定的问题，这样的分工简化了系统开发的难度，利于问题回溯与研发迭代，为目前的主流方案。

然而，这种方法的缺陷在于，人工编程的代码只能处理有限的行车场景。无论给系统添加多少行代码，也无法覆盖到所有的特殊情况，因此难以实现完全自动驾驶。

相比之下，端到端大模型是一个整体，更接近人类驾驶的模式。不再试图通过人工编程来处理每一种行车场景，而是使用大量数据进行训练，让AI自己发现数据之中隐藏的行驶规则，这样就能够覆盖更广泛的行车场景，有望实现完全自动驾驶。

然而，当下的端到端大模型存在着令人难以理解的缺陷。即使经过大量训练，大模型在某些场景中仍可能变为“人工智障”，所采取的决策远不如人类。同时，端到端大模型的决策过程具有“黑箱”特性，内部逻辑不公开，决策中所出现的问题难以被定位，给研发迭代和问题解决造成负面影响。

此外，数据量、算力以及对大模型的精简优化都是推进端对端大模型发展的重要因素。

首先，自动驾驶系统需要大量的高质量训练数据。这些数据包括各种驾驶场景、天气条件和交通情况的图像、视频和传感器数据。收集、标注和维护这些数据的质量和多样性是一项挑战，尤其是要确保数据能够覆盖所有可能的驾驶场景。马斯克曾表示：“特斯拉花了大约一个季度的时间完成了1000万个视频片段的训练。训练了100万个视频case，勉强可以工作；200万个，稍好一些；300万个，就会感到Wow；到了1000万个，它的表现就变得难以置信了。”

其次，将海量数据喂给端到端大模型时，算力是不可或缺的资源。智算中心需要进行扩建，才能满足日益增长的算力需求。

最后，当云端的大模型训练完成后，需要对其进行精简。云端服务器拥有大量高性能硬件资源，支持大规模并行处理数据并进行数据存储。但车载计算资源有限，为了与之适配，需要对模型进行优化，并降低能耗。

特斯拉的端到端大模型与算力部署

特斯拉在端到端大模型领域中处于领先地位。2023年8月，马斯克在直播中展示FSD V12 Beta版本，多次强调该版本使用海量视频数据进行训练，驾驶决策由AI算法生成。并且，他还在X上发布推文，表示V12 Beta版本大幅缩减了人工编程的C++控制代码，从 30 万行下降了2个数量级（变为3000行）。

今年3月，北美地区的特斯拉非员工用户陆续收到FSD V12.3版本的推送。该版本在面对障碍物和变道博弈等复杂场景表现更出色，但在处理一些简单场景时，例如在空旷的路面上行驶，会出现离谱的加速或减速问题。

在算力方面的规划上，特斯拉在去年部署了超过10EFLOPS的算力，并预期将于今年末达到100EFLOPS。

造车新势力的端到端大模型与算力部署

国内造车新势力纷纷跟进FSD V12，但目前还没有实现量产上车。在今年1月的全国智驾启动发布会上，何小鹏表示，小鹏汽车将实现端到端大模型全面上车。据悉，理想的新模型也将在今年上线，而蔚来将于年内上线基于端到端的主动安全功能。

同时，三者在智算中心方面均有所布局。

小鹏与阿里云共建了扶摇智算中心，训练算力为600PFLOPS（0.6EFLOPS）。

理想汽车和火山引擎共建的智算中心，训练算力为1200PFLOPS（1.2EFLOPS）。

蔚来集成阿里云、英伟达等合作伙伴的技术资源，建设了蔚来云智算中心，算力为1400PFLOPS（1.4EFLOPS）。

结语

汽车端到端大模型展现出了不俗的潜力，但目前还不成熟，需要安全策略进行兜底。不过不用担心，它的成长之旅才刚刚开始。随着对算法和硬件的不断优化，以及使用更多数据进行深度学习，端到端大模型将逐渐完善并在自动驾驶中得到广泛应用。

声明：本文由车市号作者撰写，仅代表个人观点，不代表网上车市。文中部分图片来源网络，感谢原作者。