各家都在吹的“端到端”到底是啥？-车市号

各家都在吹的“端到端”到底是啥？

萝卜报告

31633 2024-12-23

自2023年8月，特斯拉在美国推出端到端智驾系统「FSD V12测试版」后，端到端就成为了汽车行业最火爆的话题。随着华为、小鹏、蔚来、理想等企业的跟进，国内几乎每个厂商都会在发布会上花费很大的篇幅来宣传自家的端到端有多么强大。撇开营销手段不谈，“端到端”到底是什么意思？它对于智驾又有什么意义呢？今天我们就来给大家解读这个问题！

在端到端智能驾驶系统还未量产之前，各家的智驾都采用了模块式方案。简单来说，模块式智驾就是一个流水线，主要有感知、预测、规划、控制四个流程。首先，感知部分的任务就是把车辆的雷达、摄像头等传感器的数据进行处理，然后分析车辆周围物体的具体的位置、道路轨迹，以及辨别它们到底是行人、自行车、轿车、还是卡车等。

紧接着，感知模块就会把以上的信息传给预测模块，预测模块会根据以上的信息分析周边交通参与者下一步的运动状态，比如周围的车辆接下来是要转弯、直行、还是停车等。通过进一步分析后，预测模块会提供一条或者多条本车接下来可参考的行驶路径以及车速。

随后预测模块又把本车的道路行驶方案发给规划模块，规划模块会根据车辆自身状态、导航等信息来决定车辆接下来该具体怎么做。等到规划模块确认好行驶路径和速度后，就将命令传递给控制模块，最后再由控制模块去计算和操作车辆的方向盘、刹车以及油门。一个看似简单的智驾功能，就是通过以上步骤实现的。

通过以上介绍不难看出，模块式智驾把简单的驾驶行为分解为多个步骤，而且每一步的逻辑都严丝合缝。在车企和供应商看来，模块式智驾本身是个非常好的方案，因为不同的团队可以负责相应的模块，发挥分工合作的优势，从而把智驾从概念迅速变为装车量产状态。

其次，模块式智驾有一套职能和责任都非常清晰的系统框架，因此当智驾系统在使用中发现BUG的时候，车企和供应商都能立即找到BUG的具体原因，并通过OTA迅速修复。比如车辆在高速行驶时出现了误刹车，那么通过数据分析，车企就可以知道故障是因为感知模块的数据有误，还是预测、规划模块给出了错误的判断。

虽然模块式智驾便于量产和修复BUG，但是要想让它能像人一样控制车辆，就需要学习诸多的交通规则和驾驶经验，而这一切都要靠工程师们事先去定义规则，也就是把交通规则和人的驾驶经验变成一行行软件代码。但是光靠工程师写代码就能把现实中所有的驾驶场景都覆盖吗？当然是不可能的！关于这个问题，业内就有一个经典的案例，如果你在两侧停满车的狭窄道路驾驶车辆，此时道路一侧突然飘来一个气球，那么一般的逻辑会认为，道路一侧可能会有小孩蹿出来，所以此时车辆应该立即刹车。但同样的场景放在高速上，如果智驾系统仍旧采取立即刹车的方式控制车辆，那很可能演变为一场追尾事故。换言之，工程师如果没有针对这类驾驶场景事先定义好规则，比如高速检测到气球后系统不刹车，那么智驾系统遇到类似场景就会产生安全风险。

按照小鹏汽车的说法，一个比较稳定的量产智驾系统，大约有10万条规则。而如果智驾系统要接近人一样的水平，大约需要人工编写10亿条规则。对于软件工程开发来说，这几乎是一件不可能完成的事情。正因如此，我们可以看到传统智驾系统在日常使用中或多或少会出现各种错误，以至于驾驶者不得不进行干预。

基于以上原因，专注于自动驾驶的车企一直在想办法解决传统智驾需要预设规则的问题，于是便有了端到端。所谓的端到端，其实就是将传统的感知-预测-规划-控制这些子模块全部神经网络化，也就是用先进的算法模型取代了传统的算法和人工编写的规则。

因此在工作流程上，端到端与传统的模块式有着较大的不同。传统模块式的工作顺序是感知-预测-规划-控制依次进行的，而端到端的顺序是传感器数据（雷达、摄像头）-神经网络-驾驶参数（方向盘、油门、刹车），也就是说，传统的感知、预测、规划、以及控制模块的工作全部由神经网络完成。

从工作流程可以看到，端到端中的核心技术就是神经网络，而与神经网络最息息相关的技术就是AI了。这两年，AI在语音、文字、图片、以及视频领域表现出了强大的性能，大家应该也体会到了。当神经网络应用到汽车上之后，就意味着人们可以不断地训练智驾系统，从而使它学习适应更复杂的驾驶环境。

因此在功能层面，端到端最大的变化就是系统具有自主学习的能力，这是传统模块式智驾不具备的功能。如此一来，在处理各种意想不到的真实驾驶场景时，端到端可以通过神经网络计算得出合适的规则，而不需要人工事先编写好规则，这也就为智驾应对现实中无穷无尽的驾驶场景提供了解决方案。比如之前不具备端到端功能的特斯拉FSD V11版本，一共编写了30多万行代码，而采用端到端的FSD V12版本，直接把30多万行代码删减到了2000行，但FSD V12的表现却比V11更接近人类驾驶员。

从理论上看，端到端确实是一个非常理想的技术，但是在实际操作中，端到端也没有那么可靠。这是因为现阶段人们对神经网络的理解依旧不够清晰透彻，因此人们也把神经网络称为“黑盒”。如上图所示，在白盒状态下我们非常清楚系统输入/输出之间的逻辑因果关系，但输入信息经过黑盒时，人们无法解释输入的信息为什么会变成输出的信息。

比如当智驾系统出现明显的逻辑错误时，在模块式系统上车企可以非常迅速找到问题出在哪个模块，然后人工编写一个新的规则。但在端到端系统上，车企并不知道复杂的神经网络中哪一个参数或者结构存在问题。

正因如此，基于神经网络打造的端到端智驾系统，有时候它能在很复杂的场景中给出合理的规则，但有时又会犯十分低级的错误，比如分不清红绿灯，于是有人就把端到端形容为：“上限很高，下限很低”。考虑到端到端在实际应用中存在一些风险，所以华为、小鹏推出的端到端智驾系统并非完全靠自主学习，二者的端到端系统依然有很多人工编写的规则来为智驾系统兜底。

从技术发展趋势来看，端到端肯定是未来高阶智驾的方向，但由于人们对于神经网络的了解还不够透彻，所以现阶段各家端到端的表现依旧与理想中的水平有一定差距。另外，相比现有的模块式智驾系统，端到端的神经网络算法模型的聪明与否，极度依赖海量的真实数据来训练，只有经过海量数据训练，神经网络才能从小模型变成好用的大模型，这意味着高阶智驾在开发阶段需要巨大的算力和数据投入，因此无形中提高了智驾的门槛。正因如此，才会有车主反馈自己的车升级端到端智驾后，反而不如过去好用了，这就是大模型训练的阵痛期。考虑到现实中各家的端到端在训练上存在较大的差异，这意味着将来不同品牌智驾系统的性能差距可能会逐渐被拉大。

声明：本文由车市号作者撰写，仅代表个人观点，不代表网上车市。文中部分图片来源网络，感谢原作者。