写在前面&个人理解

基于深度学习的模型在自动驾驶领域得到了广泛应用，尤其是日益受到关注的端到端解决方案。然而，这些模型的黑箱特性引发了关于其自主驾驶可信赖性和安全性的担忧，并且如何调试因果关系已成为亟待解决的问题。尽管目前已有一些关于自动驾驶可解释性的研究，但目前还没有系统的解决方案来帮助研究人员调试和识别导致端到端自动驾驶最终预测动作的关键因素。这里提出了一种综合方法来探索和分析端到端自动驾驶的因果关系。首先，使用控制变量和反事实干预进行定性分析，以验证最终规划所依赖的关键信息。然后，通过可视化和统计分析关键模型输入的响应来定量评估影响模型决策的因素。最后，基于对多因素端到端自动驾驶系统的综合研究，开发了一个强大的基准和一个在闭环模拟器CARLA中探索因果关系的工具。它利用关键的输入源来获得设计精良的模型，从而具有高度的竞争力。这次工作是首个揭示端到端自动驾驶奥秘并将其黑箱变为白箱的研究。全面的闭环实验表明，提出的方法可以应用于端到端自动驾驶解决方案的因果关系调试。代码将发布在：https://github.com/bdvisl/DriveInsight。

领域背景介绍

在过去的十年里，基于深度神经网络的自动驾驶领域经历了显著的增长，涵盖了学术界和工业界的进步。尽管深度学习具有强大的表示能力，但它缺乏透明度，使得识别问题变得困难。对于自动驾驶任务而言，其需要极高的安全性要求，系统的黑箱行为显著降低了人们的信任度，从而限制了其实际应用。因此，阐明并解决这些系统中的因果关系是迫切需求的，并且仍然是一个未解决的挑战。

最近在可解释性方法上的进展为理解这个复杂系统的复杂性提供了一种有前途的手段，并引起了越来越多的兴趣。通过将自然语言描述符集成到自动驾驶控制模块中的整个决策和行动过程中，这些方法有助于更直观和可理解地解释网络的预测。然而，自动驾驶的端到端架构包含多个模块，每个模块对最终决策输出的具体影响尚不清楚。这种不清晰性强调了需要一个系统的分析框架来帮助研究人员进行调试，从而阻碍了该领域的进展。

这项工作提出了一种全面的方法来调试和分析端到端自动驾驶的因果关系。核心思想是评估每个因素的单独贡献，并找到关于决定最终预测动作的最具影响力特征的解释。类似于人类驾驶的决策过程，端到端自动驾驶模型的最终动作/控制预测通常是多因素的。例如，在进行无保护左转时，智能体需要同时考虑交通灯、直行来车、过马路的行人和静态车道线等。在现实世界的模仿学习环境中，错误归因是很常见的。因此，对关键组件的作用进行了定量消融实验分析，并提出了两种定性分析方法：反事实干预和响应可视化。最后，基于对多因素端到端自动驾驶系统的综合研究，提供了一个强大的基准和一个用于在闭环模拟器CARLA中调试因果关系的工具。它利用基本输入源来获得一个鲁棒且设计良好的模型，该模型不仅实现了有竞争力的结果，还提供了预测的可解释性。

据我们所知，这个工作是第一个揭开端到端自动驾驶神秘面纱，将黑箱变成白箱的研究。我们对驾驶场景进行了彻底的实验，并表明方法可以应用于端到端自动驾驶解决方案，以有效地诊断因果关系问题。

主要贡献如下：

提出了首个调试和分析解决方案及基准，通过明确解释多因素决策的因果关系，揭示了黑箱端到端自动驾驶的神秘面纱。
进行了详细的定量消融实验和反事实干预实验，并提出了两种响应可视化方法：组件级可视化，从响应的时间一致性和场景相关性角度进行了深入分析；以及激活图可视化，展示了语义特征影响的空间分布。
首先采用反事实推理来定性找出导致最终预测动作的最具影响力特征，然后应用基于注意力的策略来定量分析每个因素的贡献，以调整端到端模型，从而能够全面了解决策过程。

主要方法详解

DriveInsight，其总体架构如图1所示。给定多视图图像和点云输入，首先引入特定模态的编码器来分别提取和转换它们独特的特征到鸟瞰图（BEV）表示。随后，利用多模态和时间融合模块，将这些表示合并以推导出统一的BEV特征。最后，应用规划解码器根据生成的BEV标记和其他环境指标来预测自车主体的未来轨迹。

1）Modality-Specific Encoders

相机编码器。对于多视图相机图像，首先采用具有特征金字塔网络的图像骨干架构（如ResNet ），以提取富含语义信息的多尺度图像特征。遵循广泛采用的LSS ，使用估计的深度将多视图特征提升到3D视锥体，并将视锥体投射到参考平面上以生成BEV特征。具体来说，该过程首先从深度预测网络（DepthNet）开始，为每个像素预测离散的深度分布，然后使用该深度将每个像素沿相机射线散射到离散点上。在每个点上，得到的特征被确定为预测深度的结果与相应像素特征的乘积。在BEV特征聚合的每个网格内，使用Frustum Pooling来合并位于网格内的点的特征。

激光雷达编码器。对于给定的激光雷达点云，首先将输入点体素化为均匀的bins，并使用一系列3D稀疏卷积块在体素空间中提取局部3D形状信息，这与该领域已建立的方法一致。接下来，采用沙漏卷积网络作为BEV特征提取器，将3D特征展平为2D BEV视图，以捕获富含上下文信息的BEV表示。为了最大化多尺度语义的利用，采用特征金字塔网络来整合来自不同层次级别的特征，从而产生具有尺度感知能力的BEV输出特征。

2）Fusion Encoders

多模态融合。在将所有感官特征转换为统一的BEV表示之后，采用多模态融合技术来合并两组不同的特征，从而产生融合的多模态特征。首先，使用一系列2D卷积层分别将两种不同的BEV特征标准化为统一维度，然后将它们连接起来并通过一系列2D卷积层进行处理。为了增强通道间的相互作用，应用了多个Squeeze-and-Excitation（SE）块来操作融合后的特征。鉴于最终规划预测中的单独直接监督不足以有效解决高维多传感器输入的复杂性，受到DriveAdapter 的启发，为BEV特征图引入了补充的特征级监督。

时间融合。为了充分利用广泛的历史上下文信息，这里开发了时间融合模块，这些模块对齐并整合时间线索以实现更准确的预测。首先，构建了一个记忆库Q来存储从相邻帧和相对姿态中提取的上下文特征。请注意，记忆库中每个帧对应的特征都通过姿态变换映射到当前帧的坐标系中。在获取当前帧的BEV特征后，将这些特征与记忆库中存储的所有特征进行连接，并应用一个卷积层来降低通道维度以节省计算资源。随后，使用一个SE块来促进交互，从而有助于推导出当前帧的时间融合特征。这些融合特征随后被纳入记忆库，同时移除最早的帧以实现记忆库的必要更新。

3）Planning Decoders

规划解码器接收两个组件作为输入：第一个是BEV特征，它简洁地模拟了当前环境的感知；第二个组件包含额外的结构化信息，主要包括三类：自车状态、环境信息和导航信息。自车状态信息包括当前时刻和历史时刻的速度，而环境信息则包括关于高清地图、障碍物、交通信号灯和停车标志的结构化信息。通常，这些信息可以通过模型的辅助任务模块进行预测，本研究中相关数据直接由模拟环境提供。导航信息包括命令、目标点和路线。命令代表来自高级规划器的信息，如直行、右转、左转等。目标点指示目标的位置和方向，而路线则是车道级别的密集导航点集合。BEV特征和结构化信息分别通过多层感知机（MLPs）进行编码，然后连接起来以获得最终的增强特征，这为下游行为规划提供了丰富且必要的指导。为了避免捷径学习问题，在训练阶段采用了dropout策略，该策略以一定概率随机屏蔽某些输入。在测试阶段，dropout率设置为0。遵循UniAD，使用基于查询的设计，使用ego 查询与上述特征进行交叉注意力操作，最终获得自车的未来轨迹T。

实验对比

实验设置

为了有效且直观地评估多因素起源的端到端自动驾驶框架，我们建立了一个名为DriveInsight的基线模型，并采用流行的CARLA 0.9.10.1版本模拟器进行训练和测试。

数据收集和过滤。我们推出了一个基于规则的专家代理，利用CARLA模拟器的特权信息，在8个城镇和14种天气条件下以2Hz的频率收集训练数据。对于不同的城镇和天气条件，路线是随机生成的，并且为了获得更好的数据多样性，动态目标和对抗性场景也是随机生成的。对于传感器，使用了四个具有相同分辨率（1600 × 900）和视野（FOV：150°）的RGB摄像头（前、左、右、后），一个具有默认配置（旋转频率：10 Hz，上/下视野：10°/-30°，通道数：32）的激光雷达（LiDAR），一个惯性测量单元（IMU，20 Hz），一个全球定位系统（GPS，100 Hz）和一个速度计（20 Hz）。除了感知和自车状态信息外，还收集了矢量地图、交通元素状态、稀疏目标点、高级命令和密集路由信息。目标点按照CARLA的标准协议以GPS坐标形式提供，这些坐标是稀疏的，可能相隔数百米。路由是车道级别的，可以看作是目标点以一米分辨率的插值版本。

我们收集了包含所有8个城镇的310万帧（19,105条路线）的数据集。对于所有路线，截断了最后几帧，即车辆在超时时停止的帧（移除了50万帧）。由于我们使用的专家代理并不完美，如果发生任何违规行为（即，代理闯了停车或红灯，撞到了物体，被阻挡，驶出了其路线车道，或偏离了路线），还会额外过滤掉整条路线。这一后处理过程移除了1,229条路线。最终用于训练的数据量为180万帧（17,876条路线）。

评估指标。遵循常见做法，利用CARLA排行榜引入的三个官方指标进行评估：路线完成率（RC）、违规分数（IS）和驾驶分数（DS）。路线完成率（RC）表示代理完成路线距离的百分比。它考虑了agent对指定路线的遵循程度，并对偏离规定路径的情况进行惩罚。违规分数（IS）量化代理所犯的违规行为，包括与行人、车辆、道路布局的碰撞以及违反交通信号的行为。每项违规行为都会产生一个惩罚系数，该系数与违规行为的严重程度成比例地降低总分。驾驶分数（DS）是一个综合指标，同时考虑了驾驶进度和安全性。它是路线完成率和违规分数的乘积，为agent的性能提供了全面评估。通过使用这些指标，我们旨在对每个agent的驾驶行为进行全面评估，从而更深入地了解它们在不同场景下的表现。

消融实验分析

Effectiveness of Prompts of Planning Decoder

在这一部分，我们进行了广泛的实验，以展示规划解码器中关键组件的效果。通过系统地单独将每个组件设置为零，分析了它们对最终性能的具体贡献。结果如表1所示。可以看到，排除鸟瞰图（BEV）特征会导致性能显著下降。这是因为自动驾驶的一个基本方面是周围环境的场景建模。BEV技术的主要优势在于其能够提供场景分布的直观表示，从而对最终轨迹规划的准确性和有效性产生最大影响。相比之下，在缺少地图、命令、停车标志或障碍物的情况下，最终性能并没有显示出任何显著变化，这强调了这些变量在确定最终规划结果时的不重要性。

对于与导航相关的组件，包括路由和目标点，缺少它们会严重降低最终性能，尤其是路线完成率。为了进一步说明，驾驶分数表现出显著的下降，分别从95.30下降到20.64和32.64。这揭示了全局目标导向引导在自动驾驶网络建模中的至高重要性。此外，我们还比较了当前速度和历史速度信息对模型性能的影响。我们发现历史速度的贡献相当有限，而当前速度信息对于模型的运动规划至关重要。

Prompt Editing

在本节中，采用反事实干预来手动编辑可能影响模型最终规划预测的因素。我们构建了针对模型在时间t（Ot，Pt）的输入的反事实或扰动提示，从而产生新的输入（Ot，P’t），其中O表示观察到的信息，P表示提示信息。

通过实施这种方法，我们观察了模型提示在不同人为干预下的表现，使我们能够定性地分析每个组件的实际影响。

Routing和目标点。仅修改Routing或目标点中的任何一个都无法显著干预自车的行为。然而，当同时修改Routing和目标点时，可以成功干预和控制自车的行为。即使修改后的规划路线可能不符合正常驾驶逻辑（例如，逆向行驶或驶向路边），也是如此。这证明了Routing和目标点对自车行为规划的联合影响。

当前速度。将当前速度修改为固定值，分别为0m/s（静止）和10m/s，并将这些结果与车辆实际行驶速度的输入进行了比较。当给定速度持续为0m/s时，模型倾向于预测一组非常接近的路点，这导致车辆模仿启动阶段，缓慢向前爬行。当给定速度持续为10m/s时，预测的路点跨度显著增大，表明车辆有明显加速。有趣的是，即使在加速后，自车仍然会根据障碍物执行避障操作。

地图。我们对结构化地图信息进行了扰动，包括叠加二维高斯噪声和应用随机掩码。通过实验，我们发现模型对地图中的扰动表现出很强的鲁棒性；对于驶离道路和阻塞情况，并没有显著增加。这可能是因为模型已经从BEV特征中获取了足够的道路建模信息，导致对地图输入的依赖减少。

交通灯。我们尝试编辑结构化提示中的交通灯颜色信息，并观察到自车的驾驶行为很容易受到交通灯颜色的影响。例如，当绿灯变为红灯时，自车会在停止线前减速并刹车。

BEV特征。在测试阶段，我们对传递给规划解码器的BEV特征应用了随机掩码。与基线相比，我们发现当BEV缺少部分信息时，即使提供了相关的结构信息，模型也更容易与障碍物发生碰撞、闯红灯、进入错误的车道以及驶离道路。车辆被阻塞的可能性也显著增加。这表明BEV特征汇集了重要的环境感知信息，这对于车辆安全驾驶是必不可少的。

组件响应的可视化分析

这里进一步通过分析不同组件相对于输出的梯度，并结合具体场景和自车的行为，可视化了Transformer层的注意力权重，从而深入分析了每个输入的作用。

通过分析图2和图3，可以得出在特定场景中组件级别的相关性结论，这表明模型在固定场景内对不同组件变化的敏感度。具体来说，通过结合环境感知信息，可以观察到每个标记随时间变化的独特模式。例如，当车辆通过交叉路口时，模型对交通信号灯和停车标志更为敏感；当车辆前方出现障碍物时，模型对障碍物信息和路由更为敏感；当车辆转弯时，指令、路由和地图的作用更为显著。此外，我们还注意到，在多个场景中，如转弯和避障，BEV特征都表现出较高的响应值。

从图4中，可以观察到Transformer解码器在不同组件上的head-level响应。条形图的排列表明不同的Head可能对应多个组件，并且这些组件的响应偏好表现出高度一致性。例如，head3可能更关注障碍物和BEV特征，而head4可能更关注速度。此外，通过比较条形图和曲线，可以看到尽管少数条形图和曲线可能不完全对齐，但在观察期内，Head对组件的响应总体上保持了时间一致性。利用这种一致性，可以更直观地分析模型的黑盒行为，并为模型的响应提供合理的与输入相关的解释。

为了进一步分析语义特征及其在中间层中的空间分布对最终预测的影响，我们计算了目标特征图中每个通道k的每个位置相对于两个方向上预测路径点的梯度，并执行全局平均池化以获得每个通道α的权重系数：

我们对两种特征图的激活响应进行了分析。首先，分析了BEV特征，如图5(a)所示。我们发现模型对前方行驶方向上的障碍物具有很强的感知能力。当车辆在交叉路口等待转弯时，模型对停车线位置和交叉路口的交通流表现出显著的响应。此外，如图5(b)所示，前视摄像头特征的激活图表明，模型也高度关注交通信号灯、可行驶的车道区域以及交叉路口的车辆。

我们在CARLA的Town05 Long和Town05 Short基准上进行了闭环评估。如表2所示，与其他最先进的方法相比，我们的模型在获得有竞争力的驾驶评分的同时，也实现了最高的路线完成率。值得注意的是，与其他算法相比，这些算法需要在PID（比例-积分-微分）控制器之后手动设计规则来处理控制信号，以避免违规或陷入困境，我们的端到端方法并没有融入任何手动规则；相反，我们的模型生成的路径点直接通过PID控制器转换为控制信号。[1] Exploring the Causality of End-to-End Autonomous Driving.

参考

[1] Exploring the Causality of End-to-End Autonomous Driving.

聚网云课，聚集全网最新最全优质项目分享站。

涵盖最新最全教程资源，软件分享，游戏资源，影视资源，项目核心解密，网赚陪跑，项目拆解等。

每天一个创业好项目，带你创业不走弯路，让每一个人都能通过新电商快速上岸。

温馨提示：

文章标题：🤖🤖【自动驾驶解码】🔍🔍端到端技术，揭开AI驾驶的神秘面纱！

文章链接：https://juwangyunke.com/7735/

更新时间：2024年07月12日

1.本站大部分内容均收集于网络!若内容若侵犯到您的权益，请发送邮件至：service@juwangyunke.com，我们将第一时间处理！

2.资源所需价格并非资源售卖价格，是收集、整理、编辑详情以及本站运营的适当补贴，并且本站不提供任何免费技术支持。

3.所有资源仅限于参考和学习，版权归原作者所有，更多请阅读聚网云课网络服务协议。

4.聚网云课，聚集全网最新最全优质项目分享站。涵盖最新最全教程资源，软件分享，游戏资源，影视资源，项目核心解密，网赚陪跑，项目拆解等。每天一个创业好项目，带你创业不走弯路，让每一个人都能通过新电商快速上岸。

{{userData.name}}已认证

🤖🤖【自动驾驶解码】🔍🔍端到端技术，揭开AI驾驶的神秘面纱！

写在前面&个人理解

领域背景介绍

相关工作

主要方法详解

1）Modality-Specific Encoders

2）Fusion Encoders

3）Planning Decoders

实验对比

实验设置

消融实验分析

组件响应的可视化分析

参考

🚀🌟【自动驾驶风云】🌟🚗 揭秘中国自动驾驶领域的领航者！

🔧🔧【汽车零件认证】🏆🏆韩国认证指南：开启国际市场大门！

关于我们

支持与服务

优秀作者

关注交流