Readpaper | OccWorld: Learning a 3D Occupancy World Model for Autonomous Driving

Author Avatar
cuda
发表:2024-10-11 15:40:55
修改:2024-10-13 17:17:00

Background

3D占用预测

  • 3D占用预测旨在预测3D空间中的每个体素是否被占用以及其语义标签是否被占用。

  • 现有的方法只关注于获得三维语义占用,而忽略了其时间演变,这对自动驾驶的安全至关重要。

自动驾驶的世界模型

  • 通常被定义为在给定动作和过去的情况下产生下一个场景观察

  • SD在2D图像空间中产生的未来观测结果,缺乏3D场景理解,或者其他使用未标记的激光雷达数据,忽略了语义信息

端到端自动驾驶

  • 最近的方法是在给定传感器输入的情况下输出路径的规划结果

  • Occworld提出了一个世界模型来预测周围动态和静态元素的演变

Motivation

对于自动驾驶,大多数现有方法遵循传统的感知、预测和规划流程。

  • 感知旨在获得对周围场景的语义理解,如3D检测和语义图构建

  • 预测指捕获其他交通参与者的运动

  • 规划模块根据先前的输出做出决策

缺点

  • 每个阶段都需要GT

  • 实例级box和高清晰度地图很难标注

  • 通常只预测目标边界框的运动,无法捕捉到有关3D场景的更细粒度的信息

Occworld是一种新的范式,可以同时预测周围场景的演变,并规划自动驾驶汽车的未来轨迹。

Method

World Model for Autonomous Driving

自动驾驶的目标是在给定过去t个传感器输入s、3D ego position(p) ,预测从当前T时刻起,未来f个时刻的p

传统pipeline通常遵循感知预测规划的设计。

  • 感知模块per感知周围的场景,从输入的传感器数据 s 中提取高级信息 z

  • 预测模块 pre 综合高层信息 z 预测场景中每个代理的未来轨迹 ti

  • 规划模块 pla 最后处理感知和预测结果 {z,{ti }},规划车辆的运动

定义了一个世界模型w来作用于场景表示y,并能够预测未来的场景

3D Occupancy Scene Tokenizer

根据三个原则选择场景表示y:

  • expressiveness,它应该能够全面地包含3D场景的3D结构和语义信息

  • efficiency

  • 多功能性(versatility),它应该能够适应视觉和激光雷达模式

用3D Occupancy作为3D场景表示y∈R^(H×W×D),并为每个体素分配一个标签l

尽管3D占有率很全面,但它只提供了对场景的低级理解,很难直接模拟其演变

Occworld提出了一种自监督的方法,将场景标记为来自3D占用的高级标记。在y上训练矢量量化自动编码器(VQ-VAE),以获得离散标记z,从而更好地表示场景

Spatial-Temporal Generative Transformer

世界模型w将过去的场景和ego位置作为输入,并在一定时间间隔后预测它们的结果

使用一个自监督的tokenizer来获得高级别的场景标记 T={z_i }

将 T 与自我标记 z_0∈R^C聚合,以编码自我车辆的空间位置

OccWorld: a 3D Occupancy World Model

采用两阶段的训练策略来训练OccWorld。对于第一阶段,使用3D占用损失训练场景tokenizer e和解码器d:

对于第二阶段,采用学习的场景tokenizer e来获得所有帧的场景标记z,并约束预测tokes z^和z之间的差异。

为了有效训练,使用场景标记器e获得的标记作为输入,但应用masked 的时间注意力来阻止未来tokens的效果。在推理过程中,逐步预测下一个帧。

Experiments

在Occ3D数据集上进行4D占用预测

  1. OccWorld-O:  使用真实的3D占用数据(ground-truth 3D occupancy)作为输入。   模型直接使用精确的3D占用信息来预测未来的占用状态 ,代表了模型在理想情况下的性能,即输入数据是完全准确的。

  2. OccWorld-D:   使用TPVFormer模型预测的结果,模拟了在有高质量标注数据的情况下,通过另一个模型(TPVFormer)预测3D占用,然后将这些预测用作OccWorld模型的输入。

  3. OccWorld-T:   使用TPVFormer模型预测的结果,考虑了在数据标注较少或数据稀疏的情况下,模型的性能如何。

  4. OccWorld-S:   使用TPVFormer模型预测的结果,该模型以自监督方式训练,探索了在没有人工标注数据的情况下,仅依靠自监督学习得到的3D占用预测作为输入时,OccWorld模型的性能。

  5. Copy&Paste:   将当前的真实3D占用数据直接复制作为对未来的预测,baseline

在nuScenes数据集上执行运动规划

OccWorld-O 在不使用地图和边界框作为监督的情况下,以很大的优势超过了之前基于感知预测规划的方法 OccNet

OccWorld-D和OccWorld-T在仅使用三维占位作为监督的情况下也表现出了极具竞争力的性能,而OccWorld-S在除未来轨迹外无任何监督的情况下也取得了不俗的成绩,显示了可解释的端到端自动驾驶的潜力。

在 L2 误差方面表现出很强的竞争力,但在碰撞率方面却稍显落后

Ablation

Analysis of the scene tokenizer

setting(潜在空间分辨率、潜在通道维度和codebook大小)

使用大于 512 的codebook会导致过度拟合,而使用较小的编码本、空间分辨率或信道维度可能不足以捕捉场景分布。空间分辨率越大,重建精度越高,但预测和规划性能却越差。这是因为标记无法学习高级概念,难以预测未来。

Analysis of the spatial-temporal generative transformer.

w/o temporal attn 表示用简单的卷积来代替时间注意力

w/o ego 表示放弃了 ego 标记

评论