From e2bdb1983a7f9e786a29c27875cdec77f4a2266a Mon Sep 17 00:00:00 2001
From: Charmve
-
-
-
-
-
-特斯拉的Occupancy Network 模型结构如下图所示。首先模型利用RegNet和BiFPN从多相机获取特征,然后模型通过带3D空间位置的spatial query对2D图像特征进行基于attention的多相机融合。如何实现3D spatial query和2D特征图之间的联系呢?具体融合的方式图中没有细讲,但最有可能采取的是两种方案:
-
-- 第一种,叫做3D-to-2D query,即根据每个相机的内外参将3D spatial query投影到2D特征图上,提取对应位置的特征。该方法在DETR3D[1]中提出,BEVFormer[2]和PolarFormer[3]也采取了该思想。
-
-- 第二种,是利用positional embedding来进行隐式的映射,即将2D特征图的每个位置加上合理的positional embedding,如相机内外参、像素坐标等,然后让模型自己学习2D到3D特征的对应关系,该方法在论文PETR中提出[4]。再接下来模型进行时序融合,实现的方法是根据已知的自车位置和姿态变化,将3D特征空间进行拼接。
-
-不光是上述提到的BEVFormer、PETR算法,我们在本课程中会详细的分析、总结和对比不同算法之间的来龙去脉,各自发展的过程,核心思想和优化点。
-
-这一工作的分享,激发了大家对自动驾驶感知算法方向的探讨,普遍认为占据网络是未来感知算法的终极解决方案 。通过稠密的空间体素占用确定自动驾驶车辆的感知结果,为预测和规划提供更加准备的条件。更加有利于特征时序融合、做到自动驾驶端到端的解决方案,最终实现L4,直至L5完全无人驾驶。
-
-
-
-
-
-
-
-
-- 由浅入深,通俗易懂
-
-作者根据多年的自动驾驶经验,从占据网络的发展过程详细的阐述从2D检测到BEV 3D检测再到占据网络,讲清楚为什么前一方法不适用,各自方法有什么局限性。占据网络的神力又在哪里?由浅入深,一个问题一个问题解答。
-
-- Occ算法全覆盖,高度提炼
-
-涵盖当前几乎所有的占据网络算法,融会贯通,总结和提炼各自算法的核心思想,引出新的思考。
-
-- 理论结合实战
-
-项目实战和理论结合,实战课程的课后配套实战代码和操作文档,随学随练、快速掌握。
-
-
+
+
+
+特斯拉的Occupancy Network 模型结构如下图所示。首先模型利用RegNet和BiFPN从多相机获取特征,然后模型通过带3D空间位置的spatial query对2D图像特征进行基于attention的多相机融合。如何实现3D spatial query和2D特征图之间的联系呢?具体融合的方式图中没有细讲,但最有可能采取的是两种方案:
+
+- 第一种,叫做3D-to-2D query,即根据每个相机的内外参将3D spatial query投影到2D特征图上,提取对应位置的特征。该方法在DETR3D[1]中提出,BEVFormer[2]和PolarFormer[3]也采取了该思想。
+
+- 第二种,是利用positional embedding来进行隐式的映射,即将2D特征图的每个位置加上合理的positional embedding,如相机内外参、像素坐标等,然后让模型自己学习2D到3D特征的对应关系,该方法在论文PETR中提出[4]。再接下来模型进行时序融合,实现的方法是根据已知的自车位置和姿态变化,将3D特征空间进行拼接。
+
+不光是上述提到的BEVFormer、PETR算法,我们在本课程中会详细的分析、总结和对比不同算法之间的来龙去脉,各自发展的过程,核心思想和优化点。
+
+这一工作的分享,激发了大家对自动驾驶感知算法方向的探讨,普遍认为占据网络是未来感知算法的终极解决方案 。通过稠密的空间体素占用确定自动驾驶车辆的感知结果,为预测和规划提供更加准备的条件。更加有利于特征时序融合、做到自动驾驶端到端的解决方案,最终实现L4,直至L5完全无人驾驶。
+
+
+
+
+
+
@@ -615,7 +623,7 @@ cd code/
@@ -627,13 +635,13 @@ cd code/
-
+
VIP 专享8折优惠券
-
+
-
+
+
+
+
+
+
+
+
+
+
+
+
+
+ 源代码
开发环境
文档/课件PPT
视频
课后答疑
@@ -85,123 +100,6 @@
Surrounding Semantic Occupancy Perception Course for Autonomous Driving
-
From BEV to Occupancy Network
-
*From https://github.com/CVPR2023-3D-Occupancy-Prediction/CVPR2023-3D-Occupancy-Prediction
-
-
-
-## 背景介绍
-
-在没有occupancy network之前,感知只有识别出障碍物是什么类型,规控才会响应,进行制动或避让的响应。如果感知识别不出来,不好意思,就是一堵墙挡在前面,车子也会“无脑”撞上去。
-
-![image](https://github.com/Charmve/OccNet-Course/assets/29084184/2491c935-fb08-4e0b-979c-cd1e2c9d2e22)
-
-> 没有occupancy network之前的特斯拉
-
-就算识别出了目标,给出的空间也不一定准确。按照3m的跟停距离来说,这种场景也有一定剐蹭的风险。
-
-![image](https://github.com/Charmve/OccNet-Course/assets/29084184/502904e2-55aa-42f8-8635-36fc12757dc4)
-
-> 敢问阁下将如何应对
-
-但有了occupancy network之后,感知就可以输出这部分的网格是被占用的,达到类似激光雷达点云的作用,从而给出位置和速度。规控就可以对这种被占用的位置做响应。
-
-
-
-> occupancy networks 效果图
-
-可以说occupancy network对感知来说是质的飞跃,干掉激光雷达成为了可能。有了occupancy network,撞墙、撞无法识别出类型的障碍物已经成为历史!无论是路边的电线杆、还是标志牌,无论挡在车前的是树枝、是牛都可以响应。
-
-![image](https://github.com/Charmve/OccNet-Course/assets/29084184/d03538f0-d5b2-446c-b007-f3b2800defec)
-
-Occupancy网络可以识别移动部分和非移动部分、未知障碍物等。
-
-
-
-很多人提到Occ网络,会理解为对通用障碍物,尤其是白名单之外的异形障碍物的感知能力,这没有错。但很多人不知道,Occ网络对于遮挡,也能起到很好的脑补能力。3D空间的占据栅格可以很方便计算遮挡关系,就能帮助感知系统预见遮挡区域。
-
-
-
-
-------
-
-课程介绍
-
-大家好!
-
-欢迎来到《占据网络在自动驾驶中的应用》这门课程的学习,我是Charmve,大家也可以叫我察姆。目前任职于国内某自动驾驶独角兽公司,有多年自动驾驶量产经验。在本课程中,我们主要对今年国内外备受关注的Occupancy Network做一个专题学习分享,普遍认为它是解决自动驾驶感知长尾问题的关键技术。
-
-特斯拉在去年AI DAY上,分享了他们在感知方面的一个重点技术:Occupancy Network (占据网络),自此引发业内网对占据网络的关注。研究机器人技术的同学肯定对occupancy grid不会陌生,occupancy表示空间中每个3D体素(voxel)是否被占据,可以是0/1二元表示,也可以是[0, 1]之间的一个概率值。
-
-为什么估计occupancy对自动驾驶感知很重要呢?很核心的一个原因是:车辆在行驶中,除了常见障碍物如车辆、行人,我们可以通过3D物体检测的方式来估计他们的位置和大小,还有更多长尾的障碍物也会对行驶产生重要影响。例如:
-
-1. 可变形的障碍物,如两节的挂车,不适合用3D bounding box来表示;
-2. 异形障碍物,如翻倒的车辆,3D姿态估计会失效;
-3. 不在已知类别中的障碍物,如路上的石子、垃圾等,无法进行分类。
-
-因此,我们希望能找到一种更好的表达来描述这些长尾障碍物,完整估计3D空间中每一个位置的占据情况(occupancy),甚至是语义(semantics)和运动情况(flow)。
-
-特斯拉用下图的具体例子来展现Occupancy Network的强大。不同于3D的框,occupancy这种表征对物体没有过多的几何假设,因此可以建模任意形状的物体和任意形式的物体运动。图中展示了一个两节的公交车正在启动的场景,蓝色表示运动的体素,红色表示静止的体素,Occupancy Network精确地估计出了公交车的第一节已经开始运动,而第二节还处于静止状态。
-
-
图1 Tesla Occupancy Network
-
▲对正在启动的两节公交车的occupancy估计,蓝色表示运动的体素,红色表示静止的体素
-
图2 空间占据预测示例(TPVFormer、OccFormer)
-不知道怎么学习占据网络?学习难度大?
-
-今年来,学术界和工业界都在视觉occupancy方面有了大量的工作,从纯视觉的方案到多传感器的方案、从前向预测到后向预测,再到最近提出的forward-backward联合方案。对于我们初学者,造成了极大的学习困难。一下子不知道如何下手,从哪开始。本课程的出发点就是为了解决这个痛点,应该算是国内外对于占据网络全面讲解的第一个课程或者专题内容。
-
-在接下来的很长一段时间,我会从自动驾驶从业者的角度,跟大家一起学习和分享占据网络的发展及其算法原理,同时我们也提供了代码实践内容。以通俗的语言讲解从2D目标检测到BEV视角下的3D目标检测,再到3D空间占用算法的整个过程。并且尤其关注到算法原理本身,对比不同算法,详细分析其核心思想和各算法的优化点。更为特别的,在本课程中,我们会给出两个占据网络的复现和优化,让你快速复现,学以致用。尤其适合目前正在求职的朋友、对自动驾驶感知算法感兴趣的跨行就职者。每个章节都会有详细的课件和答疑群,欢迎大家一起交流!课程后,会有一个大作业,根据给出的条件和目标,思路提示,完成占据网络算法的优化,提升mIoU指标。
-
-
图3 课程源代码
-课程特色
-
-✨ 系统性学习占据网络算法设计原理、多种方案对比分析,由浅入深。最重要的是,本课程是一个实践课程,亲自动手设计、训练和部署一个Occ网络,走完一个闭环。这对于进入求职者是十分有优势的一点,尤其对于现在想要进入自动驾驶算法岗位的同学,占据网络、BEV、Transformer和部署经验,都是十分有竞争力的一点。
-
-课程目录
#自动驾驶感知算法之占据网络专题#
@@ -211,16 +109,16 @@ Occupancy网络可以识别移动部分和非移动部分、未知障碍物等
@@ -472,10 +370,10 @@ Occupancy网络可以识别移动部分和非移动部分、未知障碍物等
- 7.3.3 矢量地图在线建图:MapTR/MapTRv2、ScalableMap、VectorMapNet、HDMapNet、GeMap、MapEX、(HybriMap)[https://mp.weixin.qq.com/s/DrerkRzdiIIz7OZMz_9p0g]
- 7.3.4 BEV-OCC-Transformer: OccFormer、OccWorld、Occupancy-Flow
- 长期:
- - 7.3.2 大模型 [LMDrive](https://github.com/opendilab/LMDrive) [关于大模型和自动驾驶的几个迷思](关于大模型和自动驾驶的几个迷思.md)
- - 7.3.3 通用视觉大模型(世界模型)(常识推理、自监督/弱监督):Drive-WM、DriveDreamer
- - 7.3.4 模型稀疏化(我们其实不需要那么多数据量做训练?)
- - 7.3.5 训练加速&端侧大模型推理加速
+ - 7.3.5 大模型 [LMDrive](https://github.com/opendilab/LMDrive) [关于大模型和自动驾驶的几个迷思](关于大模型和自动驾驶的几个迷思.md)
+ - 7.3.6 通用视觉大模型(世界模型)(常识推理、自监督/弱监督):Drive-WM、DriveDreamer
+ - 7.3.7 模型稀疏化(我们其实不需要那么多数据量做训练?)
+ - 7.3.8 训练加速&端侧大模型推理加速
- 7.4 数据
- 7.4.1 4D数据自动标注
- 7.4.2 数据合成
@@ -484,9 +382,9 @@ Occupancy网络可以识别移动部分和非移动部分、未知障碍物等
- 7.5 端到端闭环仿真([NeuroNCAP](https://research.zenseact.com/publications/neuro-ncap/)、[NeuRAD](https://research.zenseact.com/publications/neurad/)、VAD、UniAD、UniSim)
- 7.6 其他
- 7.6.1 舱驾一体
- - 7.6.1 AI 编译器: MLIR、TVM、XLA、Triton
- - 7.6.1 模型剪枝、模型蒸馏、模型压缩、模型量化(PTQ、QAT)
- - 7.6.1 自动驾驶系统评测方案
+ - 7.6.2 AI 编译器: MLIR、TVM、XLA、Triton
+ - 7.6.3 模型剪枝、模型蒸馏、模型压缩、模型量化(PTQ、QAT)
+ - 7.6.4 自动驾驶系统评测方案
-
- 课程章节(点击标题展开章节详情🔎)
+
+ 课程章节
-
(点击标题展开章节详情🔎)
+
课程视频
-
+
课件PPT
-
-
+
+
节选
@@ -582,6 +480,98 @@ scripts/goto_dev_docker.sh
cd code/
```
+
+
+
+
+
+在没有occupancy network之前,感知只有识别出障碍物是什么类型,规控才会响应,进行制动或避让的响应。如果感知识别不出来,不好意思,就是一堵墙挡在前面,车子也会“无脑”撞上去。
+
+![image](https://github.com/Charmve/OccNet-Course/assets/29084184/2491c935-fb08-4e0b-979c-cd1e2c9d2e22)
+
+> 没有occupancy network之前的特斯拉
+
+就算识别出了目标,给出的空间也不一定准确。按照3m的跟停距离来说,这种场景也有一定剐蹭的风险。
+
+![image](https://github.com/Charmve/OccNet-Course/assets/29084184/502904e2-55aa-42f8-8635-36fc12757dc4)
+
+> 敢问阁下将如何应对
+
+但有了occupancy network之后,感知就可以输出这部分的网格是被占用的,达到类似激光雷达点云的作用,从而给出位置和速度。规控就可以对这种被占用的位置做响应。
+
+
+
+> occupancy networks 效果图
+
+可以说occupancy network对感知来说是质的飞跃,干掉激光雷达成为了可能。有了occupancy network,撞墙、撞无法识别出类型的障碍物已经成为历史!无论是路边的电线杆、还是标志牌,无论挡在车前的是树枝、是牛都可以响应。
+
+![image](https://github.com/Charmve/OccNet-Course/assets/29084184/d03538f0-d5b2-446c-b007-f3b2800defec)
+
+Occupancy网络可以识别移动部分和非移动部分、未知障碍物等。
+
+
+
+很多人提到Occ网络,会理解为对通用障碍物,尤其是白名单之外的异形障碍物的感知能力,这没有错。但很多人不知道,Occ网络对于遮挡,也能起到很好的脑补能力。3D空间的占据栅格可以很方便计算遮挡关系,就能帮助感知系统预见遮挡区域。
+
+背景介绍
+课程介绍
+
+大家好!
+
+欢迎来到《占据网络在自动驾驶中的应用》这门课程的学习,我是Charmve,大家也可以叫我察姆。目前任职于国内某自动驾驶独角兽公司,有多年自动驾驶量产经验。在本课程中,我们主要对今年国内外备受关注的Occupancy Network做一个专题学习分享,普遍认为它是解决自动驾驶感知长尾问题的关键技术。
+
+特斯拉在去年AI DAY上,分享了他们在感知方面的一个重点技术:Occupancy Network (占据网络),自此引发业内网对占据网络的关注。研究机器人技术的同学肯定对occupancy grid不会陌生,occupancy表示空间中每个3D体素(voxel)是否被占据,可以是0/1二元表示,也可以是[0, 1]之间的一个概率值。
+
+为什么估计occupancy对自动驾驶感知很重要呢?很核心的一个原因是:车辆在行驶中,除了常见障碍物如车辆、行人,我们可以通过3D物体检测的方式来估计他们的位置和大小,还有更多长尾的障碍物也会对行驶产生重要影响。例如:
+
+1. 可变形的障碍物,如两节的挂车,不适合用3D bounding box来表示;
+2. 异形障碍物,如翻倒的车辆,3D姿态估计会失效;
+3. 不在已知类别中的障碍物,如路上的石子、垃圾等,无法进行分类。
+
+因此,我们希望能找到一种更好的表达来描述这些长尾障碍物,完整估计3D空间中每一个位置的占据情况(occupancy),甚至是语义(semantics)和运动情况(flow)。
+
+特斯拉用下图的具体例子来展现Occupancy Network的强大。不同于3D的框,occupancy这种表征对物体没有过多的几何假设,因此可以建模任意形状的物体和任意形式的物体运动。图中展示了一个两节的公交车正在启动的场景,蓝色表示运动的体素,红色表示静止的体素,Occupancy Network精确地估计出了公交车的第一节已经开始运动,而第二节还处于静止状态。
+
+
图1 Tesla Occupancy Network
+
▲对正在启动的两节公交车的occupancy估计,蓝色表示运动的体素,红色表示静止的体素
+
图2 空间占据预测示例(TPVFormer、OccFormer)
+不知道怎么学习占据网络?学习难度大?
+
+今年来,学术界和工业界都在视觉occupancy方面有了大量的工作,从纯视觉的方案到多传感器的方案、从前向预测到后向预测,再到最近提出的forward-backward联合方案。对于我们初学者,造成了极大的学习困难。一下子不知道如何下手,从哪开始。本课程的出发点就是为了解决这个痛点,应该算是国内外对于占据网络全面讲解的第一个课程或者专题内容。
+
+在接下来的很长一段时间,我会从自动驾驶从业者的角度,跟大家一起学习和分享占据网络的发展及其算法原理,同时我们也提供了代码实践内容。以通俗的语言讲解从2D目标检测到BEV视角下的3D目标检测,再到3D空间占用算法的整个过程。并且尤其关注到算法原理本身,对比不同算法,详细分析其核心思想和各算法的优化点。更为特别的,在本课程中,我们会给出两个占据网络的复现和优化,让你快速复现,学以致用。尤其适合目前正在求职的朋友、对自动驾驶感知算法感兴趣的跨行就职者。每个章节都会有详细的课件和答疑群,欢迎大家一起交流!课程后,会有一个大作业,根据给出的条件和目标,思路提示,完成占据网络算法的优化,提升mIoU指标。
+
+
+
课件代码一应俱全
细致的讲解,不光要有理论,代码及实践也一定要讲透彻!通过全套的视频讲解,帮你在脑海中搭建模型的基本框架,彻底搞懂每一个知识点,从而提高写代码的效率和速度。
@@ -597,13 +587,31 @@ cd code/
-[Index](#课程目录)
+[课程目录](#课程目录)
+
+课程特色
+
+✨ 系统性学习占据网络算法设计原理、多种方案对比分析,由浅入深。最重要的是,本课程是一个实践课程,亲自动手设计、训练和部署一个Occ网络,走完一个闭环。这对于进入求职者是十分有优势的一点,尤其对于现在想要进入自动驾驶算法岗位的同学,占据网络、BEV、Transformer和部署经验,都是十分有竞争力的一点。
+
+讲师介绍
我是 Charmve,在多家自动驾驶头部公司任职,主要关注在BEV视觉感知、3D场景重建,有多个自动驾驶量产项目经验。近年来,尤其关注在占据网络的研发上,根据个人所学所思和工作实践,跟大家一起分享这个主题内容。
-[Index](#课程目录)
+[课程目录](#课程目录)
课程学后收获
适合人群
开课时间与学习方式
2023年11月份开始学习之路,历经两个月,离线视频授课。主讲老师在微信学习群内答疑,对课程中的算法、代码、环境配置等问题一一解惑!
-[Index](#课程目录)
+[课程目录](#课程目录)
课程咨询与购买
@@ -642,9 +650,9 @@ cd code/
@@ -671,7 +679,7 @@ cd code/
- 扫码支付
+ 扫码支付
- (Click to study) 前20名 或 转发朋友圈 8折
+ (点击购买) 前20名 或 转发朋友圈 8折
@@ -683,18 +691,24 @@ cd code/
-[Index](#课程目录)
+[课程目录](#课程目录)
## 🔥 Stargazers Over Time
[![Star History Chart](https://api.star-history.com/svg?repos=Charmve/OccNet-Course&type=Timeline)](https://star-history.com/#Charmve/OccNet-Course&Timeline)
-[Index](#课程目录)
+[课程目录](#课程目录)
-
+## Closed-loop Simulator
+
+[课程展望与总结](Chapter07-课程展望与总结)
+
+
+
+[课程目录](#课程目录)
## Acknowledge
Some benchmark result and soure code from: https://github.com/CVPR2023-3D-Occupancy-Prediction/CVPR2023-3D-Occupancy-Prediction
-
+
diff --git a/scripts/goto_dev_docker.sh b/scripts/goto_dev_docker.sh
index 2628d96..62f3f3a 100755
--- a/scripts/goto_dev_docker.sh
+++ b/scripts/goto_dev_docker.sh
@@ -117,7 +117,6 @@ function main() {
--workdir=/maiwei \
--shm-size 16g \
"$X86_64_DEV_REPO" /bin/bash
- # charmve/maiwei-dev-x86_64-20231116 /bin/bash
xhost -local:"${USER}" 1>/dev/null 2>&1
}
diff --git a/src/imgs/animated_overview.gif b/src/imgs/animated_overview.gif
new file mode 100644
index 0000000..84a9f0e
--- /dev/null
+++ b/src/imgs/animated_overview.gif
@@ -0,0 +1,3 @@
+version https://git-lfs.github.com/spec/v1
+oid sha256:033778776e54831dcf47f885b94b7209be50be465fae72807f7be00fc3fe6d00
+size 1938038