自动驾驶-实现 VLA 的学习路径-干中学-Claude-AI-Opus4.6

2026-03-25 23:34:01 ⋅ 1619 ⋅ 0 ⋅ 0

想要达到现阶段小鹏或特斯拉FSD14.5 或华为的端到端的水平,然后出去找工作,请给出实战建议,希望可以先实战然后再理论的课程,那种方式会更好一些,请给出建议。

Kaiyi，你的思路很对——"先实战再理论"是工程师最高效的学习路径。先把东西跑起来，遇到问题再回头补理论，理解会深刻得多。

让我先帮你理清一个关键认识，然后给出具体的实战路线。

先校准预期：个人能复现到什么程度？

特斯拉FSD/小鹏VLA/华为ADS这些量产系统，背后是数万张GPU、数百万公里真实数据、上百人团队。个人不可能"达到"它们的水平，但你完全可以掌握它们背后的核心技术栈，做到面试时能讲清楚架构设计、能跑通同类开源算法、能在仿真环境中做闭环评测——这就是车企招人时看的能力。

现在各家车企的技术路线可以归纳为三条：

小鹏/特斯拉：纯视觉 → 一段式端到端 → VLA（视觉直接到动作）
华为：多传感器融合 → WA（世界模型+动作，去掉Language环节）
理想/地平线：端到端 + VLM辅助推理 → 快慢双系统

它们的共同技术底座是：BEV感知 + Transformer + 端到端训练 + 扩散/Flow模型做规划 + 强化学习微调 + CARLA/NAVSIM闭环评测。掌握这个底座，去哪家都能对口。

实战优先的学习路线（14周）

我按"先跑通→再理解→再优化"的原则来组织：

第一阶段：7天搭环境+跑通第一个闭环Demo

这一周的目标很简单：在CARLA里跑一辆自动驾驶的车。不看论文，不学理论，就是把环境搭起来，让车动起来。

具体做的事情：安装CARLA 0.9.15（Ubuntu + GPU），用官方PythonAPI写一个脚本实现自动采集数据（6路摄像头图像 + 专家驾驶轨迹），然后用一个最简单的模仿学习模型（ResNet提特征 → MLP输出waypoints）训练，再放回CARLA闭环跑。车会开得很烂，经常撞墙——没关系，这正是学习的起点。你会在这个过程中自然地遇到这些问题：什么是waypoints？为什么用L1 Loss训练出来的轨迹总走直线？闭环和开环评测有什么区别？这时候再去看相关概念，比纯看论文记忆深100倍。

GitHub上直接可用的项目：autonomousvision/carla_garage（多个端到端baseline的集合）、zhejz/carla-roach（RL+模仿学习的baseline）。

第二阶段：第2-4周，复现一个两段式端到端算法（VAD或UniAD简化版）

在第一周的基础上，你已经有了数据采集和闭环评测的pipeline。现在升级模型架构：把简单的ResNet+MLP替换为BEV感知+端到端规划。

推荐路线是复现VAD（Vectorized Scene Representation for Efficient Autonomous Driving），它比UniAD更轻量，且是向量化表示（更接近当前工业界做法）。在nuScenes数据集上做开环评测，在CARLA上做闭环评测。

这个阶段你会被迫学到：BEV特征怎么从多视角图像构建、Transformer的交叉注意力怎么做Query-based检测、为什么向量化表示比栅格化更高效。但注意——是"被迫"学到，因为你在跑代码时会遇到具体问题，然后带着问题去看BEVFormer论文和Transformer原理，效率远高于先通读论文。

第三阶段：第5-7周，升级到一段式端到端 + 扩散模型规划

这是当前工业界的主流方案。两段式（感知→规划分开训练）正在被一段式（传感器输入直接到轨迹输出，联合训练）取代。

推荐复现的项目：SparseDrive（稀疏表示的端到端）或者直接跑NAVSIM baseline。NAVSIM是当前最主流的端到端评测基准，各大公司（地平线、小鹏、华为）都在这个榜单上竞争。它提供了标准化的数据和评测代码，你可以在上面快速迭代实验。

同时引入扩散模型做规划——这是DiffusionDrive、GoalFlow等工作的核心思想：用扩散过程生成多条候选轨迹，而不是回归单条轨迹。你需要先跑通一个DDPM的toy example（比如生成2D轨迹点），理解去噪过程，然后把它集成到你的端到端pipeline里。

这个阶段你会自然地理解：为什么模仿学习有mode collapse问题、扩散模型怎么解决多模态轨迹生成、Flow Matching和DDPM的区别。

第四阶段：第8-10周，进入VLA——当前最前沿方向

这是当前招聘需求最旺盛的方向。VLA的核心思想是：用视觉语言大模型（VLM）的推理能力来增强驾驶决策。

实战路线：先跑通ORION（小米开源的VLA方案，已开源推理和评测模块），理解它怎么把Qwen2.5-VL和驾驶轨迹预测结合起来。然后尝试在NAVSIM上复现一个轻量级VLA：用Qwen2.5-VL 3B作为backbone，输入多视角图片+驾驶指令+历史轨迹，输出未来轨迹点。关键技巧是多层次CoT SFT（先检测关键障碍物→描述驾驶意图→生成决策→输出轨迹坐标），然后用GRPO做强化学习微调。

这个阶段结束后，你就掌握了小鹏VLA和特斯拉FSD背后的核心技术原理，面试时能讲清楚完整的技术链路。

第五阶段：第11-14周，工程化+作品集打磨+面试准备

把前面做的项目整理成一个完整的portfolio。核心展示项目建议是：在NAVSIM或Bench2Drive上的端到端算法实现，包含BEV感知、扩散模型规划、VLA推理，有完整的闭环评测结果和可视化视频。

同时补充工程化技能：TensorRT模型加速（把PyTorch模型转TRT并benchmark推理速度）、ONNX导出、模型量化（FP16/INT8）。这些在面试中被问到的概率很高，因为车企非常看重"能不能把模型部署到车上"。

关于课程的具体建议

按照你"实战优先"的偏好，我建议这样搭配：

"自动驾驶之心"的课程作为辅助参考而非主线——当你在实战中遇到某个模块搞不通时，去看对应章节的讲解，效率最高。它的端到端+VLA课程和CARLA仿真课都值得考虑，但不要按它的顺序从头看到尾，而是跳着看你当前卡住的部分。

免费资源方面，知乎上"自动驾驶之心"和"做自动驾驶VLA的这一年"等文章质量很高，可以作为快速了解行业技术趋势的窗口。OpenDriveLab的GitHub仓库是论文和代码的最佳索引。

面试加分项

以你10年工程背景转型算法，面试官最想看到的是：能把一个端到端算法从训练到闭环评测跑通的完整能力、对当前主流技术路线（一段式端到端/VLA/世界模型）差异的理解、工程化落地的sense（推理延迟、显存占用、量化精度权衡）。这些都是纯学术背景的候选人不容易具备的，恰好是你的差异化竞争力。

想让我把第一阶段的CARLA环境搭建和数据采集做成一份具体的step-by-step指南吗？

相关文章：
端到端自动驾驶学习实践规划-ClaudeAI 建议

为者常成，行者常至

自动驾驶-实现 VLA 的学习路径-干中学-Claude-AI-Opus4.6

AI

作者：Corwien

专栏推荐

自动驾驶-实现 VLA 的学习路径-干中学-Claude-AI-Opus4.6

添加附言

AI

作者：Corwien

专栏推荐