自动驾驶-实现 VLA 的学习路径-干中学-Claude-AI-Opus4.6
想要达到现阶段小鹏或特斯拉FSD14.5 或华为的端到端的水平,然后出去找工作,请给出实战建议,希望可以先实战然后再理论的课程,那种方式会更好一些,请给出建议。
Kaiyi,你的思路很对——"先实战再理论"是工程师最高效的学习路径。先把东西跑起来,遇到问题再回头补理论,理解会深刻得多。
让我先帮你理清一个关键认识,然后给出具体的实战路线。
先校准预期:个人能复现到什么程度?
特斯拉FSD/小鹏VLA/华为ADS这些量产系统,背后是数万张GPU、数百万公里真实数据、上百人团队。个人不可能"达到"它们的水平,但你完全可以掌握它们背后的核心技术栈,做到面试时能讲清楚架构设计、能跑通同类开源算法、能在仿真环境中做闭环评测——这就是车企招人时看的能力。
现在各家车企的技术路线可以归纳为三条:
- 小鹏/特斯拉:纯视觉 → 一段式端到端 → VLA(视觉直接到动作)
- 华为:多传感器融合 → WA(世界模型+动作,去掉Language环节)
- 理想/地平线:端到端 + VLM辅助推理 → 快慢双系统
它们的共同技术底座是:BEV感知 + Transformer + 端到端训练 + 扩散/Flow模型做规划 + 强化学习微调 + CARLA/NAVSIM闭环评测。掌握这个底座,去哪家都能对口。
实战优先的学习路线(14周)
我按"先跑通→再理解→再优化"的原则来组织:
第一阶段:7天搭环境+跑通第一个闭环Demo
这一周的目标很简单:在CARLA里跑一辆自动驾驶的车。不看论文,不学理论,就是把环境搭起来,让车动起来。
具体做的事情:安装CARLA 0.9.15(Ubuntu + GPU),用官方PythonAPI写一个脚本实现自动采集数据(6路摄像头图像 + 专家驾驶轨迹),然后用一个最简单的模仿学习模型(ResNet提特征 → MLP输出waypoints)训练,再放回CARLA闭环跑。车会开得很烂,经常撞墙——没关系,这正是学习的起点。你会在这个过程中自然地遇到这些问题:什么是waypoints?为什么用L1 Loss训练出来的轨迹总走直线?闭环和开环评测有什么区别?这时候再去看相关概念,比纯看论文记忆深100倍。
GitHub上直接可用的项目:autonomousvision/carla_garage(多个端到端baseline的集合)、zhejz/carla-roach(RL+模仿学习的baseline)。
第二阶段:第2-4周,复现一个两段式端到端算法(VAD或UniAD简化版)
在第一周的基础上,你已经有了数据采集和闭环评测的pipeline。现在升级模型架构:把简单的ResNet+MLP替换为BEV感知+端到端规划。
推荐路线是复现VAD(Vectorized Scene Representation for Efficient Autonomous Driving),它比UniAD更轻量,且是向量化表示(更接近当前工业界做法)。在nuScenes数据集上做开环评测,在CARLA上做闭环评测。
这个阶段你会被迫学到:BEV特征怎么从多视角图像构建、Transformer的交叉注意力怎么做Query-based检测、为什么向量化表示比栅格化更高效。但注意——是"被迫"学到,因为你在跑代码时会遇到具体问题,然后带着问题去看BEVFormer论文和Transformer原理,效率远高于先通读论文。
第三阶段:第5-7周,升级到一段式端到端 + 扩散模型规划
这是当前工业界的主流方案。两段式(感知→规划分开训练)正在被一段式(传感器输入直接到轨迹输出,联合训练)取代。
推荐复现的项目:SparseDrive(稀疏表示的端到端)或者直接跑NAVSIM baseline。NAVSIM是当前最主流的端到端评测基准,各大公司(地平线、小鹏、华为)都在这个榜单上竞争。它提供了标准化的数据和评测代码,你可以在上面快速迭代实验。
同时引入扩散模型做规划——这是DiffusionDrive、GoalFlow等工作的核心思想:用扩散过程生成多条候选轨迹,而不是回归单条轨迹。你需要先跑通一个DDPM的toy example(比如生成2D轨迹点),理解去噪过程,然后把它集成到你的端到端pipeline里。
这个阶段你会自然地理解:为什么模仿学习有mode collapse问题、扩散模型怎么解决多模态轨迹生成、Flow Matching和DDPM的区别。
第四阶段:第8-10周,进入VLA——当前最前沿方向
这是当前招聘需求最旺盛的方向。VLA的核心思想是:用视觉语言大模型(VLM)的推理能力来增强驾驶决策。
实战路线:先跑通ORION(小米开源的VLA方案,已开源推理和评测模块),理解它怎么把Qwen2.5-VL和驾驶轨迹预测结合起来。然后尝试在NAVSIM上复现一个轻量级VLA:用Qwen2.5-VL 3B作为backbone,输入多视角图片+驾驶指令+历史轨迹,输出未来轨迹点。关键技巧是多层次CoT SFT(先检测关键障碍物→描述驾驶意图→生成决策→输出轨迹坐标),然后用GRPO做强化学习微调。
这个阶段结束后,你就掌握了小鹏VLA和特斯拉FSD背后的核心技术原理,面试时能讲清楚完整的技术链路。
第五阶段:第11-14周,工程化+作品集打磨+面试准备
把前面做的项目整理成一个完整的portfolio。核心展示项目建议是:在NAVSIM或Bench2Drive上的端到端算法实现,包含BEV感知、扩散模型规划、VLA推理,有完整的闭环评测结果和可视化视频。
同时补充工程化技能:TensorRT模型加速(把PyTorch模型转TRT并benchmark推理速度)、ONNX导出、模型量化(FP16/INT8)。这些在面试中被问到的概率很高,因为车企非常看重"能不能把模型部署到车上"。
关于课程的具体建议
按照你"实战优先"的偏好,我建议这样搭配:
"自动驾驶之心"的课程作为辅助参考而非主线——当你在实战中遇到某个模块搞不通时,去看对应章节的讲解,效率最高。它的端到端+VLA课程和CARLA仿真课都值得考虑,但不要按它的顺序从头看到尾,而是跳着看你当前卡住的部分。
免费资源方面,知乎上"自动驾驶之心"和"做自动驾驶VLA的这一年"等文章质量很高,可以作为快速了解行业技术趋势的窗口。OpenDriveLab的GitHub仓库是论文和代码的最佳索引。
面试加分项
以你10年工程背景转型算法,面试官最想看到的是:能把一个端到端算法从训练到闭环评测跑通的完整能力、对当前主流技术路线(一段式端到端/VLA/世界模型)差异的理解、工程化落地的sense(推理延迟、显存占用、量化精度权衡)。这些都是纯学术背景的候选人不容易具备的,恰好是你的差异化竞争力。
想让我把第一阶段的CARLA环境搭建和数据采集做成一份具体的step-by-step指南吗?
相关文章:
端到端自动驾驶学习实践规划-ClaudeAI 建议
为者常成,行者常至
自由转载-非商用-非衍生-保持署名(创意共享3.0许可证)