来聊聊智驾的路线和方法论的思考吧

最近了解了下智驾技术的演变发展，在这写下总结与思考。

端到端的“问题”

现在头部汽车公司已将最新的智驾技术路线从端到端转到 VLA 、WEWA 。那为什么端到端被抛弃了呢？我看到的一种也比较认可的说法是：直接将环境信息数据（摄像头、lidar 等等）映射到轨迹规控（或者更低维的油门刹车方向盘控制指令），模型本身只是在做根据 2D 画面进行模仿学习，它不知道驾驶员这么做的深层逻辑---也就是知其然，不知其所以然。这也就导致泛化能力很差，当出现长尾/难 case 时，模型完全是“懵逼”的。

VLA 的意义

起初，我觉得从第一性原理出发(就实现自动驾驶而言)，VLA 中的 L 作为要素加入模型没啥逻辑吧？就为了车机屏幕显示 COT 思考和语音控车？直到我看这个观点---语言即逻辑。上面我们说到端到端的问题是知其然不知其所以然。现在我们可以将 L 作为驾驶者开车的逻辑思考的表征作为数据跟随 V ，放进模型训练，那不就可以让模型学会"逻辑推理"了？这个观点对于我来说是 make sense 的。因为加入 COT 后的 LLM 在功能性上表现的就是具有逻辑推理能力（注意我说的是功能性），本质上也是它的训练数据里有很多逻辑推理的语言 pattern

WEWA--本质还是端到端？

从 WEWA 有限的资料来看，我觉得它范式还是端到端那套。只是通过 WE （世界引擎），在仿真世界里将难处理的长尾 case 密度拉高进行强化学习。我觉得它走的是"力大砖飞"的方法论，无所谓所以然，只要数据够多，当模仿到极致，然与所以然的界限就模糊掉了。毕竟 LLM 的本质不也只是预测下一个词的概率么？

我的思考

我觉得上面两个路线都有可能实现 L3/L4 ，无法直接证伪说哪个肯定不行。但是从上限和可扩展性来说，VLA 无疑更甚一筹我觉得。VLA 这套框架/范式可以说是为具身智能打造的，这套弄通了到时候迁移到诸如机器人上面会很顺畅。

另外从上限来说，我很久前在知乎上看到过一个回答关于自动驾驶能力限制的：对于伦理问题，比如电车难题，智驾怎么办？它超脱了对错的维度，更像是基于三观的一个选择。而 VLA 模型的 L ，就像一个窗口可以注入 owner 的价值观，让其做出的行为与你的意志匹配。

综上，是我一个外行人的浅思。欢迎行业内的朋友指出错误及讨论交流~

wisej

2025 年 11 月 23 日

@Muyun Cool.请问你是 AD 的从业者，能不能随便聊聊目前最新的智驾路线(比如 VLA 、WEWA ）

Muyun

2025 年 11 月 25 日

@wisej 现在不算是智驾的从业者了，转到机器人了，做的还是 VLA 的事情。就我个人而言，智驾体感上实力比较强的供应商还是地大华魔这四家，主机厂是理想小鹏，感觉理想转到 VLA 之后声量弱了一点。其他的没有试乘过，不做评价，Tesla 很强，但在中国水土不服，如果能解决数据的问题，应该很厉害的

从我们算法的角度来看，VLA 、World Model 都是一样的东西，都是端到端的架构，这个范式很重要，让自动驾驶真正进入了 data-centric learning-based 迭代。模型需要学的能力核心其实还是这个 VA 模型中，vision 到 action 的映射，而这个映射是从极高维度转移到极低维度（多摄图像是 N * 1280 * 720 这种维度，会过 resize ，看算力大小，但是 action 维度极低，trajectory 就是 N * 个位数这种维度），会导致模型学到很多捷径，比如一直直行我就能 cover 大部分场景，或者一直跟车启停，那模型就偷懒了。所以 Language 和 world model 的加入都是来缓解这个问题

1. VLA 路线：LLM/VLM 有 scaling law ，那么借力打力，拿一个通识能力比较强的模型来提取一些有效的 feature 约束我的 observation -> action 的映射不要学到一些捷径，但大家用过 VLM/LLM 能感受到这些模型的幻觉，所以要把前面这个 Language 用好可能是比较困难的（也可以听张小郡和小鹏新负责人刘先明的 talk ，language 的作用还有待验证和加强）
2. world model：这个东西大家都在做，事实上希望加一个辅助任务，希望能够预测未来。如果能预测未来，那么也能对当下有更好的理解。很多厂商讲的故事更大，想把 world model 用于训练评测，对当下的理解以及对未来的预测是否准确，决定了 world model 是否能作为一个仿真环境去用于训练和评测。就现阶段而言，我觉得能卡掉一部分有问题的模型，也能够初步结合 RL 的范式训起来，但没有达到大家去做这件事的预期。所以 world model 这个路线，现在的用法也可以理解为是一种辅助监督，用于约束 observation -> action 的映射学的更好。至于训练/评测，或许还需要几个技术突破才能达到可用的水平

所以最终回归的还是大家先做基建 infra ，先把 vision-action pair 的数据积累的多多的，上面两个路线同步推进，场景积累的越来越多，大家越来越愿意用智驾，数据回流就能做的越好越好，是一个正循环。所以有积累的主机厂（小鹏、理想等等）+ 比较强的 infra 实力（影子模式之类的）能够在比较短的时候把能力给提上来

最后还是提醒大家城区少用 AD ，你无法预测鬼探头、电动车、路上的盒子塑料袋这些会造成什么影响，生命安全最重要，高速上 AD 做的比较成熟了，在好的工况下（非大雾、大雨、堵车）可以逐步解锁，摸索他的能力，找到人机共驾的感觉

wisej

2025 年 11 月 25 日

@Muyun 非常感谢，回答很有帮助&启发。

1.确实，端到端是一种技术范式，走向数据驱动
2.L 还有一点好处它能理解环境语义(得益于 LLM 的通识)，比如施工牌、交警手势，上限感觉还是高的。但是对算力要求会更高？
3.所以 VLA 是通过 V>L>A 来防止高维到极低维的信息 loss 么，这 latency 会很高吧？
4.vision-action pair 的数据积累，不知道算力和数据对于 AD 更是瓶颈呢?其实我之前没意识到数据的问题，确实 VA 的数据不像 LLM 好获取。而且城区不好用大家不愿用，负反馈循环了..但是车企有宣传比如 1000w clips ，不知道这量级算多算少。
5.world model ，理想、华为宣传上好像是已经在用做仿真和 RL 训练了。理想联合发的有个 paper 4D Gaussian ，我理解就是带有预测的交通世界模型来仿真。不知道"还需要几个技术突破"具体指啥？