来聊聊智驾的路线和方法论的思考吧

最近了解了下智驾技术的演变发展，在这写下总结与思考。

端到端的“问题”

现在头部汽车公司已将最新的智驾技术路线从端到端转到 VLA 、WEWA 。那为什么端到端被抛弃了呢？我看到的一种也比较认可的说法是：直接将环境信息数据（摄像头、lidar 等等）映射到轨迹规控（或者更低维的油门刹车方向盘控制指令），模型本身只是在做根据 2D 画面进行模仿学习，它不知道驾驶员这么做的深层逻辑---也就是知其然，不知其所以然。这也就导致泛化能力很差，当出现长尾/难 case 时，模型完全是“懵逼”的。

VLA 的意义

起初，我觉得从第一性原理出发(就实现自动驾驶而言)，VLA 中的 L 作为要素加入模型没啥逻辑吧？就为了车机屏幕显示 COT 思考和语音控车？直到我看这个观点---语言即逻辑。上面我们说到端到端的问题是知其然不知其所以然。现在我们可以将 L 作为驾驶者开车的逻辑思考的表征作为数据跟随 V ，放进模型训练，那不就可以让模型学会"逻辑推理"了？这个观点对于我来说是 make sense 的。因为加入 COT 后的 LLM 在功能性上表现的就是具有逻辑推理能力（注意我说的是功能性），本质上也是它的训练数据里有很多逻辑推理的语言 pattern

WEWA--本质还是端到端？

从 WEWA 有限的资料来看，我觉得它范式还是端到端那套。只是通过 WE （世界引擎），在仿真世界里将难处理的长尾 case 密度拉高进行强化学习。我觉得它走的是"力大砖飞"的方法论，无所谓所以然，只要数据够多，当模仿到极致，然与所以然的界限就模糊掉了。毕竟 LLM 的本质不也只是预测下一个词的概率么？

我的思考

我觉得上面两个路线都有可能实现 L3/L4 ，无法直接证伪说哪个肯定不行。但是从上限和可扩展性来说，VLA 无疑更甚一筹我觉得。VLA 这套框架/范式可以说是为具身智能打造的，这套弄通了到时候迁移到诸如机器人上面会很顺畅。

另外从上限来说，我很久前在知乎上看到过一个回答关于自动驾驶能力限制的：对于伦理问题，比如电车难题，智驾怎么办？它超脱了对错的维度，更像是基于三观的一个选择。而 VLA 模型的 L ，就像一个窗口可以注入 owner 的价值观，让其做出的行为与你的意志匹配。

综上，是我一个外行人的浅思。欢迎行业内的朋友指出错误及讨论交流~

wisej

3 天前

@Tink 这句话我本身也不认可（本末倒置了）。但是语言可以是逻辑推理的表征毫无疑问。

"肌肉记忆"我认为是千万次重复后，人体系统演化而来的能效优化的结果。它的底层依然是神经元连接，只是不需要人脑中的高级部分再参与了（所以能耗、延迟都更低）。端到端其实就很适配开车中“肌肉记忆”的场景（所以高速表现挺好的）。

而且开车场景不全是肌肉记忆，有~5%的场景是需要逻辑思考的。拿掉头来说，我的思考 path 可能是：1.有没有掉头专用灯 2.有没有双黄线，怎样的形态 3.左转灯状态。对于我来说，它不是“肌肉记忆”，需要逻辑思考。你说有没有人能把它做成肌肉记忆，我觉得可以，只要他重复千万次或许能做到看一眼就知道怎么开的“肌肉记忆”---但那本质不也是训练后内化的神经网络权重参数么