最近了解了下智驾技术的演变发展,在这写下总结与思考。
现在头部汽车公司已将最新的智驾技术路线从端到端转到 VLA 、WEWA 。那为什么端到端被抛弃了呢?我看到的一种也比较认可的说法是:直接将环境信息数据(摄像头、lidar 等等)映射到轨迹规控(或者更低维的油门刹车方向盘控制指令),模型本身只是在做根据 2D 画面进行模仿学习,它不知道驾驶员这么做的深层逻辑---也就是知其然,不知其所以然。这也就导致泛化能力很差,当出现长尾/难 case 时,模型完全是“懵逼”的。
起初,我觉得从第一性原理出发(就实现自动驾驶而言),VLA 中的 L 作为要素加入模型没啥逻辑吧?就为了车机屏幕显示 COT 思考和语音控车? 直到我看这个观点---语言即逻辑。上面我们说到端到端的问题是知其然不知其所以然。现在我们可以将 L 作为驾驶者开车的逻辑思考的表征作为数据跟随 V ,放进模型训练,那不就可以让模型学会"逻辑推理"了? 这个观点对于我来说是 make sense 的。因为加入 COT 后的 LLM 在功能性上表现的就是具有逻辑推理能力(注意我说的是功能性),本质上也是它的训练数据里有很多逻辑推理的语言 pattern
从 WEWA 有限的资料来看,我觉得它范式还是端到端那套。只是通过 WE (世界引擎),在仿真世界里将难处理的长尾 case 密度拉高进行强化学习。我觉得它走的是"力大砖飞"的方法论,无所谓所以然,只要数据够多,当模仿到极致,然与所以然的界限就模糊掉了。毕竟 LLM 的本质不也只是预测下一个词的概率么?
我觉得上面两个路线都有可能实现 L3/L4 ,无法直接证伪说哪个肯定不行。但是从上限和可扩展性来说,VLA 无疑更甚一筹我觉得。VLA 这套框架/范式可以说是为具身智能打造的,这套弄通了到时候迁移到诸如机器人上面会很顺畅。
另外从上限来说,我很久前在知乎上看到过一个回答关于自动驾驶能力限制的:对于伦理问题,比如电车难题,智驾怎么办?它超脱了对错的维度,更像是基于三观的一个选择。而 VLA 模型的 L ,就像一个窗口可以注入 owner 的价值观,让其做出的行为与你的意志匹配。
综上,是我一个外行人的浅思。欢迎行业内的朋友指出错误及讨论交流~
这是一个专为移动设备优化的页面(即为了让你能够在 Google 搜索结果里秒开这个页面),如果你希望参与 V2EX 社区的讨论,你可以继续到 V2EX 上打开本讨论主题的完整版本。
V2EX 是创意工作者们的社区,是一个分享自己正在做的有趣事物、交流想法,可以遇见新朋友甚至新机会的地方。
V2EX is a community of developers, designers and creative people.