智己汽车CMO 李微萌
智己汽车副CTO 郭辉
智己汽车智驾中心总监 贺锦鹏
智己智驾项目总监 王康
Momenta CEO 曹旭东
Q:如何评价端到端?智己与Momenta的端到端和友商比较有什么差别?
曹旭东:今年,端到端大模型概念很火。实际上,行业里端到端大模型是多条途径,包括横向、纵向,但真正做到这些的并不多。一些所谓的端到端大模型,只输出横向,没有纵向输出。但我们的端到端是比较完整体的端到端:首先是一段式,感知和规控是完全打通的;其次,我们端到端轨迹同时控制横向与纵向,相当于横纵向通过大模型同时得到很好的优化,在智能性、舒适性、安全性上都能达到了更高的天花板水平。
我们有一个概念,叫做有直觉 “有直觉”就是“车随心动”,想到什么,车就做了,而且非常丝滑。当你看到一个场景,你觉得这个车应该那样开的时候,它立刻马上那样开了,这就非常直觉。
智己联合Momenta打造的一段式端到端智驾大模型,不光是拥有“人的直觉”,而且拥有“海量的好司机直觉”。我们收集了海量数据,从中筛选好司机的驾驶行为,同时还有一些好的指标,比如,智驾的横向避让比人避让的多还是少?比人加速的多还是少?最终基于海量的数据分布,运用老司机、好司机的驾驶行为指导智驾学习。当然,不仅仅是老司机、好司机的行为,还有绝大部分被认可的驾驶行为习惯。
Q:智己的一段式端到端大模型实现机制是什么样的?
李微萌:一段式端到端的技术路线非常好。五、六年前,大家还不觉得城市NOA这么快实现的时候,更多专注于高速高架NOA的研发。那时候有两个技术流派:一个技术流派是rule-based(基于规则),另一个技术流派就是我们和Momenta所坚定走的Data-Driven(数据驱动)的技术路线。今天,为什么有人是两段式端到端,我们直接做了一段式端到端?我们觉得一段式端到端一定是未来领先的。智驾到最后一定是像人一样开车,人开车的时候不会先认识这是瓶子,再做规划。
当年为什么有人选择rule-based,因为它可以快速的变成汽车的卖点给到用户。但是Data-Driven(数据驱动)要的训练量很大,一开始的起步没有那么的好,没有那么快,需要不停的累计学习。当时rule-based都已经把这些场景做出来了,可以做好。但今天我们来看,当年选择Data-Driven(数据驱动)是对的,因为智驾一定会实现城区NOA,以及L3、L4也会实现。
曹旭东:我们和智己对于数据驱动特别有信仰,Transformer在2018年就出来了,到2020年已经用Transformer做Planning(规划)。那时候,行业里很多人说用Planning做Planning,或者数据驱动做Planning,肯定是不太可能的。放到当时场景,有理由的,那时候发现用Deep Learning Planning(深度学习规划)做Planning,在有些场景会有惊艳的表现,但是也会在很多场景有很多匪夷所思的问题。我们研发体系和智己打磨,2021、2022年,到2023年初,我们才真正的把智己Deep Learning Planning(深度学习规划)做到量产。
现在回过去看,那时候我们做到的相当于现在行业里两段式端到端,只不过那时候没有流线的数据。为什么先做两段式,因为开发难度更小一些,先把两段式先做出来,在去年成功量产。我们用Deep Learning 做Planning比特斯拉更早,特斯拉今年上半年才上了端到端,Planning变成深度学习。今年,我们已经有两段式,再加上背后一整套研发体系的支撑,在今年成功实现一段式端到端。一段式端到端的优点天花板更高,缺点是研发难度更大,包括怎么Debug问题的可解释性以及怎么高效的解决问题,它需要很强的研发体系支撑才有可能做到。
贺锦鹏:两段式端到端和一段式端到端,行业各种各样的解释方式,有说各种各样模型堆叠在一起属于两段式或者多段式。我们在2023年苏州发布会讲过了”认知智能“和”感知智能“同样重要,基于这个前提,我们做了几种Planning的Deep Learning(深度学习)。那时候没有用两段式端到端的名词,结果两个模型的显示传递,现在行业所提到两段式端到端,不管什么样的技术,最终目的是能够拟人,并超越人。
《新机器智能》作者霍金斯被称为脑科学领域的科技怪人,他提出人脑运行机理类似于经验+预测大模型,跟我们当前大家所做的一段式端到端基本理念是一样,经验是做的训练、大数据,海量的优质的数据,预测是端到端本身的输出。不管对自己行为预测还是对周边障碍物预期目标轨迹的输出,也是完全暗合了人脑脑科学发展领域和趋势。这是我们认为的“为什么一段式端到端上限更高”,同时我们不排斥在有些模拟推理上工作内容也会叠加在端到端上。
Q:智己的“快慢系统”、“短期记忆和长期记忆”,与其他车企的区别是什么?
贺锦鹏:我认为现阶段大家比的是对行业技术趋势的理解,以及资源投入。如何实现快速迭代?各家会有差异化,这个答案不是标准答案。就行业趋势而言,是相同的,头部几家都在做一段式端到端大模型;难点是海量、优质的数据,以及怎么做快速迭代。在相同趋势的基础上,智己提出额外内容,通过“快系统”“慢系统”相互配合,通过仿真人脑,用“直觉推理+逻辑分析”的方式正确处理问题。快系统即直觉推理,善于直觉与经验快速处理问题,形成决策。这是我们认为有差异点的地方。后续我们也会和Momenta在增大云端总体算力,增强大模型的快速产出的能力。
Q:智己与Momenta的合作模式,两家如何配合?
郭辉:智己与Momenta的合作堪称行业典范,智驾领域强强联合模式建立起领先优势,把大家的优势组合起来,转化成最好的产品,给到用户极致的体验,这才是我们的终极目标。在整个合作过程中,Momenta基于深度学习、神经网络,以及数据方面的知识和能力,为智己带来了非常大的帮助。从智己角度来讲,我们在工程化方面的经验,包括对整车的理解,包括怎么能够让智驾系统在车上实现十万辆乃至更大规模的技术落地,我们要做大量的工作,无论从整车层级的系统性开发,抑或是硬件和底软相关的开发和验证,以及到最后测试过程中如何做好数据闭环,这些都非常重要。
曹旭东:智己和Momenta虽然是两个公司,但是胜似一个团队,整个合作迭代效率非常高。刚刚和郭博在聊,我们重点在讨论两个事,一个是如何超越智驾摩尔定律,之前说智驾摩尔定律两年十倍,但是我们追求是远比这个要高,可能两年一百倍甚至更快的速度,怎么实现这个目标?实现这个目标需要两边非常高的迭代效率,整个数据闭环的效率提升,可能从以月为单位加速到以周为单位,再以周为单位加速到天为单位,两边团队通过多年的合作形成默契后,这个效率提升放在任何一家公司,内部的团队能够达到这样的效率,都是非常凤毛麟角的,只有这个行业最高端的一部分的企业能够做到。
贺锦鹏:我们在2023年,花了八个月时间开通全国高速高架NOA;城市NOA 2024年初在上海首发,到9月底全新LS6上市开通全国无图城市NOA,在这个过程中经历过技术方案的切换,从原来的高精地图方案切换成轻地图或者无图,这个技术方案的变更非常大,挑战也非常大,八个月的周期,我们完成了全国无图的开通。从结果来看,双方的合作达到了预期目标,也证明早期决策是非常正确的。
关于主机厂如何平衡与开发商的关系,整车企业要不要做全栈,行业里有各种各样的声音。在早期的经典汽车时代,日本丰田、本田都是自研自造。后期,部分零配件自研团队成为独立的公司,开始做零部件。我们现在讲的汽车产业链和产业协同都是在这个时期形成。这就有点像三国时代,分分合合,分久必合,合久必分。我们认为,如何能够快速迭代,达到市场预期,就是最好的方案。
用端到端做L4是不是伪命题?
郭辉:从智己的角度来看,我们搭建的是全级别的智驾平台,支撑IM AD的智驾系统快速迭代。所以我们从一开始就选择了数据驱动这一条路。我们的L2、L3、L4采取了共平台开发策略,共享数据池和一段式端到端大模型。我们也是全国首个同时具备L2、L3、L4智能驾驶量产能力的品牌。
我们的理解是从L2到L3、L4,在技术上有相同的部分,也有不同的部分。我们刚才讲的是技术上的相同部分,在硬件架构上L2++、L3、L4完全可以做增量。举例,在今天L2++智能辅助驾驶上,现在是12个摄像头,加上三个毫米波雷达,加上一个激光雷达,增加冗余的摄像头,可以满足L3级自动驾驶需求。如果到L4级自动驾驶,需要增加三个激光雷达,当然也包括执行器要做一些增量配置,控制器的冗余配置也要做增量。此外,在架构上,还要做算法和安全增强,来做增量,我们有着非常清晰的路径。反过来说,L2++辅助驾驶,以及L3和L4级自动驾驶在技术上也有不同的部分,以L3级自动驾驶为例,核心是做好高速高架场景。L4级自动驾驶要求会更高,包含城区场景下能够脱手脱眼。从技术路径上,我们也会有不同,比如加更多的安全增强,这都是在合作中要考虑的。
曹旭东:补充一点,有一个说法L2++做得越好,距离L4越远,完全是伪概念,这个伪概念是曾经一小部分L4公司为了增加自己的所谓技术壁垒创造出来的概念,已经被证伪了。现在说的人已经不多了,甚至做L4的公司不好意思提这个说法了。
Q:智己在L3-L4方向上,是否参与了标准的制定?
王康:随着IM AD在自动驾驶行业里分量和地位不断提升,影响力不断扩大。很多国家相关部门、国家级检测机构均跟我们进行了高频交流,包括去年L3准入等行业标准的起草,我们都有深度参与。我们不仅要聚焦产品,同时也希望为中国自动驾驶不断向前发展,多做点贡献。
Q:智己的技术特点和竞品有什么不同?
郭辉:在智能化赛道,核心抓手是智能驾驶,可以认为它是技术底座。对于智己来讲,我们的品牌优势是灵蜥数字底盘。就以我们的“云台车身”为例,依托智驾系统对环境的精准感知,能够识别大曲率的弯道,对底盘进行智能调整,让乘客获得舒适平稳的驾乘体验。这是典型的跨域融合的例子,数字底盘也会用到智驾感知能力,同时在人驾情况下提供舒适的驾驶体验。这个例子说明了,我们可以把数字底盘和智能驾驶的优势融合在一起。当然,前提是我们的智驾技术要非常优秀,要在第一梯队,要有突出的表现。
贺锦鹏:补充一下,比如我们有灵蜥数字底盘,在城市开启高阶智驾,遇到调头工况时会用到灵蜥数字底盘的智慧四轮转向,让调头更轻松,实现更小半径的调头,我们认为智驾体验是否让用户感到舒适,有没有顿挫、均要有好的底盘来做“手脚,眼、脑”的协调工作,只有做到这样,才能算是真正好用的智能驾驶。
Q:智己LS6上市一个月表现怎么样?Model Y要改款了,你们担心吗?
李微萌:订单超三万多。这个月交付量会达到八千左右,下个月破万。中国品牌合围Model Y,合力把它拉下神坛,肯定是中国品牌最开心的事情。中国品牌各自把自己的看家本领拿出来,互相促进变得更好,让消费者有更大的获益。