从自动泊车到全自动驾驶,从简单的辅助系统到复杂的决策算法,智能驾驶已经成为衡量一款新车是否先进、是否具有吸引力的重要标准之一。对于各大车企而言,加大在智能驾驶领域的研发投入已成为必然趋势。
随着又一届广州车展的召开,汽车产业的最新技术和趋势再一次在这里汇聚,各大车企竞相展示创新成果,高阶智能驾驶技术的竞争愈发激烈,端到端和车位到车位等关键词也站在了新一轮技术竞争的C位。。
其中,理想汽车展示了其最新的智能驾驶技术——端到端+VLM双系统方案。与此同时,理想汽车正式发布了其车位到车位智驾功能。
借助广州车展引发的广泛关注,理想汽车近日举办了端到端智驾体验日活动。为了更深入地了解这一技术的实际应用效果,盖世汽车通过在真实城市道路的实际体验,对理想“端到端+VLM”加持下的车位到车位功能的真实能力,做了一次实地测试。
图源:理想汽车
“车位到车位”功能实测
在体验过程中,我们选择了一段包含多种路况的路线,包括城市狭窄、拥堵路段、环岛、高速公路以及园区内部道路等。就实际操作而言,用户只需在车载系统中输入目的地车位信息,车辆便能够自动规划路线并引导前往。在到达目的地后,车辆也能够自动识别并泊入指定的车位。
具体来看,在上车选定导航路线之后,点击“一键智驾”或者跟语音激活,车位到车位的过程就能直接启动。此后车辆,顺利驶出车位、地库、狭窄的小区道路,遇到闸机车辆也会自动停下,等缴费抬杆之后继续行驶,无需接管。
理想汽车透露,无论是露天停车场、园区内,还是多层的地库、立体停车场,其车位到车位功能都可以支持。
行驶到公共道路上后,智驾系统也可以应对环岛、掉头和各种施工场景,复杂的博弈和交通灯情况下,通行也较为顺畅。
这背后的技术支撑是理想基于端到端+VLM双系统的智能驾驶方案,简单来看,端到端不依赖规则式逻辑,具备更拟人化的驾驶方式,VLM则具备理解物理世界复杂的交通环境和中文语义的能力,赋予了智驾车辆更强大的通行能力。
对于U型掉头功能,理想汽车方面告诉盖世汽车,端到端基于人类司机数据,在不同的掉头场景中(有无中央隔离带,宽窄车道等)都可以输出一条合理轨迹,不再强依赖于导航信息和前后车道的拓扑连接关系。此外端到端具备更强的侧向感知能力(看得远+看得准),在掉头过程中,可以更准确识别和预测对向直行车辆的行驶轨迹并做出避让。
更值得注意的是理想汽车全国高速收费站ETC通行能力,其旨在打通城市与高速驾驶场景。据理想汽车介绍,该功能不限范围、无需学习过程,全国用户都能用。
理想汽车方面指出:“通过端到端+VLM 架构,除了让系统开得像人以外,还能理解真实世界复杂的语义信息,在实现ETC自主通行这个场景中,也是由VLM识别收费站及ETC通道位置,引导端到端系统向ETC通道行驶并通过闸机。”
此外还有路边起步、环岛通行等功能 ,尽管当天天气状况不佳,道路环境更加复杂,在整个行驶过程中,理想汽车的智能驾驶系统仍然表现出了较高的稳定性和准确性,最终顺利泊入预设车位。
目前,理想基于端到端+VLM的车位到车位功能,已经开启了万人团和全国门店的试驾车的推送,并将于11月底随OTA 6.5版本车机系统向AD Max用户进行推送。
快慢双系统
在过去一年中,理想汽车的智能驾驶技术经历了快速发展,从全场景NOA能力的实现,到无图NOA的推出,再到端到端与VLM技术的结合,共完成了三代技术的迭代。这一过程中,理想汽车在智能驾驶领域的地位和角色发生了转变。
理想汽车之所以能有如此表现,关键在于其创新策略——采用端到端与VLM相结合的双系统架构方案。
据理想汽车介绍,基于丹尼尔·卡尼曼(Daniel Kahneman)在《思考,快与慢》中提出的人类两套思维系统理论,理想汽车将端到端系统(相当于系统1)与视觉语言模型(VLM,相当于系统2)融合应用于自动驾驶技术方案中,旨在赋予车端模型更高的性能上限和发展潜力。
其中,系统1,即端到端模型,是一种直觉式、快速反应的机制,它直接从传感器输入(如摄像头和激光雷达数据)映射到行驶轨迹输出,无需中间过程,是One Model一体化的模型。
这种设计确保了信息的高效传递、推理的高效计算以及模型的快速迭代能力。
系统1端到端模型的输入包括摄像头和激光雷达,通过为英伟达Orin-X专门优化的卷积神经网络(CNN)主干网络提取和融合多传感器的特征,并投影到BEV空间。
为提升模型的表征能力,理想专门设计了记忆模块,不仅有时间维度的记忆,还有空间维度的记忆。除了摄像头和激光雷达,理想还在模型的输入中加入了车辆状态信息和导航信息。最终经过Transformer的编码后,与BEV特征共同解码出动态障碍物、道路结构、通用碍物,并规划出行车轨迹。
系统2,则是由一个22亿参数的视觉语言大模型(VLM)实现,它的输出给到系统1综合形成最终的驾驶决策。
理想方面表示,VLM整体的算法架构由一个统一的Transformel模型组成,将提示词(Prompt)文本进行Tokenizer编码,然后将前视120度和30度相机的图像以及导航地图信息进行视觉信息编码,通过图文对齐模块进行模态对齐,统一交给Transformer模型进行自回归推理。
除此之外,理想还运用云端世界模型对系统1和系统2进行能力的训练和考试,从而使这套系统能够快速迭代。
理想将视觉语言模型成功部署在车端芯片,意图使自动驾驶能像人类一样深刻理解物理世界的复杂交通环境和中文语义,并且辅助端到端,解决安全、导航、法规和舒适等方面的自动驾驶业内难题。
端到端+VLM架构已经得到越来越多车企和智驾供应商的青睐,不过其在自动驾驶领域的应用也面临诸多挑战,并非谁都玩得转。
目前,端到端模型和VLM都需要大量的高质量数据进行训练。然而,获取并标注这些数据既耗时又昂贵,且需要确保数据的多样性和代表性,以覆盖各种驾驶场景和环境条件。此外,数据处理和存储也是一大挑战,需要高效的算法和硬件支持。端到端+VLM模型的复杂性,不仅增加了研发成本,还对车载计算平台的算力提出了更高要求。
作为参考,理想汽车的智能驾驶累计里程已达26.7亿公里,训练算力目前已达6.83EFLOPS,并且在年底将超过10EFLOPS。基于超26亿公里智驾里程的打磨验证、不断增长的训练算力以及世界模型在云端的提前部署,理想汽车端到端+VLM智能驾驶系统得以实现快速迭代。
第一梯队的智驾竞争
端到端已经成为企业智驾能力的一道分水岭,正在从技术路线之争进入了落地体验之争,而从头部智驾企业的动态来看,这场落地体验之争,其核心应用之一就是车位到车位。
理想汽车智能驾驶技术规划负责人文治宇在接受盖世汽车采访时表示:回顾过去两年时间内,大家的关注点是去实现各个智驾使用场景的功能实现,比如高速NOA、城市NOA等。
“但当我们尝试把它们串联起来的时候,也会发现之前的一些思路能够解决部分断点,但解决的方式不够“优雅”或者说面向全国所有的泛化场景,解决效率不够高。”
这也是理想和行业对端到端、“车位到车位”更加关注的原因之一。
“车位到车位”功能要求自动驾驶系统能够从指定的起始车位自动行驶到目标车位,并在此过程中处理各种复杂的交通情况和障碍物。这一功能的实现对于现有的智驾系统来说是一个巨大的挑战,因为它需要系统具备高度的环境感知、决策规划和执行控制能力。
端到端技术在车位到车位的应用中发挥了重要作用。通过端到端技术,车辆可以在没有预先设定路线的情况下,通过实时感知周围环境和障碍物,自主判断和规划行驶轨迹,从而实现自动泊车和进出车位的功能。这种技术使得车辆在停车场内的操作更加拟人化,能够更好地适应复杂的环境变化。
此届广州车展上,多家车企展示了基于端到端的车位到车位功能。
其中小鹏汽车宣布基于小鹏图灵AI智驾体系,成为行业首家用一套智驾软件实现“车位到车位”的企业。小鹏的方案以一套软件逻辑,打通地库、闸机、城区道路等场景,未来将在AI天玑5.5.0上全量推送。
小米汽车也在广州车展上展示了其“车位到车位”的智驾能力,按照小米规划,从11月16日起,小米的车位到车位智驾功能会开启定向内测邀请,从 12 月底,则会开启开启先锋版推送。
小米汽车方面介绍,后续推送的“车位到车位”智驾功能,其路线建立过程是完全在后台自动创建地图和路径。比如通勤路线,只要上下班来回,人驾各一次通过停车场,不需要额外任何的引导操作,即可在后台帮用户建好停车场地图。
还有极氪同样发布其D2D车位到车位领航辅助功能,预计在2025年1月左右分批推送。
“车位到车位”功能正在成为评估端到端性能的关键指标之一,某种程度上,车位到车位已经成为车企智驾能力的一块试金石。
近段时间,有不少车企宣布进入智驾第一梯队,这一队伍现在变得越来越拥挤,玩家们也各有自己的拿手好戏,小鹏云端大模型、蔚来NWM世界模型、理想端到端+VLM的双系统方案等。在新一轮以端到端为核心的智驾竞争中,距离行业格局稳定,距离尚远。