电动自动驾驶汽车(图片来源:印度海得拉巴国际信息技术学院)
该车辆运用了基于SLAM(即时定位与地图构建)技术的点云地图测绘方法,旨在构建详尽的校园环境地图。通过LIDAR技术引导,车辆能够获得实时的状态估计信息,为驾驶过程中的精确定位提供有力支持。此外,车辆还采用了基于模型预测控制(Model Predictive Control)的路径优化技术,确保能够实时生成最优的行进路线。通过数据驱动模型的应用,可以对这些行进路线进行初始化处理,进而优化推理时间。
人类导航通常需要依赖情境线索和地标的口头指示,例如“在白色建筑物处右转”或“在入口附近停车”。同理,自动驾驶系统也需要精准的定位信息,一般也采用高分辨率的GPS或高精地图来实现。不过,此类方法的计算量通常很大。
OpenStreetMaps(OSM)等开源拓补地图有时可用作地理定位技术的替代方案。虽然此类地图比较轻便,但是定位精度却仅能达到6至8米,而且可能还会确实动态特征信息,例如,开放的停车场。IIIT Hyderabad则致力于研究运用现实世界地标的方法,旨在模拟与人类类似的导航流程。
该学院采用基础模型,将对世界普遍语义的理解整合进导航任务。通过在开源拓补地图中添加基于语言的地标信息,例如“一条长椅”或“一个足球场”等,该系统能够灵活地识别此类其未经训练的地点。该方法让该系统能够对不熟悉的环境有一般性认知。此外,该学院的机器人研究中心(Robotics Research Centre)将成熟方法与较新的技术相结合,以解决定位和导航方面的挑战,并采用内部研发的原型进行展示。
自动驾驶导航系统涵盖地图测绘、定位及规划功能。传统系统采用模块化管道或端到端架构,并且越来越多地将语言处理技术集成进来,以增强可解释性。此类系统能够依据自然语言导航指示(例如向右转并在食品摊附近停车)来进行导航,其核心在于实现无碰撞的路径规划。然而,传统系统通常会将目标预测、感知与规划分开来,有可能会引发结果不一致以及对感知模型的依赖。
为了解决上述问题,IIIT Hyderabad采用端到端训练法,让预测结果与规划目标保持一致。此外,还研发了一个轻量化的视觉语言模型,以将视觉场景的理解与自然语言命令结合。该模型依据车辆的视角视图和编码指令,以预测目标的位置。
在确保预测结果与真实世界的约束相符的过程中,可能会出现诸多挑战。例如,“停在红色车后面”等指令可能表示不可驾驶区域。为此,IIIT Hyderabad将一个感知模块与一个定制规划器整合在一起,其中规划器配备了一个神经网络框架,其可微分特质使其能够开展分阶段训练,从而提升预测精度及规划结果。此种方法让系统内的所有组件协同工作,以便在现实世界条件下实现更优的性能。