高速版NoA和城市NoA统一在端到端架构下训练,会造成城市NoA表现的回退(某种程度上高速驾驶数据是对城区驾驶数据的污染),但理想在近几个月“基本解决了问题(但无法透露具体细节)”,目前在训练模型进一步稳定。
理想目前全量推给用户版本,端到端网络是用500万Clips(视频片段)训练的,内部测试的版本使用6-700万Clips,年底预计用1000万Clips,用多少Clips的主要限制是云端算力储备。
理想的智驾方案是端到端+VLM,两者的工作逻辑是VLM一直提供信息给端到端决策做参考,但有时候VLM信息被使用的权重很低,有时候权重很高(比如在学校、高架、施工之类)。何时、何种场景高权重地使用VLM的信息,是由人类工程师来定义的,但按产品经理的说法,不是用手动规则而是通过训练神经网络来实现。
高速ETC这个场景理想是靠VLM的能力去解决的,VLM这个更大的模型去识别前面是不是收费站,哪条道是ETC,哪个道能走,以及有没有临时管制。
相比于端到端在训练时用大量数据,VLM对数据使用效率更高。比如端到端解决一个场景可能需要用几万到几十万Clips训练,VLM可能只要几千就够了。另外端到端网络目前运行速率10hz,VLM慢一些,但最近从3-4hz优化到了5-6hz。
数据很重要,所以车的保有量很重要,对数据进行自动化的收集、标注也很重要,理想目前数据标注自动化率在95-97%之间,剩下的主要是人工复检。并且端到端和VLM的自动化标注不太一样,提取VLM相关的Clips的时机通常会早一点,因为VLM帧率低,要多看一会儿。
理想对万人团的数据回传很倚重(基本都是智驾重度用户),针对他们定制了一套对舒适维度更严格的数据回传触发标准,每个万人团用户大概每2-3分钟就会触发一次带原始数据的Clips上传,每个Clips时长15秒,数据量一般在几百兆大小,流量成本不到一块钱,但因为总量大,数据上传的流量成本非常高。