01.高通向英伟达开了一枪
10 月 23 日,理想汽车和长城汽车的高管,一起出席了一场不寻常的峰会。
开会的地点在美国的夏威夷,召集这场会议的,是美国的芯片巨头高通。
主办方给了理想和长城汽车数十分钟时间,在全球科技企业面前,介绍自己的智能化布局。其中理想还挤进了高通的主会场,这是中国车企的第一次。
但凡对新能源汽车有所关注的人,对两个名字一定不陌生——高通 8295、英伟达 Orin X。靠着中国新能源车销量的快速增长,过去几年里,这两款芯片,让背后两家公司赚的是盆满钵满。
仅在 2023 这一年,高通在中国市场智能座舱芯片上的出货量,就有 226 万套,市场占有率超过 59%。同样受益的还有英伟达,今年新能源车 “卷” 的一个方向,是城区高阶智能驾驶的普及,从起售价 13 万元的零跑 C10,到 50 万的蔚来 ET7,Orin-X 覆盖了从经济型到豪华型的不同市场。
伴随着这股风潮,今年 9 月,中国市场销售的新能源车中,创纪录的有 11.56 万辆新车,装配了英伟达计算平台,预计年交付量,也是百万套的规模。随着中高阶智能驾驶的继续普及,英伟达的出货量还会继续增加。
本来这两家,一个主攻智能座舱,一个主攻智能驾驶,一起分享中国新能源市场增长的红利。但随着 AI 在车端的迅速铺开,端到端智驾、座舱大模型的部署,对车端算力的需求越来越高。汽车的电子电器架构也在进化,向着中央计算、跨域融合的方向发展。未来的汽车,可能只需要一个 “大脑”,就能完成所有的事情。那对于芯片来说,部署在座舱域的算力和部署在智驾域的算力,不是你替代我,就是我替代你
高通和英伟达,都想要成为未来汽车的这颗 “大脑”。当然要成为这颗 “大脑”,就必须有更好的综合能力,对芯片的性能要求也越来越高。
英伟达的方案,是继续堆高单颗芯片的算力,那就是 Thor。英伟达在 2022 年就发布了这款芯片的计划,AI 算力高达 2000 TOPS,是 OrinX 的八倍。这块芯片很快引来主机厂的兴奋,理想、小鹏、极氪、比亚迪、广汽昊铂,都做好了搭载计划。
除了算力翻了好几番外,和现在的 Orin 相比,Thor 具有算力隔离功能,能够将自动驾驶所需要的算力,和车载信息娱乐等功能隔离开来。还能同时运行 Linux、QNX 和安卓三种主流车载系统,也能互相隔离。英伟达就像建了一个超级大泳池,泳池被划分成好多个区块,各个区块互不影响,还能根据需求实时调整面积大小。
换句话说,英伟达想要做出的,是一块可以兼顾座舱、智驾需求的算力中心。但从最终的四个版型来看,Thor 似乎还无法成为 “舱驾一体” 的 “大脑”,原因就出在,算力还是不够。
随着开发的推进,和来自主要客户的需求,Thor 降低了单颗芯片的算力,逐渐衍生出这 4 个主要版型:
为什么单颗 2000TOPS 算力的芯片被搁置了呢,成本是很关键的一个因素。把芯片尺寸做大,成本的上升是指数级的,对于英伟达来说未必是难事,但对于汽车厂商的 BOM 成本来说,可能就承受不了了。
眼看着自己蛋糕差点被抢走的高通,早早便开始部署自卫反击策略,选择了不一样的路径。与英伟达不同,高通的策略,是针对座舱和智能驾驶,分别发布了两款芯片。这就是 10 月 23 日,高通发布的骁龙座舱至尊版平台,和 Snapdragon Ride 至尊版平台,前者用于智能座舱,后者用于智能驾驶。
高通方案的特点在于,车企如果在一辆车上同时搭配这两款芯片,可以选择将座舱和智驾芯片,整合为一块 SoC,两颗芯片算力互通,座舱芯片可以充当智驾芯片的算力冗余,智驾芯片则可以在算力多余的情况下,加持座舱系统的计算能力。
相当于是两个差不多大小的泳池,平时各干各的事儿,但需要的时候,两边可以互相调水用。这就解决了堆高单颗芯片算力,所带来的成本问题。
高通要做到两块芯片能力的整合,必须有更高的灵活性和自由度。这就有点像两个人,你也许可以训练他俩的默契程度,但要做到让两个人像一个人一样,用两个大脑来配合思考一个问题,或者精确调用四个胳膊、四条腿来做事就很难了。
另一个考验是能耗,如果两个人干活要吃四个人的饭,那并不适合装在电池驱动的移动设备上。比如现在流行的哨兵模式,一晚上可能就要消耗 3 到 4 度电,汽车智能化的场景下,很多类似的小功能,都需要调用芯片,降低芯片能耗,才能为更多的智能化功能留下空间。
要实现这两点,是一个非常复杂的系统工程,但在芯片本身的设计上,其中一个非常重要的基础,就是两款芯片,都用上了高通自研的 Oryon CPU。
一颗芯片的核心构造包括 CPU、GPU 和 NPU,其中 CPU 是整个系统的大脑,负责执行程序指令、处理数据,和控制其他组件的操作,自研 CPU 的架构,让高通能够实现两块芯片更高的配合度,相当于先把两颗大脑的内核统一了,其他问题也就好解决了。
自研 CPU,能让 SoC 不同计算单元之间,高度协同工作,提升了整体的计算效率。这么简单的解题思路,高通还需要什么呢,这就要说到中国车企的关键作用了。
02.高通 VS 英伟达,两种选择
高通的 Oryon 架构出现之前,移动设备领域,ARM 是最广泛使用的处理器架构。你能叫的上名字的厂商,什么英伟达、英特尔、高通、联发科,还有华为、苹果、三星,它们所生产的芯片都或多或少是基于 ARM 架构开发,以至于在行业里,ARM 被习惯性称作 “公版架构”。
一是因为架构技术成熟,公版架构经过了长时间、多方面的检验,形成了非常成熟的开发工具,芯片厂商可以利用现成的架构,加速产品开发周期,迅速进入市场。
二是因为 ARM 架构已经在市场上形成规模,主流的软件开发者,和硬件制造商,都在为它开发产品,芯片厂商选择它,能提高不同设备和系统之间的兼容性。
更重要的是,ARM 架构有相当大的灵活性,它有点像乐高,提供给你的是一块块结构简单,但设计考究的积木,芯片设计者呢,可以在的基础上发挥自己的巧思,任意组合拼装,做出自己想要实现的产品。
但到了人工智能时代,很多厂商开始尝试跳出 ARM 架构的框架,比如小鹏的自研芯片图灵,以及蔚来自研的智驾芯片神玑等等。催生这一变化的,是人工智能。
我们从主流的智驾方案中可以看到,AI 在其中的占比越来越高,需要一套能提供更高算力,同时与自家算法更匹配的芯片架构,于是公版架构的局限性开始体现出来了。
这就像是一场竞赛,智能驾驶选手们正忙着冲刺呢,当然需要一套与自己运动习惯更匹配的装备。用乐高来比喻的话,如果 ARM 想要继续做 AI 时代的乐高,那他恐怕要针对每家芯片的需求,有针对性的开发定制的乐高积木,或者给予芯片厂商授权,让他们能按照自己的需求,去修改积木。
ARM 当然也在这么做,但不是每家芯片厂商都有这个待遇在芯片架构的选择中,龙头企业英伟达仍然坚定沿用了 ARM,除了看中架构的成熟度以外,英伟达与 ARM 之间的关系,比高通更为紧密。
英伟达持有的是架构许可协议(ALA),允许英伟达基于 ARM 的指令集架构,自行定制设计处理器 IP 核;而高通持有的是技术许可协议(TLA),只允许购买 ARM 设计好的 IP 核来用,只能在上面进行少量修改。这让英伟达在与 ARM 的合作中,有了更高的自由度,英伟达可以成为那个享受定制待遇的参赛选手
虽然 ARM 也会定期更新架构,提供性能更好的产品,改良自己的 “积木”,让它更适合 AI 时代,但这些更新的重点,可能不完全符合高通的需求。英伟达是领跑者,高通是挑战者,因此需要比英伟达更强大的产品。
从成果来看,Oryon CUP 的架构有两个亮点,一是 2+6 的核心设计;二是取消了三级缓存,用高达 24MB 的二级缓存取而代之。这两项设计不但提升了性能,还降低了能耗。
这是怎么做到的呢,我们用同样在今年 10 月发布的,联发科天玑 9400 作为对比,这块芯片同样采用台积电第二代 3nm 制程工艺,不同的是 CPU 采用的是 ARM 公版架构,主核心为 Cortex-X925。
Oryon CPU 的主核心频率为 4.32GHz,且有两个。而联发科天玑 9400 只有一个主核心,且主核心的频率为 3.63GHz,低于 Oryon。
简单来说,这里的频率大小,就像是 CPU 的 “心跳” 速度,数值越高,表示 CPU 每秒能完成的工作越多能在主核心上分配更多资源,是因为 Oryon CPU 缩减了中小核心的数量。同样是八核,Oryon CPU 是 “2+6”,天玑 9400 是 “1+3+4”。
这是因为现有的 ARM 架构中,除了设计用于高性能运算的大核心外,还需要腾出空间来设计多个中小内核,用来在低运算需求和轻量化工作时调配。比如一个 APP 切入了后台,就不再占用能耗高的主核心来维持运算了,而是转给能耗低的中小核心。
根据自身技术特点和使用场景的需求,高通取消了中小核心,转而通过改进内存架构,具体来说就是扩大二级缓存的方式来提高性能,同时降低能耗。这又是怎么做到的呢?
想象一下,CPU 就像一个工厂的流水线,CPU 核心是工人,二级缓存就像是距离工人最近的工作台,工人工作(处理数据)时,需要使用各种工具和零件(数据信息)。如果这些工具和零件,都存放在工厂的仓库里,工人每次需要时都得去仓库拿,这样会花费很多时间在传输上(数据传输),降低效率、增加能耗。
Oryon CPU 分别给超级内核与性能内核,设计了 24MB 的超大二级缓存,相当于给工人提供了更大的工作台。其中 12MB 为两个超大内核专用,其他 12MB 的缓存分配给六个性能内核,相当于给能力更强的工人,分配了更大的工作台。
那么,工人就可以快速地从工作台上拿到需要的东西,不用每次都去仓库,减少来回跑动的消耗。所以,这种内存架构让 Oryon CPU 效率更高 ,同时还能更省电。作为对比,ARM 架构下的天玑 9400,二级缓存一共只有不到 4MB。
总体来说,骁龙至尊版汽车平台,对比上代产品骁龙 8295,CPU 和 GPU 性能都提升了 3 倍,而针对多模态 AI 设计的 NPU ,提升了高达 12 倍。对新能源车更加有针对性的架构设计,高通的新方案减少了无用核的能耗,不但性能提升,还降低了 44% 的功耗,这对新能源车降低整体功耗,有非常大的帮助,所有的非驱动能耗、比如前文提到的哨兵模式等,都会减少耗电量,开发者可以调用芯片来参与更多智能功能。
这样的自由度、性能提升和功耗降低,才让集成智驾和座舱功能,成为可能。
“我们现在座舱芯片更强大了,还能集成同样高性能的智能驾驶芯片。性价比高开发简单你不来看看吗?” 带着在座舱市场积累下的优势,以及单颗 SoC 完成舱驾一体的技术突破,再加上强大的 AI 计算能力,高通再次向英伟达,发起挑战。
03.回不去的高通
高通自研 CPU 架构的代价,是与 ARM 母公司的决裂。
为了做自己的架构,2021 年高通以 14 亿美元的价格,收购了一家名为 Nuvia 的初创公司。Nuvia 的主业就是 CPU 开发,服务于高性能计算芯片的设计,这都符合高通的期待,正是这家公司,后来帮助高通做出了 Oryon 架构
高通的自研,引发了 ARM 的强烈不满,毕竟高通是 ARM 的第二大客户,ARM 不会眼看着自己的江湖地位被撼动。在高通收购 Nuvia 的同年,2021 年,ARM 与高通在大洋彼岸对簿公堂,理由是 Nuvia 手中有 ARM 更为灵活的 ALA 协议,与英伟达一样,Nuvia 也能够在 ARM 的基础上做改良。
ARM 担心,这场收购可能使得高通绕过自己,获得与英伟达一样的许可,而这项许可,会帮助高通加速自己自研 CPU 架构的进度。双方就此开始来回拉扯、诉讼的过程中,ARM 在 2022 年 3 月中止了 Nuvia 的授权许可。但这个时候,无论有没有用到 ARM 的技术,高通都已将 Nuvia 的技术,整合到自身的产品中了。
双方的拉扯到今天都没有个结果,但高通自此走上了自研 CPU 之路。2023 年,高通全自研的 Oryon CPU 被造了出来,首次搭载在 PC 端芯片骁龙 X Elite 上。2024 年 10 月 23 日,高通开始推出第二代 Oryon CPU 产品,放到了更加广泛的移动端市场,手机、汽车。
汽车芯片是未来两年高通的重点市场,除了继续在座舱领域维持优势,高通还想要探入智能驾驶领域。对于高通来说,自研 CPU 是一条回不去的路。
高通对 ARM 的突破,也导致了高通和 ARM 母公司关系的彻底破裂。同样在今年 10 月 23 日,ARM 被爆出已经提前 60 天,向长期合作伙伴高通发出强制性通知,将取消高通的架构许可协议。
一旦失去 ARM 的授权,高通现在大部分的产品,比如 8155、8295,可能都得退出市场。自研 CPU 的这条道路上,高通可以说是背水一战。
但 Oryon CPU 要最终被市场接受,需要如 ARM 架构的芯片一样,形成一套自己的软硬件生态,形成自己的开发套件,这些都需要同合作伙伴共同搭建。
同时具备产品开发和软件开发能力的企业,尤其在汽车行业里,关键就是要获得中国车企的支持。这就不难理解,为什么理想汽车、长城汽车,会成为高通的座上宾了。
高通在峰会上宣布,将与谷歌合作,利用骁龙数字底盘和谷歌车载技术,提供打造生成式 AI 增强的数字座舱和软件定义汽车(SDV)所需的开发标准化参考框架。汽车主机厂中,未来奔驰和理想也会使用高通的骁龙座舱至尊版平台。
在智能手机时代,高通和英伟达就曾有过一战,最终以高通断供蜂窝通讯芯片结束,英伟达退出智能手机芯片的赛道。
单从性能上,英伟达的 Thor、高通的骁龙至尊版汽车平台,未来都能满足大算力和驾舱融合的要求,都有能力成为智能汽车的那颗大脑,但竞争的结果,很可能还是赢家通吃。双方又一次碰到了一起,这场芯片乱战才刚刚开始。