统治AI十年的英伟达要被谷歌NPU掀桌子了?
栏目:行业动态 发布时间:2026-04-24
   从A100到H100,再到H200,GPU像一条不断扩展的算力工业流水线,把深度学习从实验室推向大模型时代。  但一个被长期忽视的问题是:GPU最初并不

  

统治AI十年的英伟达要被谷歌NPU掀桌子了?(图1)

  从A100到H100,再到H200,GPU像一条不断扩展的算力工业流水线,把深度学习从实验室推向大模型时代。

  但一个被长期忽视的问题是:GPU最初并不是为AI而生,是为图形渲染而生。

  产业开始向另一个方向转型,重新设计计算范式,一种依靠专用计算芯片设计逻辑(ASIC)的算力芯片——NPU诞生了!

  美国时间4月22日,在Google Cloud Next活动上,谷歌推出两款第八代NPU芯片,TPU8t、TPU8i分别用于AI训练和AI推理。TPU8t每瓦性能上比前代产品提升124%,TPU8i提升117% ,TPU8i的每美元性能提升80%。业内评论,“其如果对外出售,或将取代英伟达”。

  全球云服务市场的“老大”亚马逊,在2018年发布首款用于推理的 NPU—Inferentia1,并在2023年推出了第二代Inferentia2,并在去年底发布用于训练的NPU,Trainium3;排名第二的微软云也在2023年发布了首款云端NPU(Maia 100),并在今年初发布了Maia 200。

  国内亦如此。阿里在2019年发布首款NPU(含光800),专注云端推理和视觉计算;2018 年开始百度发布基于ASIC逻辑的自研AI芯片昆仑1,并已迭代至昆仑芯3代。

  2026年,算力芯片的大客户,字节跳动也将对NPU下手。外媒透露字节跳动已开始与三星洽谈自研NPU芯片,代号SeedChip,专为AI推理任务设计,预计2026年3月底前交付首批样品。

  2026年的趋势是芯片不再是一整块,谷歌、字节、阿里们想在英伟达的平台上,“拼”入自己的专用模块。

  要理解NPU和GPU的差别,可以先从它们的底层逻辑开始,NPU广义上属于专用处理芯片(ASIC),而GPU属于通用处理芯片。

  芯片按设计逻辑可以被分为三类,通用计算芯片、FPGA(可重构硬件)和ASIC (专用处理芯片)。

  第Kaiyun科技有限公司href=https://www.xiaoducaiwu.com target=_blank>Kaiyun科技有限公司一是通用计算芯片,诸如CPU和GPU,一条指令驱动成百上千线程并行执行,非常擅长处理大规模并行计算,通常不改变硬件,而是通过软件(CUDA)改变“任务调度”。这就是为什么大家都说英伟达其实是一家软件公司,GPU核心特征是高度可编程、适配所有计算任务、架构复杂(需要很多缓存)。但代价是通用性越强,效率越低。

  第二类是 ASIC(专用定制芯片),它是为了某一个特定任务(比如识别图像、处理语音)而专门定制的,数据流固定、能效极高,是一种“把算法固化进硅片”的设计方法。缺点是一旦电路压印在硅片上,功能就无法更改,不够灵活。ASIC的本质是把AI计算从“软件问题”变成“物理问题”,但它也意味着灵活性最低、更新周期长。

  第三类是FPGA(可重构硬件),其可以通过“重新布线” 改变芯片硬件布局和改变软件代码,来改变芯片功能,像一套“乐高积木”,它介于通用和专用之间,常用于算法迭代快的原型开发或边缘计算。

  GPU功能强大,可以并行做很多事,要是把这些能力都用上,可以无比强大,但是单价更高,也更费电,而 NPU只做一件事或一类事,功能单一,但是单价低也更省电。

  在2015年,谷歌就开始研究NPU,当时,谷歌发现一个问题:其数据中心中,神经网络推理需求暴涨,但GPU效率不足。

  于是,谷歌内部启动了TPU项目。2015年第一代仅用于数据推理的TPU诞生,2018年对外开放Google Cloud TPU,2020–2024年开始进入“训练+推理一体化”阶段。

  2026年,随着TPU 8发布,谷歌首次明确分成两条路线t和用于推理的TPU 8i,这背后反映的是一个更大的趋势:AI算力的重心,正在从训练转向推理。

  行业机构预计,到2030年,75%-80%的AI算力将用于推理。这意味着GPT训练一次,推理运行数亿次。因此,谁能把 1 分钱的推理成本压到 0.1 分,谁就是未来的算力王者。

  谷歌的两款芯片分别由两个合作方设计,TPU8t由博通设计, TPU8i由联发科设计,两颗都或将基于台积电2nm工艺,预计2027年底量产。TPU 8最核心变化在于试图解决“内存墙”问题,通过更高带宽HBM、更密集的片间互联。

  NPU并不是谷歌独角戏,亚马逊、微软等都有NPU产品,而国内华为昇腾(Ascend)、寒武纪、地平线等也有类似产品发布。

  以前云厂商买英伟达的“全家桶”,现在他们想买英伟达的“地基”,自己盖“房子”。

  最重要的问题是生态,英伟达的CUDA仍然是行业标准,CUDA 有 400 万开发者。另一方面,TPU功能太过单一,GPU可以用于AI训练和推理、图形处理和渲染,但是TPU的功能单一。

  业内人士普遍认为,NPU的意义不是“替代GPU”,而是重新定义AI算力结构。未来可能出现,GPU作为通用算力底座、TPU/NPU作为AI专用加速层。

  这就像是过去十年,大多手机厂商的竞争。当手机里最重要的Soc芯片已经被高通、联发科垄断,具备强大的护城河,自研Soc芯片需要付出很大的成本且面临高风险。

  那么,想要有独特优势、在市场上更具竞争力,大多数手机企业不会选择自研Soc芯片,而是针对Soc芯片的局部功能做优化。

  此前,三星、vivo、OPPO等手机厂商都选择自研用于提升拍照能力的NPU芯片,实现差异化,比如vivo蓝图影像芯片、OPPO马里亚纳 MariSilicon芯片。

  云厂商的算力竞争也接近白热化,越来越多用于训练和推理的NPU将会出现,并不断提升能力。

  未来真正的算力产业分水岭将是:谁能把AI推理成本压到极致,谁就掌握下一代算力时代主动权。返回搜狐,查看更多