AI性能暴增35倍!英伟达发布全新LPUGPU不再是唯一主角!
栏目:行业动态 发布时间:2026-03-17
   当地时间3月16日,英伟达GTC 2026正式美国加州圣何塞召开。英伟达创始人兼首席执行官黄仁勋身披标志性皮衣登场,在长达两个半小时的主题演讲中,勾勒出

  

AI性能暴增35倍!英伟达发布全新LPUGPU不再是唯一主角!(图1)

  当地时间3月16日,英伟达GTC 2026正式美国加州圣何塞召开。英伟达创始人兼首席执行官黄仁勋身披标志性皮衣登场,在长达两个半小时的主题演讲中,勾勒出这家算力巨头从“芯片公司”向“AI基础设施工厂”全面蜕变的宏伟蓝图。

  面对市场对业绩持续性的高度关注,黄仁勋给出了极为强劲的预期:到2027年,英伟达新一代AI芯片的累计营收将正式跨入1万亿美元时代。这一数字是他去年预测的两倍。

  本次演讲的一大重点,当属备受期待的Vera Rubin AI工厂平台。与以往发布单芯片不同,黄仁勋此次展示的是一个包含7款全新芯片的“全家桶”系统。他强调:“过去提到HoppeKaiyun官方入口r,我会举起一块芯片,那很可爱。但提到Vera Rubin,大家想到的是整个系统。”

  Vera CPU:全球首款专为“AI智能体时代”与“强化学习”设计的处理器。它搭载88个自研“Olympus”核心,性能较传统CPU快50%,能效提升达2倍。黄仁勋将其比作智能体系统背后的“指挥与调度中心”,负责管理海量并发任务。

  黄仁勋展示了基于这些组件构建的Vera Rubin NVL72机架,它集成了72颗Rubin GPU和36颗Vera CPU。相比上代Blackwell平台,训练大型混合专家模型所需GPU数量仅为其四分之一,推理吞吐量/瓦特提升高达10倍。他骄傲地宣称,通过极致的软硬件协同设计,在短短两年内,英伟达将1GW数据中心内的Token生成速率提升了350倍。

  特别值得重点介绍的是,黄仁勋展示Vera Rubin平台的“全家桶”时,还推出了一款看似小巧却极具战略意义的芯片——Groq 3语言处理单元(LPU)。这款源自英伟达去年12月以约200亿美元收购Groq核心技术资产的芯片,被黄仁勋定位为Rubin GPU的“推理协处理器”,成为了Vera Rubin平台的又一基石。

  黄仁勋解释了引入LPU的战略考量时指出:在AI智能体时代,推理需求正加速分化。面对需要极高交互性、超短响应时间的任务,传统GPU架构存在性能冗余。为此,英伟达引入了专注于“极致低延迟Token生成”的LPU架构。

  本文将深入解析Groq 3 LPU的技术细节、混合推理架构以及它对AI推理市场的深远影响。

  Groq 3 LPU最引人注目的特点,在于其彻底颠覆了传统AI加速器的内存架构。

  与大多数依赖HBM(高带宽内存)作为工作内存层的AI加速器不同,每个Groq 3 LPU芯片集成了500MB的片上SRAM(静态随机存取存储器)。这种内存此前主要用于CPU和GPU的超高速缓存,从未在AI加速器中担当主角。

  这500MB SRAM看似“微不足道”——与每个Rubin GPU上容量高达288GB的HBM4相比,仅为其1/500。但SRAM的关键优势在于带宽:这块SRAM可提供高达150TB/s的带宽,而HBM4的带宽仅为22TB/s。这意味着,对于带宽极度敏感的AI解码操作,Groq 3 LPU的带宽是传统HBM的近7倍。

  英伟达超大规模计算副总裁Ian Buck对此解释道:“让我们对比一下这两种处理器:GPU拥有288GB内存,但带宽是22TB/s;LPU只有1/500的容量,但带宽达到了惊人的150TB/s。对于需要极致低延迟的token生成任务,LPU的带宽优势无可替代。”

  黄仁勋描绘了GPU与LPU协同工作的未来图景:Vera Rubin负责需要海量计算的“预填充”阶段,而Groq LPU则负责对延迟极度敏感的“解码”阶段。在这种混合架构下,系统的推理吞吐量与功耗比最高可提升35倍。他建议企业客户,若工作负载包含大量高价值的Token生成需求,应将25%的数据中心规模配置给Groq。据悉,由三星代工的Groq LP30芯片已进入量产,预计今年第三季度出货。

  在GTC主题演讲中,黄仁勋特别提到三星电子,感谢其为英伟达加快生产Groq 3 LPU芯片。这是英伟达首次公开确认三星晶圆代工部门参与下一代AI芯片生产。

  “三星为英伟达生产Groq 3 LPU芯片,并正在加快生产速度,我非常感谢三星。”黄仁勋在演讲中表示。他进一步透露,该芯片将于2026年第三季度正式出货。

  这一合作标志着三星与英伟达的伙伴关系从存储领域(HBM)正式扩展到晶圆代工领域。三星电子当天在GTC大会现场展出了第七代HBM产品“HBM4E”和垂直堆叠芯片“核心裸片”,积极宣传其在存储和代工领域的双重合作。

  SRAM的优势背后是残酷的工程权衡。SRAM的生产成本远高于DRAM,且占用更大的芯片面积。这导致单个Groq 3 LPU仅能提供500MB内存,远不足以独立运行万亿参数级别的超大AI模型。

  英伟达的解决方案是:用数量弥补容量。公司将256颗Groq 3 LPU集成到一个Groq 3 LPX机架中,提供128GB的片上SRAM和40 PB/s的推理加速带宽。该机架采用液冷设计,通过每个机架640TB/s的专用扩展接口将芯片互联。

  Ian Buck坦承这种设计的局限性:“你需要很多芯片才能获得那种性能。从每芯片的token吞吐量(经济性)来看,LPU其实相当低。”

  既然LPU有容量短板,英伟达为何要大费周章将其纳入Rubin平台?答案在于推理任务的分工协作。

  预填充阶段:处理输入提示(prompt),并行计算所有输入token,生成中间状态。这一阶段需要强大的浮点运算能力和大容量内存来存储键值缓存。

  解码阶段:逐个生成输出token,每一步都依赖于之前生成的token。这一阶段对延迟极度敏感,且受内存带宽限制严重。

  英伟达的策略是:让Rubin GPU负责预填充阶段,让Groq LPU负责解码阶段。

  Rubin GPU利用其288GB HBM4和强大的浮点运算能力,处理复杂的注意力机制(Attention)计算和数学运算,存储大型键值缓存

  Groq LPU利用其150TB/s的超高带宽,处理前馈神经网络(FFN)层计算,实现极低延迟的逐token生成

  随着AI从单一大模型走向多智能体系统(multi-agent systems),推理延迟的要求发生了根本性变化。

  Ian Buck描绘了这样的未来场景:在多智能体系统中,AI代理越来越多地与其他AI进行交互,而非与查看聊天窗口的人类交流。对人类而言看似合理的每秒100 tokeKaiyun官方入口n生成速率,对AI代理来说却如同蜗牛爬行。

  根据英伟达官方基准测试,当运行达到1万亿参数规模的大语言模型时,Rubin GPU与Groq LPU组合相比上代方案,推理吞吐量每瓦特提升高达35倍。

  具体到成本层面,英伟达强调,这一组合方案运行超大AI模型时,每百万token的成本为45美元,每秒token处理量达到500。英伟达声称,这将使超大AI模型服务的创收机会增加10倍。

  分析认为,“通过结合Rubin GPU和Groq LPX,英伟达终于进入了推理市场——一个它从未成为第一的市场。”

  长期以来,英伟达的GPU在训练市场占据绝对主导,但在低延迟推理领域,面临着Cerebras、Groq(收购前)等挑战者的竞争。Cerebras的晶圆级引擎同样集成了大量SRAM,为先进模型提供低延迟推理,甚至吸引了OpenAI等大客户。

  收购Groq技术并将其整合到Rubin平台,是英伟达对竞争者的直接回应。正如Ian Buck所说,公司希望“通过这两种处理器的结合,走向多智能体未来”。

  对于现有英伟达客户而言,引入Groq LPU的一个重要优势是软件兼容性。

  Groq 3 LPX机架与Rubin平台的结合“无需修改现有的NVIDIA CUDA软件生态系统”。这意味着,企业客户可以在不重写代码的前提下,通过增加LPU机架来显著提升推理性能。

  Toms Hardware分析指出,Groq 3 LPU的加入可能降低Rubin CPX推理加速器的作用。Buck暗示,公司目前专注于将Groq 3 LPX机架与Rubin集成,因为两者都旨在提供相似的推理性能增强,而LPU不需要每个Rubin CPX模块所需的大量GDDR7内存。

  在客户层面,PCMag预测,最大的AI公司——包括OpenAI、Anthropic、Meta——将成为这项技术的首批采用者。这意味着,未来你的聊天机器人查询或图像生成请求,可能正由Rubin GPU和Groq LPU协同处理。

  Groq 3 LPU的发布,标志着英伟达对AI计算的理解进入新阶段。当行业还在争论“内存容量vs内存带宽”孰轻孰重时,英伟达给出了一个务实答案:全都要,但分工协作。

  Rubin GPU负责需要大容量内存和复杂计算的预填充阶段,Groq LPU负责需要极致低延迟的解码阶段。两者通过NVLink和Spectrum-X高速互联,在Dynamo软件框架的调度下,如同一台计算机般协同工作。

  对于企业客户而言,黄仁勋的建议很明确:如果你的工作负载包含大量需要高交互性的token生成任务,应考虑将数据中心的一部分规模配置给Groq LPU。在智能体AI成为行业下一个“拐点”的当下,这种混合架构可能是保持竞争力的关键。

  而对于三星而言,拿下Groq 3 LPU的代工订单,标志着其在AI芯片供应链中的地位从“存储供应商”升级为“全面制造伙伴”。正如黄仁勋所言:“谢谢三星。”这句话背后,是AI算力生态日益复杂的分工与合作。