晶圆级芯片,宛如一颗璀璨的科技之星,闪耀着未来的光芒。它将芯片制造推向了一个全新的高度,突破了传统芯片制造的诸多限制。在晶圆级上进行芯片制造,能够实现更高的集成度、更低的成本以及更优异的性能。每一片晶圆都像是一个微型的芯片工厂,蕴含着无数微小而精密的电路。随着技术的不断进步,晶圆级芯片将在电子设备、人工智能、物联网等领域发挥越来越重要的作用,引领着科技的发展潮流,成为未来科技世界中不可或缺的关键元素。
今天,大模型参数已经以“亿”为单位狂飙。
仅仅过了两年,大模型所需要的计算能力就增加了1000倍,这远远超过了硬件迭代的速度。目前支持AI大模型的方案,主流是依靠GPU集群。
但单芯片GPU的瓶颈是很明显的:第一,单芯片的物理尺寸限制了晶体管数量,即便采用先进制程工艺,算力提升也逐渐逼近摩尔定律的极限;第二,多芯片互联时,数据在芯片间传输产生的延迟与带宽损耗,导致整体性能无法随芯片数量线性增长。
这就是为什么,面对GPT-4、文心一言这类万亿参数模型,即使堆叠数千块英伟达 H100,依然逃不过“算力不够、电费爆表”的尴尬。
目前,业内在AI训练硬件分为了两大阵营:采用晶圆级集成技术的专用加速器(如Cerebras WSE-3和Tesla Dojo)和基于传统架构的GPU集群(如英伟达 H100)。
晶圆级芯片被认为是未来的突破口。
晶圆级芯片,两大玩家
在常规的芯片生产流程中,一个晶圆会在光刻后被切割成许多小裸片(Die)并且进行单独封装,每片裸片在单独封装后成为一颗完整的芯片。
芯片算力的提升方式,是依靠增加芯片面积,所以芯片厂商都在不断努力增加芯片面积。目前算力芯片的单Die尺寸大约是26x33=858mm2,也就是接近曝光窗大小,但是芯片的最大尺寸无法突破曝光窗的大小。
曝光窗大小多年来一直维持不变,成为了制约芯片算力增长的原因之一。
晶圆级芯片则提供了另一种思路。通过制造一块不进行切割的晶圆级互连基板,再将设计好的常规裸片在晶圆基板上进行集成与封装,从而获得一整块巨大的芯片。
未经过切割的晶圆上的电路单元与金属互连排列更紧密,从而形成带宽更高、延时更短的互连结构,相当于通过高性能互连与高密度集成构建了更大的算力节点。所以,相同算力下,由晶圆级芯片构建的算力集群占地面积对比GPU集群能够缩小10—20倍以上,功耗可降低30%以上。
全球有两家公司已经开发出了晶圆级芯片的产品。
一家是Cerebras。这家企业从2015年成立,自2019年推出了WES-1,之后经过不断迭代,目前已经推出到第三代晶圆级芯片——WES-3。
WES-3采用台积电5nm工艺,晶体管数量达到夸张的4万亿个,AI核心数量增加到90万个,缓存容量达到了44GB,可以支持高达 1.2PB 的片外内存。
WES-3的能力可以训练比GPT-4和Gemini大10倍的下一代前沿大模型。四颗并联情况下,一天内即可完成700亿参数的调教,支持最多2048路互连,一天便可完成Llama 700亿参数的训练。
这些都是集成在一块215mm×215mm=46225mm2的晶圆上。
如果这个对比还不够明显,那可以这么看:对比英伟达H100,WES-3的片上内存容量是H100的880倍、单芯片内存带宽是H100的7000倍、核心数量是H100的52倍,片上互连带宽速度是H100的3715倍。
另一家是特斯拉。特斯拉的晶圆级芯片被命名为Dojo。这是马斯克在2021年就开始的尝试。
特斯拉Dojo的技术路线和Cerebras不一样。是通过采用Chiplet路线,在晶圆尺寸的基板上集成了25颗专有的D1芯粒(裸Die)。
D1芯粒在645平方毫米的芯片上放置了500亿个晶体管,单个芯粒可以提供362 TFlops BF16/CFP8的计算能力。合起来的单个Dojo拥有9Petaflops的算力,以及每秒36TB的带宽。
特斯拉的Dojo系统专门针对全自动驾驶(FSD)模型的训练需求而定制。思路是从25个D1芯粒→1个训练瓦(Training Tile)→6个训练瓦组成1个托盘→2个托盘组成1个机柜→10个机柜组成1套ExaPOD超算系统,能够提供1.1EFlops的计算性能。
晶圆级芯片与GPU对比
既然单芯片GPU和晶圆级芯片走出了两条岔路,在这里我们以Cerebras WSE-3、Dojo和英伟达H100为例,对比一下两种芯片架构对算力极限的不同探索。
一般来说AI 训练芯片GPU硬件的性能通过几个关键指标进行评估:每秒浮点运算次数(FLOPS),表明GPU在深度学习中必不可少的矩阵密集型运算中的原始计算能力的强弱。内存带宽,决定了访问和处理数据的速度,直接影响训练效率。延迟和吞吐量,能够评估GPU处理大数据负载和模型并行性的效率,从而影响实时性能。
1. 算力性能
Cerebras WSE-3凭借单片架构,在AI模型训练中展现独特潜力。
一般来讲,每秒浮点运算次数(FLOPS)能够表明GPU 在深度学习中必不可少的矩阵密集型运算中的原始计算能力。WSE-3的FP16训练峰值性能达到125 PFLOPS,支持训练高达24万亿参数的AI模型,且无需进行模型分区处理。这个功能就特别适合以精简高效的方式处理超大模型。
与依赖分层内存架构(可能造成处理瓶颈)的传统GPU不同,WSE的设计使850个核心可独立运行,并直接访问本地内存,这样就有效提升了计算吞吐量。
在这方面,英伟达H100采用的是模块化和分布式方法。单个H100 GPU可为高性能计算提供60 TFLOPS FP64计算能力,八个互连的H100 GPU组成的系统,可实现超1 ExaFLOP的FP8 AI性能。
但分布式架构就存在数据传输问题,虽然NVLink和HBM3内存能降低延迟,但在训练超大型模型时,GPU间通信仍会影响训练速度。
在AI训练的表现中,Cerebras WSE-3会更加擅长处理超大型模型。2048个WSE-3系统组成的集群,训练Meta的700亿参数Llama 2 LLM仅需1天,相比Meta原有的AI训练集群,速度提升达30倍。
2. 延迟与吞吐量
从数据传输来看,WSE-3的单片架构避免了多芯片间的数据传输,显著降低延迟,支持大规模并行计算和核心间低延迟通信。速度快是单片的优势,与传统GPU集群相比,WSE-3可将软件复杂度降低高达90%,同时将实时GenAI推理的延迟降低10倍以上。
特斯拉Dojo Training Tile属于晶圆级集成,当然也能够大幅降低通信开销。由于是从Die到Die之间传递,在跨区块扩展时仍会产生一定延迟。目前,Dojo能实现100纳秒的芯片间延迟,并且针对自动驾驶训练优化了吞吐量,可同时处理100万个每秒36帧的视频流。
英伟达H100基于Hopper架构,是目前最强大的AI训练GPU之一,配备18432个CUDA核心和640个张量核心,并通过NVLink和NVSwitch系统实现GPU间高速通信。高速通信。虽然多GPU架构具备良好扩展性,但数据传输会带来延迟问题,即便NVLink 4.0提供每个GPU 900 GB/s的双向带宽,延迟仍高于晶圆级系统。
尽管能够凭借着架构特性实现单晶圆工作负载的低延迟和高吞吐量,但晶圆级系统如WSE-3和Dojo面临着可扩展性有限、制造成本高和通用工作负载灵活性不足的问题。
3. 谁更划算?
从硬件购置成本来看,不同芯片的价格因架构和应用场景而异。
据报道,特斯拉单台Tesla Dojo超级计算机的具体成本估计在3亿至5亿美元之间。技术路线上,Dojo采用的是成熟晶圆工艺再加上先进封装(采用了台积电的Info_SoW技术集成),去实现晶圆级的计算能力,能够避免挑战工艺极限。这既能保证较高的良品率,又便于实现系统的规模化生产,芯粒的更新迭代也更为轻松。
Cerebras WSE系统则因先进的制造工艺与复杂设计,面临较高的初期研发和生产成本。据报道,Cerebras WSE-2的每个系统成本在200万至300万美元之间。
相比之下,英伟达单GPU的采购成本比较低。以英伟达A100来说,40GB PCIe型号价格约8000—10000美元,80GB SXM型号价格在18000—20000美元。这使得许多企业在搭建AI计算基础设施初期,更倾向于选择英伟达GPU。不过,英伟达GPU在长期使用中存在能耗高、多芯片协作性能瓶颈等问题,会导致运营成本不断增加。
总体来看,虽然WSE-2能为超大规模AI模型提供超高计算密度,但对于需要在大型数据中心和云服务中部署多GPU可扩展方案的机构,A100的成本优势更为明显。
结语
常规形态下,集群算力节点越多,则集群规模越大,花费在通信上的开销就越大,集群的效率就越低。
这就是为什么,英伟达NVL72通过提升集群内的节点集成密度(即提高算力密度)。在一个机架中集成了远超常规机架的GPU数量,使得集群的尺寸规模得到控制,效率才能实现进一步提升。
这是英伟达权衡了良率和成本之后给出的解决方案。但是如果英伟达继续按照这种计算形态走下去,想要进一步提升算力密度,就会走到晶圆级芯片的路上。毕竟,晶圆级芯片的形态是目前为止算力节点集成密度最高的一种形态。
晶圆级芯片,潜力无限。
下一篇:如果国槐会说话