一场科研生产力的深度革命。
作者|刘杨楠
编辑|栗子
在科研计算领域,传统HPC的优化路径正在逐渐逼近效率与成本的双重边界。
长期以来,HPC的核心方法论,是在明确物理方程与数值模型的前提下,通过规模化并行计算逼近唯一解。这一范式在流体力学、材料计算、分子模拟等领域取得了巨大成功,但其前提是:计算过程高度规则、算子结构稳定、通信模式可预测。
然而,随着AI4S(AI for Science)逐步深入科研主流工作流,这一前提正在被打破。越来越多的科研任务不再仅仅依赖传统数值求解,而是引入深度学习模型、统计推断与数据驱动方法,形成HPC+AI的混合计算形态。
这类负载呈现出算子碎片化、计算图驱动、混合精度以及动态负载不均衡等特征,使得单纯依靠“更大规模并行”已难以获得线性收益。
正是在这一背景下,HPC的问题不再只是“算得够不够快”,而是演变为一个软硬件协同的系统性问题,例如,硬件如何更好地支撑多样化负载?软件如何在不增加开发复杂度的前提下释放硬件潜力?
为此,鲲鹏CPU处理器及其配套软件栈的协同设计,正是为了从根本上回应这一系统性问题,重新定义HPC+AI4S的开发体验。
1.鲲鹏如何重写HPC+AI4S开发范式?
面对HPC+AI4S的系统性挑战,鲲鹏也给出了与之对应的系统性解决方案,即构建“硬件提供潜力、软件释放能力”的协同体系。
作为一颗面向HPC与AI4S多元负载的服务器CPU,鲲鹏920 72F8采用众核架构,支持向量与矩阵计算扩展,并配备高带宽片上内存与大容量DDR内存的混合内存体系,能够同时满足高精度科学计算与AI4S场景下的吞吐需求。
但在AI4S负载下,硬件能力并不会自动转化为应用性能。高度动态的算子调用、频繁变化的数据依赖关系,使得单纯依赖“更多核心”或“更高带宽”往往难以持续提升效率。
真正决定开发者部署体验的核心,是围绕处理器构建的软件栈,能否将硬件特性转化为开发者无感的性能收益。这便引出了鲲鹏通过软硬协同的系统性方案,重新定义HPC+AI4S开发范式的核心思路。
具体来看,鲲鹏软件栈并未选择通过某一个“明星组件”解决所有问题,而是以HPCKit为核心,构建了一套面向HPC与AI负载的系统级协同优化体系。在这一体系中,领域加速库、鲲鹏数学库(Kunpeng Math Library,KML)、Hyper MPI、KUPL(Kunpeng Unified Parallel Library,鲲鹏统一并行库)、毕昇编译器,并非孤立存在,而是通过版本选择、参数配置与调用路径上的整体协同,使能应用在精度与性能上的综合最优。
这种“基础组件最优协同”的思路,改变了传统HPC软件栈中由开发者负责大量拼装与调优工作的模式。对于应用而言,HPCKit提供的是一个已经在鲲鹏平台上完成系统级验证的“性能基线”。
作为这一协同体系的性能基石,毕昇编译器的作用至关重要。它是面向数据中心场景的高性能编译器,支持主流系统语言和芯片架构,是将鲲鹏硬件特性高效映射到上层应用的关键桥梁。
不过,在工程实践中,性能并非唯一指标。对于大多数科研与工程团队而言,部署成本、迁移成本与维护复杂度同样关键。
HPCKit在设计之初,便将“高易用性”作为核心目标之一。通过一键集成部署能力,HPCKit将领域加速库、数学库、通信库、并行编程框架以及编译器多组件整合为统一的软件套件,使开发者无需在不同组件之间反复适配与调优。
在数学计算层面,鲲鹏数学库基于鲲鹏平台,通过数据预取、编译优化与数据重排等手段,显著提升基础数学函数性能。同时,KML保持了对FFTW、LAPACK、ScaLAPACK等主流接口的兼容,使得大量既有应用仅需修改链接库,即可完成迁移。
这种“对上透明、对下深度优化”的设计,使得高性能不再依赖于开发者对底层硬件细节的高度敏感。
此外,针对AI4S领域越来越多的高并行负载需求,鲲鹏在2025年9月的华为全联接大会上开源KUPL,与编译器、数学库、通信机制的协同下,支撑更复杂的并行与调度需求。
软硬件的协同作战,也使得在鲲鹏通用CPU平台上开发与优化复杂AI4S应用(如AlphaFold)的工作,从一项高度定制化的手艺活,转变为一项更高效、更具可复制性的系统工程,更极致地释放了自主算力平台的潜在性能。
软硬协同的设计理念为应对混合负载提供了新思路,但其能否经受考验,首要在于能否攻克当前科研中依赖GPU的应用,例如蛋白质结构预测模型AlphaFold。
「甲子光年」关注到,北京航空航天大学杨海龙团队基于鲲鹏920 72F8优化了AlphaFold2的计算效率,可以看作检验鲲鹏HPC解决方案能否在真实科研场景中发挥作用的关键案例。
2.AlphaFold:鲲鹏答案在AI4S场景下的现实检验
作为蛋白质结构预测领域的里程碑,AlphaFold2(AF2)作为AI4S的典型成果,其推理过程属于典型AI负载,已成为现代科研工作流中不可或缺的环节。
从HPC模拟生成数据到AI模型分析预测,再到结果反馈验证的闭环中,优化此类纯AI模型的运行效率,正是打通HPC+AI4S全流程的关键一环。
北京航空航天大学杨海龙团队基于鲲鹏920 72F8,对AlphaFold2进行了系统性优化。
在制定具体优化策略之前,杨海龙团队首先对模型不同模块的计算占比进行了系统分析,以明确优化投入的主要方向。
团队发现,在AlphaFold2的推理过程中,NoExtraEvoformer模块占据了约68%的整体推理时间,是决定端到端性能的核心瓶颈。这一判断,为后续所有算子级与系统级优化提供了清晰的目标边界。
锁定瓶颈模块后,杨海龙团队将优化重点放在以GatingAttention为代表的核心算子上。团队采用精细化的混合精度策略:在确保Softmax等数值敏感操作保持高精度的前提下,将大部分计算转换为FP16格式执行。
在混合精度策略下,杨海龙团队从空间局部性、算子融合、向量化、通信以及Structure模块五个维度,对AlphaFold 2模型的GatingAttention算子进行系统性优化。
具体来看,在GatingAttention中,查询(q)、键(k)、值(v)向量对应的数据在某些阶段中往往指向相同的底层数据。
在优化前,该输入张量需要被重复读取三次;优化后,系统可以检测到相同的输入,仅进行一次读取,并连续完成q、k、v的全部计算。这一调整直接将内存访问次数减少至原来的三分之一,大幅降低了访存开销。
对于OuterProductMean等包含连续矩阵乘法(GEMM)的算子,杨海龙团队并未直接在原始数据布局上执行计算。
相反,团队在计算前将数据分块复制至连续的临时缓冲区,并按照下一步计算最优的访问顺序进行预排列。这确保了数据在高速缓存中以最友好的方式存放,后续计算能够连续、高速地访问数据,避免因跨区域跳跃访问而引发的缓存失效。
这套策略不是在计算开始后才去搬数据,而是在计算前主动规划、重组数据,将其放置在更近、更顺畅的位置。开发者无需手动实现复杂的缓冲区管理和数据重排,只需调用优化后的算子,即可自动获得这些收益。
在向量化方面,sigmoid、softmax等函数需要对大量数据独立进行相同的数学运算,而原生实现仅采用标量实现或简单的OpenMP多线程加速,无法充分发挥强大的鲲鹏算力。团队基于ARM的SVE指令集,对softmax与sigmoid函数进行了从底层重构的向量化优化,显著提高了优化效果。
在通信与并行层面,鲲鹏920 72F8采用多NUMA架构,单一进程难以有效利用全部计算资源。同时,PyTorch原生多进程通信机制在该场景下性能不足,为此,杨海龙团队重构了推理流程:放弃单进程模式,转向多进程并行推理;绕过标准通信路径,基于共享内存重新实现alltoall与allgather接口,这些接口算子在设计之初便结合AI4S数据形态进行优化,显著降低了跨进程通信开销。
在上述一系列优化工作后,杨海龙团队发现,Structure模块的推理时间占比反而逐渐升高。这是由于Structure模块是基于JAX实现的。
JAX是Google开发的一个用于高性能数值计算和机器学习研究的Python库,其特性十分适合实现蛋白质折叠这样结构复杂的模型,因此被DeepMind用来作为AlphaFold 2的初始框架。
然而,JAX模块几乎没有利用CPU的多核并行能力。另外,杨海龙团队此前一系列优化工作已将模型其他主要部分(如Evoformer)已在PyTorch上进行了深度优化,如果保留一个独立的JAX模块,便破坏了计算图的完整性和优化连续性。两个框架间的数据交换和调度会带来额外开销。
因此,杨海龙团队将Structure模块从JAX迁移至PyTorch,并将模块内的核心计算层(Linear层)替换为团队已高度优化的实现。
在上述一系列优化的基础上,AlphaFold 2在鲲鹏920 72F8处理器上的端到端推理时间,从令人望而却步的1332秒缩短至88秒,实现了超过15倍的性能飞跃,同时保证计算精度不受损。
总体上看,杨海龙团队的优化,本质上是针对大模型推理中常见的计算密集型算子(Attention)、访存瓶颈和并行调度效率这一系列通用问题进行的。
HPCKit、KUPL等工具的价值,正是将这些针对特定问题的优化经验,沉淀为可被其他AI4S应用(如材料模拟中的图神经网络、流体仿真中的物理信息神经网络)直接调用的通用能力。
同时,我们必须指出,此次优化虽然展示了鲲鹏CPU在运行复杂AI模型时的巨大潜力与上限,但并不意味着宣称CPU在所有场景下均优于GPU。其价值在于,提供了一个高性能、可选的自主算力底座,丰富了科研团队的选择。
AlphaFold3发布后,算子形态更复杂、调用路径更深,对多进程并行效率、高频通信及内存管理提出更高要求。于是,在杨海龙团队的优化思路上,鲲鹏研发团队进一步从平台视角,基于KUPL对AlphaFold3的并行与通信路径进行增强。
具体来看,在并行层面,鲲鹏团队将模型重构为多进程模式并由KUPL统一调度;在通信层面,针对AI4S场景中矩阵动态变化的特点,基于KUPL的共享内存机制,重构了alltoall等通信算子,将数据搬运与转置操作融合,将通信时延降低90%以上;在算子层面,借鉴Flash Attention思路,重构了关键注意力算子的计算与访存路径。
这些工作并不改变应用逻辑,而是通过平台能力的增强,释放前一阶段优化的潜在空间,体现出系统级协同设计的价值。
AlphaFold的案例证明了,通过系统优化,CPU能有效处理计算图复杂、通信密集的AI负载。这一范式是否具有普适性?答案是肯定的。从分子动力学到工业仿真,不同领域的科研应用正沿着相似的“系统协同优化”路径,在鲲鹏平台上实现突破。
3.重构中的HPC开发生态
当HPC的开发重心从单纯追求硬件峰值性能,转向围绕负载特征与开发效率进行系统设计时,原本被系统复杂性所压制的创新空间,开始逐步被释放。
通过与北京大学、清华大学、上海交通大学、浙江大学、中国科学技术大学、南京大学、复旦大学等多所顶尖高校共建“鲲鹏昇腾科教创新孵化中心”,产业级算力平台也被引入科研与教学一线,为工程型人才的成长提供真实场景。这种从技术、生态到人才的闭环布局,正是HPC+AI4S能够持续演进的关键支撑。
在材料科学领域,上海交通大学江震团队围绕LAMMPS分子模拟软件的优化,同样体现了HPC+AI4S思维对传统路径的突破。
通过将MPI进程级并行与鲲鹏 NEON向量化能力相结合,团队完成了百万原子、百纳秒级的相变模拟实验,成功突破了传统模拟在规模与效率上的双重瓶颈。这使高熵合金筛选、锂电池电极跨尺度设计等原本周期极长的研究任务,首次具备了工程化落地的现实可能。
这一实践表明,当底层并行模型能够有效匹配负载特征时,科研问题本身的复杂度,才不再被系统能力所限制。
更具冲击力的案例来自工业仿真领域。
北京大学陈帜团队提出的DeepFlame燃烧仿真,将物理嵌入刚性神经算子(PE-SNO)与众核PDE求解器相结合,在鲲鹏平台上完成了近万亿网格规模的模拟计算,浮点性能峰值超过1EFlops。原本需要6个月完成的火箭发动机燃烧模拟,被压缩至1小时完成。
2026年1月,该团队正式发布DeepFlame 2.0,正式引入“AI智能体驱动科学计算”的全新科研范式,从上一版的“求解器集合”,进化为一个开放的、覆盖代码开发和算例模拟各个环节的“智能体集合”。
目前,DeepFlame 2.0已经基于鲲鹏生态进行了多项适配优化。
在易用性方面,DeepFlame 2.0软件栈可基于鲲鹏原生编译,支持Jarvis工具一键部署运行。
在性能方面,实现了鲲鹏架构深度优化与性能突破:硬件层针对鲲鹏 920 72F8众核、多NUMA、片上内存架构,引入精细化绑核、内存分配策略;软件层基于毕昇编译器重构代码,在保证准确性和鲁棒性的同时,集成鲲鹏数学库加速GEMM计算;算法层设计鲲鹏-native的混合精度求解器(FP64 稀疏求解+FP16 推理),平衡精度与速度。
在AI-CFD融合推理加速方面,模型层开发轻量化神经网络模型,实现高精度网络推理,并适配鲲鹏矩阵运算指令集。
这套方案在提升计算效率的同时,也重塑了研发流程。当仿真成本从很难复用的反复尝试转变为可高频迭代的飞轮,工程创新的节奏与方式随之发生根本变化。
无论是AlphaFold还是DeepFlame,它们的成功优化都非依赖于单一的硬件算力飙升,根本在于对应用负载的深度理解,并将此理解通过KUPL、HPCKit等工具转化为系统级的协同优化。
这标志着HPC开发的焦点,正从追逐硬件峰值,转向构建“理解负载、优化系统”的下一代科研计算基础设施。
当然,HPC+AI4S的演进之路仍面临现实挑战。例如,存量应用迁移成本高、国内生态与国际顶级社区之间的差距,以及技术路线碎片化带来的内耗,都是短期内难以彻底回避的问题。但通过行业内各玩家的持续开放协作与长期投入,这些问题正在被逐步化解。
长远来看,AI正在推动HPC从“算得更快”,走向“算得更聪明”。在这一转变中,真正决定成败的,不再是单点性能指标,而是谁能够率先为开发者降低系统复杂度。
当并行、通信与异构调度不再成为创新门槛,当科学家与工程师能够专注于问题本身而非工具差异,HPC+AI4S的潜力才会被真正释放。根本上看,这是在AI4S这一特定问题空间内,对CPU和GPU算力角色分工的一次重构。
从这一意义上看,鲲鹏尝试扮演的,正是这场HPC+AI4S开发范式转移中的加速器。
(本文图片来源:AI生成)