HPC迎来AI大考，鲲鹏如何为开发者“减负”？｜甲子光年_家居风水

HPC迎来AI大考，鲲鹏如何为开发者“减负”？｜甲子光年

创始人

2026-03-30 15:44:09

0次

一场科研生产力的深度革命。

作者｜刘杨楠

编辑｜栗子

在科研计算领域，传统HPC的优化路径正在逐渐逼近效率与成本的双重边界。

长期以来，HPC的核心方法论，是在明确物理方程与数值模型的前提下，通过规模化并行计算逼近唯一解。这一范式在流体力学、材料计算、分子模拟等领域取得了巨大成功，但其前提是：计算过程高度规则、算子结构稳定、通信模式可预测。

然而，随着AI4S（AI for Science）逐步深入科研主流工作流，这一前提正在被打破。越来越多的科研任务不再仅仅依赖传统数值求解，而是引入深度学习模型、统计推断与数据驱动方法，形成HPC+AI的混合计算形态。

这类负载呈现出算子碎片化、计算图驱动、混合精度以及动态负载不均衡等特征，使得单纯依靠“更大规模并行”已难以获得线性收益。

正是在这一背景下，HPC的问题不再只是“算得够不够快”，而是演变为一个软硬件协同的系统性问题，例如，硬件如何更好地支撑多样化负载？软件如何在不增加开发复杂度的前提下释放硬件潜力？

为此，鲲鹏CPU处理器及其配套软件栈的协同设计，正是为了从根本上回应这一系统性问题，重新定义HPC+AI4S的开发体验。

1.鲲鹏如何重写HPC+AI4S开发范式？

面对HPC+AI4S的系统性挑战，鲲鹏也给出了与之对应的系统性解决方案，即构建“硬件提供潜力、软件释放能力”的协同体系。

作为一颗面向HPC与AI4S多元负载的服务器CPU，鲲鹏920 72F8采用众核架构，支持向量与矩阵计算扩展，并配备高带宽片上内存与大容量DDR内存的混合内存体系，能够同时满足高精度科学计算与AI4S场景下的吞吐需求。

但在AI4S负载下，硬件能力并不会自动转化为应用性能。高度动态的算子调用、频繁变化的数据依赖关系，使得单纯依赖“更多核心”或“更高带宽”往往难以持续提升效率。

真正决定开发者部署体验的核心，是围绕处理器构建的软件栈，能否将硬件特性转化为开发者无感的性能收益。这便引出了鲲鹏通过软硬协同的系统性方案，重新定义HPC+AI4S开发范式的核心思路。

具体来看，鲲鹏软件栈并未选择通过某一个“明星组件”解决所有问题，而是以HPCKit为核心，构建了一套面向HPC与AI负载的系统级协同优化体系。在这一体系中，领域加速库、鲲鹏数学库（Kunpeng Math Library，KML）、Hyper MPI、KUPL（Kunpeng Unified Parallel Library，鲲鹏统一并行库）、毕昇编译器，并非孤立存在，而是通过版本选择、参数配置与调用路径上的整体协同，使能应用在精度与性能上的综合最优。

这种“基础组件最优协同”的思路，改变了传统HPC软件栈中由开发者负责大量拼装与调优工作的模式。对于应用而言，HPCKit提供的是一个已经在鲲鹏平台上完成系统级验证的“性能基线”。

作为这一协同体系的性能基石，毕昇编译器的作用至关重要。它是面向数据中心场景的高性能编译器，支持主流系统语言和芯片架构，是将鲲鹏硬件特性高效映射到上层应用的关键桥梁。

不过，在工程实践中，性能并非唯一指标。对于大多数科研与工程团队而言，部署成本、迁移成本与维护复杂度同样关键。

HPCKit在设计之初，便将“高易用性”作为核心目标之一。通过一键集成部署能力，HPCKit将领域加速库、数学库、通信库、并行编程框架以及编译器多组件整合为统一的软件套件，使开发者无需在不同组件之间反复适配与调优。

在数学计算层面，鲲鹏数学库基于鲲鹏平台，通过数据预取、编译优化与数据重排等手段，显著提升基础数学函数性能。同时，KML保持了对FFTW、LAPACK、ScaLAPACK等主流接口的兼容，使得大量既有应用仅需修改链接库，即可完成迁移。

这种“对上透明、对下深度优化”的设计，使得高性能不再依赖于开发者对底层硬件细节的高度敏感。

此外，针对AI4S领域越来越多的高并行负载需求，鲲鹏在2025年9月的华为全联接大会上开源KUPL，与编译器、数学库、通信机制的协同下，支撑更复杂的并行与调度需求。

软硬件的协同作战，也使得在鲲鹏通用CPU平台上开发与优化复杂AI4S应用（如AlphaFold）的工作，从一项高度定制化的手艺活，转变为一项更高效、更具可复制性的系统工程，更极致地释放了自主算力平台的潜在性能。

软硬协同的设计理念为应对混合负载提供了新思路，但其能否经受考验，首要在于能否攻克当前科研中依赖GPU的应用，例如蛋白质结构预测模型AlphaFold。

「甲子光年」关注到，北京航空航天大学杨海龙团队基于鲲鹏920 72F8优化了AlphaFold2的计算效率，可以看作检验鲲鹏HPC解决方案能否在真实科研场景中发挥作用的关键案例。

2.AlphaFold：鲲鹏答案在AI4S场景下的现实检验

作为蛋白质结构预测领域的里程碑，AlphaFold2（AF2）作为AI4S的典型成果，其推理过程属于典型AI负载，已成为现代科研工作流中不可或缺的环节。

从HPC模拟生成数据到AI模型分析预测，再到结果反馈验证的闭环中，优化此类纯AI模型的运行效率，正是打通HPC+AI4S全流程的关键一环。

北京航空航天大学杨海龙团队基于鲲鹏920 72F8，对AlphaFold2进行了系统性优化。

在制定具体优化策略之前，杨海龙团队首先对模型不同模块的计算占比进行了系统分析，以明确优化投入的主要方向。

团队发现，在AlphaFold2的推理过程中，NoExtraEvoformer模块占据了约68%的整体推理时间，是决定端到端性能的核心瓶颈。这一判断，为后续所有算子级与系统级优化提供了清晰的目标边界。

锁定瓶颈模块后，杨海龙团队将优化重点放在以GatingAttention为代表的核心算子上。团队采用精细化的混合精度策略：在确保Softmax等数值敏感操作保持高精度的前提下，将大部分计算转换为FP16格式执行。

在混合精度策略下，杨海龙团队从空间局部性、算子融合、向量化、通信以及Structure模块五个维度，对AlphaFold 2模型的GatingAttention算子进行系统性优化。

具体来看，在GatingAttention中，查询（q）、键（k）、值（v）向量对应的数据在某些阶段中往往指向相同的底层数据。

在优化前，该输入张量需要被重复读取三次；优化后，系统可以检测到相同的输入，仅进行一次读取，并连续完成q、k、v的全部计算。这一调整直接将内存访问次数减少至原来的三分之一，大幅降低了访存开销。

对于OuterProductMean等包含连续矩阵乘法（GEMM）的算子，杨海龙团队并未直接在原始数据布局上执行计算。

相反，团队在计算前将数据分块复制至连续的临时缓冲区，并按照下一步计算最优的访问顺序进行预排列。这确保了数据在高速缓存中以最友好的方式存放，后续计算能够连续、高速地访问数据，避免因跨区域跳跃访问而引发的缓存失效。

这套策略不是在计算开始后才去搬数据，而是在计算前主动规划、重组数据，将其放置在更近、更顺畅的位置。开发者无需手动实现复杂的缓冲区管理和数据重排，只需调用优化后的算子，即可自动获得这些收益。

在向量化方面，sigmoid、softmax等函数需要对大量数据独立进行相同的数学运算，而原生实现仅采用标量实现或简单的OpenMP多线程加速，无法充分发挥强大的鲲鹏算力。团队基于ARM的SVE指令集，对softmax与sigmoid函数进行了从底层重构的向量化优化，显著提高了优化效果。

在通信与并行层面，鲲鹏920 72F8采用多NUMA架构，单一进程难以有效利用全部计算资源。同时，PyTorch原生多进程通信机制在该场景下性能不足，为此，杨海龙团队重构了推理流程：放弃单进程模式，转向多进程并行推理；绕过标准通信路径，基于共享内存重新实现alltoall与allgather接口，这些接口算子在设计之初便结合AI4S数据形态进行优化，显著降低了跨进程通信开销。

在上述一系列优化工作后，杨海龙团队发现，Structure模块的推理时间占比反而逐渐升高。这是由于Structure模块是基于JAX实现的。

JAX是Google开发的一个用于高性能数值计算和机器学习研究的Python库，其特性十分适合实现蛋白质折叠这样结构复杂的模型，因此被DeepMind用来作为AlphaFold 2的初始框架。

然而，JAX模块几乎没有利用CPU的多核并行能力。另外，杨海龙团队此前一系列优化工作已将模型其他主要部分（如Evoformer）已在PyTorch上进行了深度优化，如果保留一个独立的JAX模块，便破坏了计算图的完整性和优化连续性。两个框架间的数据交换和调度会带来额外开销。

因此，杨海龙团队将Structure模块从JAX迁移至PyTorch，并将模块内的核心计算层（Linear层）替换为团队已高度优化的实现。

在上述一系列优化的基础上，AlphaFold 2在鲲鹏920 72F8处理器上的端到端推理时间，从令人望而却步的1332秒缩短至88秒，实现了超过15倍的性能飞跃，同时保证计算精度不受损。

总体上看，杨海龙团队的优化，本质上是针对大模型推理中常见的计算密集型算子（Attention）、访存瓶颈和并行调度效率这一系列通用问题进行的。

HPCKit、KUPL等工具的价值，正是将这些针对特定问题的优化经验，沉淀为可被其他AI4S应用（如材料模拟中的图神经网络、流体仿真中的物理信息神经网络）直接调用的通用能力。

同时，我们必须指出，此次优化虽然展示了鲲鹏CPU在运行复杂AI模型时的巨大潜力与上限，但并不意味着宣称CPU在所有场景下均优于GPU。其价值在于，提供了一个高性能、可选的自主算力底座，丰富了科研团队的选择。

AlphaFold3发布后，算子形态更复杂、调用路径更深，对多进程并行效率、高频通信及内存管理提出更高要求。于是，在杨海龙团队的优化思路上，鲲鹏研发团队进一步从平台视角，基于KUPL对AlphaFold3的并行与通信路径进行增强。

具体来看，在并行层面，鲲鹏团队将模型重构为多进程模式并由KUPL统一调度；在通信层面，针对AI4S场景中矩阵动态变化的特点，基于KUPL的共享内存机制，重构了alltoall等通信算子，将数据搬运与转置操作融合，将通信时延降低90%以上；在算子层面，借鉴Flash Attention思路，重构了关键注意力算子的计算与访存路径。

这些工作并不改变应用逻辑，而是通过平台能力的增强，释放前一阶段优化的潜在空间，体现出系统级协同设计的价值。

AlphaFold的案例证明了，通过系统优化，CPU能有效处理计算图复杂、通信密集的AI负载。这一范式是否具有普适性？答案是肯定的。从分子动力学到工业仿真，不同领域的科研应用正沿着相似的“系统协同优化”路径，在鲲鹏平台上实现突破。

3.重构中的HPC开发生态

当HPC的开发重心从单纯追求硬件峰值性能，转向围绕负载特征与开发效率进行系统设计时，原本被系统复杂性所压制的创新空间，开始逐步被释放。

通过与北京大学、清华大学、上海交通大学、浙江大学、中国科学技术大学、南京大学、复旦大学等多所顶尖高校共建“鲲鹏昇腾科教创新孵化中心”，产业级算力平台也被引入科研与教学一线，为工程型人才的成长提供真实场景。这种从技术、生态到人才的闭环布局，正是HPC+AI4S能够持续演进的关键支撑。

在材料科学领域，上海交通大学江震团队围绕LAMMPS分子模拟软件的优化，同样体现了HPC+AI4S思维对传统路径的突破。

通过将MPI进程级并行与鲲鹏 NEON向量化能力相结合，团队完成了百万原子、百纳秒级的相变模拟实验，成功突破了传统模拟在规模与效率上的双重瓶颈。这使高熵合金筛选、锂电池电极跨尺度设计等原本周期极长的研究任务，首次具备了工程化落地的现实可能。

这一实践表明，当底层并行模型能够有效匹配负载特征时，科研问题本身的复杂度，才不再被系统能力所限制。

更具冲击力的案例来自工业仿真领域。

北京大学陈帜团队提出的DeepFlame燃烧仿真，将物理嵌入刚性神经算子（PE-SNO）与众核PDE求解器相结合，在鲲鹏平台上完成了近万亿网格规模的模拟计算，浮点性能峰值超过1EFlops。原本需要6个月完成的火箭发动机燃烧模拟，被压缩至1小时完成。

2026年1月，该团队正式发布DeepFlame 2.0，正式引入“AI智能体驱动科学计算”的全新科研范式，从上一版的“求解器集合”，进化为一个开放的、覆盖代码开发和算例模拟各个环节的“智能体集合”。

目前，DeepFlame 2.0已经基于鲲鹏生态进行了多项适配优化。

在易用性方面，DeepFlame 2.0软件栈可基于鲲鹏原生编译，支持Jarvis工具一键部署运行。

在性能方面，实现了鲲鹏架构深度优化与性能突破：硬件层针对鲲鹏 920 72F8众核、多NUMA、片上内存架构，引入精细化绑核、内存分配策略；软件层基于毕昇编译器重构代码，在保证准确性和鲁棒性的同时，集成鲲鹏数学库加速GEMM计算；算法层设计鲲鹏-native的混合精度求解器（FP64 稀疏求解+FP16 推理），平衡精度与速度。

在AI-CFD融合推理加速方面，模型层开发轻量化神经网络模型，实现高精度网络推理，并适配鲲鹏矩阵运算指令集。

这套方案在提升计算效率的同时，也重塑了研发流程。当仿真成本从很难复用的反复尝试转变为可高频迭代的飞轮，工程创新的节奏与方式随之发生根本变化。

无论是AlphaFold还是DeepFlame，它们的成功优化都非依赖于单一的硬件算力飙升，根本在于对应用负载的深度理解，并将此理解通过KUPL、HPCKit等工具转化为系统级的协同优化。

这标志着HPC开发的焦点，正从追逐硬件峰值，转向构建“理解负载、优化系统”的下一代科研计算基础设施。

当然，HPC+AI4S的演进之路仍面临现实挑战。例如，存量应用迁移成本高、国内生态与国际顶级社区之间的差距，以及技术路线碎片化带来的内耗，都是短期内难以彻底回避的问题。但通过行业内各玩家的持续开放协作与长期投入，这些问题正在被逐步化解。

长远来看，AI正在推动HPC从“算得更快”，走向“算得更聪明”。在这一转变中，真正决定成败的，不再是单点性能指标，而是谁能够率先为开发者降低系统复杂度。

当并行、通信与异构调度不再成为创新门槛，当科学家与工程师能够专注于问题本身而非工具差异，HPC+AI4S的潜力才会被真正释放。根本上看，这是在AI4S这一特定问题空间内，对CPU和GPU算力角色分工的一次重构。

从这一意义上看，鲲鹏尝试扮演的，正是这场HPC+AI4S开发范式转移中的加速器。

（本文图片来源：AI生成）

軟硬件協同核心系統性 HPCKit 性能科研鯤鵬應用負載算子模型楊海龍畢昇

上一篇：中东局势变幻浙江义乌外贸一线如何“接招”？

下一篇：五大品牌、十大体系，解码新华保险如何用服务重塑增长逻辑

HPC迎来AI大考，鲲鹏如何为开发者“减负”？｜甲子光年

相关内容

热门资讯