过去几年,AI基础设施的建设重心始终围绕模型训练展开:更大的集群、更快的加速器、更高的带宽,目的是让GPU保持满负荷运转。然而,这一设计逻辑正在悄然改变。随着AI工作负载向推理阶段迁移,数据中心面临的核心约束已不再只是计算速度,而是如何高效地存储、管理和调度推理所需的内存驻留数据。
训练与推理对基础设施的压力截然不同。
训练本质上是一个计算与带宽问题,目标是在高度协调的突发任务中最大化吞吐量,尽可能快地将大量模型参数、激活值和梯度传输给加速器。在这种环境下,内存被优化为高速、局部性强、带宽充足的资源,整个系统的设计核心是让昂贵的计算资源保持充分利用。
推理则改变了这一逻辑。模型部署之后,挑战不再仅仅是尽可能快地执行数学运算,而是要高效地处理数以百万计的请求,通常还需满足低延迟和不可预测的需求波动。在这种场景下,内存不再只是短暂训练数据的高速暂存区,而是服务本身的组成部分。
这是当前AI领域正在发生的最重要的基础设施转型之一。
在推理时代,内存的使用变得更加持久。它不再是在训练迭代中被消耗和丢弃的临时资源,而必须跨会话、跨请求、乃至跨应用长期保持可用。它需要保存现代AI服务所依赖的各类状态,包括键值缓存、嵌入向量、检索数据和会话上下文。对于推理模型和智能体系统而言,随着上下文窗口的扩展和中间状态的增多,内存需求还会进一步攀升。
这也带来了第二个转变:内存需求的增长越来越取决于用户活动,而非单纯取决于模型大小。
训练阶段的容量规划从模型大小和所需算力出发;而在推理阶段,用户数量、提示词长度、检索上下文的体量以及交互时长,都成为基础设施需求的关键驱动因素。同一个已部署的模型,因使用方式不同,可能面对差异悬殊的工作负载。更长的提示词、多轮对话、检索增强生成以及工具调用,都会增加内存压力,而有效计算量却未必等比例增加。
因此,推理系统正从带宽瓶颈转向容量与成本瓶颈。
这一区别至关重要。在许多情况下,支撑推理所需的内存占用可能与模型权重本身的体量相当,甚至超过后者。在服务大规模用户群或维护长上下文时尤为如此——键值缓存等运行时数据结构会快速膨胀,并在大量事务中持续占用内存。
然而,传统服务器架构并非为这种模式而设计。
在当前大多数系统中,内存与计算单元紧密耦合。如果运营商需要更多内存容量,通常的做法是增加CPU或GPU,以此换取更大的片上内存,即便实际上并不需要更多算力。当计算与内存同步扩展时,这种方式尚可接受;但当内存需求的增速远超实际处理需求时,这种方式就变得低效了。
这正是AI基础设施领域正在浮现的经济性问题。运营商不得不采购昂贵的计算资源,仅仅是为了获取更多内存。高带宽内存(HBM)等高性能内存技术对许多工作负载不可或缺,但其成本较高,容量也相对有限。通过传统方式扩展服务器内存,还会受到DIMM插槽数量、功耗预算和主板设计的物理限制。最终结果是基础设施过度配置、资源闲置以及总体拥有成本持续攀升。
这正是内存架构正在走向数据中心设计核心的原因。
AI基础设施的下一阶段需要将内存扩展与计算扩展解耦,并将内存作为可共享、可主动管理的资源,而非单台服务器的固有属性。这正是计算快速链路(CXL)技术的价值所在。
CXL为数据中心引入了全新的内存模型。通过将内存从计算单元中解耦并实现更灵活的管理,它使运营商能够将基础设施配置更精准地对齐实际工作负载需求,无需仅仅为了增加内存容量而扩充CPU或GPU,而是可以更直接地扩展内存,实现内存与计算的独立扩展。
这对利用率和成本都具有切实影响。
其一,CXL支持内存池化。运营商可以将内存动态分配给最需要它的主机和服务,而无需让内存闲置在低利用率的系统中。在大型环境中,这能显著提升整体利用率,也避免了为应对间歇性峰值而对每台服务器进行过度配置的浪费。
其二,CXL支持分层内存架构。并非所有数据都需要始终驻留在最昂贵、带宽最高的内存层。有些数据是热数据,对延迟敏感;有些是温数据,访问频繁但非持续;还有些数据体量大、持久性强,更适合放置在成本较低的层级。通过根据访问模式和性能需求灵活调度数据,CXL帮助运营商在成本与性能之间实现智能平衡。
其三,CXL有助于消除AI服务扩展方式与传统基础设施构建模式之间的结构性错位。当推理越来越依赖持久状态、不断增长的内存占用和不均衡的需求模式时,可组合内存架构比"每增加内存就必须增加昂贵算力"的旧模式更适合这个新世界。
这并不意味着计算变得不再重要。AI仍将持续需要顶尖GPU、高速互联和紧邻加速器的高性能内存。但重心正在转移——基础设施的挑战不再只是训练更大的模型,而是如何在规模化场景下日复一日、请求接请求地高效运营AI服务。
这既是性能问题,更是运营问题;而运营问题,归根结底是经济性问题。
外界对CXL的疑虑可以理解。对于一项新的互联标准而言,真正的问题不在于路线图是否宏大,而在于部署所需的核心功能是否已趋于稳定。就CXL 3.x而言,答案正越来越接近"是":CXL 3.0引入了数据中心所需的Fabric架构、内存池化和点对点通信能力,而CXL 3.2则聚焦于设备管理、监控、安全性和向后兼容互操作性等同样重要但不那么显眼的工作。这并不意味着每个数据中心都会立即部署CXL,但规范已大幅向功能成熟和实际部署就绪迈进。
随着推理在AI活动中占据越来越大的份额,基础设施领域的竞争胜负将不再只取决于谁能提供最强的算力,而是取决于谁能在算力、内存容量、利用率和成本之间实现最优平衡。在这样的环境中,内存不能再被视为处理器旁边的被动组件,它已成为AI经济性的战略控制点。
数据中心行业已经用数年时间适应了训练阶段的需求,现在必须再次适应推理阶段的需求。这意味着:为持久状态而非瞬态批次而设计,为用户驱动的增长而非模型驱动的增长而设计,以及为内存效率而非单纯的算力扩展而设计。
CXL无法单独解决所有基础设施挑战,但它为推理时代提供了一条通向更灵活、更具经济理性的内存架构的清晰路径。随着AI服务持续扩展,这或许将成为现代数据中心最重要的变革之一。
Q&A
Q1:AI推理阶段对内存的需求为什么和训练阶段不同?
A:训练阶段主要是计算与带宽问题,内存用于快速传输模型参数和梯度,使用完即丢弃。推理阶段则需要持续保存键值缓存、嵌入向量、会话上下文等运行时状态,内存必须跨请求、跨会话长期驻留。同时,推理的内存需求随用户数量、提示词长度和交互复杂度动态增长,而非仅由模型大小决定,这使得内存成为推理阶段的核心瓶颈。
Q2:CXL技术是什么?它如何解决AI推理的内存问题?
A:CXL(计算快速链路)是一种新型互联标准,允许内存从计算单元中解耦,实现独立扩展和灵活管理。它支持内存池化,让运营商可以将内存动态分配给最需要的服务,避免资源闲置;同时支持分层内存架构,根据数据的访问频率和延迟敏感度将其放置在不同成本的内存层,从而在性能与成本之间实现更优平衡,解决传统服务器"买算力才能买内存"的经济性困境。
Q3:AI推理阶段带来了哪些数据中心基础设施的经济性问题?
A:传统服务器架构将内存与计算紧密耦合,运营商若需要更多内存,就必须采购更多CPU或GPU,即使并不需要额外算力。HBM等高性能内存成本高昂、容量有限,传统扩展方式还受到DIMM插槽和功耗的物理限制。这导致基础设施过度配置、资源闲置、总体拥有成本持续上升,形成显著的经济浪费。