算力服务乱象丛生，如何让token更高质量流通？｜甲子光年_家居风水

算力服务乱象丛生，如何让token更高质量流通？｜甲子光年

创始人

2026-05-22 18:27:03

0次

Token好用才是硬道理。

作者｜王博

“今年各家token服务商的服务质量，明显比去年差了。”

这是一位算力服务商负责人的真实感受。

“比如一个请求，本来3秒、5秒就应该返回首token，现在可能30秒才返回，甚至更久。这类情况比例明显提高。”这位负责人告诉「甲子光年」，“行业里还存在超售现象，尤其是面对中小客户时，有的算力服务商不太管自己实际能承载多少服务，结果就是客户需求超过资源池上限，大家一起抢资源，没抢到就只能排队。”

去年，模型厂商、云厂商、MaaS平台轮番降价，每百万token的价格被不断打低。那时，行业讨论的核心问题是：谁能生产出更多、更便宜的token。

但今年问题变了。

一个普通ChatBot回答一次问题，可能只是一次调用；一个Agent完成一次任务，却可能要拆解目标、读取文件、调用工具、生成代码、反复校验，每一步都在消耗token。Token不再只是模型公司的计费单位，而开始变成企业智能系统的运行单位。

根据国家数据局发布的数据，2025年，全国日均token调用量从年初的超万亿增长到年末的100万亿；而到了2026年，全国日均token调用量已突破140万亿。

制图：甲子光年智库

Agent火起来之后，token开始“堵车”了。

这不是一个简单的体验问题。对一个在线业务来说，几十秒甚至上百秒延迟，意味着用户体验下降、任务链路中断，甚至业务不可用。

当token像车流一样开始拥堵，AI Infra就不仅仅意味着要有更多道路，还需要一套更智能的导航系统。

它有点像地图软件：实时判断路况，选择更优路径；也有点像精品会员超市：先做严选，再把更可靠的服务摆到用户面前；还有点像点评软件：用持续评测降低信息不对称，让用户知道哪家服务更稳定、哪条路径更适合。

「甲子光年」认为，Agent时代的竞争，不只是生产token，更需要关注谁能让token更高质量流通。

简单来说就是，如何让大模型调用更快、更稳、更省钱？

1.Token不再只是便宜就够了

Token服务的复杂性在于，它对很多用户来说仍然是一个黑盒。

用户有的时候并不知道背后到底是什么模型、什么服务商、什么算力，也不知道服务质量是否缩水。一个套餐可能标着好看的名字，但具体用什么模型，稳定性如何，是否经过激进量化，外部很难判断。

「甲子光年」了解到，有些算力服务商为了覆盖成本，会做非常激进的量化。原版模型可能是精度更高的FP8，但实际部署时用了精度更低的INT4，这相当于把模型“压缩”得更狠。价格看起来更便宜，但复杂任务上的效果可能下降。用户看到的是同一个模型名字，却很难判断背后到底是不是同样的服务质量。

懂行的用户会在采购前测试服务质量、压测能力和模型精度，但大部分用户并不具备这样的判断能力。

这也是token服务市场开始变得复杂的原因。

在消费互联网时代，用户买一件商品，可以看品牌、配料表、产地、评价；但在AI服务里，token的“配料表”还没有完全透明。用户买到的是一个结果，却很难知道这个结果是由哪条链路生产出来的。

所以，Agent时代的token问题，价格只是一方面，更重要的是“稳定、透明、可调度”。

过去，行业里在AI Infra层面讨论更多的是如何生产token。现在，新的问题开始浮现：当token被生产出来之后，谁来判断它的质量，谁来选择它的路径，谁来保证它稳定抵达业务现场？

2.Token调度甚至要比生产更重要

如果把token看成AI时代的基础流量，它从生产出来到进入业务，大致要经过三层：生产层、中转层、调度层。

第一层是生产层，解决token从哪里来。

这一层包括算力、模型、推理引擎、云厂商、MaaS服务商、智算中心等。它们关心的是：如何用更少的算力、更低的成本、更高的效率，生产更多token。

英伟达创始人、CEO黄仁勋在今年的GTC上就自称“Token王（Token King）”，并表示：“我们的token成本是全球最低的。”暗示英伟达是当之无愧的“Token王”。

第二层是中转层，解决token怎么被接入。

这一层更像模型API网关或模型超市。它降低了开发者调用不同模型的门槛，让用户可以通过统一入口调用不同模型和服务商。在海外备受关注的OpenRouter更接近这一层：它证明了当模型供给足够丰富，模型和应用之间会自然长出统一接入层。

但统一接入解决的是“连得上”，还没有完全解决“走哪条路”。

第三层是调度层，解决token应该怎么走。

如果把token请求看作车流，把模型API和算力服务看作道路，那么生产层负责造车和修路，中转层负责把路连起来，调度层则要判断：哪条路现在不堵，哪条路更便宜，哪条路更稳定，哪条路更适合当前任务，哪条路出问题后应该怎么绕行。

这不是一个简单的地图软件逻辑，而更像是几种能力的组合：既要像地图一样看见实时路况，也要像严选平台一样筛选供给，还要像点评系统一样持续积累服务质量数据。

在调度层，清华系创企、人工智能系统服务商清程极智一直在致力于“让token更高质量流通”，他们的核心产品之一就是token路由调度平台AI Ping。

AI Ping并不是突然出现的新产品。早在2025年9月，清华大学与中国软件评测中心在GOSIM2025发布《2025大模型服务性能排行榜》时，AI Ping就已经作为评测工具和数据展示平台出现，覆盖20多家厂商的230多项模型服务，并支持7×24小时性能监测。

2026年初，清程极智将AI Ping进一步推到台前，并正式将其定义为“一站式AI评测与API服务智能路由平台”，覆盖“评测—接入—路由—优化”环节。

“我们认为，在大模型应用场景中，最关键的AI Infra的核心需求是智能路由。”清程极智CEO汤雄超说，“通过智能路由，我们可以为海量的业务请求找到最好、最快、最稳定、最便宜的Token服务。”

AI Ping不是简单把请求转发出去，而是基于评测和路由，做实时路径规划。

清程极智联合创始人、产品副总裁师天麾告诉「甲子光年」，上游服务商的数量和水平决定平台上限，路由能力决定平台能多大程度逼近这个上限。服务商越多，理论上调度空间越大；但只有选择多还不够，关键是知道每一个选择在当前时刻的真实状态。

AI Ping做的第一件事是，接入更多服务商。

国内比较知名、比较大的token服务商，清程极智基本希望应接尽接。选择越多，调度上限越高。目前，AI Ping已接入国内29个token服务商。

图片来源：AI Ping

第二件事是，持续评测。

AI Ping 7×24小时不间断做评测，既有固定测试请求，也把真实业务请求纳入评测体系。评测不是为了做榜单，而是为了知道每条“路”此刻的真实路况。

“测试是调度的基石，测得准才能调度得好。”师天麾说。

第三件事是，动态路由。

AI Ping的路由逻辑，并不是简单把请求导向价格最低的一家，而是在价格、延迟、吞吐、可靠性、模型效果、Cache命中率等多个指标之间做动态权衡。

普通API中转解决的是连接问题，而智能路由解决的是信任问题。

师天麾举了一个例子：很多企业采购模型服务时只比较单价，但真实成本不只由单价决定。Cache命中率就是一个容易被忽视的变量。一旦命中Cache，成本可能只有原来的10%或20%；如果命中不了，即便单价更低，最终总成本也可能更高。

但成本只是其中一环。更重要的是，当某条路径延迟上升、可靠性下降，或者某个服务商出现拥堵时，AI Ping可以根据实时评测结果，把请求切换到更高性能、更高可靠性的模型和服务商上。

第四件事是，异常兜底。

当某个服务商长时间不返回、输出中断或出现异常时，AI Ping可以自动切换服务节点或服务商，而不是让用户自己重试。对企业来说，这种兜底能力的价值，往往高于简单的价格差。

以上这四个方面就是清程极智AI Ping区别于普通API中转站的地方，他们解决了“每一次token请求，最应该流向哪里”这样一个核心问题。

而这也是用户更期待的能力。

3.Token好用才是硬道理

调度层为什么会变得重要？因为企业真正买的不是模型，而是结果。

在C端场景里，用户可能会因为品牌认知使用DeepSeek、豆包或Kimi。但在B端或专业开发者领域，逻辑更直接：谁在业务和项目里效果最好，就用谁；谁更稳定、更便宜、更快，就用谁。

「甲子光年」调研发现，很多企业选模型，不会因为谁有名气就用谁，而是会把相关模型都试一遍，谁在业务上效果最好，就用谁。

原因也很简单：模型接口足够标准，迁移成本相对低。一个业务原本用模型A，新出了模型B，测试发现更好用，只要适配没有大问题，很快就可以切过去。

这意味着，模型品牌本身不是绝对护城河。企业真正买的是效果、稳定、成本和速度。

但模型越多，选择成本反而越高。企业不只是要选模型，还要选服务商、部署方式、价格策略、稳定性保障和合规路径。这对很多企业，尤其是一些传统企业来说，不是一件容易的事情。

这就是AI Ping的企业价值：为企业用户提供更多选择权，降低试错成本和稳定性风险。

更进一步，这套调度能力还有可能改变国产算力的使用方式。

过去，国产算力推广常常遇到一个现实问题：地方政府和国产化智算中心希望企业使用国产算力，但实际上，企业不会因为“国产”两个字就迁移业务。

虽然国产芯片厂商在不断缩小和英伟达、AMD之间的差距，但国产算力要被真正用起来，不能只靠被推荐、被要求、被采购，而是要进入真实调用链，在一次次token请求中证明自己可用、好用、划算。

智能路由提供了一种更柔性的路径。

它不要求企业一次性把业务全部迁移到国产算力上，而是把适合国产算力承载的任务、模型和token请求，先调度过去。如果这些请求在真实业务中跑通，国产算力的价值就不再只是政策口号，而会变成企业能感知到的成本、效率和稳定性收益。

不管黑猫、白猫，能捉老鼠的就是好猫。

由此，我们可以进一步理解清程极智三款核心产品之间的关系：赤兔解决的是推理部署和Token生产效率问题，AI Ping解决的是模型服务评测与智能路由问题，而八卦炉则更像一套面向应用落地的智能软件栈。

八卦炉产品架构图，图片来源：清程极智

八卦炉并不只是模型训练工具，而是覆盖业务应用、Agent服务、AI Model Service、算力资源编排和底层算力适配的一套完整体系。它一方面向上承接大模型训练、工业控制、数字人、AI图像视频、在线教育、AI4S、AI Coding、医疗健康等业务场景；另一方面向下连接推理、训练/微调、模型量化、服务部署、数据准备、模型评测等基础能力，并通过分布式计算引擎、算力资源编排器和多元算力底座，为应用提供支撑。

这意味着，清程极智并不是只在某一个环节上讨论token。赤兔让token更高效地被生产出来，八卦炉让token能够进入具体应用和业务流程，而AI Ping则站在两者之间，回答了一个更关键的问题：当模型、服务商、算力和应用都变得足够复杂之后，每一次token请求，应该流向哪里。

也正是在这个意义上，AI Ping更像是清程极智整个AI Infra体系里的调度中枢：向下理解不同算力和模型服务的真实状态，向上理解不同应用场景对成本、速度、效果和可靠性的不同要求。

Agent时代，光生产出来token还不够，还要把token送到业务现场。

生产能力决定token供给的底座，应用能力决定token最终释放价值的场景，而调度能力决定token能否在两者之间高质量流动。

这不容忽视。

（封面图来源：AI生成）

Agent 用戶調度生產模型服務問題 Token 亂象 token 清程算力服務商

上一篇：AI为何会一本正经地胡说八道？揭秘→

下一篇：先歌国际前任财务总监林建升被问询：为何离职、是否存纠纷

算力服务乱象丛生，如何让token更高质量流通？｜甲子光年

相关内容

热门资讯