Token好用才是硬道理。
作者|王博
“今年各家token服务商的服务质量,明显比去年差了。”
这是一位算力服务商负责人的真实感受。
“比如一个请求,本来3秒、5秒就应该返回首token,现在可能30秒才返回,甚至更久。这类情况比例明显提高。”这位负责人告诉「甲子光年」,“行业里还存在超售现象,尤其是面对中小客户时,有的算力服务商不太管自己实际能承载多少服务,结果就是客户需求超过资源池上限,大家一起抢资源,没抢到就只能排队。”
去年,模型厂商、云厂商、MaaS平台轮番降价,每百万token的价格被不断打低。那时,行业讨论的核心问题是:谁能生产出更多、更便宜的token。
但今年问题变了。
一个普通ChatBot回答一次问题,可能只是一次调用;一个Agent完成一次任务,却可能要拆解目标、读取文件、调用工具、生成代码、反复校验,每一步都在消耗token。Token不再只是模型公司的计费单位,而开始变成企业智能系统的运行单位。
根据国家数据局发布的数据,2025年,全国日均token调用量从年初的超万亿增长到年末的100万亿;而到了2026年,全国日均token调用量已突破140万亿。
制图:甲子光年智库
Agent火起来之后,token开始“堵车”了。
这不是一个简单的体验问题。对一个在线业务来说,几十秒甚至上百秒延迟,意味着用户体验下降、任务链路中断,甚至业务不可用。
当token像车流一样开始拥堵,AI Infra就不仅仅意味着要有更多道路,还需要一套更智能的导航系统。
它有点像地图软件:实时判断路况,选择更优路径;也有点像精品会员超市:先做严选,再把更可靠的服务摆到用户面前;还有点像点评软件:用持续评测降低信息不对称,让用户知道哪家服务更稳定、哪条路径更适合。
「甲子光年」认为,Agent时代的竞争,不只是生产token,更需要关注谁能让token更高质量流通。
简单来说就是,如何让大模型调用更快、更稳、更省钱?
1.Token不再只是便宜就够了
Token服务的复杂性在于,它对很多用户来说仍然是一个黑盒。
用户有的时候并不知道背后到底是什么模型、什么服务商、什么算力,也不知道服务质量是否缩水。一个套餐可能标着好看的名字,但具体用什么模型,稳定性如何,是否经过激进量化,外部很难判断。
「甲子光年」了解到,有些算力服务商为了覆盖成本,会做非常激进的量化。原版模型可能是精度更高的FP8,但实际部署时用了精度更低的INT4,这相当于把模型“压缩”得更狠。价格看起来更便宜,但复杂任务上的效果可能下降。用户看到的是同一个模型名字,却很难判断背后到底是不是同样的服务质量。
懂行的用户会在采购前测试服务质量、压测能力和模型精度,但大部分用户并不具备这样的判断能力。
这也是token服务市场开始变得复杂的原因。
在消费互联网时代,用户买一件商品,可以看品牌、配料表、产地、评价;但在AI服务里,token的“配料表”还没有完全透明。用户买到的是一个结果,却很难知道这个结果是由哪条链路生产出来的。
所以,Agent时代的token问题,价格只是一方面,更重要的是“稳定、透明、可调度”。
过去,行业里在AI Infra层面讨论更多的是如何生产token。现在,新的问题开始浮现:当token被生产出来之后,谁来判断它的质量,谁来选择它的路径,谁来保证它稳定抵达业务现场?
2.Token调度甚至要比生产更重要
如果把token看成AI时代的基础流量,它从生产出来到进入业务,大致要经过三层:生产层、中转层、调度层。
第一层是生产层,解决token从哪里来。
这一层包括算力、模型、推理引擎、云厂商、MaaS服务商、智算中心等。它们关心的是:如何用更少的算力、更低的成本、更高的效率,生产更多token。
英伟达创始人、CEO黄仁勋在今年的GTC上就自称“Token王(Token King)”,并表示:“我们的token成本是全球最低的。”暗示英伟达是当之无愧的“Token王”。
第二层是中转层,解决token怎么被接入。
这一层更像模型API网关或模型超市。它降低了开发者调用不同模型的门槛,让用户可以通过统一入口调用不同模型和服务商。在海外备受关注的OpenRouter更接近这一层:它证明了当模型供给足够丰富,模型和应用之间会自然长出统一接入层。
但统一接入解决的是“连得上”,还没有完全解决“走哪条路”。
第三层是调度层,解决token应该怎么走。
如果把token请求看作车流,把模型API和算力服务看作道路,那么生产层负责造车和修路,中转层负责把路连起来,调度层则要判断:哪条路现在不堵,哪条路更便宜,哪条路更稳定,哪条路更适合当前任务,哪条路出问题后应该怎么绕行。
这不是一个简单的地图软件逻辑,而更像是几种能力的组合:既要像地图一样看见实时路况,也要像严选平台一样筛选供给,还要像点评系统一样持续积累服务质量数据。
在调度层,清华系创企、人工智能系统服务商清程极智一直在致力于“让token更高质量流通”,他们的核心产品之一就是token路由调度平台AI Ping。
AI Ping并不是突然出现的新产品。早在2025年9月,清华大学与中国软件评测中心在GOSIM2025发布《2025大模型服务性能排行榜》时,AI Ping就已经作为评测工具和数据展示平台出现,覆盖20多家厂商的230多项模型服务,并支持7×24小时性能监测。
2026年初,清程极智将AI Ping进一步推到台前,并正式将其定义为“一站式AI评测与API服务智能路由平台”,覆盖“评测—接入—路由—优化”环节。
“我们认为,在大模型应用场景中,最关键的AI Infra的核心需求是智能路由。”清程极智CEO汤雄超说,“通过智能路由,我们可以为海量的业务请求找到最好、最快、最稳定、最便宜的Token服务。”
AI Ping不是简单把请求转发出去,而是基于评测和路由,做实时路径规划。
清程极智联合创始人、产品副总裁师天麾告诉「甲子光年」,上游服务商的数量和水平决定平台上限,路由能力决定平台能多大程度逼近这个上限。服务商越多,理论上调度空间越大;但只有选择多还不够,关键是知道每一个选择在当前时刻的真实状态。
AI Ping做的第一件事是,接入更多服务商。
国内比较知名、比较大的token服务商,清程极智基本希望应接尽接。选择越多,调度上限越高。目前,AI Ping已接入国内29个token服务商。
图片来源:AI Ping
第二件事是,持续评测。
AI Ping 7×24小时不间断做评测,既有固定测试请求,也把真实业务请求纳入评测体系。评测不是为了做榜单,而是为了知道每条“路”此刻的真实路况。
“测试是调度的基石,测得准才能调度得好。”师天麾说。
第三件事是,动态路由。
AI Ping的路由逻辑,并不是简单把请求导向价格最低的一家,而是在价格、延迟、吞吐、可靠性、模型效果、Cache命中率等多个指标之间做动态权衡。
普通API中转解决的是连接问题,而智能路由解决的是信任问题。
师天麾举了一个例子:很多企业采购模型服务时只比较单价,但真实成本不只由单价决定。Cache命中率就是一个容易被忽视的变量。一旦命中Cache,成本可能只有原来的10%或20%;如果命中不了,即便单价更低,最终总成本也可能更高。
但成本只是其中一环。更重要的是,当某条路径延迟上升、可靠性下降,或者某个服务商出现拥堵时,AI Ping可以根据实时评测结果,把请求切换到更高性能、更高可靠性的模型和服务商上。
第四件事是,异常兜底。
当某个服务商长时间不返回、输出中断或出现异常时,AI Ping可以自动切换服务节点或服务商,而不是让用户自己重试。对企业来说,这种兜底能力的价值,往往高于简单的价格差。
以上这四个方面就是清程极智AI Ping区别于普通API中转站的地方,他们解决了“每一次token请求,最应该流向哪里”这样一个核心问题。
而这也是用户更期待的能力。
3.Token好用才是硬道理
调度层为什么会变得重要?因为企业真正买的不是模型,而是结果。
在C端场景里,用户可能会因为品牌认知使用DeepSeek、豆包或Kimi。但在B端或专业开发者领域,逻辑更直接:谁在业务和项目里效果最好,就用谁;谁更稳定、更便宜、更快,就用谁。
「甲子光年」调研发现,很多企业选模型,不会因为谁有名气就用谁,而是会把相关模型都试一遍,谁在业务上效果最好,就用谁。
原因也很简单:模型接口足够标准,迁移成本相对低。一个业务原本用模型A,新出了模型B,测试发现更好用,只要适配没有大问题,很快就可以切过去。
这意味着,模型品牌本身不是绝对护城河。企业真正买的是效果、稳定、成本和速度。
但模型越多,选择成本反而越高。企业不只是要选模型,还要选服务商、部署方式、价格策略、稳定性保障和合规路径。这对很多企业,尤其是一些传统企业来说,不是一件容易的事情。
这就是AI Ping的企业价值:为企业用户提供更多选择权,降低试错成本和稳定性风险。
更进一步,这套调度能力还有可能改变国产算力的使用方式。
过去,国产算力推广常常遇到一个现实问题:地方政府和国产化智算中心希望企业使用国产算力,但实际上,企业不会因为“国产”两个字就迁移业务。
虽然国产芯片厂商在不断缩小和英伟达、AMD之间的差距,但国产算力要被真正用起来,不能只靠被推荐、被要求、被采购,而是要进入真实调用链,在一次次token请求中证明自己可用、好用、划算。
智能路由提供了一种更柔性的路径。
它不要求企业一次性把业务全部迁移到国产算力上,而是把适合国产算力承载的任务、模型和token请求,先调度过去。如果这些请求在真实业务中跑通,国产算力的价值就不再只是政策口号,而会变成企业能感知到的成本、效率和稳定性收益。
不管黑猫、白猫,能捉老鼠的就是好猫。
由此,我们可以进一步理解清程极智三款核心产品之间的关系:赤兔解决的是推理部署和Token生产效率问题,AI Ping解决的是模型服务评测与智能路由问题,而八卦炉则更像一套面向应用落地的智能软件栈。
八卦炉产品架构图,图片来源:清程极智
八卦炉并不只是模型训练工具,而是覆盖业务应用、Agent服务、AI Model Service、算力资源编排和底层算力适配的一套完整体系。它一方面向上承接大模型训练、工业控制、数字人、AI图像视频、在线教育、AI4S、AI Coding、医疗健康等业务场景;另一方面向下连接推理、训练/微调、模型量化、服务部署、数据准备、模型评测等基础能力,并通过分布式计算引擎、算力资源编排器和多元算力底座,为应用提供支撑。
这意味着,清程极智并不是只在某一个环节上讨论token。赤兔让token更高效地被生产出来,八卦炉让token能够进入具体应用和业务流程,而AI Ping则站在两者之间,回答了一个更关键的问题:当模型、服务商、算力和应用都变得足够复杂之后,每一次token请求,应该流向哪里。
也正是在这个意义上,AI Ping更像是清程极智整个AI Infra体系里的调度中枢:向下理解不同算力和模型服务的真实状态,向上理解不同应用场景对成本、速度、效果和可靠性的不同要求。
Agent时代,光生产出来token还不够,还要把token送到业务现场。
生产能力决定token供给的底座,应用能力决定token最终释放价值的场景,而调度能力决定token能否在两者之间高质量流动。
这不容忽视。
(封面图来源:AI生成)