在“雪球嘉年华”舞台上,云天励飞董事长兼CEO陈宁围绕《重新定义AI推理时代的算力》发表主题演讲,系统阐释了大模型应用爆发背景下,“推理规模化”成为产业主线的趋势判断,并披露云天励飞面向推理时代的产品矩阵与下一代云端推理芯片架构规划。

推理拐点:token消耗攀升,算力逻辑重写
陈宁在演讲中指出,行业正在经历底层逻辑切换:随着大模型应用从“试用”走向“高频使用、规模化部署”,推理需求呈数量级增长,进而推动算力结构从过去以GPU为核心的“训推一体”,逐步走向“训练与推理分离”的两条赛道并行发展。
在他给出的案例中,海外大模型产品的日均token量在用户规模、使用时长与频率提升下出现百倍级增长;国内以豆包为代表的应用,日均token量在一年半内显著攀升,并仍保持快速增长态势。当token成为衡量推理规模化的“产能指标”,推理算力将从“配角”转为支撑AI应用大爆发的“基础设施”。
基于这一判断,云天励飞将推理芯片定位为“面向规模化落地的产业化引擎”:目标不只是追求峰值性能,而是围绕客户最关心的总体拥有成本(TCO),提升token生产效率、降低单位token的CapEx与OpEx,帮助客户把推理能力真正做成可持续运营的“算力工厂”。
产品全景:DeepEdge、DeepVerse、DeepXbot三线并进
围绕“推理规模化”需求,云天励飞持续专注AI推理芯片,并以三大系列覆盖边缘、云端与具身智能等关键方向——DeepEdge、DeepVerse、DeepXbot。
DeepEdge面向边缘推理部署,强调在多业务、多模型场景下的算力效率与性价比,满足更广泛的边缘侧推理需求;DeepVerse面向云服务与运营商等“大规模推理”客户形态,围绕推理集群形态(加速卡、服务器、超节点)构建云端推理能力栈;DeepXbot面向具身智能与VLA等新型模型需求,规划覆盖更宽算力段的国产工艺推理芯片供给。
通过三条产品线的协同,云天励飞希望把推理能力从“单点芯片性能”升级为“面向不同应用形态的可交付方案”,从而更贴近推理时代的真实需求:规模化、可迁移、可运营。
架构上云:下一代GPNPU面向云端推理
面向更具挑战的云端推理场景,陈宁披露云天励飞正在推进下一代芯片架构——GPNPU,并计划在后续产品中落地,用于支撑面向云端的大算力推理。
在演讲阐释中,GPNPU的思路是将三类能力进行融合优化:一是结合GPGPU的顶层调度与生态兼容思路,降低软件迁移门槛;二是结合团队在指令集与硬件/算法亲和性上的沉淀,强化矩阵计算等推理关键路径优化;三是融合国产工艺条件下的存储与封装演进方向,缓解推理时代日益突出的内存与带宽瓶颈,在成本与能效上形成更优解。
陈宁强调,推理时代的关键不在于单一指标拉满,而在于针对不同推理负载实现更合理的“算力—带宽—存储容量”参数配比,并在功耗、部署与运营环节持续降低成本,从而系统性提升单位token的综合效率。
核心底座:做好推理芯片的三大硬实力
面向“为什么能做成”的问题,陈宁在演讲中给出云天励飞的三项核心基础能力总结。
第一,场景理解与需求牵引。云天励飞强调不仅做架构对标,更从消费、企业与行业等多类场景中提炼推理范式变化,反向指导指令集与软件栈设计,以更贴近客户TCO目标与部署约束。
第二,指令集与NPU架构长期沉淀。公司已商用多代神经网络处理器架构,并参与推动国内NPU相关标准体系建设;在此基础上推进GPNPU等新架构,以适配边缘、具身与云端推理对灵活性与效率的更高要求。
第三,国产工艺与供应链体系能力。公司较早拥抱国产工艺路径,并围绕Chiplet、封装与存储等关键方向延伸能力,形成与推理时代“成本/能效/供给确定性”相匹配的产业化基础。
从“训练竞赛”到“推理规模化”,产业正在进入以token为核心计量单位的全新阶段。云天励飞将继续专注AI推理芯片赛道,依托DeepEdge、DeepVerse、DeepXbot三大产品线布局,推动下一代GPNPU架构面向云端推理落地,以更优的TCO与更高的token生产效率,服务AI应用的大规模普及与产业化进程。
