灵衢：华为重构算力底座的“超级协议”

xinwen.mobi · 发表于 2025-10-23 15:59:32

灵衢：华为重构算力底座的“超级协议”
万卡集群如一台计算机，华为灵衢正让这一切从理想走向现实。

在算力需求呈指数级增长的今天，AI大模型动辄需要千万亿次计算，传统数据中心架构已面临严峻挑战。当集群规模扩大，传统“服务器堆叠和以太网联接”模式会导致算力利用率不升反降，甚至训练中断频发。

华为在2025年全联接大会上交出了他的答卷——灵衢（UnifiedBus）互联协议。

这一协议并非单纯的硬件升级，而是华为对计算系统架构的深度重构，它试图从根本上破解“规模越大，效率越低”的算力魔咒。

01 算力困境：规模与效率的悖论
“集群规模越大，算力利用率越低”——这是传统数据中心的真实写照。

在传统架构中，成千上万个计算单元需要为同一个训练任务进行高频、海量的数据同步时，网络带宽不足、时延大的问题会迅速凸显。

其结果是，大量计算单元不是在计算，而是在“等待”数据。

在万亿模型训练中，约有40%的时间，计算在空等通信。任何一个节点的故障都可能引发连锁反应，导致动辄耗时数周的训练任务中断。

更核心的问题在于，单芯片的算力天花板日益明显。多样化算力协同成为行业共识，但不同厂商的硬件组件协议不互通，需要额外的“翻译”成本，软件生态碎片化，难以形成规模化效应。

02 灵衢突破：从“堆叠”到“融合”
华为集群计算总经理朱照生表示，华为早在数年前就明确了核心战略：通过超节点与互联技术，突破单芯片算力瓶颈，提升整个计算系统的价值。

灵衢协议的研发，正是基于对计算系统四大核心痛点的深刻洞察：

性能线性度难题：传统系统在扩展时性能无法随节点数量同步增长

系统可用性挑战：节点扩大后运行可靠性下降，故障恢复效率低

资源利用率瓶颈：内存、带宽、计算资源分散，无法高效调度

产业协同壁垒：不同厂商硬件协议不互通，软件生态碎片化

灵衢的核心创新，在于打破了计算机网络与计算机体系结构的“墙”，构建了一套融合两者优势的协议栈。

从协议栈结构来看，灵衢呈现出鲜明的“双层基因”：底层保留计算机网络的成熟概念，但进行了针对性创新；上层则融入计算机体系结构的灵魂，提供与传统架构一致的编程入口。

03 超节点架构：让万卡集群如一台机器
基于灵衢协议，华为开创了超节点架构，具备资源池化、规模扩展、长稳可靠的关键特性。

超节点架构的核心思想是“融合”——物理上由多台机器组成，但逻辑和使用上可看做单一设备。

它通过大带宽、低时延的互联网络，将计算单元、存储单元等组件平等互联，并统一通信协议与内存编址，实现全局资源池化。

华为董事、ICT BG CEO杨超斌在华为全联接大会上表示：“基于灵衢互联协议，华为创新了超节点架构，可将多台物理机器深度互联，实现逻辑层面像一台机器一样学习、思考与推理。”

灵衢协议针对超节点互联的长距离高可靠、大带宽低时延难题，通过全栈技术创新实现“万卡超节点，一台计算机”。

该协议在物理层到传输层引入高可靠机制，光路支持百纳秒级故障切换，光互联可靠性提升100倍、距离超200米；同时突破多端口聚合等技术，实现TB级带宽与2.1微秒时延。

04 产业落地：从实验室到千行万业
经过数年迭代，灵衢已从实验室走向商用，形成两大典型部署形态，兼顾兼容性与创新性。

所有组件通过灵衢协议直接互联的原生超节点部署，以及通过UBOE模式兼容现有基础设施的部署方式。

目前，华为已推出基于灵衢和超节点架构的系列产品，覆盖从大型数据中心到企业级数据中心的全场景算力需求：

Atlas 950 SuperPoD：面向超大型AI计算任务的全液冷解决方案，支持8192张昇腾卡无收敛全互联

Atlas 850：业界首个企业级风冷AI超节点服务器，首次将超节点架构带入标准风冷机房

Atlas 350 标卡：支持4个灵衢端口互联，实现算力、内存等资源池化

TaiShan 950 SuperPoD：业界首款通算超节点，为数据库、虚拟化等业务场景提供超低时延

华为将超节点技术引入通用计算领域，推出全球首个通用计算超节点，天然适合共享大内存、分布式数据库、大数据分析和低延迟大流量的业务，未来可用于金融、电信等行业。

在数据库场景，以灵衢互联为基础形成内存池化能力和超低时延，大幅提升事务处理性能，实现数据库 tpmC性能1.9倍提升；在虚机热迁移场景，通过Full mesh全互联的架构实现超大带宽，将迁移时间从100毫秒降到50毫秒，业务无感知。

05 生态共建：从技术优势到产业标准
在发布硬件产品之余，华为强调的是“硬件开放、软件开源”的生态战略。

华为宣布对外开放灵衢2.0技术规范，徐直军也表示，希望产业链基于灵衢积极研发相关产品和部件，共建灵衢开放生态。

这一开放策略有意通过标准化互联协议，降低集群计算生态的碎片化，推动形成规模化、可互操作的算力基础设施体系。

在软件层面，操作系统灵衢组件也将全部开源，组件代码将陆续合入openEuler等多个上游操作系统开源社区。

用户可以根据实际需求，将部分或全部源代码集成到现有操作系统中，自行迭代维护版本。

北京大学计算机学院软件科学与工程系主任谢涛认为，“互联协议是超节点集群的‘神经中枢’，华为选择开放灵衢，有望定义下一代算力集群的互联标准。”

06 未来展望：算力生态的无边界扩展
当被问及“超节点是否越大越好”时，华为的回答展现了对产业趋势的判断：超节点规模无固定“甜点”。

华为计划2026年底将灵衢超节点规模提升至8192卡，后续逐步扩展至15488卡，目的是为模型厂商提供无约束的硬件平台。

从更长远来看，灵衢的意义不仅在于技术创新，更在于推动算力产业的“范式转移”：过去，算力基础设施的核心是“单芯片性能竞赛”；未来，“系统协同效率”将成为竞争关键。

当不同厂商的硬件能通过统一协议无缝协同，当软件开发者能自由调度全量池化资源，整个算力产业将摆脱“碎片化”困境，进入“协同创新”的新阶段。

在华为的蓝图中，灵衢不仅仅是互联协议，更是算力基础设施的“普通话”，它让所有硬件组件能够用同一种语言交流。

随着灵衢协议的开放与开源，一个更加广阔的算力图景正在展开：任何厂商的硬件都能即插即用，软件开发者无需关心底层硬件差异，可以自由调度池化资源。

从城市算网到企业机房，从AI训练到通用计算，灵衢正悄然重塑算力世界的底层逻辑。

		自动登录	找回密码
密码			立即注册

灵衢：华为重构算力底座的“超级协议”

相关帖子