找回密码
 立即注册
搜索

灵衢:华为重构算力底座的“超级协议”

[复制链接]
xinwen.mobi 发表于 2025-10-23 15:59:32 | 显示全部楼层 |阅读模式
灵衢:华为重构算力底座的“超级协议”
万卡集群如一台计算机,华为灵衢正让这一切从理想走向现实。

在算力需求呈指数级增长的今天,AI大模型动辄需要千万亿次计算,传统数据中心架构已面临严峻挑战。当集群规模扩大,传统“服务器堆叠和以太网联接”模式会导致算力利用率不升反降,甚至训练中断频发。

华为在2025年全联接大会上交出了他的答卷——灵衢(UnifiedBus)互联协议。

这一协议并非单纯的硬件升级,而是华为对计算系统架构的深度重构,它试图从根本上破解“规模越大,效率越低”的算力魔咒。

01 算力困境:规模与效率的悖论
“集群规模越大,算力利用率越低”——这是传统数据中心的真实写照。

在传统架构中,成千上万个计算单元需要为同一个训练任务进行高频、海量的数据同步时,网络带宽不足、时延大的问题会迅速凸显。

其结果是,大量计算单元不是在计算,而是在“等待”数据。

在万亿模型训练中,约有40%的时间,计算在空等通信。任何一个节点的故障都可能引发连锁反应,导致动辄耗时数周的训练任务中断。

更核心的问题在于,单芯片的算力天花板日益明显。多样化算力协同成为行业共识,但不同厂商的硬件组件协议不互通,需要额外的“翻译”成本,软件生态碎片化,难以形成规模化效应。

02 灵衢突破:从“堆叠”到“融合”
华为集群计算总经理朱照生表示,华为早在数年前就明确了核心战略:通过超节点与互联技术,突破单芯片算力瓶颈,提升整个计算系统的价值。

灵衢协议的研发,正是基于对计算系统四大核心痛点的深刻洞察:

性能线性度难题:传统系统在扩展时性能无法随节点数量同步增长

系统可用性挑战:节点扩大后运行可靠性下降,故障恢复效率低

资源利用率瓶颈:内存、带宽、计算资源分散,无法高效调度

产业协同壁垒:不同厂商硬件协议不互通,软件生态碎片化

灵衢的核心创新,在于打破了计算机网络与计算机体系结构的“墙”,构建了一套融合两者优势的协议栈。

从协议栈结构来看,灵衢呈现出鲜明的“双层基因”:底层保留计算机网络的成熟概念,但进行了针对性创新;上层则融入计算机体系结构的灵魂,提供与传统架构一致的编程入口。

03 超节点架构:让万卡集群如一台机器
基于灵衢协议,华为开创了超节点架构,具备资源池化、规模扩展、长稳可靠的关键特性。

超节点架构的核心思想是“融合”——物理上由多台机器组成,但逻辑和使用上可看做单一设备。

它通过大带宽、低时延的互联网络,将计算单元、存储单元等组件平等互联,并统一通信协议与内存编址,实现全局资源池化。

华为董事、ICT BG CEO杨超斌在华为全联接大会上表示:“基于灵衢互联协议,华为创新了超节点架构,可将多台物理机器深度互联,实现逻辑层面像一台机器一样学习、思考与推理。”

灵衢协议针对超节点互联的长距离高可靠、大带宽低时延难题,通过全栈技术创新实现“万卡超节点,一台计算机”。

该协议在物理层到传输层引入高可靠机制,光路支持百纳秒级故障切换,光互联可靠性提升100倍、距离超200米;同时突破多端口聚合等技术,实现TB级带宽与2.1微秒时延。

04 产业落地:从实验室到千行万业
经过数年迭代,灵衢已从实验室走向商用,形成两大典型部署形态,兼顾兼容性与创新性。

所有组件通过灵衢协议直接互联的原生超节点部署,以及通过UBOE模式兼容现有基础设施的部署方式。

目前,华为已推出基于灵衢和超节点架构的系列产品,覆盖从大型数据中心到企业级数据中心的全场景算力需求:

Atlas 950 SuperPoD:面向超大型AI计算任务的全液冷解决方案,支持8192张昇腾卡无收敛全互联

Atlas 850:业界首个企业级风冷AI超节点服务器,首次将超节点架构带入标准风冷机房

Atlas 350 标卡:支持4个灵衢端口互联,实现算力、内存等资源池化

TaiShan 950 SuperPoD:业界首款通算超节点,为数据库、虚拟化等业务场景提供超低时延

华为将超节点技术引入通用计算领域,推出全球首个通用计算超节点,天然适合共享大内存、分布式数据库、大数据分析和低延迟大流量的业务,未来可用于金融、电信等行业。

在数据库场景,以灵衢互联为基础形成内存池化能力和超低时延,大幅提升事务处理性能,实现数据库 tpmC性能1.9倍提升;在虚机热迁移场景,通过Full mesh全互联的架构实现超大带宽,将迁移时间从100毫秒降到50毫秒,业务无感知。

05 生态共建:从技术优势到产业标准
在发布硬件产品之余,华为强调的是“硬件开放、软件开源”的生态战略。

华为宣布对外开放灵衢2.0技术规范,徐直军也表示,希望产业链基于灵衢积极研发相关产品和部件,共建灵衢开放生态。

这一开放策略有意通过标准化互联协议,降低集群计算生态的碎片化,推动形成规模化、可互操作的算力基础设施体系。

在软件层面,操作系统灵衢组件也将全部开源,组件代码将陆续合入openEuler等多个上游操作系统开源社区。

用户可以根据实际需求,将部分或全部源代码集成到现有操作系统中,自行迭代维护版本。

北京大学计算机学院软件科学与工程系主任谢涛认为,“互联协议是超节点集群的‘神经中枢’,华为选择开放灵衢,有望定义下一代算力集群的互联标准。”

06 未来展望:算力生态的无边界扩展
当被问及“超节点是否越大越好”时,华为的回答展现了对产业趋势的判断:超节点规模无固定“甜点”。

华为计划2026年底将灵衢超节点规模提升至8192卡,后续逐步扩展至15488卡,目的是为模型厂商提供无约束的硬件平台。

从更长远来看,灵衢的意义不仅在于技术创新,更在于推动算力产业的“范式转移”:过去,算力基础设施的核心是“单芯片性能竞赛”;未来,“系统协同效率”将成为竞争关键。

当不同厂商的硬件能通过统一协议无缝协同,当软件开发者能自由调度全量池化资源,整个算力产业将摆脱“碎片化”困境,进入“协同创新”的新阶段。

在华为的蓝图中,灵衢不仅仅是互联协议,更是算力基础设施的“普通话”,它让所有硬件组件能够用同一种语言交流。

随着灵衢协议的开放与开源,一个更加广阔的算力图景正在展开:任何厂商的硬件都能即插即用,软件开发者无需关心底层硬件差异,可以自由调度池化资源。

从城市算网到企业机房,从AI训练到通用计算,灵衢正悄然重塑算力世界的底层逻辑。

回复

使用道具 举报

QQ|周边二手车|手机版|标签|新闻魔笔科技XinWen.MoBi - 海量语音新闻! ( 粤ICP备2024355322号-1|粤公网安备44090202001230号 )

GMT+8, 2025-12-18 01:27 , Processed in 0.118138 second(s), 18 queries .

Powered by Discuz! X3.5

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表