产品详情 | PRODUCT DETAILS
斯诺克直播178:
曩昔两年,职业还聚集在算力规划上,似乎谁拿到了更多GPU,谁就把握了AI竞赛的入场券。但当万卡集群逐步落地,一个更荫蔽的瓶颈浮出水面:
中科曙光高档副总裁李斌算了这样一笔账:“本来以CPU为中心的核算单元,双路的核算节点插一张网卡就够了;现在以GPU为中心的核算节点,一台机器要配八张乃至更多的网卡。”
万卡集群的练习,需求网络时延在纳秒级内,且传输精度做到无损。而现实是,不管鉴别英伟达主导的IB(InfiniBand)道路,仍是运维杂乱的RoCE道路,国内用户都某些特定的程度上“受制于人”。

正是这样的布景下,中科曙光历时三年推出国产原生IB架构高速网络产品scaleFabric,企图在智算网络的咽喉要道上,占有一席之地。
跟着AI需求飙涨,职业现已逐步发现,大规划核算体系的功率不等于体系的峰值算力,在集群实践运转中,挨近一半的算力会被糟蹋掉。
也就是说,单卡算力再强,假如网络无法在规则时间内完结数据交流,大部分算力只能在等候中被糟蹋。MFU(模型算力利用率)的天花板,很大程度上是由网络决议的。
现在,万卡集群高速互联需求下,商场能满意的技能道路首要有两条:IB(InfiniBand)和RoCE(RDMA over Converged Ethernet)。前者是专为高功能核算规划的原生RDMA架构,后者则是根据以太网的RDMA技能方案。
IB功能杰出但价格昂贵,是超算和尖端AI集群的首选;RoCE本钱较低,且互联网厂商在CPU云年代便以以太网为根底,老练的运维体系也让他们在智算年代更倾向于继续沿袭以太网道路。
可是,AI带来算力需求迸发的当下,跟着智算集群规划从千卡迈向万卡乃至十万卡,RoCE的先天短板开端闪现——
IB交流机选用VCT交流,可完成“边收边转”,交流时延可操控在300纳秒以内;而RoCE交流机则选用“存储-转发”交流,需完好接纳数据包后再转发,时延遍及在500纳秒以上。
在流量操控机制上,IB选用根据信誉的精细化流控,发送前会承认接纳端资源,从本源防止丢包;RoCE依靠的PFC(Priority Flow Control)暂停机制则是粗粒度流控,有可能会呈现丢包、PFC死锁或风暴,有必要依靠拥塞操控且需人工调优水线。
虽然RoCE厂商在追逐IB的功能,但用户也现已在“用脚投票”。例如,在感遭到IB的功能优势后,微软现在已开端将部分中心AI练习事务从以太转向了IB。
英伟达一家独大,收购价格昂扬,且供货周期和产品迭代并不安稳。而且,英伟达在B300等最新芯片中已标配CX8网络模块,这在某种程度上预示着收购其芯片,往往就被强制绑定运用英伟达自家的IB网络产品。
面临功能较差劲的RoCE与高价独占的IB,国产算力高速网络需求一条新出路。
这是国内首款全栈自研原生IB架构高速网络产品:从底层的112G SerDes IP、交流芯片、网卡,到上层的交流机硬件和管理软件,满是自主研制产品,历时三年研制。
功能层面,中国科学院核算技能研究所王展尸横遍野,通讯层面上,曙光的产品基本上和英伟达在同一水平。其端到端通讯时延在0.93微秒,交流机转发时延260纳秒,与英伟达NDR相等;单端口带宽到达800G,较RoCE干流交流机抢先一到两代,整机交流容量64T;在典型AI练习任务中,实测网络功率提高40%以上。
可靠性层面,因为选用了原生IB的信誉流控机制,scaleFabric完成了真无损网络,防止了RoCE方案中常见的PFC风暴危险。曙光泄漏,该产品已在近万卡规划的集群中继续安稳运转逾越10个月。
当然,对用户而言,最灵敏的变量依然是本钱。曙光泄漏,在平等规划集群中,scaleFabric的全体网络本钱较进口IB方案可下降约30%。
这一价格优势一旦被验证,RoCE赖以生存的“性价比护身符”将遭到巨大冲击。
中科曙光高速网络互联产品部总工程师万伟直言,研制中的第一个难点是链路技能:起先咱们想买现成的IB方案,可是除暴安良不符合规范要求,终究只能招团队从零做起。
其次,在不同设定上,团队并非简略对标英伟达IB,而是立志在要害标准上完成逾越,这也带来了巨大的技能应战。万伟慨叹,所幸团队终究在国家的支持下得以攻克难关、取得成功。
李斌弥补说,当时业界存在RoCE、ScaleOut、ScaleUP等多种技能道路,百家争鸣,而曙光的鉴别是在原生RDMA架构根底上,为超大规划体系上的功能和扩展性做深度考量。
他对商场之间的竞赛格式有清醒的判别:“现在这一个商场的首要玩家仍是英伟达。咱们关于产品的定位,是期待在IB的技能道路能完成技能上的国产化代替,完成事务上真实的商场占比代替。咱们咱们都期望打破一家独大的局势,把整个技能做敞开,商场的蛋糕咱们同享。”
虽然英伟达的领头羊短期难以撼动,但国产IB的打破,已为智算网络自主之路点亮期望。
华东大厂收购3家国产芯片公司数万张卡;大厂扩建6000P方案受阻;上市AI芯片公司绑定专属服务器代工同伴;相变浸没液冷推行不畅
单机架功能超x86两倍、每GW省100亿美元,Arm为智能体年代「重造」CPU
产品系列
Products
联系我们
台球直播免费斯诺克直播电话
台球直播免费斯诺克直播: 台球免费直播平台 - 斯诺克直播球迷网入口 - 178斯诺克免费高清直播
邮编: 518126
联系人: 王经理
热线: 400-800-7156
电话: 0755-26414638
传真: 0755-26522816
邮箱: szcreate@163.com
QQ: 631045164




首页
产品
案例
联系