字节跳动自研交换机
前几天刚在科普小知识-千兆网络的真相|经验|资讯|itacme里面说未来的瓶颈将来源于网络,其实巨头们早就发现了问题,老早就开始布局了。
以下内容来源于网络,链接地址:https://www.sohu.com/a/759694862_258957
突袭,其实并不恰当!
因为字节跳动自研交换机,早在2019年,就开始悄悄布局了。
只是这一次,随着51.2T高性能数据中心交换机的闪亮登场,字节跳动也低调宣布,实现了“ 在2023年全面上线自研交换机的目标”。
废话不说,先戳视频,看看这款命名为 B5020的51.2T交换机的细节吧。
按字节的说法,这可是全球首款51.2T全端口支持LPO的交换机,也是全球率先实现800G实际规模化部署的产品。划重点
上面视频来源于字节跳动系统技术公众号(字节跳动SYS Tech),我在二次剪辑的时候,把一些关键信息摘出来Highlight了一下。
先看一下交换机的外观和内部结构,标准机架式,4U高度,64×800GbE端口。
整机交换容量51.2Tbs(其实按业界全双工的算法应该是102.4Tbps),这个容量也是当下业界单芯片盒式交换机的极限 。
有人说,前面板看着挺空的,似乎2U就能摆下这些端口,为啥不把机箱做得更紧凑些(比如3U甚至2U ),岂不是更能节省机房空间。
其实,字节在设计这款交换机的时候,散热、电源功率、机箱结构等等,都是做了向后兼容下一代102.4T产品的考虑。
未来,单芯片102.4T时代,这个4U结构正好可以摆下128个800G端口(当然也可以是64×1.6T,这端口速度,看着就吓人啊,刚入行的时候,1G我都觉的很少见,谁能想20年后,马上要1600G了)。
在板卡设计上,字节也做了很多微创新,比如整机一张MAC-PCB板,整机内部仅用三条连接线缆。
这些极简设计可以让整机生产功率大幅减少。有助于提高生产直通率,减少故障点。
以前大家学产品规划/管理的时候,都有一条叫做DFM(Design For Manufacturing)。在这里,字节就运用得很好。
再比如,在仅用28层PCB方案的情况下,完成高密度布线设计,而且成功将全端口最大损耗控制在7d以下。
较少层数的PCB,降低了生产难度,也能更好地控制硬件成本。
在端口扇出(Fan out)设计上,字节团队摈弃了传统扇出方案(传统扇出方案在大芯片时代,远端端口难以维持信号完整性),首创了大芯片布线空间复用方案。
PCB相关的设计论文,入选了全球芯片设计领域的顶级会议DesignCon 2024,并申请了两项发明专利。
上面入选的 论文一共三篇,其中两篇是PCB设计相关,还有一篇涉及800G LPO技术,因为这款交换机还在业内首度采用了800G LPO。
跟传统光模块相比,LPO光模块功耗低、延迟低,当然成本也更低。
另外,为了简化运维,这款交换机的管理引擎采用了插卡式模块化设计,替换方便。
同时管理引擎上的BMC、SSD、DDR内存等,全部都是扣卡设计,大大降低了运维难度。
有同学评价: 管理引擎光模块化还不够,不支持热插拔,也不是双冗余。
其实这是对业务场景和交换机定位的误解。
这款B5020并不是模块化机箱交换机,而是一款“盒式”机架交换机,应用场景是互联网数据中心/智算中心的Leaf或者Spine。
在这样的场景下,一般采用胖树架构,而不是咱们常规园区或者企业网络中,双核心+汇聚+接入。
比如,互联网大厂数据中心一个典型的胖树网络是这样的,B5020充当的角色,就是一台高速率、高密度同时高性价比、易运维的Spine或者Leaf。
在交换机软件上,字节基于开源的SONiC,自研了Lambda OS。
不得不说,这几年SONiC的成熟度越来越高,生态也越来越好,很多互联网大厂都开始基于SONiC来开发自家的交换机软件。
关于字节的这款交换机,我们就扒到这里。
根据字节跳动的说法,他们已经实现了在2023 年全面上线自研交换机的目标。
目前大规模交付的 100G/400G 网络,全由自研交换机覆盖,硬件采用 JDM + CM 模式研发,软件则是自研的 Lambda OS。
说到这里,我们有必要谈谈硬件的研发模式:JDM+CM。
以交换机为例,业界的产品研发模式包括:
最初级的叫OEM模式,也就是大家常说的贴牌。交换机软硬件整机全是原厂提供,品牌商只需要贴标,修改下软件界面,就变成自家的品牌。
第二级叫做ODM模式,品牌商有自己的idea,提出自己的定制化需求,然后由ODM商完成设计和生产。对交换机来说,一般品牌厂家具备软件研发能力,只需要ODM定制化硬件。尤其白盒时代,这种流行度很高。
第三级叫做JDM模式,Joint Design Manufacture,联合设计制造,是客户企业(比如字节)和交换机制造商(比如数通大厂)共同参与设计和开发,企业方需要深度参与整个过程。
再往上,更纯粹的CM模式,Contract Manufacture,合同制造,也就是客户企业完全自行设计,然后委托给制造商生产。
回头看,字节交换机采用的模式就是“JDM+CM”,即联合设计制造+委托生产,这可不是贴牌,人家说自研,完全没毛病。
最后一个问题,有吃瓜群众评论,为啥字节“不务正业”非要搞交换机呢?难道字节是看重交换机那点可怜巴巴的市场吗?
非也,其实互联网大厂自研基础设施,是大势所趋,也是真实刚需。从国外的谷歌、Facebook到国内BAT,都有自研的经历。
(Facebook自研交换机:Backpack和miniPack)
从服务器到存储到交换机,甚至到AI芯片、DPU、主芯片,互联网巨头们一直在努力。
一方面是他们用量太大,通过自研是真的可以有效降低成本。另一方面, 大厂们会根据自己的业务场景需求,来定制软件和硬件,让这些设备更纯粹的扛活。
所以,更低的成本、更方便运维、极简且定制的功能,这些是大厂们看重的,其实前面视频里,字节也多次强调了成本的节省、功耗的节省、运维的简化。
这不是交换机厂商的宣传标签,这是人家真实的需求啊。
还有一点新变化,在我们常规的组网工程里,交换机的数量要远远少于主机/服务器。
但是在现代数据中心/智算中心里,尤其是大模型时代GPU服务器场景,一台8卡服务器,就要占用8个400G/800G交换机端口,再加上冗余拓扑要求,交换机的需求数量大大提升了。
(图源:鹅厂网事)
所以,你看到,国内大厂都在自研交换机,阿里云推出了磐久交换机,从100G到400G全有。
(阿里自研交换机)
鹅厂则搞出了星脉网络,而且,鹅厂不仅有交换机,还有自研的光传输呢。
(腾讯自研交换机TCS9500)
(鹅厂自研光传送系统OPC-8)
这块市场有多大呢,从IDC的交换机市场跟踪数据上,我们可以大概揣摩出来。
下图橙色的部分,每次排名里那个神秘的“ODM Direct”,主要就是这类互联网大厂们干的。
所以,字节做交换机,并非「突袭」,更是玩票,而是谋定后动,顺势而为。
好了,今天就啰嗦到这儿。
亲爱的网工们,让我们继续背锅、继续加油吧!