文章來源:申耀的科技觀察
從2023年的ChatGPT,到2024年的Sora,AI大模型正以不可思議的發(fā)展速度顛覆著業(yè)界的認(rèn)知,但AI大模型的火熱登場(chǎng),也進(jìn)一步對(duì)智算中心提出了更高的要求。
可以看到,當(dāng)前訓(xùn)練數(shù)據(jù)集的規(guī)模正從TB級(jí)別上升至PB乃至EB級(jí)別,AI大模型的參數(shù)量也從千億級(jí)別向萬億甚至十萬億規(guī)模邁進(jìn)。以 GPT3.5 為例,其參數(shù)規(guī)模達(dá)1750億,作為訓(xùn)練數(shù)據(jù)集的互聯(lián)網(wǎng)文本量也超過45TB,其訓(xùn)練過程依賴于專門建設(shè)的AI智算中心,以及由1萬顆GPU組成的高性能網(wǎng)絡(luò)集群,總計(jì)算力消耗約為3640 PF-days(即每秒一千萬億次計(jì)算,運(yùn)行 3640 天)。
如此龐大的訓(xùn)練任務(wù)通常無法由單個(gè)服務(wù)器完成,往往需要大量服務(wù)器作為節(jié)點(diǎn),并通過高效的組網(wǎng)方式形成大規(guī)模的AI算力集群(Scale Out),由此才能為AI大模型訓(xùn)練提供強(qiáng)有力的支持,而這也意味著AI集群中的網(wǎng)絡(luò)互聯(lián)和交換必須具備高性能、低功耗、低時(shí)延以及高可靠性等能力,否則就會(huì)影響AI集群訓(xùn)練的質(zhì)量和速度。
在此背景下,MEMS-OXC“重出江湖”,相比傳統(tǒng)的電交換技術(shù),其以高帶寬、低延遲和低能耗的優(yōu)勢(shì),一時(shí)間引發(fā)了業(yè)界的高度關(guān)注,特別是隨著谷歌引入OXC光交換機(jī)提升AI集群性能,更使得MEMS-OXC在市場(chǎng)中成為了廣泛討論的熱點(diǎn)話題。
但正所謂“透過現(xiàn)象看本質(zhì)”,在當(dāng)前的智算中心應(yīng)用場(chǎng)景中,MEMS-OXC和自動(dòng)配線架并無本質(zhì)區(qū)別,在未來很長(zhǎng)一段時(shí)間內(nèi),MEMS-OXC都很難取代傳統(tǒng)的電交換機(jī),或者說難以“顛覆”傳統(tǒng)的組網(wǎng)架構(gòu)和組網(wǎng)模式,其規(guī);涞厝匀焕щy重重。
MEMS-OXC爆火背后的冷思考
毫無疑問,基于電交換機(jī)的組網(wǎng)模式在數(shù)據(jù)中心網(wǎng)絡(luò)架構(gòu)中扮演著至關(guān)重要的角色,其中以“Spine-Leaf”為代表的大二層組網(wǎng)模式,因其高效、可靠和易于擴(kuò)展的特性,贏得了市場(chǎng)的一致的認(rèn)可,這種組網(wǎng)模式的核心在于其無阻塞的交換架構(gòu),通過兩層設(shè)備(Spine和Leaf)提供高效、可靠的連接,不僅能夠滿足大規(guī)模組網(wǎng)能力下的彈性擴(kuò)縮、高效轉(zhuǎn)發(fā)和高可靠性等需求,還能通過跨設(shè)備鏈路聚合技術(shù)和等價(jià)多路徑(ECMP)等方式,實(shí)現(xiàn)多路徑轉(zhuǎn)發(fā)和鏈路快速切換,進(jìn)一步提升整體網(wǎng)絡(luò)的穩(wěn)定性和性能。
但隨著AI技術(shù)的不斷發(fā)展,尤其是AI大模型訓(xùn)練對(duì)算卡的需求也在持續(xù)增長(zhǎng)。當(dāng)這種需求攀升十萬卡乃至更大規(guī)模擴(kuò)展時(shí),傳統(tǒng)的兩層組網(wǎng)模式開始面臨挑戰(zhàn),三層組網(wǎng)模式被廣泛引入,通過在Spine和Leaf層增加Core層,可以更好優(yōu)化網(wǎng)絡(luò)架構(gòu),最大化提升網(wǎng)絡(luò)性能和擴(kuò)展性。
當(dāng)前,由于Spine層和Core層之間需要通過光模塊互聯(lián),電交換機(jī)和光模塊數(shù)量的增加則會(huì)帶來整體能耗的上升,此時(shí)如果Core層部署OXC光交換機(jī)實(shí)現(xiàn)Spine間互聯(lián),則能夠一定程度上降低能耗,并提升系統(tǒng)的可用性。
也正因此,MEMS OXC“重出江湖”,其全稱是“Optical Cross-Connect”,即指光交叉連接設(shè)備。以最典型的MEMS OXC為例:其內(nèi)置兩個(gè)微鏡陣列,陣列A通過調(diào)整轉(zhuǎn)角將入射信號(hào)偏轉(zhuǎn)到陣列B對(duì)應(yīng)的微鏡單元,將光從入端口映射到出端口,從而實(shí)現(xiàn)兩條路徑之間的光信號(hào)交換。
由于光交換機(jī)負(fù)責(zé)在光纖間建立和斷開連接,相較于傳統(tǒng)的電交換機(jī),高性能的光交換機(jī)能夠?qū)崿F(xiàn)更快的切換速度,對(duì)于滿足智算中心中的動(dòng)態(tài)流量需求可以說起到了較好的作用。
不過,如果我們“追根溯源”,其實(shí)可以發(fā)現(xiàn)OXC技術(shù)并不是一項(xiàng)“橫空出世”的技術(shù),早在2000年代初期,隨著互聯(lián)網(wǎng)流量的快速增長(zhǎng),研究人員其實(shí)就開始探索如何利用光網(wǎng)絡(luò)的高帶寬優(yōu)勢(shì)來提升數(shù)據(jù)中心和骨干網(wǎng)絡(luò)的性能;2010年,SIGCOMM上刊登了《Helios:A Hybrid Electrical/Optical Switch Architecture for Modular Data Centers》的技術(shù)論文,進(jìn)一步探索了光電混合架構(gòu)的技術(shù)可行性;此后雖然OXC技術(shù)也不斷有新的技術(shù)研究進(jìn)展,但其商用化進(jìn)程始終非常緩慢。
“轉(zhuǎn)機(jī)”出現(xiàn)在2022年之后,隨著AI大模型的出現(xiàn),當(dāng)年谷歌發(fā)布了OXC在云網(wǎng)絡(luò)和自研TPU集群應(yīng)用的技術(shù)論文,隨后其在超大規(guī)模數(shù)據(jù)中心和人工智能計(jì)算中批量部署了OXC光交換機(jī);2023年,NVIDIA也先后在HOT Interconnects和光網(wǎng)絡(luò)與通信研究會(huì)及博覽會(huì)(OFC)學(xué)術(shù)會(huì)議上分享了其對(duì)光電融合組網(wǎng)的思考,進(jìn)一步推動(dòng)了MEMS OXC的發(fā)展。
但MEMS OXC真的能取代電交換機(jī)在智算中心場(chǎng)景中的主流地位嗎?如果我們深入分析之后,可以發(fā)現(xiàn)OXC技術(shù)仍然面臨諸多技術(shù)瓶頸,相比電交換技術(shù),其在穩(wěn)定性、低時(shí)延、可用度等方面依然存在諸多的挑戰(zhàn),尤其是在具體的實(shí)踐中,OXC技術(shù)的主要能力主要體現(xiàn)在靈活配線方面,而這與當(dāng)下廣泛使用的自動(dòng)配線架并無本質(zhì)區(qū)別,電交換技術(shù)無論是在規(guī)模、插損、功耗乃至成本方面均優(yōu)于OXC技術(shù)。
揭開OXC技術(shù)的“三大短板”
站在當(dāng)下看未來,事實(shí)上當(dāng)前光交換機(jī)或者說MEMS OXC相比傳統(tǒng)的電交換機(jī),在技術(shù)上存在著明顯的“三大短板”,其要大規(guī)模在智算網(wǎng)絡(luò)場(chǎng)景中實(shí)現(xiàn)商用化落地,仍然面臨著重重挑戰(zhàn),具體而言:
首先,從組網(wǎng)模式看,當(dāng)下在AI集群組網(wǎng)方案中,通常2層組網(wǎng)不需要OXC技術(shù),而三層無收斂組網(wǎng),CLOS性能最佳;即使采用收斂組網(wǎng),CLOS同樣是最佳選擇。
CLOS 典型物理組網(wǎng)
事實(shí)上,2層組網(wǎng)方式是應(yīng)用實(shí)踐較早、較普遍的網(wǎng)絡(luò)架構(gòu),現(xiàn)如今依然是很多行業(yè)客戶的首選。在2層組網(wǎng)架構(gòu)中,整網(wǎng)設(shè)備只有兩種角色,這種架構(gòu)的優(yōu)點(diǎn)是數(shù)據(jù)轉(zhuǎn)發(fā)路徑短,跨“Leaf”一跳可達(dá),路徑和時(shí)延具有很強(qiáng)的一致性,加上統(tǒng)一的接入方式也給上線部署和水平擴(kuò)展帶來了很大的便利條件。也正因此,當(dāng)AI集群在4萬卡以下且采用了2層組網(wǎng)的模式,MEMS OXC也就沒有了“用武之地”。
而當(dāng)AI集群超過4萬卡,當(dāng)前業(yè)界主要有兩種組網(wǎng)方式,其中一種是三層無收斂組網(wǎng)方式,這種組網(wǎng)架構(gòu)通常采用1:1無收斂設(shè)計(jì),可以通過擴(kuò)展網(wǎng)絡(luò)層次提升接入的AI集群節(jié)點(diǎn)數(shù)量,不僅性能好、業(yè)務(wù)適應(yīng)性好,同時(shí)也可以大幅提升網(wǎng)絡(luò)的擴(kuò)展能力。不僅如此,以Pod為單位進(jìn)行業(yè)務(wù)部署,在適配多種業(yè)務(wù)需求、提供差異化服務(wù)等方面,三層無收斂組網(wǎng)方式也更具靈活性;另外一種是三層組網(wǎng)如采用收斂組網(wǎng)方式,此時(shí)跨Pod之間可引入OXC技術(shù)實(shí)現(xiàn)組網(wǎng),雖然其提升了網(wǎng)絡(luò)的效率和可靠性,但當(dāng)下MEMS OXC的投資成本也比較高昂,而電交換機(jī)仍然在成本、性能、運(yùn)維等方面具有更多的優(yōu)勢(shì),因此MEMS OXC也無法顯示出更高的價(jià)值。
其次,從組網(wǎng)距離看,2KM組網(wǎng)半徑,如用MEMS OXC互連需要采用LR光模塊,極限情況還需定制LR光模塊,以滿足組網(wǎng)距離要求,而這就需要克服OXC中常見的高插損難題。
高插損是MEMS OXC落地中難以回避的問題。通常情況下,在萬卡集群的互聯(lián)中中,如果采用電交換機(jī)間,其互聯(lián)一般使用2km FR光模塊即可,而OXC為彌補(bǔ)高插損難題則需使用更長(zhǎng)距的光模塊(LR),否則可能導(dǎo)致鏈路信號(hào)不穩(wěn)定,引發(fā)訓(xùn)練中斷。按目前業(yè)界最低1.5dB的差損計(jì)算,設(shè)備間互聯(lián)也要使用10km LR定制光模塊,由此才能夠提供相對(duì)較長(zhǎng)的傳輸距離,適應(yīng)OXC設(shè)備之間的連接需求。但由此新的難題也就產(chǎn)生了,定制的LR光模塊,不僅成本通常較高,交付時(shí)間也相對(duì)較長(zhǎng),因此MEMS OXC所帶來的新技術(shù)特性,在LR光模塊所面臨的高插損難題上,同樣并沒有明顯的優(yōu)勢(shì)。
最后,從組網(wǎng)能力看,MEMS OXC當(dāng)前不僅難以滿足AI大規(guī)模訓(xùn)練對(duì)穩(wěn)定性和低時(shí)延的要求,同時(shí)OXC技術(shù)也不改善網(wǎng)絡(luò)的可用度,即使采用“雙歸組網(wǎng)”方式,雖然能在一定程度上解決網(wǎng)絡(luò)引起的斷訓(xùn)問題,但依然不能解決接入故障后的性能降級(jí)問題。
其中,在穩(wěn)定性方面,AI大模型訓(xùn)練環(huán)節(jié),是整個(gè)大模型落地的重中之重,時(shí)間周期長(zhǎng)、資源消耗大,同時(shí)“斷訓(xùn)”也會(huì)直接影響模型的任務(wù)表現(xiàn),因而對(duì)網(wǎng)絡(luò)系統(tǒng)的考驗(yàn)也最大。但是OXC技術(shù)采用機(jī)械控制方式,同一時(shí)間只能完成一組端口間點(diǎn)對(duì)點(diǎn)轉(zhuǎn)發(fā),無法有效支撐多組流量并行轉(zhuǎn)發(fā)的需求,形成性能瓶頸。與此同時(shí),當(dāng)MEMS OXC替換電交換機(jī)之后,原來標(biāo)準(zhǔn)的組網(wǎng)架構(gòu)同樣也會(huì)發(fā)生變化,導(dǎo)致路由協(xié)議、擁塞調(diào)度、負(fù)載均衡等策略均需要重新調(diào)整,增加了AI集群系統(tǒng)的“不確定性”,可能導(dǎo)致訓(xùn)練任務(wù)中斷。
在低時(shí)延方面,MEMS OXC的交換時(shí)延通常在10毫秒以上,與電交換機(jī)的百納秒時(shí)延相比,也高出了五個(gè)量級(jí),這對(duì)于要求更低時(shí)延的AI訓(xùn)練任務(wù)來說,也是一個(gè)難以接受的“短板”,再加上由于整網(wǎng)存在端口斷開和重新連接的情況,光模塊、電交換機(jī)側(cè)需要重新協(xié)商和路由收斂,又進(jìn)一步延長(zhǎng)了整網(wǎng)的切換和連接時(shí)間,同樣也使得OXC難以滿足AI大規(guī)模訓(xùn)練對(duì)低時(shí)延的嚴(yán)格要求。
在可用度方面,“雙歸組網(wǎng)”方式能夠更好的解決由網(wǎng)絡(luò)節(jié)點(diǎn)故障引起的中斷問題。但數(shù)據(jù)也顯示,基于MEMS OXC并采用“雙歸組網(wǎng)”方式,其單鏈路故障仍會(huì)帶來約6%的性能損失,如果按10K/100K/512K集群光模塊雙歸測(cè)算,則整個(gè)集群分別也有5%、40%以及91%的時(shí)間存在單接入鏈路場(chǎng)景,因此MEMS OXC在十萬卡以上的故障中,所帶來的性能降級(jí)運(yùn)行時(shí)間也不容忽視。
智算場(chǎng)景中電交換仍“獨(dú)占鰲頭”
“第一性原理”是古希臘哲學(xué)家亞里士多德提出來的哲學(xué)術(shù)語,它的本意是:每個(gè)系統(tǒng)中都存在一個(gè)最基本的命題,它不能被違背。如果從企業(yè)需求的視角來看,“第一性原理”也代表著要回歸業(yè)務(wù)的本源和本質(zhì),即技術(shù)無論如何“爆火”,客戶拿到手的技術(shù)都應(yīng)該是最為簡(jiǎn)單和成熟的結(jié)果。
從這個(gè)角度來說,在AI大規(guī)模訓(xùn)練場(chǎng)景中,AI集群規(guī)模越大,網(wǎng)絡(luò)的復(fù)雜度也會(huì)越高,此時(shí)選擇成熟可靠的方案且具備成本效益顯著的電交換技術(shù),才能真正化解當(dāng)下網(wǎng)絡(luò)面臨的難題,我們可以從下面三個(gè)維度做進(jìn)一步的觀察。
一是,從市場(chǎng)規(guī)?,根據(jù)LightCounting預(yù)測(cè),2029年OXC的全球市場(chǎng)空間約為5億美元,其中大部分是谷歌OXC交換機(jī)所帶來的市場(chǎng)增量,其產(chǎn)業(yè)規(guī)模僅為電交換的20分之一。因此,OXC技術(shù)仍然屬于“小眾”或者說“新興”的技術(shù),特別是在投資高昂的智算中心建設(shè)中,用戶需要謹(jǐn)慎評(píng)估OXC技術(shù)的適用性,以避免因缺乏深入了解而成為“小白”。
二是,從落地情況看,當(dāng)下很多投產(chǎn)的超大規(guī)模數(shù)據(jù)中心中,依然是以電交換機(jī)以及傳統(tǒng)的組網(wǎng)方式為主。比如在國內(nèi),百度AI高性能網(wǎng)絡(luò)AIPod就采用了 3 層無收斂的 CLOS 組網(wǎng)模式,其整個(gè)AI訓(xùn)練集群管理著約400臺(tái)交換機(jī)、3000張網(wǎng)卡、10000根線纜和20000個(gè)光模塊,而字節(jié)挑動(dòng)的Megascale集群網(wǎng)絡(luò)則包含10KGPU,通過一個(gè)三層類CLOS網(wǎng)絡(luò)實(shí)現(xiàn)連接;在海外,Meta也基于RoCE搭建了一個(gè)由24K個(gè)GPU組成的AI集群網(wǎng)絡(luò),同樣也通過一個(gè)三層CLOS網(wǎng)絡(luò)實(shí)現(xiàn)連接,據(jù)此也不難看出,當(dāng)下以電交換機(jī)以及傳統(tǒng)的組網(wǎng)方式構(gòu)建智算中心網(wǎng)絡(luò),歷經(jīng)了多年的市場(chǎng)實(shí)踐和考驗(yàn),證明了其依然是行業(yè)用戶主流的選擇“共識(shí)”。
三是,從技術(shù)發(fā)展看,目前25.6Tbps的電交換機(jī)芯片早已大規(guī)模部署在國內(nèi)外互聯(lián)網(wǎng)或云計(jì)算數(shù)據(jù)中心,其能夠?qū)崿F(xiàn)兩級(jí)CLOS架構(gòu)384臺(tái)交換機(jī)即可支持32K個(gè)CPU的部署。更為關(guān)鍵的是,電交換機(jī)的技術(shù)仍在進(jìn)化中,其中在硬件方面,隨著電交換機(jī)芯片的加速迭代,Tomahawk5的速率已高達(dá)51.2T,其單芯片支持64端口800G或128端口400G,能確保三層組網(wǎng)支撐50萬卡集群,而預(yù)計(jì)Tomahawk6發(fā)布后可支撐百萬卡集群門檻。
而在軟件方面,為了解決AI參數(shù)面網(wǎng)絡(luò)負(fù)載不均衡等問題,業(yè)界各個(gè)廠商也都在負(fù)載均衡算法這個(gè)方向加碼創(chuàng)新,方案也呈現(xiàn)“百花齊放”的狀態(tài)?梢灶A(yù)期的是,隨著電交換機(jī)的持續(xù)的技術(shù)迭代,都會(huì)有助于增強(qiáng)智算中心網(wǎng)絡(luò)的先進(jìn)性和可靠性,進(jìn)一步提升用戶的投資回報(bào)率。
客觀地說,用戶的眼睛始終是雪亮的,MEMS OXC雖然看起來很美好,但在智算中心場(chǎng)景中,實(shí)踐已證明了OXC技術(shù)并非未來的技術(shù)方向和演進(jìn)趨勢(shì),而基于電交換技術(shù)和傳統(tǒng)組網(wǎng)方案仍然在市場(chǎng)中占據(jù)著主導(dǎo)地位,且優(yōu)勢(shì)盡顯。也正因此,對(duì)于當(dāng)下眾多的客戶而言,MEMS OXC越是爆火,越是需要更多的冷思考,而投資成熟且可靠的電交換技術(shù),也必然是建設(shè)智算中心網(wǎng)絡(luò)更為穩(wěn)妥和明智的選擇。