首頁|必讀|視頻|專訪|運(yùn)營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網(wǎng)|量子|低空經(jīng)濟(jì)|智能汽車|特約記者
手機(jī)|互聯(lián)網(wǎng)|IT|5G|光通信|人工智能|云計(jì)算|芯片|報(bào)告|智慧城市|移動(dòng)互聯(lián)網(wǎng)|會(huì)展
首頁 >> 人工智能 >> 正文

算力強(qiáng)基,運(yùn)力先行:以DC-OXC和DC-OTN筑牢智算網(wǎng)絡(luò)根基

2025年2月25日 17:03  CCTIME飛象網(wǎng)  

飛象網(wǎng)訊 (計(jì)育青/文)工業(yè)和信息化部近日印發(fā)通知,為夯實(shí)算力網(wǎng)絡(luò)發(fā)展底座,加快創(chuàng)新技術(shù)和產(chǎn)品應(yīng)用,決定正式開展算力強(qiáng)基揭榜行動(dòng)(簡稱“揭榜行動(dòng)”)。此次揭榜行動(dòng)面向算力網(wǎng)絡(luò)的計(jì)算、存儲(chǔ)、網(wǎng)絡(luò)、應(yīng)用、綠色、安全等六大重點(diǎn)方向提出了二十一項(xiàng)任務(wù),基本上涵蓋了算力全產(chǎn)業(yè)鏈的關(guān)鍵技術(shù)及發(fā)展方向,并對每一個(gè)項(xiàng)目都做了詳細(xì)的任務(wù)、目標(biāo)說明。

 

(來源:工信部官網(wǎng))

在網(wǎng)絡(luò)環(huán)節(jié),揭榜行動(dòng)重點(diǎn)支持高性能數(shù)據(jù)處理器(DPU)、基于RoCE的智算網(wǎng)絡(luò)、光交換智算網(wǎng)絡(luò)技術(shù)研究與驗(yàn)證、面向分布式智算中心的網(wǎng)絡(luò)關(guān)鍵技術(shù)研究與驗(yàn)證等。預(yù)期目標(biāo)上揭榜行動(dòng)要求到2026年,實(shí)現(xiàn)支持智算集群的易操作、高可靠、可平滑過渡升級(jí)的光網(wǎng)絡(luò),支持人工智能等關(guān)鍵業(yè)務(wù)承載;光交換設(shè)備單端口速率支持100GE/400GE/800GE,交換容量彈性可擴(kuò)展等。同時(shí),突破智算中心間超大容量、超高可靠網(wǎng)絡(luò)傳輸關(guān)鍵技術(shù),研制面向智算中心間網(wǎng)絡(luò)的傳輸設(shè)備,支撐分布式智算中心間業(yè)務(wù)的高可靠傳輸。

(來源:工信部官網(wǎng))

算力建設(shè)熱潮涌動(dòng),網(wǎng)絡(luò)需適度超前

近年來全球人工智能技術(shù)發(fā)展迅猛,各國都非常重視基礎(chǔ)大模型、AI應(yīng)用的開發(fā)與建設(shè),視之為決定產(chǎn)業(yè)經(jīng)濟(jì)升級(jí)、國家競爭力提升的關(guān)鍵因素。中國也非常重視AI技術(shù)及其應(yīng)用的發(fā)展,先后發(fā)布了一系列政策予以推動(dòng)和鼓勵(lì),使得國內(nèi)大模型技術(shù)和應(yīng)用始終位居全球領(lǐng)先地位。從千億、萬億參數(shù)基礎(chǔ)大模型的開發(fā),到面向具體行業(yè)、實(shí)際場景的AI應(yīng)用孵化,都產(chǎn)生了巨大的智能算力需求,極大推動(dòng)了國內(nèi)智算基礎(chǔ)設(shè)施的建設(shè)。據(jù)統(tǒng)計(jì),當(dāng)前國內(nèi)已投用了近百個(gè)智算中心,可用算力已接近萬PFlops。

而DeepSeek突飛猛進(jìn)的發(fā)展,使其成為全球現(xiàn)象級(jí)大模型,從科技、醫(yī)藥、傳媒到政務(wù)、金融、汽車等,DeepSeek的“圈子”仍在持續(xù)擴(kuò)張中。微信等頭部APP接入DeepSeek后可以看到,國民級(jí)應(yīng)用模型使用持續(xù)放大算力需求,進(jìn)而帶來推理等算力需求的大量增長,智算行業(yè)迎來重要發(fā)展機(jī)遇。

國內(nèi)通信運(yùn)營商也在不斷加大對智算基礎(chǔ)設(shè)施的投入。比如中國電信正在打造多層次智算格局,在京津冀、長三角地區(qū)建設(shè)了兩個(gè)萬卡智算集群,同時(shí)還在西部地區(qū)打造大規(guī)模綠色智算池;中國移動(dòng)的動(dòng)作也很快,已建成8.2EFLOPS通用算力、19.6EFLOPS智算能力,分布在京津冀、長三角、粵港澳大灣區(qū)、成渝等區(qū)域的首批13個(gè)智算中心節(jié)點(diǎn)已經(jīng)投用;中國聯(lián)通規(guī)劃的算力中心體系覆蓋了國家8大樞紐節(jié)點(diǎn)和31個(gè)省市,數(shù)據(jù)中心機(jī)架的總體規(guī)模將超過40萬架,未來將建成骨干云池城市230多個(gè)、MEC節(jié)點(diǎn)超過600個(gè)。

隨著智算基礎(chǔ)設(shè)施的規(guī)模建設(shè)和大范圍應(yīng)用,傳統(tǒng)的網(wǎng)絡(luò)架構(gòu)和設(shè)備漸漸難以滿足要求,包括端口密度、功耗、靈活擴(kuò)展能力、故障冗余能力,以及帶寬、時(shí)延、可靠性等等,都迫切需要針對智算集群進(jìn)行深度創(chuàng)新,這也是此次揭榜行動(dòng)中任務(wù)十、任務(wù)十一的主要目標(biāo)。針對這些問題,通信行業(yè)已經(jīng)有充分的技術(shù)和產(chǎn)品儲(chǔ)備,并且在部分場景下進(jìn)行了實(shí)踐驗(yàn)證。

全光交換OXC技術(shù)破解智算集群平滑演進(jìn)難題

當(dāng)前智算集群網(wǎng)絡(luò)主要采用純電層交換機(jī)組網(wǎng)模式,算卡與算卡之間通過交換機(jī)來連接。一般數(shù)據(jù)中心采用這種組網(wǎng)模式不會(huì)遇到什么問題,但是智算訓(xùn)練不一樣,隨著大模型不斷改進(jìn)和更新,對算卡的需求會(huì)從幾千、幾萬個(gè)迅速走向數(shù)十萬、上百萬個(gè),每次智算規(guī)模增加都需要對數(shù)據(jù)中心網(wǎng)絡(luò)進(jìn)行重構(gòu),成本高且周期長。

另一方面,集群規(guī)模的不斷增加會(huì)引入更多的框式交換機(jī),這些交換機(jī)會(huì)進(jìn)一步加重智算中心的能耗負(fù)擔(dān)。隨著算卡的增加,連接算卡所需的光模塊也會(huì)更多,這些光模塊一旦發(fā)生故障就會(huì)影響到整個(gè)數(shù)據(jù)中心的數(shù)據(jù)處理和傳輸能力,進(jìn)而直接影響到AI大模型訓(xùn)練的連續(xù)性和準(zhǔn)確性。

最后,算卡也會(huì)更新?lián)Q代,每次升級(jí)都會(huì)大幅提升其數(shù)據(jù)吞吐能力,這意味著數(shù)據(jù)中心內(nèi)部的交換機(jī)也必須隨之升級(jí),隨之而來的是復(fù)雜的布線變更、網(wǎng)絡(luò)配置調(diào)整,對數(shù)據(jù)中心的規(guī)劃和運(yùn)維而言是一個(gè)巨大的挑戰(zhàn)。

全球智算產(chǎn)業(yè)一直在尋求更好的網(wǎng)絡(luò)解決方案,目前來看,全光交叉OXC被認(rèn)為極具潛力的替代方案。OXC是一種非常靈活的全光交換調(diào)度方式,采用集成式互連構(gòu)建全光交換資源池,具有集成度高、無跳纖全光交換等特點(diǎn),不僅易擴(kuò)展、可靠性高、能耗低,日常運(yùn)維也非常簡便。

目前全球主要通信廠商已經(jīng)推出了面向數(shù)據(jù)中心的商用OXC設(shè)備(DC-OXC),并且在一些先進(jìn)智算企業(yè)中投入了應(yīng)用。比如打造了Gemini多模態(tài)大模型的谷歌,已經(jīng)在自有的數(shù)據(jù)中心中采用了上萬套OXC設(shè)備。英偉達(dá)首席科學(xué)家Bill Dally也多次向業(yè)界建議在智算中心建設(shè)中采用OXC技術(shù),認(rèn)為這項(xiàng)技術(shù)可以有效提升網(wǎng)絡(luò)的可管理性和靈活性。在2024年9月舉行的深圳國際光電博覽會(huì)期間,多個(gè)大模型廠商表示準(zhǔn)備引入OXC技術(shù)。

行業(yè)研究機(jī)構(gòu)LightCounting認(rèn)為,在智算產(chǎn)業(yè)的拉動(dòng)作用下,未來5年OXC設(shè)備市場會(huì)以28%的增速快速擴(kuò)張。而2024年9月開放數(shù)據(jù)中心委員會(huì)(ODCC)發(fā)布《AI網(wǎng)絡(luò)光交換機(jī)技術(shù)報(bào)告》,對光交換機(jī)在 AI 訓(xùn)練等大規(guī)模計(jì)算中的應(yīng)用進(jìn)行了詳細(xì)探討,通過對胖樹網(wǎng)絡(luò)架構(gòu)和 OXC靈活組網(wǎng)的Ring All-Reduce 性能的對比測試, 結(jié)果表明在通信數(shù)據(jù)量大于4MB后,應(yīng)用OXC組網(wǎng)會(huì)有明顯收益,提升了20-34%左右的性能,All to All 性能提升30%左右。

面向DC互聯(lián)的全光傳送網(wǎng)(DC-OTN)輕松打造分布式智算中心

為充分利用不同地域的資源優(yōu)勢,兼顧就近服務(wù)客戶,很多企業(yè)會(huì)在不同區(qū)域分散配置智算中心。然而當(dāng)客戶需要調(diào)用超越單個(gè)智算中心的算力時(shí),如何實(shí)現(xiàn)海量數(shù)據(jù)在多個(gè)智算中心之間的實(shí)時(shí)傳送和調(diào)度就成了一個(gè)難題。對此國內(nèi)電信運(yùn)營商做過大量探索,面向數(shù)據(jù)中心間互聯(lián)的全光傳送網(wǎng)(DC-OTN)被認(rèn)為是當(dāng)前理想的解決方案。

中國電信在2024年曾做過基于現(xiàn)網(wǎng)的業(yè)內(nèi)首例500公里的長距離DC-OTN技術(shù)驗(yàn)證,利用江西永豐、北京大興、天津武清三地?cái)?shù)據(jù)中心的千卡智算集群,完成了1024卡千億參數(shù)大模型的分布式聯(lián)合訓(xùn)練,成功將練性能提升至單數(shù)據(jù)中心效能的97%以上。這次試驗(yàn)表明,利用高速全光傳送網(wǎng)打造廣域智算網(wǎng)絡(luò),完全可以將不同區(qū)域的智算資源匯聚成一個(gè)智算集群,實(shí)現(xiàn)跨地域、跨層級(jí)、跨主體的高效算力協(xié)同調(diào)度。

中國移動(dòng)在2024年末也完成了百公里級(jí)DC-OTN現(xiàn)網(wǎng)試驗(yàn),采用800G OTN連接位于不同城市的兩個(gè)智算集群,共同承擔(dān)百億級(jí)參數(shù)規(guī)模的大型基礎(chǔ)語言模型,性能達(dá)到單節(jié)點(diǎn)訓(xùn)練效率的98%以上。

中國聯(lián)通在2024年也發(fā)布了《基于RDMA的長距無損數(shù)據(jù)搬移技術(shù)白皮書》,提出的數(shù)據(jù)搬移解決方案,通過DC間全光直達(dá)的組網(wǎng)架構(gòu)、長距RDMA提速、端網(wǎng)協(xié)同和統(tǒng)一編排等技術(shù),解決海量數(shù)據(jù)長距傳輸時(shí)易擁塞、效率低的問題,為算力時(shí)代下海量數(shù)據(jù)高速遷移提供了技術(shù)支撐。

單體為繁星點(diǎn)點(diǎn),為一般用戶提供就近服務(wù);集合成群體,可為超大規(guī)模計(jì)算需求提供充足的智算資源。上述試驗(yàn)證明了DC-OTN的可行性和有效性,也為分布式智算集群的演進(jìn)指明了前進(jìn)方向,做好了技術(shù)方案儲(chǔ)備。

如今人工智能正在向各行各業(yè)快速滲透,這是一場勢不可擋的產(chǎn)業(yè)革命,因此市場對智算基礎(chǔ)設(shè)施的需求只會(huì)越來越多。數(shù)據(jù)中心全光交換技術(shù)(DC-OXC)和面向DC互聯(lián)的全光傳送網(wǎng)(DC-OTN)技術(shù)可以大幅度提升智算集群部署的靈活性,改善智算中心的性能、可擴(kuò)展性、可靠性、能耗表現(xiàn)等,有望成為智算產(chǎn)業(yè)的主流網(wǎng)絡(luò)解決方案,助力算力強(qiáng)基行動(dòng)取得豐碩成果,推動(dòng)算力網(wǎng)絡(luò)“點(diǎn)、鏈、網(wǎng)、面”體系化發(fā)展。

編 輯:霏雯
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對于經(jīng)過授權(quán)可以轉(zhuǎn)載,請必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來源。
2.凡注明“來源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問題,請?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權(quán)。
相關(guān)新聞              
 
人物
vivo胡柏山:手機(jī)行業(yè)是最典型的新質(zhì)生產(chǎn)力代表
精彩專題
低空經(jīng)濟(jì)2025:助力中國經(jīng)濟(jì)騰飛,成就高質(zhì)量發(fā)展
2024通信業(yè)年終盤點(diǎn)
2024數(shù)字科技生態(tài)大會(huì)
2024年度中國光電纜優(yōu)質(zhì)供應(yīng)商評選活動(dòng)
CCTIME推薦
關(guān)于我們 | 廣告報(bào)價(jià) | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網(wǎng) CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號(hào)-1  電信與信息服務(wù)業(yè)務(wù)經(jīng)營許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)
公司名稱: 北京飛象互動(dòng)文化傳媒有限公司
未經(jīng)書面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像