首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數(shù)據(jù)|物聯(lián)網|量子|元宇宙|博客|特約記者
手機|互聯(lián)網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網|會展
首頁 >> 運營 >> 正文

中國移動集團網絡事業(yè)部蔡旭輝: 打造卓越智算運維新體系,推動AI規(guī)模應用

2024年10月15日 19:39  CCTIME飛象網  

9月28日,由中國信息通信研究院主辦的2024中國算力大會·智算集成服務論壇在鄭州成功舉行。論壇邀請了產業(yè)內權威專家代表,圍繞“AI算力基礎設施建設、算力平臺服務”等議題,分享企業(yè)級人工智能應用實踐成果。中國移動集團網絡事業(yè)部處長蔡旭輝發(fā)表了題為《打造卓越智算運維新體系,推動AI規(guī)模應用》的主題演講。蔡旭輝表示,隨著人工智能技術的飛速發(fā)展,中國移動立足產品、服務、生態(tài),構建了全棧算智融合新體系。

“中國移動采用智算中心“N+X”架構體系。其中N節(jié)點是用來滿足全網跨區(qū)域、跨省和AI大模型訓練,以及區(qū)域內AI訓練、精調、并發(fā)業(yè)務的需求,X節(jié)點是面向邊緣產品和私有化產品的需求。”蔡旭輝介紹到。中國移動在呼和浩特和哈爾濱建設了的超大規(guī)模智算中心節(jié)點,其中呼和浩特節(jié)點被評為央企十大超級工程。

中國移動集團網絡事業(yè)部處長蔡旭輝  發(fā)表主題演講

當前運營商業(yè)務已走進算力時代,區(qū)別于通用計算時代分層解耦的建設和運維模式,大規(guī)模的智算中心集群建設是極其復雜的系統(tǒng)工程。蔡旭輝列舉了智算中心組網中的多個痛點,如模型并行計算帶來的高頻訓練中斷問題、硬件定位業(yè)務恢復時間長、上下層全?梢曤y度大、跨組織協(xié)同響應難、多廠商設備聯(lián)合調優(yōu)難等挑戰(zhàn)。

針對這些挑戰(zhàn),中國移動網絡事業(yè)部秉持運維規(guī)范化、標準化和確定性的理念,構建了訓練中斷少、故障恢復快、服務支撐好的智算運營服務。包括重塑了智算運維質量文化,打造高可用架構方案,定義核心指標治理以及體系指標等,研發(fā)智能化的解決方案,進而提升運維效率。

在智算運維質量文化方面,高度重視AI智算運維人才的培養(yǎng)和培訓,聯(lián)合華為和合作伙伴構建了超過200人的專家團隊,建立了體系化的智算人才培養(yǎng)機制。同時,打通智算運維從客戶對接到故障處理的端到端系統(tǒng),并構建總部、省公司、專業(yè)公司及客戶的協(xié)同運維機制,實現(xiàn)數(shù)據(jù)層的可視,進而提升運維效率。

在智算架構方面,中國移動構建了構建端到端智算高可用架構,保障訓推任務全流程的穩(wěn)定性,并構建了AI任務全鏈路監(jiān)控保障體系,提供120多種軟硬件健康檢查,分鐘級集群故障定位定界,全方位助力智算集群管控調優(yōu)。

在運維指標方面,中國移動圍繞智算運維探索可靠性黃金指標,構建了80多個關鍵的指標體系。重點提升智算集群的模型算力運用率MFU,故障時長MTTR、長穩(wěn)訓練時長三個黃金指標,助力大模型訓練任務高效穩(wěn)定運行。同時,在運維服務方面,構建了中國移動算力運維平臺,打造自主領先的AI+算力運維服務,采用SRE運維模式,根據(jù)運維場景化需求構建AI+全景觀測、智算運維智能體等能力。目前該平臺已經納管通算智算設備近百萬臺,總體智算規(guī)模26.5億FLOPS,日均消息處理量是110億條,成為電信行業(yè)納管規(guī)模最大的算力運維平臺,支持中國移動智算中心的高效運維以及對客戶的服務。

蔡旭輝分享了中國移動與華為等合作伙伴在提升大規(guī)模智算集群運維關鍵指標方面的合作成果,并介紹在全球運營商最大的單體智算中心——呼和浩特智算中心應用的智能運維方案,實現(xiàn)全域資源實時監(jiān)控和故障快速定位。同時,中國移動還在智算中心網絡故障診斷方面與高校深度合作,打造基于智算網絡的AI全腦網絡診斷智能體,覆蓋故障監(jiān)測與處理、性能優(yōu)化、配置管理、流量分析與管理等場景,有效降低了智算網絡的運維工作量。

最后,蔡旭輝倡議中國移動愿攜手合作伙伴,共創(chuàng)中國智算產業(yè)繁榮生態(tài),共同探索智能運維實踐并分享創(chuàng)新成果,共同構建行業(yè)標準,合力攻堅共筑算力藍圖,加速推動AI大規(guī)模應用。

編 輯:孫秀杰
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發(fā)之日起30日內與本網聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
中國電信邵廣祿:面向AI大模型的智算集群及網絡的實踐和展望
精彩專題
2024中國算力大會
2024年國際信息通信展
中國信科亮相2024年國際信息通信展
第25屆中國國際光電博覽會
CCTIME推薦
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像