8月30日,國內(nèi)運(yùn)營商最大單集群智算中心——中國移動(dòng)智算中心(哈爾濱)建設(shè)完成并正式投產(chǎn)使用。該智算中心單集群擁有超過1.8萬卡的豐富資源,可提供6.9EFlops(每秒690億億次浮點(diǎn)運(yùn)算)智能算力,融合分級(jí)存儲(chǔ)達(dá)150P,具有單集群算力規(guī)模最大、國產(chǎn)化網(wǎng)絡(luò)設(shè)備組網(wǎng)規(guī)模最大等特點(diǎn)。
所謂單集群智算中心,就是把所有AI加速卡打造成1個(gè)集群,用以支持千萬億級(jí)參數(shù)的大模型進(jìn)行訓(xùn)練。集群智算中心通過先進(jìn)的智算網(wǎng)絡(luò)技術(shù)把上萬塊GPU芯片像“積木”一樣拼接在一起,大幅提升GPU節(jié)點(diǎn)間的通信效率,可以將數(shù)據(jù)訓(xùn)練完成時(shí)間縮短20%,是應(yīng)對大模型海量數(shù)據(jù)訓(xùn)練、加快大模型應(yīng)用落地的利器。擁有1.8萬張AI加速卡的中國移動(dòng)智算中心(哈爾濱)可以支持萬億參數(shù)的大模型訓(xùn)練。
中國移動(dòng)智算中心(哈爾濱)是業(yè)內(nèi)首個(gè)大規(guī)模應(yīng)用融合存儲(chǔ)的集群,也是首個(gè)落地中國移動(dòng)原創(chuàng)智算網(wǎng)絡(luò)全調(diào)度以太網(wǎng)(GSE1.0)的萬卡集群。正是在GSE1.0的支持下,中國移動(dòng)智算中心(哈爾濱)才大幅提高了GPU節(jié)點(diǎn)間的通信效率,減少了數(shù)據(jù)訓(xùn)練任務(wù)的時(shí)間和成本。
點(diǎn)評:AI大模型的研發(fā)需要基于大量GPU的集群算力來支撐,通常參數(shù)規(guī)模越大、訓(xùn)練數(shù)據(jù)越多,對智算集群的要求就越高。不過隨著集群中調(diào)用的GPU卡數(shù)量越來越多,計(jì)算任務(wù)的調(diào)度、中間數(shù)據(jù)和結(jié)果的傳遞與保存等,也會(huì)變得越來越復(fù)雜。中國移動(dòng)在智算萬卡集群研發(fā)中,采用了多項(xiàng)創(chuàng)新技術(shù)確保大模型運(yùn)行的低時(shí)延、高帶寬數(shù)據(jù)處理和存儲(chǔ)能力,還有系列自動(dòng)化、數(shù)智化技術(shù)確保算力集群的高效、穩(wěn)定運(yùn)行,無疑是中國ICT科技創(chuàng)新能力、產(chǎn)業(yè)化實(shí)力的集中體現(xiàn)。