飛象網(wǎng)訊(魏德齡/文)“韓信用兵,多多益善”想必是一個(gè)膾炙人口的典故,淮陰侯當(dāng)時(shí)用此來形容自己的領(lǐng)兵才能,當(dāng)然隨之還有高祖的“善將將”。而“多多益善”與“善將將”的優(yōu)勢在AI浪潮之下,也正在變?yōu)橐环N行業(yè)所必須的能力。
有分析人士判斷,AI市場將會(huì)迎來一波長達(dá)十年以上的熱潮,AIGC在企業(yè)IT中的占比投入一定會(huì)越來越高,AI對(duì)于需求的刺激將是之前10年的10倍-100倍,算力需求也將隨之出現(xiàn)等量的增長。而“多”恰恰是能夠滿足需求的保障,因?yàn)椴煌乃懔π枨笃浔澈笏{(diào)用的超算中心硬件資源也并不相同,正所謂“更多選擇,更多歡笑”,已經(jīng)實(shí)現(xiàn)盈利的國家超算濟(jì)南中心就是一個(gè)很好的案例。
更多選擇,更多歡笑
以目前常見的幾類AI用例需求而言,很多高校進(jìn)行的傳統(tǒng)科學(xué)計(jì)算類應(yīng)用就需要HPC,才能完成如仿真、模擬、洋流預(yù)測、基因檢測等工作;對(duì)于傳統(tǒng)的政務(wù)云業(yè)務(wù)、傳統(tǒng)CRM/ERP企業(yè)數(shù)字化應(yīng)用則屬于傳統(tǒng)云計(jì)算需求,就需要調(diào)用CPU類資源;目前大熱的涉及道路識(shí)別、車牌識(shí)別這樣的智慧城市類應(yīng)用則需要調(diào)用GPU的能力。業(yè)務(wù)的多元需求恰恰決定了對(duì)于多元算力的需求。
據(jù)悉,僅在三年前國家超算濟(jì)南中心就已經(jīng)擁有1000P算力與300PB以上的存儲(chǔ),是當(dāng)時(shí)全亞洲最大的算力中心之一,包括了HPC超算、以CPU為主的傳統(tǒng)云計(jì)算,以GPU為主的智算,其中智算兼顧了國產(chǎn)化需求,引入了一部分國產(chǎn)GPU,進(jìn)而成為了一個(gè)既擁有多元算力,又具備異構(gòu)算力能力的超算中心。
“投資建設(shè)一個(gè)平臺(tái)后產(chǎn)生的效益取決于平臺(tái)能力,因?yàn)槠脚_(tái)能力越強(qiáng),能支撐客戶的業(yè)務(wù)種類就越多?蛻粼蕉啵J皆角逦!比昵皡⑴c服務(wù)國家超算濟(jì)南中心的青云科技總裁林源向媒體解釋了緣何需要異構(gòu)計(jì)算與多元算力。
反之,如果不擁抱多元算力,僅僅建設(shè)一個(gè)只支持某一種硬件算力為核心的超算中心,往往會(huì)后續(xù)實(shí)際運(yùn)營中面臨尷尬。例如,國內(nèi)某大廠曾在某地建了一個(gè)計(jì)算中心,但由于只支持某一個(gè)GPU,造成當(dāng)應(yīng)用需求到來時(shí),卻出現(xiàn)了不兼容的問題,導(dǎo)致出現(xiàn)客戶面變窄的問題。
不過,如何調(diào)度如1000P的算力與300PB存儲(chǔ),將多元與異構(gòu)整合在一起,讓超算中心實(shí)現(xiàn)高效運(yùn)營,如同韓信用兵一般,實(shí)現(xiàn)多多益善,而不是陷入管理困局,同樣是一個(gè)需要面對(duì)的問題。青云科技作為國家超算濟(jì)南中心建設(shè)的參與者,恰恰為其提供了統(tǒng)領(lǐng)全局的能力,這就需要提到該公司近日發(fā)布的新產(chǎn)品—AI算力調(diào)度平臺(tái)。
青云AI,多多益善
“我們已經(jīng)在國家超算濟(jì)南中心的實(shí)踐成功,證明青云平臺(tái)具備能力、干過,也干成了!绷衷磳iT表達(dá)了對(duì)于該產(chǎn)品的信心。青云AI算力調(diào)度平臺(tái)作為計(jì)算中心運(yùn)營者的關(guān)鍵工具,可以建立從建設(shè)到運(yùn)營的閉環(huán),在國家超算濟(jì)南中心的案例中,不僅三年前就成功進(jìn)行了實(shí)踐,還助力其不僅運(yùn)營得好,還實(shí)現(xiàn)了盈利。
青云AI算力調(diào)度平臺(tái)恰恰具備了如“韓信用兵,多多益善”的管理能力,可實(shí)現(xiàn)對(duì)于GPU算力、HPC算力、多存儲(chǔ)系統(tǒng)、模型資源、數(shù)據(jù)資源的多元資源統(tǒng)一平臺(tái)管理,實(shí)現(xiàn)算力平臺(tái)自動(dòng)資源。還可根據(jù)不同的行業(yè)需求,通過平臺(tái)進(jìn)行資源分發(fā),具備分布式調(diào)度與管理能力,自動(dòng)分配和管理算力資源,大幅縮短任務(wù)執(zhí)行時(shí)間,提高工作效率,讓客戶專注于業(yè)務(wù)創(chuàng)新和應(yīng)用開發(fā)。
平臺(tái)的管理操作也易如反掌,通過統(tǒng)一運(yùn)營和運(yùn)維管理平臺(tái),實(shí)現(xiàn)多種服務(wù)場景的運(yùn)營化服務(wù)的后時(shí),規(guī)范化高效運(yùn)維,幫助用戶實(shí)現(xiàn)精細(xì)化運(yùn)營。青云會(huì)為平臺(tái)管理員交付一個(gè)可視化的大屏管理界面,可輕松瀏覽全國的上千臺(tái)算力資源與存儲(chǔ)。以國家超算濟(jì)南中心為例,后端其實(shí)只需要10-20人的團(tuán)隊(duì),就能實(shí)現(xiàn)對(duì)于軟件的運(yùn)維,并解決客戶的各類問題。
“青云通過一套運(yùn)營運(yùn)維平臺(tái),讓其定價(jià)、打折、促銷等,只需要在頁面上點(diǎn)擊按鈕即可!鼻嘣瓶萍籍a(chǎn)品經(jīng)理苗慧表示青云AI算力調(diào)度平臺(tái)相比傳統(tǒng)云計(jì)算搞申請(qǐng)表之類的日常流程操作,在運(yùn)維效率上有著明顯優(yōu)勢。
與此同時(shí),青云AI算力調(diào)度平臺(tái)還可幫助客戶解決網(wǎng)絡(luò)交換速度、環(huán)境搭建、多業(yè)務(wù)整合等問題。
除了大幅提升平臺(tái)運(yùn)維人員的管理能力外,對(duì)于平臺(tái)用戶而言,青云也能進(jìn)一步提升AI落地的開發(fā)效率。面向算法工程師,青云提供的開發(fā)主機(jī),已經(jīng)內(nèi)置了一些開發(fā)環(huán)境和IDE環(huán)境,工程師可將Python工程文件等直接傳上去,在線寫代碼、調(diào)試、運(yùn)行,立即找到所需的訓(xùn)練集群。推理完成后,還能實(shí)現(xiàn)算法調(diào)優(yōu),通過算力集群與模型不斷優(yōu)化代碼。
另外,青云還提供了在線訓(xùn)練平臺(tái),將高性能計(jì)算、GPU卡等進(jìn)行集成,在專屬環(huán)境上,青云提供一個(gè)GPU服務(wù)器在線申請(qǐng)構(gòu)建集群,所有的網(wǎng)絡(luò)和環(huán)境均可一鍵生成。同時(shí)青云會(huì)根據(jù)行業(yè)內(nèi)常用的模型和小工具進(jìn)行集成。
容器推理平臺(tái)支持一鍵部署高性能Kubernetes集群,在推理過程中,如果發(fā)生一些性能上的擁堵,可以實(shí)現(xiàn)負(fù)載均衡、彈性伸縮。
青云還提供了模型倉庫,方便客戶可以通過模型市場立即部署自己的模型,調(diào)用自身的服務(wù)。同時(shí),還能給予模型進(jìn)行微調(diào),或在線通過云平臺(tái)的形式一鍵獲取。
總體而言,青云AI算力調(diào)度平臺(tái)實(shí)現(xiàn)了像如同管理本地資源般的方式,來管理AI基礎(chǔ)設(shè)施,提供多元算力調(diào)度與智能化的算力調(diào)度,保證算力快速落地。
開放生態(tài),讓客戶“善將將”
作為具備了“多多益善”才能的青云AI算力調(diào)度平臺(tái)來說,第二個(gè)問題是用戶是否有機(jī)會(huì)也能具備“善將將”的實(shí)力。實(shí)際上,對(duì)于未來AI時(shí)代而言,由于投資巨大,單一企業(yè)可能很難實(shí)現(xiàn)“大包大攬”,因?yàn)槊總(gè)方面的成本都將比過去十年更高,僅以一個(gè)大模型為例,可能就需要花費(fèi)大量人力、算力、金錢與時(shí)間成本,CPU、IDC建設(shè)等同理如此。據(jù)此,青云正在與不同領(lǐng)域的合作伙伴一起實(shí)現(xiàn)能力的整合。
“所以我們有一個(gè)大膽的設(shè)想,在AI領(lǐng)域一定會(huì)出現(xiàn)巨頭,但是我們覺得這個(gè)巨頭不應(yīng)該是一家獨(dú)立的公司,我覺得它應(yīng)該是一個(gè)小的生態(tài)!绷衷绰≈匾隽硕ㄎ粸橥ㄟ^開放生態(tài)同盟方式一起運(yùn)營的青云AI算力云服務(wù)。
這一設(shè)想主要基于三方面的考慮,首先是生態(tài)將能夠滿足客戶需要完整解決方案的需求,其次每位專業(yè)參與者間都有著彼此的需求,并彼此保持開發(fā),最終志同道合形成長期共贏的同盟。
從客戶需求上看,客戶需求的完整解決方案包括機(jī)房、算力、調(diào)度平臺(tái)、模型、模型驅(qū)動(dòng)、Model Service,以及可以運(yùn)行的應(yīng)用。其中從算力、模型、服務(wù)到應(yīng)用場景每一層都需要極強(qiáng)的專業(yè)性。
青云AI算力生態(tài)體系目前已經(jīng)圍繞AI 算力基礎(chǔ)設(shè)施的生態(tài)共享、AI 算力大模型的資源整合以及 AI 數(shù)據(jù)資源的生態(tài)整合實(shí)現(xiàn)了構(gòu)建,進(jìn)而更好的幫助企業(yè)AI實(shí)現(xiàn)真正的業(yè)務(wù)價(jià)值。林源在媒體采訪過程將其分類為技術(shù)生態(tài)與商業(yè)生態(tài),其中技術(shù)生態(tài)包括GPU與模型生態(tài),商業(yè)生態(tài)則包括計(jì)算中心的投資建設(shè)、AI最終客戶等。
目前青云已經(jīng)實(shí)現(xiàn)了從適配、MaaS、共筑到最終落地的生態(tài)體系整合,涵蓋了從各大知名芯片廠商、模型開發(fā)商、云數(shù)據(jù)中心提供商等多層面的聯(lián)手。對(duì)于青云AI算力云的客戶而言,正如同是可以調(diào)動(dòng)大量名將的AI開拓者,達(dá)到“善將將”的效果。
“每一個(gè)新時(shí)代到來的時(shí)候,大家都站在同一起跑線上,而新的時(shí)代可能需要一些新的合作模式與玩法。”林源表示AI時(shí)代的到來可能會(huì)讓格局發(fā)生新的變化。
“多多益善”之后的成功故事自不必表,如今AI正被視作是云服務(wù)之后的又一新機(jī)遇,“能做、做過,做成功了”的青云AI恰巧也已經(jīng)展現(xiàn)出了“多多益善”的自信,后續(xù)的精彩篇章正在開啟。