B輪融資獲得SIG、英特爾投資的5000萬美元,A輪融資金額就達數(shù)千萬人民幣,華云數(shù)據(jù)究竟以什么吸引了如此多投資方的興趣。抱著這個疑問,筆者來到了風(fēng)景優(yōu)美的無錫,在華云數(shù)據(jù)的本部走訪了該公司的架構(gòu)與資源部副總裁郭曉。
架構(gòu)與資源部副總裁 郭曉
是云化還是吞噬
沒有電商強大的資源,藍芒(華云數(shù)據(jù)前身)只是國內(nèi)IDC圈中普通的一員。同時,當(dāng)時藍芒的道路也并不平坦,比如眾所周知的“藍芒事件”。然而,在2010年成立公司后,當(dāng)下華云數(shù)據(jù)已經(jīng)擁有二百多位員工,技術(shù)研發(fā)人員上百位,更獲得了兩筆巨額的融資。而這一切都基于華云數(shù)據(jù)的云化之道,或者是“吞噬”之路。
CSDN:請介紹一下自己和華云數(shù)據(jù)?
郭曉:從廈門來無錫一年多的時間,華云剛過來時只有六七個人,當(dāng)下已發(fā)展為二百多人的公司。之前公司總部在廈門,也就是由藍芒轉(zhuǎn)至當(dāng)下的華云數(shù)據(jù)。我從2005年4月大學(xué)畢業(yè)就加入了藍芒,所有工作經(jīng)驗也都是圍繞著IDC相關(guān),主導(dǎo)了《藍芒虛擬主機管理系統(tǒng)》、國內(nèi)唯一支持企業(yè)提供商用CDN服務(wù)的《藍芒CDN管理系統(tǒng)》、《藍芒智能DNS管理系統(tǒng)》、在IDC中最早通過電信研究院測評的《藍芒工信部備案系統(tǒng)企業(yè)端》以及當(dāng)下IaaS等多個項目。
CSDN:請談?wù)勅A云數(shù)據(jù)從IDC到云的過渡?
郭曉:那個時候IDC業(yè)務(wù)已經(jīng)很不好做,整個IDC圈只有不到15%的毛利,流水達幾十個億的主機商,在售價不到千萬美金時也就出售了。當(dāng)時華云數(shù)據(jù)可以說是痛下決心,將大客戶轉(zhuǎn)給了世紀互聯(lián),并在三個月時間內(nèi)完成90%主機租用用戶向云端遷移。OpenStack等開源技術(shù)的出現(xiàn)降低了IDC圈云化的門檻,我們?nèi)A云數(shù)據(jù)也是從開源項目做起,之后才在調(diào)度層面、網(wǎng)絡(luò)層面、存儲層面轉(zhuǎn)向自主研發(fā),當(dāng)時的云計算服務(wù)的各個環(huán)節(jié)基本上都是使用開源項目打造,不是從底層做起,比如寫出KVM、Xen、VMware、Hyper-V等,而是重寫資源的調(diào)度層,結(jié)合在藍芒多年的IDC運維經(jīng)驗做出符合國內(nèi)IDC用戶使用習(xí)慣的云主機產(chǎn)品。
其中有個時間點是2010年左右,IDC托管業(yè)務(wù)已非常不景氣,把大客戶轉(zhuǎn)到世紀互聯(lián)后我們的IDC托管用戶已減少到了100個機柜。其實那個時候大規(guī)模做云計算并不是最好時機,用戶的接受度非常低。
在2009至2010年期間,我們在提升云主機的功能和易用性上做了很多工作,當(dāng)時的難點在于沒有任何參考對象。而在2010年發(fā)布1.0版本后,提供的云主機控制面板已經(jīng)幾乎配備了所有主流功能,比如快速重裝操作系統(tǒng),自助重置操作系統(tǒng)密碼,自助防火墻等。這段時間運營商的機柜、帶寬、IP地址全面在漲價,我們認為云服務(wù)的轉(zhuǎn)型已成必然趨勢。為了鼓勵用戶轉(zhuǎn)到云端,當(dāng)時我們也算是“連哄帶騙”吧,許以用戶免費時間,承諾較高的故障賠償,但是這些都可以從云化后資源采購成本上找回來,而用戶也切實的獲得了利益。同時,為了保護用戶的數(shù)據(jù)安全,每天都進行一個冷備份,之后又實現(xiàn)了基于分布式存儲的災(zāi)備等。在得到了廣大客戶認可后,用十幾個的機柜支撐了近2000用戶,因此也得到了投資方的重視。
從成立公司至今,華云數(shù)據(jù)的策略一直以IDC云化為主,因為我們深知當(dāng)下IDC供應(yīng)商收益的慘淡。圍繞這個方面進行開發(fā),通過資源調(diào)度系統(tǒng)將各個小的主機商聯(lián)合起來,形成一個龐大的服務(wù)器集群;诘乩砦恢玫牟煌,許多用戶都可以就近選擇來獲得一個較低的延時。同時,對于不符合標準的主機商,我們也提供了一系列云化的方案,讓其擁有自己的云產(chǎn)品。除技術(shù)之外,做云計算還有運營和服務(wù),而我們?nèi)A云數(shù)據(jù)給自己評價也是“云計算領(lǐng)域最了解IDC,IDC里最會做云計算開發(fā)”的公司。
CSDN:在華云數(shù)據(jù)的介紹中我們有看到“15+城市”、“20+數(shù)據(jù)中心”、“10000+”物理服務(wù)器集群,這個數(shù)字有多少是云化而來?
郭曉:全部都是云化來的,目前華云的業(yè)務(wù)全部都是圍繞云計算來開展,IDC的業(yè)務(wù)已經(jīng)放著自然萎縮,而且華云數(shù)據(jù)已經(jīng)有了自建數(shù)據(jù)中心計劃,可能會在2015年完成一個數(shù)據(jù)中心計劃,地點就在江蘇省內(nèi),預(yù)期可以支撐上百萬臺云主機服務(wù)。
CSDN:在IDC云化過程中,華云數(shù)據(jù)對這些機房的標準是什么?一般著重強調(diào)哪幾個方面?
郭曉:其實我們對機房的要求并不高,因為在技術(shù)上我們所有的設(shè)備都是有熱備的,個別的硬件損壞,熱備設(shè)備會很快自動替換上去。受影響的云主機用戶只會感覺到業(yè)務(wù)中斷了一小段時間,對于使用我們HA方案云主機用戶或者云存儲用戶,則感受不到業(yè)務(wù)中斷。
吞噬道路上的技術(shù)保障及架構(gòu)衍變
對比百度、阿里、騰訊這些自建云計算數(shù)據(jù)中心的公司,華云數(shù)據(jù)需要做更多的努力,比如不同Hypervisor虛機的異構(gòu)調(diào)度、基于不同虛機調(diào)度策略調(diào)優(yōu)等,這里我們從技術(shù)的角度上走進華云數(shù)據(jù)。
CSDN:據(jù)說分布式存儲開發(fā)之前有個小插曲,可否詳細談?wù)劊?/B>
郭曉:2013年10月份,這是華云深圳節(jié)點的一個故事,因為硬盤批次的質(zhì)量問題,在深圳機房中,一臺磁盤陣列柜上突然出現(xiàn)5塊硬盤在6小時內(nèi)連續(xù)發(fā)生故障。這種情形,不管你是做RAID 10還是RAID 5,都無法保持服務(wù)正常運行。為了保證用戶數(shù)據(jù)安全,在事情發(fā)生后,我們立刻斷掉了存儲陣列的電源,防止數(shù)據(jù)再被破壞。同時聯(lián)系了廠商和專業(yè)的數(shù)據(jù)恢復(fù)公司,讓99.9%的數(shù)據(jù)得以完整恢復(fù)。最后,只有3個用戶的數(shù)據(jù)完整受到了影響,但是關(guān)鍵在于服務(wù)停了大約一周。因此,在2013年底,我們提早推出了分布式存儲,就是針對這一問題。
CSDN:那么推出分布式存儲后,現(xiàn)在的服務(wù)可用率又是什么樣的情況?
郭曉:在分布式存儲中,我們使用了1備3的機制,同一個數(shù)據(jù)會保存3個副本,這樣可以顯著的提高系統(tǒng)整體的IO吞吐率,能達到數(shù)倍的效果。同時,將文件徹底打散后,也就是條帶化處理,大幅度的提高了冗余,即使壞4到5臺服務(wù)器都不會影響數(shù)據(jù)安全,也更有利于故障轉(zhuǎn)移。當(dāng)然在開源技術(shù)的使用上,我們做了大量代碼級的調(diào)優(yōu),比如OpenStack,我們已經(jīng)無法升級到社區(qū)版本,只是單純使用它做為中間件調(diào)度KVM的Hypervisor,其中包括了大量的代碼重寫。在分布式塊存儲方面,代碼級的調(diào)優(yōu)有一些,但是資源調(diào)度上的調(diào)優(yōu)更多,還有就是選擇最匹配的硬件。所有的數(shù)據(jù)在其他數(shù)據(jù)中心做一份冷備份(24小時),因此,即使有大面積災(zāi)難發(fā)生,用戶最多也只會丟失十幾個小時的數(shù)據(jù)。其實,在分布式存儲上,最優(yōu)硬件組合也是真正的挑戰(zhàn),比如使用什么樣的網(wǎng)卡,使用多少SSD硬盤或者多少Flash卡作為緩存,使用多少線程、多少主頻的CPU等。
CSDN:您提到SSD,在SSD的使用上,可否詳細的說說?
郭曉:現(xiàn)階段我們主要使用Flash卡做冷熱數(shù)據(jù)分離和HDD的Cache,來加速IO,IOPS有著比較大的提升,這個是我們大多數(shù)云主機的標配。目前整個云計算市場價格戰(zhàn)趨勢明顯,從公司運營層面考慮,SSD的容量價格比還不夠完美,因此我們接下來雖然會推出純SSD產(chǎn)品,但是只會應(yīng)用在中高端云主機上。
CSDN:你提到華云數(shù)據(jù)只用OpenStack中的KVM管理,OpenStack也很難大規(guī)模使用,可否可以詳細說說?
郭曉:華云是在2013年初才開始嘗試深入接觸Openstack,我們的技術(shù)人員在測試環(huán)境中部署了完整的Openstack,使用了全部已有組件,閱讀了Openstack的全部代碼,同時我們也對比了IBM基于Openstack的SCE+,IBM和我們當(dāng)時都判斷Openstack不適合大規(guī)模的發(fā)展。在我們的實驗環(huán)境下,物理服務(wù)器數(shù)量到了一定程度的時候(不超過100臺),整個網(wǎng)絡(luò)性能將大幅度下降。當(dāng)然,我們也看到從Grizzly到Havana再到icehouse,Openstack一直在提升這方面的性能,也許有一天我們會大規(guī)模的使用Openstack。但是目前階段,我們還是以自主開發(fā)為主。
CSDN:可否可以做一些SDN方面的相關(guān)分享?
郭曉:目前我們做的是軟件級的SDN,提供了包括SLB、vFirewall、VLAN等功能、整個系統(tǒng)可以做的很靈活,但是對計算節(jié)點服務(wù)器的計算性能開銷很大,目前我們正在接觸一些SDN硬件的廠商,測試他們的產(chǎn)品,也歡迎有合作意向的廠商能聯(lián)系我。
CSDN:對于華云數(shù)據(jù)當(dāng)下的資源復(fù)用度能達到多少?
郭曉:華云數(shù)據(jù)現(xiàn)在復(fù)用的是CPU和帶寬,內(nèi)存與存儲空間我們不會復(fù)用。華云會實時監(jiān)控CPU和帶寬的工作情況,確保它不會影響到用戶的體驗,其中帶寬的復(fù)用度平均在10倍以上。同時,基于對某此資源有特定需求的用戶,我們也可以提供獨享的環(huán)境滿足他的需求,但是價格上面肯定和普通的用戶不一樣。
CSDN:剛有說到備份,華云數(shù)據(jù)的災(zāi)備具體是什么樣的?
郭曉:我們每天0點都會進行一次完整備份,這個備份會放到其他機房以應(yīng)對突發(fā)災(zāi)難。而在年底,我們會推出云備份,這是一個熱的備份,可以達到故障轉(zhuǎn)移效果,這將是一個增量備份。當(dāng)然,不管是異地冷備份,或者是云備份都是收費的,默認免費的是同一數(shù)據(jù)中心的冷備份。
CSDN:關(guān)于政府對數(shù)據(jù)監(jiān)控,國內(nèi)的政策是什么樣的?
郭曉:每個ISP都必須安裝違規(guī)數(shù)據(jù)監(jiān)控系統(tǒng),接入資源管理系統(tǒng)和備案系統(tǒng),這個系統(tǒng)24小時與工信部的系統(tǒng)對接,政府可以隨時下達某個關(guān)鍵詞過來,然后ISP系統(tǒng)入庫、監(jiān)控并返回相關(guān)數(shù)據(jù)給主管部門。華云數(shù)據(jù)的這一套系統(tǒng)已經(jīng)開發(fā)出來,是一朵合規(guī)的云,相信在兩三年后大家都會與政府對接。其實政府采集的數(shù)據(jù)不是很敏感,只會收集類似URL等信息。
CSDN:關(guān)于數(shù)據(jù)遷出華云數(shù)據(jù)服務(wù)器上,是否有什么門檻?
郭曉:在華云數(shù)據(jù),不管是數(shù)據(jù)接入還是移出都是免費的,完全不存在綁定。同時,華云數(shù)據(jù)現(xiàn)在正在開發(fā)一個工具,可以一鍵將應(yīng)用鏡像到用戶的本地。當(dāng)然在數(shù)據(jù)接入上,無論是華云數(shù)據(jù),還是其他國內(nèi)供應(yīng)商,都提供了遷入的技術(shù)支持,不過華云也提供全自動的遷移工具,幫助用戶把業(yè)務(wù)從物理服務(wù)器移到云端。