
(作者:王積杰,IBM 大中華區(qū) 云計算與認知軟件事業(yè)部 數(shù)據與人工智能 信息架構產品總監(jiān) )
IT世界,每隔10年,就會出現(xiàn)一個IT的風口。20年前是數(shù)據倉庫,10年前是大數(shù)據和數(shù)據湖,今天,一個名為Data Fabric (數(shù)據經緯)的數(shù)據架構浮出水面,開始引發(fā)人們的關注。
我們首先來看,當今的IT數(shù)據架構和十多年前有什么不同了。在數(shù)據倉庫時代,企業(yè)的數(shù)據量還不算大,一般幾十個TB, 數(shù)據倉庫的建設一般采用中心化的方式,將各個應用系統(tǒng)的數(shù)據,從各個系統(tǒng)抽取出來,清洗轉換后,加載到數(shù)據倉庫里。由于架構相對簡單,數(shù)據模型直觀,相關的數(shù)據集成的工具軟件及元數(shù)據管理的重要性并不突出,很多客戶選擇了忽視這一部分。而到了大數(shù)據時代,由于非結構化數(shù)據的導入,數(shù)據量大了,企業(yè)擁有上百個TB的數(shù)據成為了日常。但數(shù)據架構還是集中式,工具軟件及元數(shù)據還是沒有被廣泛地應用。
今天已經到了一個云的時代。在企業(yè)內部,除了有各種本地應用系統(tǒng),還有數(shù)據倉庫(Data Warehouse)和很多數(shù)據集市(Data Mart),大數(shù)據平臺( Big Data Platform)和數(shù)據湖(Data Lake)往往也是不可缺少,除了本地私有云平臺,往往很多應用也會放到公有云平臺之上。在這樣一個分布式的數(shù)據架構中,如果為了獲取數(shù)據,還要把數(shù)據搬移復制,集中到某一個地方去,其成本將會非常之大。因此,是否有辦法既不需要搬動數(shù)據,允許數(shù)據還是保留在各個應用系統(tǒng)里,又能讓數(shù)數(shù)據科學家們在需要的時候能夠非常方便地獲取這些數(shù)據呢?于是,一個名為Data Fabric (數(shù)據經緯)的數(shù)據架構因此而誕生了。
有關Data Fabric (數(shù)據經緯), Gartner和Forrester 都有明確的定義,其中,Forrester寫到:“Data Fabric (數(shù)據經緯)是以一種智能和安全的并且是自服務的方式,動態(tài)地協(xié)調分布式的數(shù)據源,跨數(shù)據平臺地提供集成和可信賴的數(shù)據,支持廣泛的不同應用的分析和使用場景”。這些語句也許有些拗口,我們可以用更通俗的語言來描述,那就是,”使需要用數(shù)據的人,隨時能夠了解到他要的數(shù)據在哪里,數(shù)據質量如何,他可以如何方便地獲取他需要的數(shù)據! Data Fabric (數(shù)據經緯)的主要功能就是,把正確的數(shù)據,在正確的時間,傳送給正確的人。通過 Data Fabric (數(shù)據經緯), 對的人可以從對的地點,在對的時間,獲取對的數(shù)據。

我們可以把Data Fabric (數(shù)據經緯)想象成一張?zhí)摂M的網,網上的每個節(jié)點就是一個 IT系統(tǒng)。人的大腦里有成萬上億個神經元,他們連接在一起,以非?斓乃俣忍幚砗蛡鬟f信息,F(xiàn)代醫(yī)學還無法解釋這些信息是如何傳遞的,只能說是以一種虛擬的方式來連接。這里Data Fabric (數(shù)據經緯)也一樣,這張網并不能理解為一種點對點的連接,而是一種虛擬的連接,可以使數(shù)據在網上迅速流動。
要實現(xiàn)Data Fabric (數(shù)據經緯)這樣的架構,有時候阻礙不是來自技術,而是人。很多時候,不同的業(yè)務部門把持著各自的數(shù)據,不愿共享,怕共享數(shù)據會降低本部門的權威。亞馬遜的 CEO 貝索斯就曾經在一個內部的高層會議上,對一眾高管發(fā)火,他說:“你們要么共享數(shù)據,要么離開公司!” 因為,貝索斯清楚地知道,發(fā)揮數(shù)據價值,給公司帶來業(yè)務上的回報,是一家互聯(lián)網公司的命脈。如果任由個別高管阻礙這種數(shù)據的共享,帶來的后果將是毀滅性的。雖然有的人擔心,數(shù)據共享會帶來數(shù)據安全和隱私保護的問題,但這些問題都有相應的技術手段來解決,并不能成為阻礙數(shù)據共享的理由。
Data Fabric (數(shù)據經緯) 可以同時給業(yè)務和技術團隊帶來明確的價值。從業(yè)務層面來看,由于企業(yè)能更容易地獲得高質量的數(shù)據,從而能更快和更精確地獲得企業(yè)數(shù)據洞察。數(shù)據科學家和業(yè)務人員能夠花更多時間在數(shù)據分析上,而不是去尋找和準備數(shù)據,可以給數(shù)據使用者提供完美的自我服務的數(shù)據消費體驗。優(yōu)質和全面的數(shù)據,可以避免由于數(shù)據訪問的限制而造成的數(shù)據分析偏差,從而可以提升企業(yè)數(shù)據的合規(guī)性和安全性。 從技術層面來說,由于較少的數(shù)據復制的次數(shù)和數(shù)量,從而減少了數(shù)據集成的工作,方便維護數(shù)據質量和標準,也減少了硬件架構和存儲的開銷。 由于減少了數(shù)據復制和大大優(yōu)化了數(shù)據流程,加快并簡化了數(shù)據處理過程,從而通過實施自動化的整體數(shù)據策略,減少了數(shù)據訪問管理的工作。
要實現(xiàn)上述的Data Fabric (數(shù)據經緯)的目標,至少需要四個方面的基本能力:
1) 能夠在數(shù)據之間建立虛擬鏈接,簡化數(shù)據訪問的模式,從而減少數(shù)據復制的數(shù)量。
2) 需要建立一個企業(yè)的數(shù)據目錄,并需要利用AI技術,自動化地實現(xiàn)基于語義和知識的分析,理解數(shù)據及其業(yè)務含義,并建立知識圖譜, 從而使數(shù)據目錄變得智能化和自動化。能夠讓需要數(shù)據的用戶,隨時了解他所需要的數(shù)據在哪里、數(shù)據質量如何等。
3) 建立自動化的數(shù)據平臺,并且允許用戶通過自服務的方式,訪問并獲取數(shù)據。
4) 通過提供整體的自動化策略,確保數(shù)據安全,增加數(shù)據的隱私和權限保護,并提高數(shù)據的質量。
Data Fabric (數(shù)據經緯)目前是一個IT熱點,眾多國際著名的 IT公司包括IBM、informatica和 Telend等,均推出了針對 Data Fabric 的解決方案。其中,IBM 公司的Cloud Pak for Data針對上述Data Fabric (數(shù)據經緯)必須具備的四個基本能力,都能給予很好的支持。IBM早在十多年前,就已經推出了有關數(shù)據虛擬化的方案Data Virtualization, 目前這個方案的功能日趨豐富。IBM的數(shù)據目錄Watson Knowledge Catalog是業(yè)界最強大的智能數(shù)據目錄解決方案,其中大量使用了IBM企業(yè)級 AI和機器學習的技術,使數(shù)據目錄智能化和自動化,并具有知識圖譜的能力,方便業(yè)務用戶使用。IBM數(shù)據目錄方案內嵌了數(shù)據安全和數(shù)據隱私保護的功能,確保在數(shù)據共享的過程中能符合GDPR的數(shù)據隱私保護要求。同時,IBM作為一個老牌的專業(yè)數(shù)據集成的供應商,其數(shù)據復制和數(shù)據集成的自服務能力也日趨完善。IBM Cloud Pak for Data 應該是目前業(yè)界應對 Data Fabric (數(shù)據經緯)功能最為完善的數(shù)據平臺。

Data Fabric (數(shù)據經緯)這個概念在國際上已經熱起來了,但目前國內的IT用戶知道的人還不多。20年前數(shù)據倉庫在國外興起后,用了6到8年才傳到中國。10年前大數(shù)據的概念在國外興起后,不到三年就被中國用戶廣泛接受。目前這個 Data Fabric (數(shù)據經緯)概念,中國可以用多快的速度接受并加以應用呢?我們拭目以待!