Hadoop是數(shù)據(jù)倉(cāng)庫(kù)的終結(jié)者嗎?
2014年01月13日 | 作者:鄒錚編譯 | 來(lái)源:網(wǎng)界網(wǎng)
http://news.cnw.com.cn/news-international/htm2014/20140113_289451.shtml
【CNW.com.cn獨(dú)家譯稿】在過(guò)去三年,Hadoop生態(tài)系統(tǒng)已經(jīng)大范圍擴(kuò)展,很多主要IT供應(yīng)商都推出了Hadoop連接器,以增強(qiáng)Hadoop的頂層架構(gòu)或是供應(yīng)商自己使用的Hadoop發(fā)行版。鑒于Hadoop的部署率呈指數(shù)級(jí)的增長(zhǎng),以及其生態(tài)系統(tǒng)不斷地深入而廣泛地發(fā)展,我們很想知道Hadoop的崛起是否會(huì)導(dǎo)致傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)解決方案的終結(jié)呢。
我們也可以將這個(gè)問(wèn)題放到一個(gè)更大的環(huán)境中去討論:在何種程度上,大數(shù)據(jù)會(huì)改變傳統(tǒng)數(shù)據(jù)分析的環(huán)境?
數(shù)據(jù)倉(cāng)庫(kù)是技術(shù)和軟件套件,它能夠從操作系統(tǒng)收集數(shù)據(jù),并將這些數(shù)據(jù)整合,并統(tǒng)一到中央數(shù)據(jù)庫(kù)中,然后對(duì)數(shù)據(jù)儀表盤(pán)上指標(biāo)進(jìn)行分析、可視化和追蹤關(guān)鍵性能處理。
數(shù)據(jù)倉(cāng)庫(kù)和Hadoop之間的主要區(qū)別是:數(shù)據(jù)倉(cāng)庫(kù)通常部署在單個(gè)關(guān)系數(shù)據(jù)庫(kù)中,而這個(gè)數(shù)據(jù)庫(kù)則起到中央存儲(chǔ)的作用。相比之下,Hadoop及其Hadoop文件系統(tǒng)是跨多個(gè)機(jī)器,并用來(lái)處理海量數(shù)據(jù)的,而這是任何單臺(tái)機(jī)器都達(dá)不到的能力。
此外,Hadoop生態(tài)系統(tǒng)包括構(gòu)建在Hadoop核心之上的數(shù)據(jù)倉(cāng)庫(kù)層/服務(wù),而Hadoop上層服務(wù)包括SQL(Presto)、SQL-Like(Hive)和NoSQL(Hbase)類(lèi)型的數(shù)據(jù)存儲(chǔ)。相比之下,在過(guò)去的十年中,大型數(shù)據(jù)倉(cāng)庫(kù)轉(zhuǎn)移到使用自定義多處理器設(shè)備來(lái)擴(kuò)展數(shù)據(jù)量,像Netezza(被IBM收購(gòu))和Teradata所提供的數(shù)據(jù)倉(cāng)庫(kù)。然而,這些設(shè)備都非常昂貴,大多數(shù)中小企業(yè)都負(fù)擔(dān)不起。
在這種背景下,我們很自然地要問(wèn):Hadoop是否是數(shù)據(jù)倉(cāng)庫(kù)的終結(jié)者?
為了回答這個(gè)問(wèn)題,我們需要將數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與數(shù)據(jù)倉(cāng)庫(kù)部署分開(kāi)來(lái)看。Hadoop(和NoSQL數(shù)據(jù)庫(kù)的出現(xiàn))將預(yù)示著數(shù)據(jù)倉(cāng)庫(kù)設(shè)備和傳統(tǒng)數(shù)據(jù)倉(cāng)庫(kù)單一數(shù)據(jù)庫(kù)部署的消亡。
而在這方面就有過(guò)實(shí)例。Hadoop供應(yīng)商Cloudera將其平臺(tái)作為“企業(yè)數(shù)據(jù)樞紐”,這在本質(zhì)上將傳統(tǒng)數(shù)據(jù)管理解決方案的納入了需求。ReadWrite.com在最近發(fā)表的一篇題為“為什么專有大數(shù)據(jù)技術(shù)沒(méi)有希望與Hadoop競(jìng)爭(zhēng)”的文章中也發(fā)表了類(lèi)似的看法。同樣地,最近一篇華爾街日?qǐng)?bào)文章描述了Hadoop如何挑戰(zhàn)甲骨文和Teradata。
Hadoop或NoSQL生態(tài)系統(tǒng)仍將繼續(xù)發(fā)展。很多大數(shù)據(jù)環(huán)境開(kāi)始選擇NoSQL、SQL甚至是NewSQL數(shù)據(jù)倉(cāng)庫(kù)的混合方法。此外,MapReduce并行處理引擎也有變化和改進(jìn),例如Apache的Spark項(xiàng)目。雖然這個(gè)故事還遠(yuǎn)遠(yuǎn)沒(méi)有結(jié)束,但可以說(shuō),傳統(tǒng)的單一服務(wù)器關(guān)系型數(shù)據(jù)庫(kù)或數(shù)據(jù)庫(kù)設(shè)備并不是大數(shù)據(jù)或數(shù)據(jù)倉(cāng)儲(chǔ)的未來(lái)。
另一方面,數(shù)據(jù)倉(cāng)庫(kù)技術(shù)(包括提取—轉(zhuǎn)換—和—加載、三維建模和商業(yè)智能)將會(huì)應(yīng)用到新的Hadoop/NoSQL環(huán)境。此外,這些技術(shù)也將變身來(lái)支持更多的混合環(huán)境。主要原則是因?yàn)椴⒉皇撬袛?shù)據(jù)都是平等的,所以IT經(jīng)理們應(yīng)該選擇數(shù)據(jù)存儲(chǔ)和訪問(wèn)機(jī)制來(lái)適應(yīng)數(shù)據(jù)的使用?;旌檄h(huán)境將包括關(guān)鍵價(jià)值存儲(chǔ)、關(guān)系型數(shù)據(jù)庫(kù)、圖形存儲(chǔ)、文檔存儲(chǔ)、柱狀存儲(chǔ)、XML數(shù)據(jù)庫(kù)、元數(shù)據(jù)目錄等等。
正如你所看到的,這并不是一個(gè)簡(jiǎn)單的問(wèn)題,也不可能簡(jiǎn)單地得出一個(gè)答案。然而,一般情況下,雖然大數(shù)據(jù)在未來(lái)五年內(nèi)將會(huì)改變數(shù)據(jù)倉(cāng)庫(kù)的部署,但它不會(huì)導(dǎo)致數(shù)據(jù)倉(cāng)庫(kù)的概念和做法過(guò)時(shí)。
對(duì)于向數(shù)據(jù)倉(cāng)庫(kù)投入巨資的聯(lián)邦政府這意味著什么呢?
首先,當(dāng)現(xiàn)有數(shù)據(jù)倉(cāng)庫(kù)的容量不夠時(shí),數(shù)據(jù)倉(cāng)庫(kù)將被轉(zhuǎn)移到基于Hadoop、多機(jī)器或云托管的解決方案。其次,企業(yè)并不會(huì)選擇“放之四海而皆準(zhǔn)”的做法,而會(huì)將目光轉(zhuǎn)向適合其企業(yè)內(nèi)部數(shù)據(jù)容量的混合存儲(chǔ)方法。(鄒錚編譯)