<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    paulwong

    NOSQL之旅---HBase(轉(zhuǎn))

    http://www.jdon.com/38244

    最近因?yàn)轫?xiàng)目原因,研究了Cassandra,Hbase等幾個(gè)NoSQL數(shù)據(jù)庫(kù),最終決定采用HBase。在這里,我就向大家分享一下自己對(duì)HBase的理解。

    在說(shuō)HBase之前,我想再嘮叨幾句。做互聯(lián)網(wǎng)應(yīng)用的哥們兒應(yīng)該都清楚,互聯(lián)網(wǎng)應(yīng)用這東西,你沒(méi)辦法預(yù)測(cè)你的系統(tǒng)什么時(shí)候會(huì)被多少人訪問(wèn),你面臨的用戶到底有多少,說(shuō)不定今天你的用戶還少,明天系統(tǒng)用戶就變多了,結(jié)果您的系統(tǒng)應(yīng)付不過(guò)來(lái)了了,不干了,這豈不是咱哥幾個(gè)的悲哀,說(shuō)時(shí)髦點(diǎn)就叫“杯具啊”。

    其實(shí)說(shuō)白了,這些就是事先沒(méi)有認(rèn)清楚互聯(lián)網(wǎng)應(yīng)用什么才是最重要的。從系統(tǒng)架構(gòu)的角度來(lái)說(shuō),互聯(lián)網(wǎng)應(yīng)用更加看重系統(tǒng)性能以及伸縮性,而傳統(tǒng)企業(yè)級(jí)應(yīng)用都是比較看重?cái)?shù)據(jù)完整性和數(shù)據(jù)安全性。那么我們就來(lái)說(shuō)說(shuō)互聯(lián)網(wǎng)應(yīng)用伸縮性這事兒.對(duì)于伸縮性這事兒,哥們兒我也寫(xiě)了幾篇博文,想看的兄弟可以參考我以前的博文,對(duì)于web server,app server的伸縮性,我在這里先不說(shuō)了,因?yàn)檫@部分的伸縮性相對(duì)來(lái)說(shuō)比較容易一點(diǎn),我主要來(lái)回顧一些一個(gè)慢慢變大的互聯(lián)網(wǎng)應(yīng)用如何應(yīng)對(duì)數(shù)據(jù)庫(kù)這一層的伸縮。

    首先剛開(kāi)始,人不多,壓力也不大,搞一臺(tái)數(shù)據(jù)庫(kù)服務(wù)器就搞定了,此時(shí)所有的東東都塞進(jìn)一個(gè)Server里,包括web server,app server,db server,但是隨著人越來(lái)越多,系統(tǒng)壓力越來(lái)越多,這個(gè)時(shí)候可能你把web server,app server和db server分離了,好歹這樣可以應(yīng)付一陣子,但是隨著用戶量的不斷增加,你會(huì)發(fā)現(xiàn),數(shù)據(jù)庫(kù)這哥們不行了,速度老慢了,有時(shí)候還會(huì)宕掉,所以這個(gè)時(shí)候,你得給數(shù)據(jù)庫(kù)這哥們找?guī)讉€(gè)伴,這個(gè)時(shí)候Master-Salve就出現(xiàn)了,這個(gè)時(shí)候有一個(gè)Master Server專(zhuān)門(mén)負(fù)責(zé)接收寫(xiě)操作,另外的幾個(gè)Salve Server專(zhuān)門(mén)進(jìn)行讀取,這樣Master這哥們終于不抱怨了,總算讀寫(xiě)分離了,壓力總算輕點(diǎn)了,這個(gè)時(shí)候其實(shí)主要是對(duì)讀取操作進(jìn)行了水平擴(kuò)張,通過(guò)增加多個(gè)Salve來(lái)克服查詢時(shí)CPU瓶頸。一般這樣下來(lái),你的系統(tǒng)可以應(yīng)付一定的壓力,但是隨著用戶數(shù)量的增多,壓力的不斷增加,你會(huì)發(fā)現(xiàn)Master server這哥們的寫(xiě)壓力還是變的太大,沒(méi)辦法,這個(gè)時(shí)候怎么辦呢?你就得切分啊,俗話說(shuō)“只有切分了,才會(huì)有伸縮性嘛”,所以啊,這個(gè)時(shí)候只能分庫(kù)了,這也是我們常說(shuō)的數(shù)據(jù)庫(kù)“垂直切分”,比如將一些不關(guān)聯(lián)的數(shù)據(jù)存放到不同的庫(kù)中,分開(kāi)部署,這樣終于可以帶走一部分的讀取和寫(xiě)入壓力了,Master又可以輕松一點(diǎn)了,但是隨著數(shù)據(jù)的不斷增多,你的數(shù)據(jù)庫(kù)表中的數(shù)據(jù)又變的非常的大,這樣查詢效率非常低,這個(gè)時(shí)候就需要進(jìn)行“水平分區(qū)”了,比如通過(guò)將User表中的數(shù)據(jù)按照10W來(lái)劃分,這樣每張表不會(huì)超過(guò)10W了。

    綜上所述,一般一個(gè)流行的web站點(diǎn)都會(huì)經(jīng)歷一個(gè)從單臺(tái)DB,到主從復(fù)制,到垂直分區(qū)再到水平分區(qū)的痛苦的過(guò)程。其實(shí)數(shù)據(jù)庫(kù)切分這事兒,看起來(lái)原理貌似很簡(jiǎn)單,如果真正做起來(lái),我想凡是sharding過(guò)數(shù)據(jù)庫(kù)的哥們兒都深受其苦啊。對(duì)于數(shù)據(jù)庫(kù)伸縮的文章,哥們兒可以看看后面的參考資料介紹。

    好了,從上面的那一堆廢話中,我們也發(fā)現(xiàn)數(shù)據(jù)庫(kù)存儲(chǔ)水平擴(kuò)張scale out是多么痛苦的一件事情,不過(guò)幸好技術(shù)在進(jìn)步,業(yè)界的其它弟兄也在努力,09年這一年出現(xiàn)了非常多的NoSQL數(shù)據(jù)庫(kù),更準(zhǔn)確的應(yīng)該說(shuō)是No relation數(shù)據(jù)庫(kù),這些數(shù)據(jù)庫(kù)多數(shù)都會(huì)對(duì)非結(jié)構(gòu)化的數(shù)據(jù)提供透明的水平擴(kuò)張能力,大大減輕了哥們兒設(shè)計(jì)時(shí)候的壓力。下面我就拿Hbase這分布式列存儲(chǔ)系統(tǒng)來(lái)說(shuō)說(shuō)。

    一 Hbase是個(gè)啥東東?
    在說(shuō)Hase是個(gè)啥家伙之前,首先我們來(lái)看看兩個(gè)概念,面向行存儲(chǔ)和面向列存儲(chǔ)。面向行存儲(chǔ),我相信大伙兒應(yīng)該都清楚,我們熟悉的RDBMS就是此種類(lèi)型的,面向行存儲(chǔ)的數(shù)據(jù)庫(kù)主要適合于事務(wù)性要求嚴(yán)格場(chǎng)合,或者說(shuō)面向行存儲(chǔ)的存儲(chǔ)系統(tǒng)適合OLTP,但是根據(jù)CAP理論,傳統(tǒng)的RDBMS,為了實(shí)現(xiàn)強(qiáng)一致性,通過(guò)嚴(yán)格的ACID事務(wù)來(lái)進(jìn)行同步,這就造成了系統(tǒng)的可用性和伸縮性方面大大折扣,而目前的很多NoSQL產(chǎn)品,包括Hbase,它們都是一種最終一致性的系統(tǒng),它們?yōu)榱烁叩目捎眯誀奚艘徊糠值囊恢滦浴:孟瘢疑厦嬲f(shuō)了面向列存儲(chǔ),那么到底什么是面向列存儲(chǔ)呢?Hbase,Casandra,Bigtable都屬于面向列存儲(chǔ)的分布式存儲(chǔ)系統(tǒng)。看到這里,如果您不明白Hbase是個(gè)啥東東,不要緊,我再總結(jié)一下下:

    Hbase是一個(gè)面向列存儲(chǔ)的分布式存儲(chǔ)系統(tǒng),它的優(yōu)點(diǎn)在于可以實(shí)現(xiàn)高性能的并發(fā)讀寫(xiě)操作,同時(shí)Hbase還會(huì)對(duì)數(shù)據(jù)進(jìn)行透明的切分,這樣就使得存儲(chǔ)本身具有了水平伸縮性。


    二 Hbase數(shù)據(jù)模型
    HBase,Cassandra的數(shù)據(jù)模型非常類(lèi)似,他們的思想都是來(lái)源于Google的Bigtable,因此這三者的數(shù)據(jù)模型非常類(lèi)似,唯一不同的就是Cassandra具有Super cloumn family的概念,而Hbase目前我沒(méi)發(fā)現(xiàn)。好了,廢話少說(shuō),我們來(lái)看看Hbase的數(shù)據(jù)模型到底是個(gè)啥東東。

    在Hbase里面有以下兩個(gè)主要的概念,Row key,Column Family,我們首先來(lái)看看Column family,Column family中文又名“列族”,Column family是在系統(tǒng)啟動(dòng)之前預(yù)先定義好的,每一個(gè)Column Family都可以根據(jù)“限定符”有多個(gè)column.下面我們來(lái)舉個(gè)例子就會(huì)非常的清晰了。

    假如系統(tǒng)中有一個(gè)User表,如果按照傳統(tǒng)的RDBMS的話,User表中的列是固定的,比如schema 定義了name,age,sex等屬性,User的屬性是不能動(dòng)態(tài)增加的。但是如果采用列存儲(chǔ)系統(tǒng),比如Hbase,那么我們可以定義User表,然后定義info 列族,User的數(shù)據(jù)可以分為:info:name = zhangsan,info:age=30,info:sex=male等,如果后來(lái)你又想增加另外的屬性,這樣很方便只需要info:newProperty就可以了。

    也許前面的這個(gè)例子還不夠清晰,我們?cè)倥e個(gè)例子來(lái)解釋一下,熟悉SNS的朋友,應(yīng)該都知道有好友Feed,一般設(shè)計(jì)Feed,我們都是按照“某人在某時(shí)做了標(biāo)題為某某的事情”,但是同時(shí)一般我們也會(huì)預(yù)留一下關(guān)鍵字,比如有時(shí)候feed也許需要url,feed需要image屬性等,這樣來(lái)說(shuō),feed本身的屬性是不確定的,因此如果采用傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)將非常麻煩,況且關(guān)系數(shù)據(jù)庫(kù)會(huì)造成一些為null的單元浪費(fèi),而列存儲(chǔ)就不會(huì)出現(xiàn)這個(gè)問(wèn)題,在Hbase里,如果每一個(gè)column 單元沒(méi)有值,那么是占用空間的。下面我們通過(guò)兩張圖來(lái)形象的表示這種關(guān)系:




    上圖是傳統(tǒng)的RDBMS設(shè)計(jì)的Feed表,我們可以看出feed有多少列是固定的,不能增加,并且為null的列浪費(fèi)了空間。但是我們?cè)倏纯聪聢D,下圖為Hbase,Cassandra,Bigtable的數(shù)據(jù)模型圖,從下圖可以看出,F(xiàn)eed表的列可以動(dòng)態(tài)的增加,并且為空的列是不存儲(chǔ)的,這就大大節(jié)約了空間,關(guān)鍵是Feed這東西隨著系統(tǒng)的運(yùn)行,各種各樣的Feed會(huì)出現(xiàn),我們事先沒(méi)辦法預(yù)測(cè)有多少種Feed,那么我們也就沒(méi)有辦法確定Feed表有多少列,因此Hbase,Cassandra,Bigtable的基于列存儲(chǔ)的數(shù)據(jù)模型就非常適合此場(chǎng)景。說(shuō)到這里,采用Hbase的這種方式,還有一個(gè)非常重要的好處就是Feed會(huì)自動(dòng)切分,當(dāng)Feed表中的數(shù)據(jù)超過(guò)某一個(gè)閥值以后,Hbase會(huì)自動(dòng)為我們切分?jǐn)?shù)據(jù),這樣的話,查詢就具有了伸縮性,而再加上Hbase的弱事務(wù)性的特性,對(duì)Hbase的寫(xiě)入操作也將變得非常快。



    上面說(shuō)了Column family,那么我之前說(shuō)的Row key是啥東東,其實(shí)你可以理解row key為RDBMS中的某一個(gè)行的主鍵,但是因?yàn)镠base不支持條件查詢以及Order by等查詢,因此Row key的設(shè)計(jì)就要根據(jù)你系統(tǒng)的查詢需求來(lái)設(shè)計(jì)了額。我還拿剛才那個(gè)Feed的列子來(lái)說(shuō),我們一般是查詢某個(gè)人最新的一些Feed,因此我們Feed的Row key可以有以下三個(gè)部分構(gòu)成<userId><timestamp><feedId>,這樣以來(lái)當(dāng)我們要查詢某個(gè)人的最進(jìn)的Feed就可以指定Start Rowkey為<userId><0><0>,End Rowkey為<userId><Long.MAX_VALUE><Long.MAX_VALUE>來(lái)查詢了,同時(shí)因?yàn)镠base中的記錄是按照rowkey來(lái)排序的,這樣就使得查詢變得非常快。


    三 Hbase的優(yōu)缺點(diǎn)
    1 列的可以動(dòng)態(tài)增加,并且列為空就不存儲(chǔ)數(shù)據(jù),節(jié)省存儲(chǔ)空間.

    2 Hbase自動(dòng)切分?jǐn)?shù)據(jù),使得數(shù)據(jù)存儲(chǔ)自動(dòng)具有水平scalability.

    3 Hbase可以提供高并發(fā)讀寫(xiě)操作的支持

    Hbase的缺點(diǎn):

    1 不能支持條件查詢,只支持按照Row key來(lái)查詢.

    2 暫時(shí)不能支持Master server的故障切換,當(dāng)Master宕機(jī)后,整個(gè)存儲(chǔ)系統(tǒng)就會(huì)掛掉.



    關(guān)于數(shù)據(jù)庫(kù)伸縮性的一點(diǎn)資料:
    http://www.jurriaanpersyn.com/archives/2009/02/12/database-sharding-at-netlog-with-mysql-and-php/

    http://adam.blog.heroku.com/past/2009/7/6/sql_databases_dont_scale/

    posted on 2013-01-29 23:50 paulwong 閱讀(366) 評(píng)論(1)  編輯  收藏 所屬分類(lèi): HADOOP云計(jì)算HBASE

    Feedback

    # re: NOSQL之旅---HBase(轉(zhuǎn)) 2013-01-30 16:41 免費(fèi)網(wǎng)絡(luò)記事本

    有時(shí)間研究一下,這個(gè)很不錯(cuò)!  回復(fù)  更多評(píng)論   


    主站蜘蛛池模板: 国产免费一区二区视频| 一级女人18毛片免费| 成人福利免费视频| 免费人成视频在线观看不卡| 亚洲AV无码第一区二区三区| 亚洲综合av一区二区三区| 国产高清视频免费在线观看| 国产h肉在线视频免费观看| 亚洲国产成人精品女人久久久| 18gay台湾男同亚洲男同| 香港经典a毛片免费观看看| 免费国产黄网站在线观看视频| 四虎影院永久免费观看| 久久久久亚洲AV无码永不| 羞羞漫画小舞被黄漫免费| 精品国产免费人成电影在线观看 | 国产精品亚洲综合| 99久久99久久精品免费观看| 亚洲AⅤ无码一区二区三区在线| 亚洲欧洲日韩综合| 中文在线观看免费网站| 曰皮全部过程视频免费国产30分钟| 亚洲人成在线观看| a级毛片免费观看网站| 午夜时刻免费入口| 亚洲视频免费在线看| 中文字幕免费在线视频| 国产乱子伦片免费观看中字| 亚洲小说区图片区| 少妇性饥渴无码A区免费| 亚洲成aⅴ人片久青草影院| 亚洲综合一区无码精品| 亚洲精品在线免费观看视频| 亚洲午夜国产精品无码老牛影视| 老子影院午夜伦不卡亚洲| www.999精品视频观看免费| 亚洲宅男永久在线| a毛片视频免费观看影院| 亚洲精品tv久久久久久久久久| 亚洲精品久久久久无码AV片软件| 91九色老熟女免费资源站|