理论亚洲区美一区二区三区,中文字幕中韩乱码亚洲大片,亚洲电影唐人社一区二区

HBASE讀書筆記

GET、PUT是ONLINE的操作，MAPREDUCE是OFFLINE的操作

HDFS寫流程

客戶端收到要保存文件的請(qǐng)求后，將文件以64M為單位拆成若干份BLOCK，形成一個(gè)列表，即由幾個(gè)BLOCK組成，將這些信息告訴NAME NODE，我要保存這個(gè)，NAME NODE算出一個(gè)列表，哪段BLOCK應(yīng)該寫到哪個(gè)DATA NODE，客戶端將第一個(gè)BLOCK傳到第一個(gè)節(jié)點(diǎn)DATA NODE A，通知其保存，同時(shí)讓它通知DATA NODE D和DATA NODE B也保存一份，DATA NODE D收到信息后進(jìn)行了保存，同時(shí)通知DATA NODE B保存一份，DATA NODE B保存完成后則通知客戶端保存完成，客戶端再去向NAME NODE中取下一個(gè)BLOCK要保存的位置，重復(fù)以上的動(dòng)作，直到所有的BLOCK都保存完成。

HDFS讀流程

客戶端向NAME NODE請(qǐng)求讀一個(gè)文件，NAME NODE返回這個(gè)文件所構(gòu)成的所有BLOCK的DATA NODE IP及BLOCK ID，客戶端并行的向各DATA NODE發(fā)出請(qǐng)求，要取某個(gè)BLOCK ID的BLOCK，DATA NODE發(fā)回所要的BLOCK給客戶端，客戶端收集到所有的BLOCK后，整合成一個(gè)完整的文件后，此流程結(jié)束。

MAPREDUCE流程

輸入數(shù)據(jù) -- 非多線程了，而是多進(jìn)程的挑選數(shù)據(jù)，即將輸入數(shù)據(jù)分成多塊，每個(gè)進(jìn)程處理一塊 -- 分組 -- 多進(jìn)程的匯集數(shù)據(jù) -- 輸出

HBASE表結(jié)構(gòu)

HBASE中將一個(gè)大表數(shù)據(jù)分成不同的小表，每個(gè)小表叫REGION，存放REGION的服務(wù)器叫REGIONSERVER，一個(gè)REGIONSERVER可以存放多個(gè)REGION。通常REGIONSERVER和DATA NODE是在同一服務(wù)器，以減少NETWORK IO。

-ROOT-表存放于MASTER SERVER上，記錄了一共有多少個(gè)REGIONSERVER，每個(gè)REGION SERVER上都有一個(gè).META.表，上面記錄了本REGION SERVER放有哪幾個(gè)表的哪幾個(gè)REGION。如果要知道某個(gè)表共有幾個(gè)REGION，就得去所有的REGION SERVER上查.META.表，進(jìn)行匯總才能得知。

客戶端如果要查ROW009的信息，先去咨詢ZOOPKEEPER，-ROOT-表在哪里，然后問-ROOT-表，哪個(gè).META.知道這個(gè)信息，然后去問.META.表，哪個(gè)REGION有這個(gè)信息，然后去那個(gè)REGION問ROW009的信息，然后那個(gè)REGION返回此信息。

HBASE MAPREDUCE

一個(gè)REGION一個(gè)MAP任務(wù)，而任務(wù)里的map方法執(zhí)行多少次，則由查詢出來的記錄有多少條，則執(zhí)行多少次。

REDUCE任務(wù)負(fù)責(zé)向REGION寫數(shù)據(jù)，但寫到哪個(gè)REGION則由那個(gè)KEY歸屬哪個(gè)REGION管，則寫到哪個(gè)REGION，有可能REDUCE任務(wù)會(huì)和所有的REGION SERVER交互。

在HBASE的MAPREDUCE JOB中使用JOIN

REDUCE-SIDE JOIN
利用現(xiàn)有的SHUTTLE分組機(jī)制，在REDUCE階段做JOIN，但由于MAP階段數(shù)據(jù)大，可能會(huì)有性能問題。

MAP-SIDE JOIN

將數(shù)據(jù)較少的一表讀到一公共文件中，然后在MPA方法中循環(huán)另一表的數(shù)據(jù)，再將要的數(shù)據(jù)從公共文件中讀取。這樣可以減少SHUTTLE和SORT的時(shí)間，同時(shí)也不需要REDUCE任務(wù)。

posted on 2013-02-01 13:55 paulwong 閱讀(479) 評(píng)論(0) 編輯收藏所屬分類: 分布式、HADOOP 、HBASE

新用戶注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: !!!架構(gòu)網(wǎng)站內(nèi)容不錯(cuò) SPRING CACHE資源使用WILDFLY中的分布式緩存INFISHPAN SPRING-SESSION 分布式調(diào)度QUARTZ+SPRING 樂視 TV 載入 4K 片點(diǎn)解咁快？CDN 網(wǎng)絡(luò)解構(gòu) Java并行處理框架 JPPF 騰訊CKV海量分布式存儲(chǔ)系統(tǒng) 【轉(zhuǎn)載】經(jīng)典漫畫講解HDFS原理一些數(shù)據(jù)切分、緩存、rpc框架、nosql方案資料

paulwong

My Links

Blog Stats

常用鏈接

留言簿(67)

隨筆分類(1392)

隨筆檔案(1150)

文章分類(7)

文章檔案(10)

相冊(cè)

收藏夾(2)

AI

Develop

E-BOOK

Other

養(yǎng)生

微服務(wù)

搜索

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

60天內(nèi)閱讀排行

HBASE讀書筆記