<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    paulwong

    HBASE讀書(shū)筆記

    GET、PUT是ONLINE的操作,MAPREDUCE是OFFLINE的操作


    HDFS寫流程
    客戶端收到要保存文件的請(qǐng)求后,將文件以64M為單位拆成若干份BLOCK,形成一個(gè)列表,即由幾個(gè)BLOCK組成,將這些信息告訴NAME NODE,我要保存這個(gè),NAME NODE算出一個(gè)列表,哪段BLOCK應(yīng)該寫到哪個(gè)DATA NODE,客戶端將第一個(gè)BLOCK傳到第一個(gè)節(jié)點(diǎn)DATA NODE A,通知其保存,同時(shí)讓它通知DATA NODE D和DATA NODE B也保存一份,DATA NODE D收到信息后進(jìn)行了保存,同時(shí)通知DATA NODE B保存一份,DATA NODE B保存完成后則通知客戶端保存完成,客戶端再去向NAME NODE中取下一個(gè)BLOCK要保存的位置,重復(fù)以上的動(dòng)作,直到所有的BLOCK都保存完成。

    HDFS讀流程
    客戶端向NAME NODE請(qǐng)求讀一個(gè)文件,NAME NODE返回這個(gè)文件所構(gòu)成的所有BLOCK的DATA NODE IP及BLOCK ID,客戶端并行的向各DATA NODE發(fā)出請(qǐng)求,要取某個(gè)BLOCK ID的BLOCK,DATA NODE發(fā)回所要的BLOCK給客戶端,客戶端收集到所有的BLOCK后,整合成一個(gè)完整的文件后,此流程結(jié)束。


    MAPREDUCE流程
    輸入數(shù)據(jù) -- 非多線程了,而是多進(jìn)程的挑選數(shù)據(jù),即將輸入數(shù)據(jù)分成多塊,每個(gè)進(jìn)程處理一塊 -- 分組 -- 多進(jìn)程的匯集數(shù)據(jù) -- 輸出

    HBASE表結(jié)構(gòu)
    HBASE中將一個(gè)大表數(shù)據(jù)分成不同的小表,每個(gè)小表叫REGION,存放REGION的服務(wù)器叫REGIONSERVER,一個(gè)REGIONSERVER可以存放多個(gè)REGION。通常REGIONSERVER和DATA NODE是在同一服務(wù)器,以減少NETWORK IO。
    -ROOT-表存放于MASTER SERVER上,記錄了一共有多少個(gè)REGIONSERVER,每個(gè)REGION SERVER上都有一個(gè).META.表,上面記錄了本REGION SERVER放有哪幾個(gè)表的哪幾個(gè)REGION。如果要知道某個(gè)表共有幾個(gè)REGION,就得去所有的REGION SERVER上查.META.表,進(jìn)行匯總才能得知。
    客戶端如果要查ROW009的信息,先去咨詢ZOOPKEEPER,-ROOT-表在哪里,然后問(wèn)-ROOT-表,哪個(gè).META.知道這個(gè)信息,然后去問(wèn).META.表,哪個(gè)REGION有這個(gè)信息,然后去那個(gè)REGION問(wèn)ROW009的信息,然后那個(gè)REGION返回此信息。


    HBASE MAPREDUCE
    一個(gè)REGION一個(gè)MAP任務(wù),而任務(wù)里的map方法執(zhí)行多少次,則由查詢出來(lái)的記錄有多少條,則執(zhí)行多少次。
    REDUCE任務(wù)負(fù)責(zé)向REGION寫數(shù)據(jù),但寫到哪個(gè)REGION則由那個(gè)KEY歸屬哪個(gè)REGION管,則寫到哪個(gè)REGION,有可能REDUCE任務(wù)會(huì)和所有的REGION SERVER交互。


    在HBASE的MAPREDUCE JOB中使用JOIN
    REDUCE-SIDE JOIN
    利用現(xiàn)有的SHUTTLE分組機(jī)制,在REDUCE階段做JOIN,但由于MAP階段數(shù)據(jù)大,可能會(huì)有性能問(wèn)題。
    MAP-SIDE JOIN
    將數(shù)據(jù)較少的一表讀到一公共文件中,然后在MPA方法中循環(huán)另一表的數(shù)據(jù),再將要的數(shù)據(jù)從公共文件中讀取。這樣可以減少SHUTTLE和SORT的時(shí)間,同時(shí)也不需要REDUCE任務(wù)。

    posted on 2013-02-01 13:55 paulwong 閱讀(475) 評(píng)論(0)  編輯  收藏 所屬分類: 分布式HADOOPHBASE

    主站蜘蛛池模板: 337P日本欧洲亚洲大胆艺术图| 91大神亚洲影视在线| 亚洲一区二区三区写真| 免费不卡视频一卡二卡| 亚洲高清视频在线播放| 四虎国产成人永久精品免费 | 成人免费视频试看120秒| 亚洲成人福利在线| 97人妻无码一区二区精品免费| 精品日韩亚洲AV无码| 久久午夜夜伦鲁鲁片免费无码影视| 亚洲黄色免费网站| 亚欧在线精品免费观看一区| 亚洲妇女水蜜桃av网网站| 成人午夜免费福利视频| 亚洲午夜无码久久久久软件| 四虎成人免费网址在线| 国产亚洲人成在线影院| 亚洲av无码成人精品区| 久久不见久久见免费影院www日本| 国产亚洲精久久久久久无码77777 国产亚洲精品成人AA片新蒲金 | 大学生高清一级毛片免费| 亚洲成a∨人片在无码2023 | 午夜a级成人免费毛片| 狼人大香伊蕉国产WWW亚洲 | 亚洲综合激情六月婷婷在线观看| 18以下岁毛片在免费播放| 学生妹亚洲一区二区| 深夜国产福利99亚洲视频| 国产免费内射又粗又爽密桃视频 | 久久精品亚洲中文字幕无码麻豆 | 亚洲色丰满少妇高潮18p| 国产一区二区三区在线观看免费| 一区二区三区免费视频播放器 | 亚洲影视自拍揄拍愉拍| 国产极品粉嫩泬免费观看| 伊人免费在线观看| 中文字幕亚洲综合小综合在线| 国产精品国产自线拍免费软件| 91成人免费福利网站在线| 7777久久亚洲中文字幕|