<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    MapReduce 數據分布傾斜性

    數據分布傾斜性指的是數據分布過度集中于數據空間的某端,造成“頭重腳輕”或者“比薩斜塔”等不均勻的分布特點。數據分布傾斜性將造成運算效率上的“瓶頸”和數據分析結果的“以偏概全”。


    效率上的“瓶頸”

    假如在大型商場中,共有A,B1,B2..B9十家店鋪,其中A店鋪中有99W商品,B1,B2.B9這九家店鋪分別有1W商品。我們要統計商場中商品總數,計算初,采用HASHMAP作為存儲結構,其中Key:店鋪 Value:商品。我們的計算過程是先統計每個店鋪的商品總數,最后將結果累加。可以發現,由于A99W商品,按照1+1的累積方式(假如1+1耗時1秒),我們要加99W1才能得到A店鋪的商品總數(總耗時99W秒),而B1,B2.B9只需分別累加1W1(分別耗時1W秒),而為了得到商場中的商品總數,我們必須等待所有店鋪都分別累計結束才能處理總和,顯而易見,此時運算瓶頸便集中在A店鋪的商品累計上。

    這類狀況經常發生在分布式運算過程中,比如Hadoop Job計算,因為map/reduce 過程中是以Key-value形式來處理數據,假如某key下的數據量太大,會導致整個計算過程中move/shuffle/sort的耗時遠遠高于其他key,因此該Key變成為效率“瓶頸”。一般解決辦法是,自定義partitioner,對所有的Value進行自定義分組,使得每組的量較平均,從而解決時間瓶頸問題。


    數據分析結果的“以偏概全”

    同樣使用上述的“商場”案例,并且在此基礎上我們假設A店鋪,B9店鋪是賣低端商品,而B1,B2..B8是賣高端商品,銷量較小。如果我們要根據商品銷售狀況分析店鋪在買家當中的受歡迎程度。由于A店鋪本身商品量大,而且定位的銷售價位是屬于薄利多銷,如果只從銷售量的考慮,我們會以為A店鋪在商場中是最受買家歡迎的,造成“片面”的分析結果。

    其實,遇到這種情況,我們首先的分析賣家性質和買家性質,并且使用相對量來作為評估值,比如A店鋪賣低端商品,日銷售量1W商品,1W/99W<1%, B9店鋪賣低端商品,日銷售量5K商品,5K/1W=50%,所以在低端買家中,低端商品店鋪B9應該是最受歡迎的。

    posted on 2011-12-22 10:17 Ric Dong 閱讀(320) 評論(0)  編輯  收藏


    只有注冊用戶登錄后才能發表評論。


    網站導航:
     
    <2025年5月>
    27282930123
    45678910
    11121314151617
    18192021222324
    25262728293031
    1234567

    導航

    統計

    留言簿

    文章檔案(2)

    搜索

    最新評論

    主站蜘蛛池模板: 亚洲啪啪免费视频| 91精品国产亚洲爽啪在线影院 | 最近最好的中文字幕2019免费| 一级一片免费视频播放| 国产精品亚洲精品观看不卡| 国产亚洲色婷婷久久99精品| 四虎永久在线精品免费观看地址| 日韩中文字幕精品免费一区| 国产一精品一av一免费爽爽 | 国产亚洲中文日本不卡二区| 亚洲精品视频专区| 亚洲精品成人无码中文毛片不卡 | 成人免费视频网站www| 免费久久人人爽人人爽av| 羞羞视频网站免费入口| 亚洲性色精品一区二区在线| 亚洲字幕在线观看| 久久精品九九亚洲精品| 亚洲AV一宅男色影视| 老司机亚洲精品影视www| 亚洲精品成人久久久| 亚洲?V无码成人精品区日韩| 国产成人无码a区在线观看视频免费| 免费人成在线视频| 免费无码又黄又爽又刺激| 免费看成人AA片无码视频羞羞网| 97青青草原国产免费观看| 香蕉免费一区二区三区| 久久精品国产免费| 中文字幕无码免费久久| 十八禁视频在线观看免费无码无遮挡骂过 | 在线亚洲v日韩v| 亚洲AV无码男人的天堂| 亚洲人成电影网站免费| 亚洲人成自拍网站在线观看| 亚洲色成人四虎在线观看| 亚洲综合在线一区二区三区| 中文字幕在线观看亚洲日韩| 日本亚洲色大成网站www久久| 亚洲色最新高清av网站| 日韩成人精品日本亚洲|