<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    paulwong

    大規模數據查重的多種方法,及Bloom Filter的應用

    挺有意思的題目。


    1. 給你A,B兩個文件,各存放50億條URL,每條URL占用64字節,內存限制是4G,讓你找出:A,B文件共同的URL。
    解法一:Hash成內存大小的小塊文件,然后分塊內存內查交集。
    解法二:Bloom Filter(廣泛應用于URL過濾、查重。參考http://en.wikipedia.org/wiki/Bloom_filter、http://blog.csdn.net/jiaomeng/archive/2007/01/28/1496329.aspx)


    2. 有10個文件,每個文件1G, 每個文件的每一行都存放的是用戶的query,每個文件的query都可能重復。要你按照query的頻度排序。
    解法一:根據數據稀疏程度算法會有不同,通用方法是用Hash把文件重排,讓相同query一定會在同一個文件,同時進行計數,然后歸并,用最小堆來統計頻度最大的。
    解法二:類似1,但是用的是與簡單Bloom Filter稍有不同的CBF(Counting Bloom Filter)或者更進一步的SBF(Spectral Bloom Filter,參考http://blog.csdn.net/jiaomeng/archive/2007/03/19/1534238.aspx)
    解法三:MapReduce,幾分鐘可以在hadoop集群上搞定。參考http://en.wikipedia.org/wiki/MapReduce


    3. 有一個1G大小的一個文件,里面每一行是一個詞,詞的大小不超過16個字節,內存限制大小是1M。返回頻數最高的100個詞。
    解法一:跟2類似,只是不需要排序,各個文件分別統計前100,然后一起找前100。

    posted on 2013-01-31 13:55 paulwong 閱讀(1147) 評論(0)  編輯  收藏 所屬分類: 分布式HADOOP云計算

    主站蜘蛛池模板: 亚洲AV色吊丝无码| 永久免费不卡在线观看黄网站| 亚洲成A人片在线观看中文 | 亚洲色偷精品一区二区三区| 国产一区二区三区无码免费| 成人性生交大片免费看好| 67194在线午夜亚洲| 亚洲中文字幕无码不卡电影| 台湾一级毛片永久免费| j8又粗又长又硬又爽免费视频| 亚洲黄色中文字幕| 亚洲国产精品专区在线观看| 69av免费视频| av电影在线免费看| 亚洲中文字幕AV每天更新| 亚洲AV无码成人专区片在线观看| 四虎成人免费影院网址| 午夜免费啪视频在线观看| 相泽南亚洲一区二区在线播放| 亚洲天天做日日做天天欢毛片| 免费午夜爽爽爽WWW视频十八禁| 99久久久国产精品免费牛牛四川| 国产成人高清亚洲一区久久| 亚洲成人免费网址| 亚洲欧洲日产国码无码久久99| 日韩激情淫片免费看| 51精品视频免费国产专区| igao激情在线视频免费| 亚洲欧洲专线一区| 亚洲毛片在线免费观看| 国产亚洲婷婷香蕉久久精品| 国产一区二区三区在线免费观看| 国产91色综合久久免费分享| 青青操视频在线免费观看| 欧亚一级毛片免费看| 亚洲av片在线观看| 亚洲愉拍一区二区三区| 亚洲欧洲自拍拍偷综合| 亚洲综合一区二区国产精品| 国产成人亚洲精品狼色在线| 亚洲精品第一国产综合精品99 |