<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    paulwong

    大規(guī)模數(shù)據(jù)查重的多種方法,及Bloom Filter的應(yīng)用

    挺有意思的題目。


    1. 給你A,B兩個(gè)文件,各存放50億條URL,每條URL占用64字節(jié),內(nèi)存限制是4G,讓你找出:A,B文件共同的URL。
    解法一:Hash成內(nèi)存大小的小塊文件,然后分塊內(nèi)存內(nèi)查交集。
    解法二:Bloom Filter(廣泛應(yīng)用于URL過濾、查重。參考http://en.wikipedia.org/wiki/Bloom_filter、http://blog.csdn.net/jiaomeng/archive/2007/01/28/1496329.aspx)


    2. 有10個(gè)文件,每個(gè)文件1G, 每個(gè)文件的每一行都存放的是用戶的query,每個(gè)文件的query都可能重復(fù)。要你按照query的頻度排序。
    解法一:根據(jù)數(shù)據(jù)稀疏程度算法會(huì)有不同,通用方法是用Hash把文件重排,讓相同query一定會(huì)在同一個(gè)文件,同時(shí)進(jìn)行計(jì)數(shù),然后歸并,用最小堆來統(tǒng)計(jì)頻度最大的。
    解法二:類似1,但是用的是與簡單Bloom Filter稍有不同的CBF(Counting Bloom Filter)或者更進(jìn)一步的SBF(Spectral Bloom Filter,參考http://blog.csdn.net/jiaomeng/archive/2007/03/19/1534238.aspx)
    解法三:MapReduce,幾分鐘可以在hadoop集群上搞定。參考http://en.wikipedia.org/wiki/MapReduce


    3. 有一個(gè)1G大小的一個(gè)文件,里面每一行是一個(gè)詞,詞的大小不超過16個(gè)字節(jié),內(nèi)存限制大小是1M。返回頻數(shù)最高的100個(gè)詞。
    解法一:跟2類似,只是不需要排序,各個(gè)文件分別統(tǒng)計(jì)前100,然后一起找前100。

    posted on 2013-01-31 13:55 paulwong 閱讀(1148) 評論(0)  編輯  收藏 所屬分類: 分布式 、HADOOP云計(jì)算

    主站蜘蛛池模板: 国产亚洲精品第一综合| 国产精品亚洲片夜色在线| 久久久久久亚洲av成人无码国产| 亚洲国产精彩中文乱码AV| 91亚洲一区二区在线观看不卡| 亚洲综合激情九月婷婷 | 免费看AV毛片一区二区三区| 青草草在线视频永久免费| 免费看一级做a爰片久久| 在线a亚洲v天堂网2019无码| 久久亚洲AV无码精品色午夜 | 亚洲图片在线观看| 亚洲AV日韩综合一区尤物| 特级毛片免费观看视频| 高清一区二区三区免费视频| 久久笫一福利免费导航| 亚洲成A人片在线观看无码3D| 本免费AV无码专区一区| 18禁止看的免费污网站| 国产无遮挡吃胸膜奶免费看视频 | 国产成人精品久久亚洲高清不卡 | 国产一级婬片A视频免费观看| 69精品免费视频| 国产一级理论免费版| 亚洲av日韩综合一区在线观看| 亚洲18在线天美| aa午夜免费剧场| **俄罗斯毛片免费| 亚洲av无码专区在线观看素人| 亚洲午夜视频在线观看| 国产成人不卡亚洲精品91| 午夜精品射精入后重之免费观看| 日韩免费观看视频| 图图资源网亚洲综合网站| 蜜芽亚洲av无码一区二区三区| 久久国产免费一区| 亚洲Av无码乱码在线播放| 亚洲日韩在线视频| 中文在线观看永久免费| 免费无码不卡视频在线观看| 亚洲av日韩av高潮潮喷无码|