摘要: Hadoop在做Join時(shí), Bloom Filter可以在Mapper階段就幫助過(guò)濾掉大部分無(wú)用數(shù)據(jù), 同時(shí)也不需要把大量的List數(shù)據(jù)復(fù)制到每個(gè)Mapper節(jié)點(diǎn). 相比下面的幾種方法十分具有優(yōu)勢(shì).
1) 在Reduce階段進(jìn)行Join,這樣運(yùn)算量比較小.(這個(gè)適合被Join的數(shù)據(jù)比較小的情況下.)
2) 壓縮字段,對(duì)數(shù)據(jù)預(yù)處理,過(guò)濾不需要的字段.
閱讀全文