亚洲色大网站WWW永久网站,国产精品亚洲专一区二区三区,亚洲网红精品大秀在线观看

http://www.rigongyizu.com/mapreduce-job-one-map-process-one-file/

有一批數據用hadoop mapreduce job處理時，業務特點要求一個文件對應一個map來處理，如果兩個或多個map處理了同一個文件，可能會有問題。開始想通過設置 dfs.blocksize 或者 mapreduce.input.fileinputformat.split.minsize/maxsize 參數來控制map的個數，后來想到其實不用這么復雜，在自定義的InputFormat里面直接讓文件不要進行split就可以了。

public class CustemDocInputFormat extends TextInputFormat {

@Override

public RecordReader<LongWritable, Text> createRecordReader(InputSplit split, TaskAttemptContext context) {

DocRecordReader reader = null;

try {

reader = new DocRecordReader(); // 自定義的reader

} catch (IOException e) {

e.printStackTrace();

}

return reader;

}

@Override

protected boolean isSplitable(JobContext context, Path file) {

return false;

}

這樣，輸入文件有多少個，job就會啟動多少個map了。

2014年8月19日 Hadoop : 一個目錄下的數據只由一個map處理
2014年6月27日一個Hadoop程序的優化過程 – 根據文件實際大小實現CombineFileInputFormat
2013年9月23日 hadoop用MultipleInputs/MultiInputFormat實現一個mapreduce job中讀取不同格式的文件
2012年1月9日 hadoop mapreduce和hive中使用SequeceFile+lzo格式數據
2014年3月11日 hadoop集群DataNode起不來：“DiskChecker$DiskErrorException: Invalid volume failure config value: 1”

posted on 2014-09-16 09:28 SIMONE 閱讀(526) 評論(0) 編輯收藏所屬分類: hadoop

常用鏈接

留言簿(46)

隨筆分類(476)

隨筆檔案(495)

最新隨筆

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜

相關文章


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Storm集成Kafka編程模型 Hadoop作業調優參數整理及原理 mapreduce job讓一個文件只由一個map來處理 hadoop用MultipleInputs/MultiInputFormat實現一個mapreduce job中讀取不同格式的文件一個Hadoop程序的優化過程 – 根據文件實際大小實現CombineFileInputFormat