Posted on 2012-03-28 10:32
一酌散千憂 閱讀(1725)
評論(0) 編輯 收藏 所屬分類:
Hadoop
Hadoop: The Definitive Guide(Hadoop權(quán)威指南),第十六頁中提到了測試數(shù)據(jù)來源來自于National Climatic Data Center (NCDC, http://www.ncdc.noaa.gov/)。在下面使用Unix Tool編寫腳本時使用到的文件格式如下:
For example, here are the first entries for 1990:
% ls raw/1990 | head
010010-99999-1990.gz
010014-99999-1990.gz
010015-99999-1990.gz
010016-99999-1990.gz
010017-99999-1990.gz
010030-99999-1990.gz
010040-99999-1990.gz
010080-99999-1990.gz
010100-99999-1990.gz
010150-99999-1990.gz
對于數(shù)據(jù)的來源很困惑,不知道如何下載。google之后在http://lucene.472066.n3.nabble.com/The-NCDC-Weather-Data-for-Hadoop-the-Definitive-Guide-td3736774.html 這篇帖子中發(fā)現(xiàn)方法。現(xiàn)在記錄一下
連接http://www.ncdc.noaa.gov/

注意到左邊的Free Data。
點擊后轉(zhuǎn)到的頁面向下拉,在Free Data B中友一個完全免費的FTP(紅框所示)

提供ftp地址為:ftp://ftp3.ncdc.noaa.gov/pub/data/noaa/
我使用了FileZilla(http://dl.pconline.com.cn/html_2/1/89/id=5826&pn=0.html)進(jìn)行下載

共1w多個文件,可能是不需要完全下載的。
(完)