<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    敏捷、分布式、ALM過程自動化、企業應用架構
    posts - 14, comments - 0, trackbacks - 0, articles - 1
      BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理

    2012年8月8日

    Hadoop實施已經有快一個月了,對Hadoop的概念理解、使用,Linux與shell腳本,甚至mysql都有了更多的理解。


    項目背景:用于互聯網信息收集后的關鍵詞匹配與內容提取。

    主要系統架構分為互聯網爬蟲、分析、業務應用三塊:

    簡單架構描述

    由于我在當中的角色主要負責分析架構的搭建,所以其他兩塊都畫得簡單,下面也不會過多的描述。


    Hadoop理解:提到Hadoop都想到的是云、分布式計算,在一段時間的實施之后有了一些具體的理解。

    Hadoop的優勢:

    針對性能指標,當業務數據量總量或增速上升到一定級別,依靠關系型數據庫一定無法支持。對于非關系型數據庫,包括Nosql和Solr一類存儲方式,稍顯復雜,對于機器集群性能要求偏高(相對于文件系統)。從數據使用模式上來講,目前海量數據的常常是不包含復雜邏輯的簡單統計整理(比如上述系統中的關鍵詞匹配)。這時候文件系統的優勢反而比較明顯(結構簡單,邏輯簡單)。

    如上述系統的應用場景是怎么樣的呢,在一個強大的爬蟲系統之下,每個小時的數據增量在G到10G的級別,需要搜索所有的文件,獲取關鍵字的匹配,并且對匹配內容進行摘要。很類似我們windows里面的搜索功能,需要解決的就是如何在這樣增幅的文件系統之下,如何滿足業務系統的需求。

    分析系統有什么要求呢?

    能夠建立集群,分布式的保存數據文件內容(統一控制,可配置)。

    有一定的保護機制,保證數據或節點丟失不會影響系統使用。

    如果有一個任務腳本執行框架機制就好了(用于并行計算)。

    能夠進行節點間的數據均衡。

    能夠簡單的查看所有的狀態與日志(web客戶端)

    可能主要是這些了。若自己實現,確實是個復雜而龐大的工程,現在我們有了Hadoop。


    系統物理架構:

    我們使用了一臺服務器,利用虛擬化,安裝了7套64x位的CentOS。一個Namenode,6個Datanode,復制數設置為3。每個系統分配到一個cpu,2G內存,Datanode掛載了500G的存儲空間。

    理想的Hadoop的搭建環境,參照《Best Practices for Selecting Apache Hadoop Hardware》(http://hortonworks.com/blog/best-practices-for-selecting-apache-hadoop-hardware/)一文,以及一些其他的文章。

    CPU:最好是雙CPU,8核左右。不用太高了。

    內存:推薦48G,但是4G應該就可以運行Hadoop了。

    硬盤:7200轉的SATA硬盤即可,Hadoop很占空間,所以盡量加。

    網絡:內部的數據交換要求非常高,內網最好是千兆網卡,帶寬為1GB。

    理想與現實,有錢與沒錢,呵呵。


    系統軟件架構:

    Hadoop:版本使用的是1.0.3,再下來就是2了,為了盡量簡化應用,所以不考慮2的新特性。對Hadoop沒有做太多的設置,基本基于默認。70為Namenode,71-76為Datanode。

    JDK:1.6.0_33 (64x)


    系統實施過程:

    HDFS部分:

    爬蟲抓取數據,整理后存放在50文件服務器,70以外部掛載的形式讀取。網頁文件比較小,假如直接寫入Hadoop對Namenode負載過大,所以入庫前合并,將每小時網頁整合成為一個文件寫入HDFS,由于區分類別,所以每小時基本寫入10個文件左右,總量在5-8G,耗時在40-50分鐘。(這個過程中,由于爬蟲的IO過于頻繁,導致文件讀取困難,所以做了定時任務,每小時啟動一次,將需要處理的文件先拷貝到臨時區域,合并入庫之后再刪除。此處應該是受到單核cpu的限制,所有操作均是串行,包括拷貝(cp)和合并入庫(java),所以Namenode嚴重建議配置稍高。)

    此處沒有太多問題。

    MapReduce部分:

    寫入完成后,進行分析工作,MapReduce。此處的工作過程為:數據庫定時生成關鍵詞列表文件。Job執行時會讀取列表文件,匹配指定范圍內的HDFS文件(過去一小時),匹配出對應的表達式與HTML,Map過程結束。在Reduce階段,會將Map的所有數據入數據庫(Mysql)。

    此處出現過一些問題,記錄下來。

    1. Reduce階段需要加載Mysql的第三方驅動包。我在三個環境測試過(公司、家里、發布環境),使用 -libjars 一定可以,有的地方不需要也可以。不明確,懷疑與HADOOP_HOME環境變量有關。

    2. MR過程中使用log4j打印日志,在Hadoop臨時目錄(如果你沒有配置dfs.name.dir,dfs.data.dir,mapred.local.dir.mapred.system.dir等目錄,這些都會在hadoop.tmp.dir當中,我就偷懶都沒配置)mapred文件夾中查看一下。

    整個過程實際上還是比較簡單的,基本編碼量就在Job的部分,但是一個Java文件就夠了。在目前初級階段應該還是比較好用的。現在還沒有測試Job的執行效率。完成后會繼續記錄下來。有什么問題可以提出。我想到什么也會在本文繼續更新。

    posted @ 2012-08-08 20:21 一酌散千憂 閱讀(585) | 評論 (0)編輯 收藏

    主站蜘蛛池模板: 亚洲精品国产福利一二区| 日韩免费观看一区| 亚洲精品乱码久久久久久蜜桃不卡| 99在线免费观看| 免费观看日本污污ww网站一区| 成人无码精品1区2区3区免费看| 亚洲高清偷拍一区二区三区| 中文字幕无码一区二区免费| 亚洲精品一二三区| 黄页网站免费在线观看| 美女黄频视频大全免费的| 亚洲av无码一区二区三区不卡| 中文字幕久精品免费视频| 中文字幕亚洲综合久久综合| 亚洲一区无码精品色| 99热在线精品免费全部my| 美女被免费网站91色| 亚洲精品无码成人片久久不卡 | 国产亚洲国产bv网站在线| 亚洲国产精品专区在线观看 | 免费又黄又爽又猛的毛片 | 免费在线观看理论片| 中文字幕免费在线| a级毛片免费观看在线| 亚洲成A人片在线观看WWW| 夭天干天天做天天免费看| 国产色爽免费无码视频| 日韩成人精品日本亚洲| 国产亚洲精品线观看动态图| 国产精品免费无遮挡无码永久视频 | 抽搐一进一出gif免费视频| 亚洲老熟女五十路老熟女bbw| 久久精品国产亚洲AV嫖农村妇女 | 成人a视频片在线观看免费| 久久久久久一品道精品免费看| 亚洲最大在线视频| 国产A在亚洲线播放| 成人伊人亚洲人综合网站222| 最新亚洲成av人免费看| 污视频网站在线观看免费| 国内精品久久久久影院亚洲|