<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    paulwong

    一網打盡13款開源Java大數據工具

    下面將介紹大數據領域支持Java的主流開源工具

    1. HDFS

    HDFS是Hadoop應用程序中主要的分布式儲存系統, HDFS集群包含了一個NameNode(主節點),這個節點負責管理所有文件系統的元數據及存儲了真實數據的DataNode(數據節點,可以有很多)。HDFS針對海量數據所設計,所以相比傳統文件系統在大批量小文件上的優化,HDFS優化的則是對小批量大型文件的訪問和存儲。

    2. MapReduce

    Hadoop MapReduce是一個軟件框架,用以輕松編寫處理海量(TB級)數據的并行應用程序,以可靠和容錯的方式連接大型集群中上萬個節點(商用硬件)。

    3. HBase

    Apache HBase是Hadoop數據庫,一個分布式、可擴展的大數據存儲。它提供了大數據集上隨機和實時的讀/寫訪問,并針對了商用服務器集群上的大型表格做出優化——上百億行,上千萬列。其核心是Google Bigtable論文的開源實現,分布式列式存儲。就像Bigtable利用GFS(Google File System)提供的分布式數據存儲一樣,它是Apache Hadoop在HDFS基礎上提供的一個類Bigatable。

    4. Cassandra

    Apache Cassandra是一個高性能、可線性擴展、高有效性數據庫,可以運行在商用硬件或云基礎設施上打造完美的任務關鍵性數據平臺。在橫跨數據中心的復制中,Cassandra同類最佳,為用戶提供更低的延時以及更可靠的災難備份。通過log-structured update、反規范化和物化視圖的強支持以及強大的內置緩存,Cassandra的數據模型提供了方便的二級索引(column indexe)。

    5. Hive

    Apache Hive是Hadoop的一個數據倉庫系統,促進了數據的綜述(將結構化的數據文件映射為一張數據庫表)、即席查詢以及存儲在Hadoop兼容系統中的大型數據集分析。Hive提供完整的SQL查詢功能——HiveQL語言,同時當使用這個語言表達一個邏輯變得低效和繁瑣時,HiveQL還允許傳統的Map/Reduce程序員使用自己定制的Mapper和Reducer。

    6. Pig

    Apache Pig是一個用于大型數據集分析的平臺,它包含了一個用于數據分析應用的高級語言以及評估這些應用的基礎設施。Pig應用的閃光特性在于它們的結構經得起大量的并行,也就是說讓它們支撐起非常大的數據集。Pig的基礎設施層包含了產生Map-Reduce任務的編譯器。Pig的語言層當前包含了一個原生語言——Pig Latin,開發的初衷是易于編程和保證可擴展性。

    7. Chukwa

    Apache Chukwa是個開源的數據收集系統,用以監視大型分布系統。建立于HDFS和Map/Reduce框架之上,繼承了Hadoop的可擴展性和穩定性。Chukwa同樣包含了一個靈活和強大的工具包,用以顯示、監視和分析結果,以保證數據的使用達到最佳效果。

    8. Ambari

    Apache Ambari是一個基于web的工具,用于配置、管理和監視Apache Hadoop集群,支持Hadoop HDFS,、Hadoop MapReduce、Hive、HCatalog,、HBase、ZooKeeper、Oozie、Pig和Sqoop。Ambari同樣還提供了集群狀況儀表盤,比如heatmaps和查看MapReduce、Pig、Hive應用程序的能力,以友好的用戶界面對它們的性能特性進行診斷。

    9. ZooKeeper

    Apache ZooKeeper是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、命名服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。

    10. Sqoop

    Sqoop是一個用來將Hadoop和關系型數據庫中的數據相互轉移的工具,可以將一個關系型數據庫中數據導入Hadoop的HDFS中,也可以將HDFS中數據導入關系型數據庫中。

    11. Oozie

    Apache Oozie是一個可擴展、可靠及可擴充的工作流調度系統,用以管理Hadoop作業。Oozie Workflow作業是活動的Directed Acyclical Graphs(DAGs)。Oozie Coordinator作業是由周期性的Oozie Workflow作業觸發,周期一般決定于時間(頻率)和數據可用性。Oozie與余下的Hadoop堆棧結合使用,開箱即用的支持多種類型Hadoop作業(比如:Java map-reduce、Streaming map-reduce、Pig、 Hive、Sqoop和Distcp)以及其它系統作業(比如Java程序和Shell腳本)。

    12. Mahout

    Apache Mahout是個可擴展的機器學習和數據挖掘庫,當前Mahout支持主要的4個用例:

    • 推薦挖掘:搜集用戶動作并以此給用戶推薦可能喜歡的事物。
    • 聚集:收集文件并進行相關文件分組。
    • 分類:從現有的分類文檔中學習,尋找文檔中的相似特征,并為無標簽的文檔進行正確的歸類。
    • 頻繁項集挖掘:將一組項分組,并識別哪些個別項會經常一起出現。

    13. HCatalog

    Apache HCatalog是Hadoop建立數據的映射表和存儲管理服務,它包括:

    • 提供一個共享模式和數據類型機制。
    • 提供一個抽象表,這樣用戶就不需要關注數據存儲的方式和地址。
    • 為類似Pig、MapReduce及Hive這些數據處理工具提供互操作性。

    posted on 2013-05-03 09:05 paulwong 閱讀(502) 評論(0)  編輯  收藏 所屬分類: 分布式 、HADOOP云計算 、HBASE

    主站蜘蛛池模板: 久久久久亚洲精品天堂久久久久久 | kk4kk免费视频毛片| 亚洲理论片在线观看| 亚洲综合亚洲综合网成人| 成人性生活免费视频| 四虎影视成人永久免费观看视频 | 中文字幕人成无码免费视频| 国内永久免费crm系统z在线| 美女黄网站人色视频免费| 亚洲乱码在线视频| 亚洲电影免费在线观看| 亚洲午夜久久久久久久久久| 免费在线观看你懂的| 无码视频免费一区二三区| 18禁无遮挡无码国产免费网站| A片在线免费观看| 精品一区二区三区高清免费观看| 春暖花开亚洲性无区一区二区| 中文字幕亚洲精品无码| 亚洲剧场午夜在线观看| 亚洲黑人嫩小videos| 亚洲色图国产精品| 久久久久亚洲Av片无码v| 亚洲热线99精品视频| 亚洲中文字幕无码一久久区| 久久久久噜噜噜亚洲熟女综合| 国产免费久久精品| 国产小视频免费观看| 成年在线观看免费人视频草莓| 国产乱码免费卡1卡二卡3卡| 最近免费中文字幕高清大全| 久久青草免费91线频观看站街| 国产麻豆一精品一AV一免费| 中文字幕无码免费久久| 国产无限免费观看黄网站| 国产精品免费久久久久影院| 一区二区三区免费视频网站| xxxxx做受大片视频免费| 成在线人视频免费视频 | 亚洲AV无一区二区三区久久| 亚洲AV成人片色在线观看|