Hadoop是Apache的一個項目(http://hadoop.apache.org/),它是一個實現了MapReduce計算模型的可以運用于大型集群并行計算的分布式并行計算編程框架。
目前,整個Hadoop家族由以下幾個子項目組成:
Hadoop Common
Hadoop體系最底層的一個模塊,為Hadoop各子項目提供各種工具,如:配置文件和日志操作等。
Avro
Avro是doug cutting主持的RPC項目,有點類似Google的protobuf和Facebook的thrift。avro用來做以后hadoop的RPC,使hadoop的RPC模塊通信速度更快、數據結構更緊湊。
Chukwa
Chukwa是基于Hadoop的大集群監控系統,由yahoo貢獻。
HBase
基于Hadoop Distributed File System,是一個開源的,基于列存儲模型的分布式數據庫。
HDFS
分布式文件系統
Hive
hive類似CloudBase,也是基于hadoop分布式計算平臺上的提供data warehouse的sql功能的一套軟件。使得存儲在hadoop里面的海量數據的匯總,即席查詢簡單化。hive提供了一套QL的查詢語言,以sql為基礎,使用起來很方便。
MapReduce
實現了MapReduce編程框架
Pig
Pig是SQL-like語言,是在MapReduce上構建的一種高級查詢語言,把一些運算編譯進MapReduce模型的Map和Reduce中,并且用戶可以定義自己的功能。Yahoo網格運算部門開發的又一個克隆Google的項目Sawzall。
ZooKeeper
Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩定的系統提供給用戶。