Posted on 2011-11-21 09:04
俞靈 閱讀(499)
評論(0) 編輯 收藏
在互聯網這個領域一直有這樣的說法:“如果老二無法戰勝老大,那么就把老大賴以生存的東西開源吧”。當年Yahoo!與Google還是處在 強烈競爭關系時候,招聘了Doug(Hadoop創始人),把Google老大賴以生存的DFS與Map-Reduce開源了,開始了Hadoop的童年 時期。差不多在2008年的時候,Hadoop才算逐漸成熟。
從初創到現在,Hadoop經過了至少7年的積累,現在的Hadoop不僅是當年的老二Yahoo的專用產品了,從Hadoop長長的用戶名單中, 可以看到Facebook、Linkedin、Amazon,可以看到EMC、eBay、Twitter、IBM、Microsoft,、Apple、 HP…國內的公司有淘寶、百度等等。

本文將對Hadoop七年(2004-2011)的發展歷程進 行梳理。讀完本文后,將不難看出,Hadoop的發展基本上經歷了這樣一個過程:從一個開源的Apache基金會項目,隨著越來越多的用戶的加入,不斷地 使用、貢獻和完善,形成一個強大的生態系統,從2009年開始,隨著云計算和大數據的發展,Hadoop作為海量數據分析的最佳解決方案,開始受到許多 IT廠商的關注,從而出現了許多Hadoop的商業版以及支持Hadoop的產品,包括軟件和硬件。
- 2004年,Google發表論文,向全世界介紹了MapReduce。
- 2005年初,為了支持Nutch搜索引擎項目,Nutch的開發者基于Google發布的MapReduce報告,在Nutch上開發了一個可工作的MapReduce應用。
- 2005年年中,所有主要的Nutch算法被移植到使用MapReduce和NDFS(Nutch Distributed File System )來運行。
- 2006年1月,Doug Cutting加入雅虎,Yahoo!提供一個專門的團隊和資源將Hadoop發展成一個可在網絡上運行的系統。
- 2006年2月,Apache Hadoop項目正式啟動以支持MapReduce和HDFS的獨立發展。
- 2007年,百度開始使用Hadoop做離線處理,目前差不多80%的Hadoop集群用作日志處理。
- 2007年,中國移動開始在“大云”研究中使用Hadoop技術,規模超過1000臺。
- 2008年,淘寶開始投入研究基于Hadoop的系統——云梯,并將其用于處理電子商務相關數據。云梯1的總容量大概為9.3PB,包含了1100臺機器,每天處理約18000道作業,掃描500TB數據。
- 2008年1月,Hadoop成為Apache頂級項目。
- 2008年2月,Yahoo!宣布其搜索引擎產品部署在一個擁有1萬個內核的Hadoop集群上。
- 2008年7月,Hadoop打破1TB數據排序基準測試記錄。Yahoo!的一個Hadoop集群用209秒完成1TB數據的排序 ,比上一年的紀錄保持者保持的297秒快了將近90秒。
- 2009 年 3 月,Cloudera推出CDH(Cloudera’s Distribution including Apache Hadoop)平臺,完全由開放源碼軟件組成,目前已經進入第3版。
- 2009年5月,Yahoo的團隊使用Hadoop對1 TB的數據進行排序只花了62秒時間。
- 2009年7月 ,Hadoop Core項目更名為Hadoop Common;
- 2009年7月 ,MapReduce 和 Hadoop Distributed File System (HDFS) 成為Hadoop項目的獨立子項目。
- 2009年7月 ,Avro 和 Chukwa 成為Hadoop新的子項目。
- 2010年5月 ,Avro脫離Hadoop項目,成為Apache頂級項目。
- 2010年5月 ,HBase脫離Hadoop項目,成為Apache頂級項目。
- 2010年5月,IBM提供了基于Hadoop 的大數據分析軟件——InfoSphere BigInsights,包括基礎版和企業版。
- 2010年9月,Hive( Facebook) 脫離Hadoop,成為Apache頂級項目。
- 2010年9月,Pig脫離Hadoop,成為Apache頂級項目。
- 2011年1月,ZooKeeper 脫離Hadoop,成為Apache頂級項目。
- 2011年3月,Apache Hadoop獲得Media Guardian Innovation Awards 。
- 2011年3月, Platform Computing 宣布在它的Symphony軟件中支持Hadoop MapReduce API。
- 2011年5月,Mapr Technologies公司推出分布式文件系統和MapReduce引擎——MapR Distribution for Apache Hadoop。
- 2011年5月,HCatalog 1.0發布。該項目由Hortonworks 在2010年3月份提出,HCatalog主要用于解決數據存儲、元數據的問題,主要解決HDFS的瓶頸,它提供了一個地方來存儲數據的狀態信息,這使得 數據清理和歸檔工具可以很容易的進行處理。
- 2011年4月,SGI( Silicon Graphics International )基于SGI Rackable和CloudRack服務器產品線提供Hadoop優化的解決方案。
- 2011年5月,EMC為客戶推出一種新的基于開源Hadoop解決方案的數據中心設備——GreenPlum HD,以助其滿足客戶日益增長的數據分析需求并加快利用開源數據分析軟件。Greenplum是EMC在2010年7月收購的一家開源數據倉庫公司。
- 2011年5月,在收購了Engenio之后, NetApp推出與Hadoop應用結合的產品E5400存儲系統。
- 2011年6月,Calxeda公司(之前公司的名字是Smooth-Stone)發起了“開拓者行動”,一個由10家軟件公司組成的團隊將為基于Calxeda即將推出的ARM系統上芯片設計的服務器提供支持。并為Hadoop提供低功耗服務器技術。
- 2011年6月,數據集成供應商Informatica發布了其旗艦產品,產品設計初衷是處理當今事務和社會媒體所產生的海量數據,同時支持Hadoop。
- 2011年7月,Yahoo!和硅谷風險投資公司 Benchmark Capital創建了Hortonworks 公司,旨在讓Hadoop更加魯棒(可靠),并讓企業用戶更容易安裝、管理和使用Hadoop。
- 2011年8月,Cloudera公布了一項有益于合作伙伴生態系統的計劃——創建一個生態系統,以便硬件供應商、軟件供應商以及系統集成商可以一起探索如何使用Hadoop更好的洞察數據。
- 2011年8月,Dell與Cloudera聯合推出Hadoop解決方案——Cloudera Enterprise。Cloudera Enterprise基于Dell PowerEdge C2100機架服務器以及Dell PowerConnect 6248以太網交換機 。

在梳理的過程中,筆者發現了上圖,它很好地展現了Hadoop生態系統是如何在使用中一步一步成長起來的。