Posted on 2010-01-21 13:20
啥都寫點 閱讀(225)
評論(0) 編輯 收藏 所屬分類:
others
在將近六年等待之后,Google的一個專利申請近日終于獲得批準。這個編號為7 650 331,名為 System and method for efficient large-scale data processing(高效大規模數據處理)的專利可是非同小可。它所指的是Google最引為自豪的成果之一,也是云計算最重要的核心技術之一:MapReduce。專利的摘要是這一重要技術不錯的定義,我們不妨來學習一下:
A large-scale data processing system and method includes one or more application-independent map modules configured to read input data and to apply at least one application-specific map operation to the input data to produce intermediate data values, wherein the map operation is automatically parallelized across multiple processors in the parallel processing environment. A plurality of intermediate data structures are used to store the intermediate data values. One or more application-independent reduce modules are configured to retrieve the intermediate data values and to apply at least one application-specific reduce operation to the intermediate data values to provide output data.
【譯文】一種大規模數據處理系統和方法。其中包括一個或者多個獨立于應用的Map模塊和一個或者多個獨立于應用的Reduce模塊。Map模塊是這樣配置的,它們讀取輸入數據,并對此數據進行至少一個特定于應用的Map操作,以生成中間數據值,其中Map操作將在并行處理環境中的多個處理器實現自動并行化。存儲這些中間數據值將使用許多中間數據結構。而Reduce模塊是這樣配置的,它們獲取這些中間數據值,并對此數據應用至少一個特定于應用的Reduce操作,以提供輸出數據。
眾所周知,MapReduce廣泛用于各種數據挖掘應用中,除了Google自己,還有Yahoo的搜索基礎設施,Amazon的Elastic MapReduce服務,IBM的M2平臺,等等。當然,最重要的實現應該是開源項目Apache Hadoop。事實上,Hadoop已經成為Yahoo整個Web基礎設施的核心,用戶還包括Facebook、Last.fm、Joost、Meebo、Ning等2.0新貴和《紐約時報》網站、Rackspace等云計算公司。
那么,問題出來了:首先,Google是否應該獲得這項技術的專利呢?
的確,回顧歷史,Map和Reduce函數是Lisp和其他函數式語言非常常見的特性。而Lisp語言誕生于上世紀50年代。事實上MapReduce的發明者也不諱言這一點。在2004年操作系統設計與實現學術會議上發表的開創性論文《MapReduce: Simplified Data Processing on Large Clusters》(MapReduce:大型群集上的數據處理簡化)中,除了Lisp語言之外,Jeffrey Dean和Sanjay Ghemawat還提到了Bulk Synchronous Programming、MPI、Active Disk、Condor系統、NOW-Sort算法、River系統、BAD-FS、TACC等等。但是,任何創新都不是從無到有的,這些相關工作總體上只是相關而已,將MapReduce思想應用于大型群集上的數據處理,并形成完整的框架,有大量成功的應用,的確是Google的獨門武功。
其次,這樣一個應用廣泛的技術成為專利,影響如何呢?
必須承認,在專利糾紛滿天飛的今天,使用其他人的專利,總是存在訴訟風險。對此,Google的發言人用了法律味道很重的措辭回復:
與其他負責任的創新公司一樣,Google會對自己開發的各種技術申請專利。雖然我們不會對這項專利以及我們其他的專利技術的使用進行評論,但是我們感到迄今為止Google的表現與公司的價值觀和優先級是相符的。
聽其言,觀其行,我們也許有理由對Google放心。畢竟,在可見的未來,它不會指望靠這種專利掙錢。此外,Google對Hadoop項目一貫支持,將其作為大學推廣項目的重要組成部分,使大學生也能在不涉及Google專有技術的情況下,學習Web規模的編程。
【人物簡介】

Jeffrey Dean Google Fellow。2009年當選美國工程院院士。他是Google公司最具才華的工程師之一。眾多Google的核心產品都有他的重大貢獻,包括設計和實現了Google廣告服務系統的最初版本,Google爬蟲、索引和查詢服務系統的五個版本,Adsense最初版本,Protocol Buffers,Google News的服務系統,MapReduce,BigTable,等等。當然,也包括搜索排序算法的許多方面,Google Translate和Google Code Search的部分開發。
1996年獲得華盛頓大學計算機科學博士學位,課題是面向對象語言中的全程序優化技術。1990年畢業于明尼蘇達大學,獲得計算機科學和經濟學學士學位。1999年加入Google之前,曾效力于DEC研究中心。本科畢業后曾經在世界衛生組織艾滋病項目工作,開發了艾滋病傳染的統計建模、預測和分析軟件。
他的一個人生目標是在所有大洲打籃球和橄欖球。

Sanjay Ghemawat Google Fellow。美國工程院院士。MIT博士(1995年),是圖靈獎得主Liskov的學生。他與Jeff Dean合作開發了MapReduce和BigTable,另外還是GFS的主要開發者。1999年加入Google之前,也效力于DEC,從事Java工具(性能測量、虛擬機和編譯器)開發。
【MapReduce資料】
開創性的論文
Google的MapReduce課程,其他相關課程
DeWitt和Stonebraker對MapReduce的批評,更詳細的分析
--
學海無涯