亚洲高清国产拍精品26U,色拍自拍亚洲综合图区,中文亚洲AV片在线观看不卡

免費(fèi)的晚餐--google技術(shù)學(xué)習(xí)（轉(zhuǎn)）

????作者：江南白衣，原文出處：?http://www.tkk7.com/calvin/archive/2007/01/31/96844.html?，轉(zhuǎn)載請保留出處。

??? 如果說Google的搜索引擎是免費(fèi)的早餐，Gmail們是免費(fèi)的午餐的話，

??? http://labs.google.com/papers/ 就是Google給開發(fā)人員們的一份免費(fèi)的晚餐。

??? 不過，咋看著一桌飯菜可能不知道從哪吃起，在自己不熟悉的領(lǐng)域啃英文也不是一件愉快的事情。

一、一份PPT與四份中文翻譯?

??? 幸好，有一位面試google不第的老兄，自我爆發(fā)搞了一份Google Interal的PPT：

??? http://cbcg.net/talks/googleinternals/index.html，大家鼠標(biāo)點(diǎn)點(diǎn)就能跟著他匆匆過一遍google的內(nèi)部架構(gòu)。

???然后又有崮崮山路上走9遍(http://sharp838.mblogger.cn)與美人他爹(http://my.donews.com/eraera/)，翻譯了其中最重要的四份論文：

?《MapRedue:在超大集群上的簡易數(shù)據(jù)處理》--Simplified Data Processing on Large Clusters
《The Google File System》
《海量數(shù)據(jù)分析：Sawzall并行處理》 --Interpreting the Data: Parallel Analysis with Sawzall
《Bigtable:結(jié)構(gòu)化數(shù)據(jù)的分布存儲系統(tǒng)》 --A Distributed Storage System for Structured Data

二、Google帝國的技術(shù)基石

???? Google帝國，便建立在大約45萬臺的Server上，其中大部分都是"cheap x86 boxes"。而這45萬臺Server，則建立于下面的key infrastructure：

???? 1.GFS(Google File System):

???? GFS是適用于大規(guī)模分布式數(shù)據(jù)處理應(yīng)用的分布式文件系統(tǒng)，是Google一切的基礎(chǔ)，它基于普通的硬件設(shè)備，實(shí)現(xiàn)了容錯的設(shè)計(jì)與極高的性能。????

???? 李開復(fù)說：Google最厲害的技術(shù)是它的storage。我認(rèn)為學(xué)計(jì)算機(jī)的學(xué)生都應(yīng)該看看這篇文章（再次感謝翻譯的兄弟)。????
????

???? 它以64M為一個Chunk(Block)，每個Chunk至少存在于三臺機(jī)器上，交互的簡單過程見:
?????
????

???? 2.MapReduce

??? MapReduce是一個分布式處理海量數(shù)據(jù)集的編程模式，讓程序自動分布到一個由普通機(jī)器組成的超大集群上并發(fā)執(zhí)行。像Grep-style job，日志分析等都可以考慮采用它。

????MapReduce的run-time系統(tǒng)會解決輸入數(shù)據(jù)的分布細(xì)節(jié)，跨越機(jī)器集群的程序執(zhí)行調(diào)度，處理機(jī)器的失效，并且管理機(jī)器之間的通訊請求。這樣的模式允許程序員可以不需要有什么并發(fā)處理或者分布式系統(tǒng)的經(jīng)驗(yàn)，就可以處理超大的分布式系統(tǒng)得資源。

???? 我自己接觸MapReduce是Lucene->Nutch->Hadoop的路線。
???? Hadoop是Lucene之父Doug Cutting的又一力作，是Java版本的分布式文件系統(tǒng)與Map/Reduce實(shí)現(xiàn)。
???? Hadoop的文檔并不詳細(xì)，再看一遍Google這篇中文版的論文，一切清晰很多(又一次感謝翻譯的兄弟)。????

???? 孟巖也有一篇很清晰的博客：Map Reduce - the Free Lunch is not over?

???? 3.BigTable

???? BigTable 是Google Style的數(shù)據(jù)庫，使用結(jié)構(gòu)化的文件來存儲數(shù)據(jù)。
???? 雖然不支持關(guān)系型數(shù)據(jù)查詢，但卻是建立GFS/MapReduce基礎(chǔ)上的，分布式存儲大規(guī)模結(jié)構(gòu)化數(shù)據(jù)的方案。

???? BigTable是一個稀疏的，多維的，排序的Map，每個Cell由行關(guān)鍵字，列關(guān)鍵字和時間戳三維定位．Cell的內(nèi)容是一個不解釋的字符串。
???? 比如下表存儲每個網(wǎng)站的內(nèi)容與被其他網(wǎng)站的反向連接的文本。
???? 反向的URL com.cnn.www(www.cnn.com)是行的關(guān)鍵字；contents列存儲網(wǎng)頁內(nèi)容，每個內(nèi)容有一個時間戳；因?yàn)橛袃蓚€反向連接，所以archor列族有兩列:anchor:cnnsi.com和anchhor:my.look.ca，列族的概念，使得表可以橫向擴(kuò)展，archor的列數(shù)并不固定。

???

??? 為了并發(fā)讀寫，熱區(qū)，HA等考慮，BigTable當(dāng)然不會存在逗號分割的文本文件中，，是存儲在一種叫SSTable的數(shù)據(jù)庫結(jié)構(gòu)上，并有BMDiff和Zippy兩種不同側(cè)重點(diǎn)的壓縮算法。

4.Sawzall

??? Sawzall是一種建立在MapReduce基礎(chǔ)上的領(lǐng)域語言，可以被認(rèn)為是分布式的awk。它的程序控制結(jié)構(gòu)(if,while)與C語言無異，但它的領(lǐng)域語言語義使它完成相同功能的代碼與MapReduce的C++代碼相比簡化了10倍不止。

1????proto?"cvsstat.proto"
2????submits:?table?sum[hour:?int]?of?count:?int;
3????log:?ChangelistLog?=?input;
4????hour:?int?=?hourof(log.time)
5????emit?submits[hour]?<-?1;

????
???? 天書嗎?慢慢看吧。

???? 我們這次是統(tǒng)計(jì)在每天24小時里CVS提交的次數(shù)。
???? 首先它的變量定義類似Pascal? (i:int=0; 即定義變量i，類型為int，初始值為0)

???? 1:引入cvsstat.proto協(xié)議描述，作用見后。
???? 2:定義int數(shù)組submits 存放統(tǒng)計(jì)結(jié)果，用hour作下標(biāo)。
???? 3.循環(huán)的將文件輸入轉(zhuǎn)換為ChangelistLog 類型，存儲在log變量里，類型及轉(zhuǎn)換方法在前面的cvsstat.proto描述。
???? 4.取出changlog中的提交時間log.time的hour值。
???? 5.emit聚合，在sumits結(jié)果數(shù)組里，為該hour的提交數(shù)加1，然后自動循環(huán)下一個輸入。

???? 居然讀懂了，其中1、2步是準(zhǔn)備與定義，3、4步是Map，第5步是Reduce。

三.?小結(jié)：

? 本文只是簡單的介紹Google的技術(shù)概貌，大家知道以后除了可作談資外沒有任何作用，我們真正要學(xué)習(xí)的骨血，是論文里如何解決高并發(fā)，高可靠性等的設(shè)計(jì)思路和細(xì)節(jié).....

posted on 2007-02-02 09:00 sinoly 閱讀(406) 評論(0) 編輯收藏所屬分類: java技術(shù)

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關(guān)文章: 免費(fèi)的晚餐--google技術(shù)學(xué)習(xí)（轉(zhuǎn)） JAVA性能優(yōu)化－通用篇（轉(zhuǎn)） Java中實(shí)現(xiàn)圖片裁剪(轉(zhuǎn)) Java RMI Tutorial（收錄）

sinoly

留言簿(28)

我參與的團(tuán)隊(duì)

隨筆分類(31)

隨筆檔案(29)

文章分類(5)

相冊

技術(shù)BLOG

朋友的BLOG

搜索

最新評論

閱讀排行榜

評論排行榜