終于有時間讓我們冷靜下來好好談談Google。好在現在是凌晨,我打開了窗戶,這樣很冷,但是可以讓我的腦子更清醒一點,看看這個我們的生活已經離之不得的工具——盡管幾年前我們還沒有——看看它到底有什么可談論的話題。
在我們談論它之前首先我要感謝它,愚人節那天Google將我的郵箱升級到了2G,感謝它給我的這個節日禮物,盡管我半年內只用了5M。
1。Google以前做什么在Google出現之前人們只有一種搜索引擎,那就是分類引擎,這個想法來源于Yahoo,或者可以說來源于圖書館。后來人們在想如果網頁不是由“人類” 添加上去的,而是“機器”自己找到的那該有多好,實現這個理想就意味要用大量的Spider搜尋整個互聯網。
“嘿,等等,機器怎么知道雞肉的味道?我是說它們很可能搞錯了,這有可能是三文魚的味道!”就像<<黑客帝國>>所擔心的一樣,Spider怎么才能知道我們需要什么能?于是有了動態的給每個網頁評分的辦法,這個辦法就像小朋友們做游戲,別人對你的評價要遠遠重要于他們對你的拜訪,PageRank就是這么來的,在結合了幾種天才的想法和可行的技術細節之后,人類智慧的結晶,人工智能的當代經典,Google誕生了。
Google用大量的服務器(數以萬計)做著每日的網頁查找,每個線程就是一個Spider,每個Spider的工作就是從一個網頁去另一個網頁,檢查他們是否已更新,是否廢棄,是否存在新創建的頁面,評價他們之間的關系,生成快照,并將數據存入數據庫。Spider需要很好的協調以避免重復的勞動,同時他們需要確定工作范圍的優先級,否則就會“跟不上時代的變化”或者干脆淹死在某些每秒種更新數千次的網頁中。在確定了兩張網頁的關系之后,Google分別更新他們的PageRank得分,這個得分顯然已經不是一個公式能夠說清楚的了,它總是處在動態更新之中,但PageRank的大意就是,別人對你的連接數量越高你就越有價值,Google就越讓你的位置靠前。
Google的出現使互聯網的應用向前大大邁出了一步,大量可用性很強的信息資源立即出現在它的需求者面前。為此,權威的PC Magazine將Google和同一年出現的<<The Sims>>同時稱為人工智能的經典作品。但也正是Google的這種優秀表現使人們開始了先知式的擔憂,著名評論家Dvorak認為 Google的存在改變了以往“小公司大喇叭”的商業格局(借用了Chuck Martin的說法),它再次使互聯網變成庸俗的經過資本市場洗禮的溫順綿羊,人們真正需要的東西可能會被排在后面或者根本找不到(比如我的Blog,

),而商業化的東西往往占據重要的位置(比如MSN的Blog!

),最麻煩的是一旦人們依賴了Google,它就會不自然的扼殺人們對通過其它途徑找尋信息的興趣和勇氣。從個人感情角度來講,我認為這個論調是很有道理的,可這個問題的提出方式已經超出了本文討論的范圍,就像是一個生活態度問題:即使麥當勞再提供100倍的溫馨服務,它也無法擊敗我家樓下買鍋貼的;也不能指望USR公司自己維護NS-5機器人的安全,v這些都只能靠別人。同樣,假如Google真的謀殺了互聯網的本質,那么我相信拯救我們星球的會是一個更體現互聯網本質的Hero,而不是Google自己。
2。Google后來做了什么正如我們所期望的,Google迅速成長為互聯網企業的新興代表,不斷優化的引擎使我們獲得了快速獲取免費信息的途徑,在一片叫好聲中,Google開始向其它網絡產品擴展。比如
Google新聞,就是對Google這個巨大資源庫的一種非結構化應用。現在Google新聞不僅有了搜索能力,還有了自動選擇能力,這是在公開的搶報紙編輯的飯碗。再比如Google圖像搜索,也為我們解決了不少難解決的問題,還有
Google Group,這些服務使Google看起來更像Yahoo,或者MSN這樣的門戶網站,而事實上Google用來實現這些功能的成本比其競爭者要小的多,原因很簡單,他們用的是人,Google用的是Spider!Google就像互聯網領域里的Matrix,隨處可見。
在提供了這些網絡產品的同時,Google還在客戶端與競爭者們一決高下,首先是瀏覽器的工具條
Google Toolbar,起初我覺得很有用,后來覺得沒什么用占地方還損失性能,但是現在看到Firefox和Google結合的這么好,又開始使用了。然后Google推出了用于推廣它自己的極好工具,這就是著名的
Google API,在付出少許費用之后,你就可以在自己的程序里使用Google了(通常是Java),我曾經還一度想做一個Flash版的Google呢。此外還有用于處理“科學難題”的網格計算:
Google Compute,模仿捐獻家用計算能力以分析外星人電波的
SETI@home,后者由Stanford提供。
Froogle也是一個偉大的設想,雖然它還沒有中文版,但我已經領略到了它的能力。它提供一個商品的搜索引擎,讓你可以在需要時瀏覽商品的價目和圖片。這使得Froogle有時看起來很想
ebay,況且Froogle還有它的WAP版,也就是移動版。
Google Local又是一個有價值的作品,它使得Google可以作為旅游指南或者地圖使用。即使是Google的web搜索也有了很多衍生用法,比如瞧天氣啦,找手機歸屬地啦,當計算器用啦,當詞典用啦,反向搜索啦什么的。
3。Google現在做什么在客戶端的競爭中Google并沒有占到什么優勢,MSN反而成了受益者,你想啊,搞軟件設計誰能搞得過“買塊肉SOFT”,Netscape、 Apple、IBM都嘗試過,也不怕Google多嘗試一次。但是Google卻在這種內憂外患的情況下上了市,而且市場反映一片叫好!為了推陳出新,保持股價的攀升,Google采用了上市公司最喜歡華爾街最欣賞股民們最容易被欺騙的手法——虛偽擴張!一方面,Google大量投資研究操作系統、數據庫和應用服務器這些網絡商最賴以生存的技術;另一方面則投入大筆資金擴展業務領域,這種手段的優點是可以轉嫁主營業務的成本和風險,做出更漂亮的財務報表,缺點是片面注重表面上的資源優化,往往錯過改革技術和商業策略的最佳時機。
在Google陷入尋找新的擴展點而不能自拔時,一個新新人類的話題擺在了Google前進的道路上,這群人就是Blogger,他們要玩的就是Blog。說時遲,那時快!只見烏云密布,雷鳴電閃,咔喳一聲晴天霹靂,Google站在
Blogger.com面前,笑里藏刀的說:“天下英雄,唯使君與操爾!”在收購了Blogger之后,Google基本放棄了它建造
blog.google.com的計劃。
2004年愚人節,對于網絡郵箱供應商來說簡直就是一個鬼節,這一天Google推出了它的
Gmail服務BETA版,它采用了非常具有神秘色彩并借助六度分隔和150法則而更具有神秘色彩的邀請發放方式。最令人頭疼的是它提供1G的空間和壓縮郵件(壓縮意味著物理空間1G,而很多郵件供應商公布的空間是壓縮之前的占用空間)。2005年的愚人節,Google更“喪心病狂”(開玩笑

)的將這個數字增加到2G!跟進還是賣出?!這是其它郵箱供應商必須面對的一個抉擇!
GDS(Google Desktop Search)是Google的另一個重磅炸彈,這個是用來對付微軟的。是的,你沒聽錯!當微軟在它下一版Windows(長角)的計劃中露出新版文件搜索引擎的設想時,Google已經把成型的產品送到了客戶面前。但是在試用了幾次之后我有點納悶,為什么這個備受好評的GDS在我的機器上跟Lucene 一樣難用(對不起一次罵了兩位

),它幾乎搜不到什么有價值的文件——難道因為我用的是英文版?抑或是我沒有掌握使用技巧?
4。Google遇到了什么困難多少年來一個問題一直困擾著我,“一個以高科技著稱于世的企業不會不在正面戰場上勝過一個商業成熟的企業呢?”幾乎每個受到工業革命和文藝復興影響的人都會相信這句話。可恰恰是這句話導致了很多企業的失敗。Google并未在正面擊敗Yahoo,相反,在與Yahoo的競爭中Google已經漸漸顯出劣勢的一面,這是由于“機器不能理解雞肉的味道”的緣故嗎?我們不得而知,但是有一點可以肯定,促使巴別塔停止建造的原因也在困擾著Google,簡單的說就是全球化和本地化。在中文搜索引擎市場上,簡體中文的第一是百度,其次是Yahoo,繁體中文的第一是Yahoo,其次是Google,日文版市場排名第一的還是Yahoo,第二名是MSN,俄文搜索引擎的老大也是俄羅斯的本地化引擎。面對這個局面,Google只能說OMG!(Oh!My God!)。下面這段文字摘自<<Google中文的三大軟肋>>:
……據iResearch(艾瑞市場咨詢)研究報告分析,百度僅用4年時間,遠遠領先于Google,百度擁有目前世界上最大的中文信息庫,比Google中文更準確,更全面,快照功能也占優勢……
……雅虎一直很重視本地化,收購3721則是最好的一例。在國內市場上,3721的本地化購物搜索非常好,再上本地化的商業搜索,更具競爭優勢。從某種意義上來說,3721網絡實名的目錄,就是一個典型的中國本地化企業產品的目錄。所以說,擁有3721之后,雅虎如虎添翼,對Google構成了更大威脅……
……在中文語言處理能力上,本地搜索公司的優勢更讓Google難堪。比如,《功夫》公映之前很久,在百度上檢索“功夫”就能直接指向周星馳的電影,可是 Google搜索相同的“功夫”,則大失所望。因為這些時令性的關鍵詞都需要專業團隊去隨時添加,由于Google缺乏專門針對中國市場的開發力量,尤其是對中國互聯網信息檢索存在的問題了解不透,所以,Google對于國內市場需求的反應速度很慢,本地化技術服務力量也跟不上,無法解決國內網民遇到的一些實際問題……
Google的新聞搜索也引來很大的爭議,我們都知道如果一家媒體要摘錄別人的新聞作為自己的新聞,那么他必須付費,可是如果這條新聞是搜索引擎搜出來的怎么辦?如果這條新聞是和它的提供商幾乎同時登出又怎么辦?Google當然不會為他搜出來的每條新聞付費,而且,就像前面說的那樣,Dvorak這樣的同志又要大罵Google了,因為它扼殺了消費者沖浪的樂趣和獲取別人沒能及時獲取的信息的喜悅感,以及Google的意志代替了互聯網的意志等等。
5。Google以后會做什么目前還不知道Google下一步想做什么,但是我們都知道了資本的魔力和技術的信仰在控制著它,這使它成為人類有史以來最有想象力的公司之一。
我們猜想Google不久就會開放它的Gmail供人們隨意申請,但申請時仍需要提供一個唯一的其它郵箱的帳號,(就像非Logitech的老鼠標加錢換新羅技,隨意一款老洗衣機加錢換新榮事達一樣),現在Gmail的策略是每個用戶可以邀請50個新用戶參加,此外每20人次的Google Web Search使用就會放出一個新的邀請。
Picasa也將是Google發展的重頭戲之一。前者是一個圖片文件客戶端,看起來好像很簡單,肯定沒有ACDSee做的好,但是在圖片共享方面 Google可是從來沒有放棄過啊。現在,Picasa又和Gmail結合到了一起,每個Gmail用戶都可以用Picasa將圖片上傳到Gmail,這項功能大大加強了Picasa圖片共享的能力。
此外,人工智能和大型計算技術也是Google發展的重要方向。不久之前Google發布了它的企業搜索服務器,雖然引來一路臭罵,但還是有一些專家認為這是個利好消息,說明Google正在別的盈利點上發覺自己的價值。概念已經有了,天價只是技術之不成熟性使然。這一趨勢不僅可以從Google的產品上看出來,從Google的挖人策略也一樣可見一斑。前不久,Google正式宣布它挖到了Java世界一只下金蛋的鵝——Joshua Bloch,這個人經常在我的夢中出現,要賣一本<<如來神掌>>給我!

對不起,記錯了,是一本<< Effective Java>>。說說J.Bloch的歷史,可能很多人都會感到驚訝不已。他首先創造了曾在危難時期令整個Java世界恢復自信的Collection Framework,并獲得了當年的Jolt大獎;后來為了讓更多的Java程序員從Collection Framework的設計模式中收益(當時設計模式還不是很流行),他又以此為題寫了<<Effective Java>>,并再次獲得了Jolt大獎;為了在Java世界引入元模型的魔力,他繼而提出了JSR175(A Metadata Facility for the JavaTM Programming Language),并成為其首席專家;在Sun最危難的時刻挺身而出接掌Tiger(JDK 5.0)的大旗;在這之后,關于他的唯一新聞就是被Google挖走了。此外,Google還高薪挖走了無數把名字倒過來寫我們都能認識的科學家, CSDN這樣報道:
……接著,Google又把BEA的首席架構師Adam Bosworth攏入自己旗下。Bosworth在軟件行業作為技術主管受到廣泛的尊敬。在為新創企業Crossgain(2001年被BEA收購)工作之前,Bosworth曾在微軟任職數年,并成功地從事于一些項目的開發,如微軟的Access數據庫。
他的跳槽來得太突然了,兩個月以前,他還在供應商的“年度eWorld秀”中擔任重要角色,并他的主題演講中介紹Alchemy項目----一個建立下一代移動瀏覽器的計劃。
Google的招兵買馬計劃一直在有條不紊的進行著,曾在SUN微系統工作的David Stoutamire,現在在Google工作。就在上星期,Neal Gafter,SUN公司的javac主管,也離開SUN轉向Google。
不僅是Java方面,Greg Stein,曾是CollabNet項目經理,管理Subversion 項目并且發布了他們的SourceCast產品,現在在Google的博客軟件組工作;Rob Pike,曾是貝爾實驗室最初Unix團隊成員之一,參與過Plan 9 和Inferno操作系統的開發,如今也投奔Google。
Google一直渴求人才,對于開發者來說,Google也是一個充滿吸引力的地方。他只雇傭最棒的、最聰明的、近乎于天才的那些家伙,在籠絡人才這方面,也只有微軟可與之媲美。最近Java人才不斷涌入Google究竟是巧合,或是Google準備嘗試基于Java做一些事情,我們拭目以待……
如果我沒記錯的話,Google前不久還從微軟挖走了一位足可以稱為WindowsNT之父的人,Google之野心路人皆知。看看下面這則招聘啟事也許你就會更了解這一點了:
Passionate about these topics? You should work at Google.
|
? algorithms ? artificial intelligence ? compiler optimization ? computer architecture ? computer graphics |
|
? data compression ? data mining ? file system design ? genetic algorithms ? information retrieval |
|
? machine learning ? natural language processing ? operating systems ? profiling ? robotics
|
|
? text processing ? user interface design ? web information retrieval ? and more! |
Send your resume and a brief cover letter to great-engineers@google.com. | | |
6。Google應該做什么這一節我們將拋棄所有商業的想法,認認真真的坐下來考慮一下技術問題,當然,這會使得我們對Google的要求過高,我們會把很多未能被實現的我們曾經的夢想都交給未來的Google,就像我們把Sun沒有做到的強加給IBM,把IBM沒有做到的強加給微軟,把微軟沒有做到的強加給Netscape,把Netscapge沒有做到的強加給Yahoo一樣。
首先,Google應該認真考慮考慮語義網的問題了,我個人仍然認為這是互聯網發展的正道。雖然
RDF標準的發展雷聲大雨點小,可是現在RSS已經如火如荼,這還只是語義網技術的一小部分,(就像WAP沒什么用,但短信卻發展起來一樣),XSL和XSLT也是語義網的一小部分,它們將作為語義網與其展現之間的接口。我為什么要提語義網這個東西呢?舉個例子你就能明白,比如我的Blog每篇文章每一頁上都有菜單,都有最新評論、閱讀排行榜和自定義列表,這些加速了訪問者的效率,是富有親和力的展現形式,但是對于Google來說這些都是垃圾,因為它們錯誤的表達了網頁的含義,如果我要搜一篇閱讀率極高的文章,可能搜出一堆沒用的東西,而這些東西又不可能從頁面上拿掉,所以Google必須自己去認。
反向快照可能是解決這個問題的臨時方案。它的主要思想是Google首先發現別人是如何“描述”該網頁的(通過鏈接的文字表達),再在該網頁中找到與這個 “描述”相關的內容,把這部分內容作為該網頁的高優先級內容,再把該網頁與相同目錄下的其它文件比較,將相同的部分列為低優先級的內容。(這是我個人想出來的方法,不知道可否奏效,估計可能會遇到性能問題

)
其次,Google將面臨語義搜索的問題。這是MSN正在開發的技術,我相信Google也一定在做。這項技術的目的是讓使用者同計算機之間的交互變得更人性化,看起來好像是用戶像計算機提出了一個問題,計算機利用Google這顆大腦找到答案然后告知。哈哈,這個鏡頭是不是有點眼熟,它多次在好萊塢的電影中出現,比如<<AI>>中的Dr.Know(無所不知博士)和<<時間機器>>中的圖書館管理員,他們都是語義Google的愿景和Use Case。其中最有趣的是Dr.Know,他首先讓用戶選擇類別,然后提問,問題按個數記費,答案往往只給出一個——當然是人工智能覺得最符合問題的一個。這提示了我們帶類別的語義識別可能將成為語義識別技術邁出的第一步。再看看Google英文版目前提供的收費服務
Google Answer~~~有點意思吧?
第三是模式學習。不客氣的講,Google一直在以自己的想法在搜索。不是嗎?Google把Spider找到的所有頁面都認為是資源,所以對其涵蓋的內容一視同仁,對其表達的形式漠不關心,而正確的方式應該是將頁面和搜索用戶都看成用戶,把頁面人性化,從頁面中吸取人類思維的模式,進行模式學習。這種技術給Google帶來的好處是巨大的,其實現技術也簡單于語義理解。打個比方,對于Sina被盛大收購,很多新聞網站都作為專題加以報道,而對于Google來說,要等很久才能把新浪和盛大這兩個單詞聯系起來,這中間的時間包括其它由人來更新的網站的更新時滯,其它網站對這些網站的連接的更新時滯,這些更新被Spider發現的時滯,發現后PageRank更新到合理數值(中間可能經過多次迭代)的時滯等等。這使得Google明顯慢于人的反映速度,這也就直接的造成了上面所提到的<<功夫>>不能及時搜到的原因。靠人工智能實現本地化,這是一條路。
第四是信息源的深層發掘。這使得Google能觸及互聯網的死角,就像洗衣粉盡量觸及衣物的死角一樣,(“有汰漬,沒污漬”

),例子很簡單,如果我在網頁中加入一段Javascript,就可以很容易把網頁引到另一個地址,而這個地址很有可能是Google沒有涉及到的,瀏覽器卻可以訪問。
第五就是不得不提到的網格計算。因為Google的客戶來自世界各地,一個日本人拜訪Google和一個印第安人拜訪Google在99.99%的概率上是不會訪問相同內容的,因此將這兩個人所要訪問的內容放在一起實在是一種性能上的損失。最近聽說Yahoo已經將中文搜索服務器遷到國內,這正是為了性能考慮的啊。當然,分布式服務器已經可以做到這一點了,那為什么還要網格呢?解釋這個問題首先要從解釋BT的原理開始,BT之所以讓人們下載的那么快就是因為BT讓Downloader成為其它Downloader的服務器,這種P2P的方式充分利用了Downloader的機器的計算能力和上行帶寬。Google也可以做到這一點,例如我、我的鄰居、李彥宏(百度總裁)和楊志遠(Yahoo創始人之一)四人同時搜索了同一個關鍵字,假定服務器在中國,李彥宏首先獲得了響應頁面,我再訪問時,Google通知我找李商量一下,李毫不猶豫的給了我頁面,楊志遠的請求收到處理,因為它不便于訪問李彥宏或者我的機器,所以Google又給他開了一個響應頁面,最后處理的是我的鄰居,他的請求被推給了我,因為我們處在相同的子網內所以交流更為方便。原本四次的檢索變成兩次,即使加上兩次簡單的響應,總時間也大大縮短,假若我們四個人拜訪Google的機會分別是10:10:2:1,結果就更不言自明了。如果Google在網格方面多追加一些研發資金,自然會比Yahoo做的好,這是由Google軟件的架構決定的。
寫這篇文章花了我整整一天的時間,我寫這篇文章的開始時間是4日凌晨0點04分,現在已經快到5日的0點04分了,可是我還意猶未盡,為了不影響手頭上的工作我決定就此打住,如果您有什么想法,請回帖指教,謝謝。
累死了的泡泡
posted on 2005-04-04 00:04
Brian Sun 閱讀(9459)
評論(49) 編輯 收藏 所屬分類:
軟件 、
管理 、
隨心