亚洲一区二区三区91,亚洲熟妇无码久久精品,2020久久精品亚洲热综合一本

Google Base與Semantic Web（語(yǔ)義網(wǎng)）的關(guān)系

概要：
　　本文試圖通過(guò)一系列線(xiàn)索揭示Google Base與Semantic Web（語(yǔ)義網(wǎng)，以下簡(jiǎn)稱(chēng)SW）的關(guān)系，以此窺探Google在互聯(lián)網(wǎng)服務(wù)的戰(zhàn)略布局。當(dāng)然本文屬于創(chuàng)業(yè)生存手冊(cè)系列，在系列的開(kāi)篇中只說(shuō)提到這個(gè)系列會(huì)提到web2.0，所以本文也會(huì)比較SW在web2.0的關(guān)系。本文引用的SW的資料大多數(shù)為英文資料，有識(shí)之士可以翻譯并推介這部分材料，將是對(duì)于國(guó)內(nèi)互聯(lián)網(wǎng)整體水平的大的提升。
Dedicated to another SW - Simon Willison。

1，Google Base
　　Google Base（應(yīng)該是base.google.com，暫時(shí)無(wú)法訪(fǎng)問(wèn)）還沒(méi)有發(fā)布，謠言已經(jīng)滿(mǎn)天飛了，從webleon的給出的鏈接看到，google的產(chǎn)品拓展經(jīng)理Tom Oliveri列出了一份清單，給出了正式的解釋（只說(shuō)譯）：

你也許已經(jīng)看到了今天很多關(guān)于我們正在測(cè)試的一款新產(chǎn)品的報(bào)道，猜測(cè)了我們的計(jì)劃。在這里我告訴你們我們真正在作的是什么。我們?cè)跍y(cè)試一種內(nèi)容擁有者提交他們的內(nèi)容到google的新方式，通過(guò)這種方式，有希望補(bǔ)充我們已經(jīng)使用的方式如google機(jī)器人以及SiteMaps（站點(diǎn)地圖）。我們認(rèn)為這是一款讓人激動(dòng)的產(chǎn)品，有新消息我們會(huì)立即通知你們。

　　這則簡(jiǎn)單的聲明已經(jīng)沒(méi)有辦法滿(mǎn)足很多人的好奇心，試用過(guò)的人給出截圖，更多的人在猜測(cè)google究竟在干什么。

　　webleon文中說(shuō)，應(yīng)該是一個(gè)由用戶(hù)自行創(chuàng)建網(wǎng)絡(luò)數(shù)據(jù)庫(kù)的服務(wù)。這些數(shù)據(jù)可以是任何的內(nèi)容，從可以看到的數(shù)據(jù)內(nèi)容看到，有
-聚會(huì)服務(wù)的描述；
-網(wǎng)站上關(guān)于時(shí)事的文章；
-二手車(chē)出售列表；
-蛋白質(zhì)結(jié)構(gòu)的數(shù)據(jù)庫(kù)。
　　這些內(nèi)容，真的只是網(wǎng)絡(luò)數(shù)據(jù)庫(kù)、用戶(hù)隱私？或者是google頭腦發(fā)熱的一次作惡（evil）？
　　從google的對(duì)這個(gè)項(xiàng)目的聲明和更多的猜測(cè)看，恐怕不這么簡(jiǎn)單。種種跡象表明，這是google在作一次SW的試水，是google開(kāi)始向SW服務(wù)靠攏的一個(gè)試探。為什么只說(shuō)能這么肯定，SW究竟是個(gè)什么東西，它怎么有那么大的魔力，讓google這么諱莫如深？這話(huà)得從頭說(shuō)起。
　　當(dāng)然，也只有g(shù)oogle，在產(chǎn)品的測(cè)試期間就能掀起這么強(qiáng)烈的關(guān)注。

2，Google與Semantic Web的親密接觸
　　幾年前，Simon Willison發(fā)了一個(gè)簡(jiǎn)短的blog文章，對(duì)于google在作一些關(guān)于SW的研究而贊嘆，他看到了一份以未來(lái)筆調(diào)描述google如何戰(zhàn)勝Amazon和Ebay這些競(jìng)爭(zhēng)對(duì)手的恢宏論文，作者是 Paul Ford。Simon Willison是一位很geek的程序員，我一直有看他的blog，雖然未必能完全看懂，他現(xiàn)在去了yahoo，有趣的是，它的名字的簡(jiǎn)寫(xiě)也是SW，把本篇文章獻(xiàn)給他（其實(shí)應(yīng)該是本章，但那樣說(shuō)也太失禮了）。
　　Paul Ford那篇被多次提到（還有 Stuart）的文章講的是，2009年，Google統(tǒng)治了互聯(lián)網(wǎng)這個(gè)媒介，回顧如何擊敗Amazon和Ebay的歷程，其實(shí)是一篇比較通俗的整體講述什么是SW的文章，讀起來(lái)頗為有趣。同樣有趣的還有那個(gè)EPIC，當(dāng)然就與SW無(wú)關(guān)了。
　　其實(shí)美國(guó)東岸的幾所學(xué)校對(duì)于SW的應(yīng)用研究都很長(zhǎng)時(shí)間了，最有成果的應(yīng)該是piggy bank。

　　2003年，google買(mǎi)了一家小公司，叫做Applied Semantic，應(yīng)該用來(lái)做Google adsense的。因此有人寫(xiě)了一篇題為google在SW投資的文章，可以參看。

　　google的搜索質(zhì)量總監(jiān)Peter Norvig今年初有一篇文章，題目叫做SW可以做什么，不能做什么是只說(shuō)讀到關(guān)于SW應(yīng)用最透徹的文章之一，這系列文章很長(zhǎng)，從各個(gè)方面探討了SW應(yīng)用和概念。Peter Norvig是個(gè)非常有眼光的人，我以前也是一直看他的網(wǎng)站，雖然至今他還沒(méi)有blog，但是終于有RSS輸出了。他有一篇傳世文章，叫做十年學(xué)編程后來(lái)被很多人翻譯過(guò)，其實(shí)這是他在NASA研究中心時(shí)候?qū)懙模呛牵瑫r(shí)間過(guò)去得真快。

　　如今的Google Base的出現(xiàn)，必然有Norvig的眼光和推動(dòng)力來(lái)成就這個(gè)網(wǎng)站。其實(shí)歐洲人比美國(guó)人更急于想實(shí)現(xiàn)SW，甚至已經(jīng)有了semantic weblog，例如qlogger.com，但是沒(méi)有人象norvig一樣技術(shù)滲透，而且身后是google這樣的公司。

　　背靠著索引著最大互聯(lián)網(wǎng)網(wǎng)頁(yè)數(shù)量的google，在將網(wǎng)絡(luò)爬蟲(chóng)使用到了極致之后，極有可能是第一個(gè)可能局部實(shí)現(xiàn)SW的商業(yè)機(jī)構(gòu)，無(wú)論從技術(shù)還是從市場(chǎng)上看。當(dāng)然SW是一種理想，至少google base讓我們初嘗到這種口味。

　　讓我們看一看，什么是SW，為什么Google要實(shí)現(xiàn)SW？

3，什么是Semantic Web？
　　什么是SW，就得先談?wù)勊陌l(fā)明人Tim Berners-Lee，同時(shí)也是WWW的發(fā)明者。

　　Tim Berners-Lee在近幾年的報(bào)道提到互聯(lián)網(wǎng)發(fā)展時(shí)（一般放到Future一頁(yè)里面）無(wú)一例外的提到了SW，大約是發(fā)明WWW之后再發(fā)明不了其他玩意兒了，或者是其他玩意兒都沒(méi)勁了。當(dāng)然也還有其他的，5月的報(bào)告指出，目前網(wǎng)絡(luò)在手機(jī)上面臨的困境跟96年互聯(lián)網(wǎng)在pc上面臨的困境一樣。當(dāng)然，SW是對(duì)于整個(gè)互聯(lián)網(wǎng)說(shuō)的，跟接入的設(shè)備沒(méi)有什么關(guān)系。專(zhuān)門(mén)關(guān)于SW的報(bào)告是題為SW在這里，列出了Nokia、HP、IBM等廠(chǎng)商的SW的進(jìn)展，也可以在這里看到那次會(huì)議中談?wù)摰募?xì)節(jié)，不過(guò)那里看不到那個(gè)SW在這里報(bào)道中的那個(gè)SW的形象圖，畫(huà)的是各種材料，包括磚頭和木材，組合成的一頭大象。形象地說(shuō)明了在SW下，是各種可以識(shí)別的材料，組成了整個(gè)世界。many things to many people。只說(shuō)喜歡他們另外一個(gè)宣傳口號(hào)：Web Evolution causing a quiet revolution

　　SW的核心意義在于網(wǎng)絡(luò)內(nèi)容是由多種可以識(shí)別的數(shù)據(jù)組成的，在早期的互聯(lián)網(wǎng)，93年左右，互聯(lián)網(wǎng)停留在文件形態(tài)，組成的是一個(gè)個(gè)文件，傳送都是使用ftp 等工具；94年左右互聯(lián)網(wǎng)處于文本的形式，出現(xiàn)了html和URI（唯一地址），可以通過(guò)這個(gè)地址進(jìn)行訪(fǎng)問(wèn)；而不斷演化，今后將在以XML等可以標(biāo)記的數(shù)據(jù)結(jié)構(gòu)中，而網(wǎng)頁(yè)只是展示這些數(shù)據(jù)的一種工具，你可以通過(guò)任何其他的形式進(jìn)行展示，甚至機(jī)器也可以識(shí)別。互聯(lián)網(wǎng)不再是由一篇篇的文檔和頁(yè)面組成，而是由一部分一部分細(xì)碎的數(shù)據(jù)構(gòu)成。

　　這樣說(shuō)比較玄妙了，其實(shí)還可以解釋得更簡(jiǎn)單一點(diǎn)。SW就是把原來(lái)的互聯(lián)網(wǎng)內(nèi)容，切成碎片，文章標(biāo)題歸文章標(biāo)題，發(fā)布時(shí)間放到發(fā)布時(shí)間，文章概要?dú)w文章概要，分別存放，每一個(gè)部分都是機(jī)器可以識(shí)別的（當(dāng)然實(shí)際可能更復(fù)雜一點(diǎn)）。在Paul Ford的2002年如何戰(zhàn)勝Amazon和Ebay文中提到，它其實(shí)就是描述這些內(nèi)容的另一種方式，這種方式下機(jī)器可以識(shí)別，具體方式雖然不是十分清晰，但是邏輯上，其實(shí)跟在你在學(xué)校里面學(xué)習(xí)的方式?jīng)]有什么兩樣：
-如果A是B的朋友，那么B就是A的朋友；
-張三有一個(gè)朋友叫李四
-因此，李四將有一個(gè)朋友叫張三
-李四有一個(gè)朋友叫張三
-那么，張三會(huì)有一個(gè)朋友叫李四
　　就是這么簡(jiǎn)單。
　　在互聯(lián)網(wǎng)上，我們把內(nèi)容放在一些定義好的XML標(biāo)簽指定的文件里面。然后會(huì)有程序自動(dòng)收集這些內(nèi)容，通過(guò)這些簡(jiǎn)單的規(guī)則，進(jìn)行分析。所有區(qū)別于現(xiàn)在操作的就是，在搜索的時(shí)候，服務(wù)器的程序會(huì)綜合更多的因素，進(jìn)行更復(fù)雜的判斷，理解你的請(qǐng)求的真實(shí)意義，然后給你最準(zhǔn)確的內(nèi)容。
例如，你輸入只說(shuō)，他們準(zhǔn)確的判斷出，你要找的是我這個(gè)人，而不是錯(cuò)認(rèn)為，你又說(shuō)了一句什么話(huà)，或者給你一個(gè)許如蕓的“只說(shuō)給你聽(tīng)”的歌曲應(yīng)付一下你。

4，Google怎么實(shí)現(xiàn)Semantic Web？
　　Google究竟怎么實(shí)現(xiàn)SW，在Peter Norvig的文章SW可以做什么，不能做什么已經(jīng)可以看出些端倪，Norvig在今年一月份（或者更早）都已經(jīng)想好了應(yīng)該怎么啟動(dòng)了，或者說(shuō)，應(yīng)該怎么逐步打造SW。他談到了四個(gè)問(wèn)題：
　　1）先有雞還是先有蛋的問(wèn)題，
　　這個(gè)問(wèn)題涉及到如何建立所需的信息，因?yàn)橐仨氂杏薪M織的信息才能打造相應(yīng)的工具，而如果沒(méi)有相應(yīng)的工具，怎么把信息放到組織里面去呢？
這個(gè)問(wèn)題只說(shuō)要展開(kāi)說(shuō)一下，其實(shí)google并不是要建立一個(gè)Tim Berners-Lee等人理想中的SW，因?yàn)槠鋵?shí)google其實(shí)只需要索引SW中的信息即可，因?yàn)槿绻鸖W建立起來(lái)，索引是一件簡(jiǎn)單的事情，甚至產(chǎn)品實(shí)現(xiàn)上面比google現(xiàn)在的搜索引擎更簡(jiǎn)單，技術(shù)要求更低。然而，問(wèn)題就出來(lái)了，是先建立一個(gè)SW，然后來(lái)索引呢，還是先索引整個(gè)互聯(lián)網(wǎng)，然后再生成把它放到有組織的SW里面去呢，這就是為什么google打造SW時(shí)遇到了先有雞還是先有蛋的問(wèn)題。
　　那么只說(shuō)的猜測(cè)是，目前Google base的作法是，目前互聯(lián)網(wǎng)上的信息是很難組織，那么讓用戶(hù)提交有組織的信息到google，就能形成局部的SW。而這個(gè)局部的SW，就可以實(shí)現(xiàn)聚會(huì)服務(wù)的描述、網(wǎng)站上關(guān)于時(shí)事的文章、二手車(chē)出售列表等等信息的精確定位，機(jī)器也就能夠理解這個(gè)范圍內(nèi)的信息。

　　在Norvig后面的描述中可以證實(shí)只說(shuō)的說(shuō)法：

在正常情況下，定義語(yǔ)義的標(biāo)準(zhǔn)格式（schemas）似乎更好，但是，問(wèn)題出在把什么內(nèi)容放進(jìn)這些標(biāo)準(zhǔn)格式，還有很多工作要做。

因?yàn)檫€有以下提到的幾個(gè)問(wèn)題，這些問(wèn)題在把內(nèi)容放進(jìn)這些標(biāo)準(zhǔn)格式中的時(shí)候，這些問(wèn)題同樣會(huì)出現(xiàn)，而且，google不能把握住這些環(huán)節(jié)，或者從整個(gè)互聯(lián)網(wǎng)角度來(lái)講，把握這些環(huán)節(jié)的公司服務(wù)或者工具太分散，無(wú)法形成標(biāo)準(zhǔn)，也無(wú)法保證安全和質(zhì)量。Norvig舉了一個(gè)google news例子，在前一個(gè)晚上google news一共索引了658個(gè)不同來(lái)源的新聞，google可以根據(jù)這些新聞頁(yè)進(jìn)行一個(gè)cluster運(yùn)算，算出其中重要度最高的是Blair的新聞，然而，如果google依據(jù)這些寫(xiě)入新聞的新聞源來(lái)做這件事情，則幾乎是不可能的。
　　不過(guò)通過(guò)他們的頁(yè)面上的新聞來(lái)索引計(jì)算出來(lái)的質(zhì)量畢竟不高，所以google現(xiàn)在想到另外一個(gè)辦法，也就是，讓用戶(hù)通過(guò)google base的接口提交到google，提交的數(shù)據(jù)是定義好的一些數(shù)據(jù)標(biāo)準(zhǔn)，google來(lái)控制這個(gè)提交過(guò)程并更準(zhǔn)確的判斷提交的質(zhì)量、spam等等情況，并且可以將各種數(shù)據(jù)綜合起來(lái)進(jìn)行分析。

　　2）競(jìng)爭(zhēng)問(wèn)題，你有不同的和相似方法和工具可以選擇。
　　這樣子就無(wú)法跟蹤用戶(hù)行為的全貌。

　　3）Cyc問(wèn)題，
　　Cyc是一個(gè)專(zhuān)業(yè)術(shù)語(yǔ)，講的是通過(guò)廣泛的本題作常識(shí)推理。這樣說(shuō)也許不太明白，舉個(gè)例子就很容易了，例如“周杰倫”，這是一個(gè)人名，如果以錯(cuò)輸為“周杰論”，這時(shí)機(jī)器就識(shí)別不出來(lái)了，但是如果擁有了一個(gè)很大的詞庫(kù)，那么這個(gè)通過(guò)識(shí)別出“周杰論”可能就是“周杰倫”，那么這就是一個(gè)Cyc問(wèn)題。如何在SW 中判斷這些Cyc以識(shí)別出常識(shí)的判斷，這是建立真正意義的SW必須解決的問(wèn)題。

　　4）Spam，
　　垃圾，這個(gè)不用多說(shuō)了。但是注意到，由于SW是精確匹配，并且要求根據(jù)意圖來(lái)適配，所以對(duì)于spam要求更高。
順便提及，Splog不就是Semantic Spam嘛。

5，Semantic Web與Web2.0
　　web2.0是tim o'reilly的概念，開(kāi)始這個(gè)概念定義很模糊。應(yīng)該是互聯(lián)網(wǎng)應(yīng)用的發(fā)展模式，催生了新一代的應(yīng)用以及人們對(duì)于這些應(yīng)用的理解方式和使用方法（這里談到過(guò)這幾個(gè)概念的分別）。國(guó)外也有人撰文web2.0會(huì)殺掉SW嗎？，也有稱(chēng)Semantic Web 2.0。有很有趣的討論。前一篇文章說(shuō)得有點(diǎn)道理，web2.0是給少數(shù)人用的，SW會(huì)提供Accessiblity。Stefan Decker在這里補(bǔ)充了一下，Web2.0重“應(yīng)用”，SW則是標(biāo)準(zhǔn)。這跟只說(shuō)那邊談到web2.0是應(yīng)用發(fā)展模式不謀而合。其實(shí)web2.0用來(lái)說(shuō)明一種公司特性也未嘗不可，不過(guò)你大聲的說(shuō)google是web2.0的公司，而M$是1.0的公司，確實(shí)有點(diǎn)怪。

　　當(dāng)然SW也作了很多應(yīng)用，例如美國(guó)東岸的幾所學(xué)校，例如歐洲連Semantic weblog也搞出來(lái)了，deri也做了很多應(yīng)用了。

　　另外，gnowsis也是另外一個(gè)狂想，只是我還沒(méi)看懂它的結(jié)構(gòu)圖，為什么會(huì)有一個(gè)semantic web server在里面。

6，結(jié)語(yǔ)
　　還有幾點(diǎn)：
　　本文并沒(méi)有分析google為什么要做SW，只說(shuō)想這已經(jīng)用不著只說(shuō)在這里分析。SW對(duì)于各種應(yīng)用的好處是顯然的。
　　Google對(duì)于SW的探索看似給予搜索引擎的，Norvig那篇文章下面也有人回復(fù)說(shuō)，似乎google只是在搜索的角度看待SW，其實(shí)不然，因?yàn)榛ヂ?lián)網(wǎng)是一個(gè)請(qǐng)求應(yīng)答系統(tǒng)，是我們?nèi)藶閷⒒ヂ?lián)網(wǎng)標(biāo)準(zhǔn)定義成一個(gè)url指向一個(gè)網(wǎng)頁(yè)的，這是一個(gè)陳舊的標(biāo)準(zhǔn)，或者對(duì)于更高層次的信息獲取來(lái)講，并非是必要的。關(guān)于信息適配的探索，其實(shí)google比任何其他人（諂媚呀）都高。
　　有人說(shuō)，Google還是從信息組織的角度來(lái)看待整個(gè)互聯(lián)網(wǎng)（google的信條就是組織信息），或者，它只是互聯(lián)網(wǎng)的一個(gè)信息組織者，以后也將成為SW 的信息組織者。其實(shí)，從根本來(lái)說(shuō)，互聯(lián)網(wǎng)整個(gè)媒介都是信息，除了信息沒(méi)有其他任何東西，當(dāng)然你可以持有另外一個(gè)觀點(diǎn)互聯(lián)網(wǎng)應(yīng)用才是主導(dǎo)，這到了最深處都是殊途同歸。
　　剛寫(xiě)完，發(fā)現(xiàn)keso的文已經(jīng)出來(lái)了：

互聯(lián)網(wǎng)提供了很多破壞規(guī)則的機(jī)會(huì)。門(mén)戶(hù)新聞和搜索引擎新聞已經(jīng)破壞了傳統(tǒng)媒體的規(guī)則，分類(lèi)網(wǎng)站正在破壞一些電子商務(wù)網(wǎng)站和招聘網(wǎng)站的規(guī)則。即將露面的 http://base.google.com/服務(wù)，很可能是一個(gè)更大的破壞者，它有可能籠絡(luò)更多的個(gè)人內(nèi)容提供者，進(jìn)而改變互聯(lián)網(wǎng)長(zhǎng)期以來(lái)內(nèi)容的組織方式。

　　其實(shí)規(guī)則很簡(jiǎn)單，就是在得到最小的spam的情況下，獲得最有組織并且方便組織的信息，google實(shí)現(xiàn)的局部SW當(dāng)然有控制，然而，SW的目標(biāo)，不是web2.0那樣的應(yīng)用，而是Accessibility呀。這場(chǎng)革命如此quiet，甚至談不上“規(guī)則破壞”。（指Web Evolution causing a quiet revolution的quiet）
　　本文引用的大量連接都是英文鏈接，由于時(shí)間關(guān)系，不能將其中摘錄翻譯，深感抱歉。SW的很多文章并不完全是很技術(shù)化的話(huà)題，這些材料對(duì)于國(guó)內(nèi)互聯(lián)網(wǎng)水平的增長(zhǎng)是十分有益的。

　　再次強(qiáng)調(diào)一下本文的觀點(diǎn)：很顯然，google base是google在SW的試驗(yàn)和測(cè)試。而SW就是google的本壘（home base）。

posted on 2006-09-08 15:34 hopeshared 閱讀(826) 評(píng)論(1) 編輯收藏所屬分類(lèi): Job

Feedback

# re: Google Base與Semantic Web（語(yǔ)義網(wǎng)）的關(guān)系 2007-04-21 22:32 pengbone

受益。謝謝！回復(fù) 更多評(píng)論

新用戶(hù)注冊(cè) 刷新評(píng)論列表


只有注冊(cè)用戶(hù)登錄后才能發(fā)表評(píng)論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問(wèn) 管理
相關(guān)文章: Google Base與Semantic Web（語(yǔ)義網(wǎng)）的關(guān)系一個(gè)服務(wù)社區(qū)的調(diào)查如何寫(xiě)好PPT 轉(zhuǎn)點(diǎn)DNS的資料 gef布局的一點(diǎn)感想 [轉(zhuǎn)]網(wǎng)絡(luò)話(huà)席/Web Presence

精彩的人生

常用鏈接

留言簿(43)

隨筆分類(lèi)

隨筆檔案

相冊(cè)

收藏夾

Friends

Web Site

搜索

積分與排名

最新評(píng)論

閱讀排行榜

評(píng)論排行榜

Feedback