記錄MSN上與北京姜偉的對話:
jiangwei說:
主題標引其實是我們的副業(yè),不過進展很快,昨天又把主題關(guān)聯(lián)做完了,效果還不錯。
jiangwei說:
其實現(xiàn)在聚類算法挺多的,我們試了幾種,各有優(yōu)缺點,現(xiàn)在準備根據(jù)項目的需要,選擇一種給用戶。
莊表偉 說:
哦,我那天還想到一個思路,我一直認為原來的主題詞那樣的“用、代、屬、分、參、族”的結(jié)構(gòu)實在是過于復雜了。
jiangwei說:
愿聞其詳
莊表偉 說:
于是我就想,能不能以這樣一種方式來定義主題詞:
1、所有的主題詞,都是平行的,沒有高低之分
2、主題詞之間,只有兩個關(guān)系:相似度、相關(guān)度;
3、所有相似度與相關(guān)度的數(shù)據(jù),都是從人們自行定義的tags情況計算得來的
4、根據(jù)詞頻統(tǒng)計,計算出推薦用詞
莊表偉 說:
然后,專家就可以休息了
jiangwei說:
哈哈,有意思的想法,我仔細想想。
jiangwei說:
所有相似度與相關(guān)度的數(shù)據(jù),都是從人們自行定義的tags情況計算得來的。我覺得這個最難。
莊表偉 說:
有一個網(wǎng)站你知道嗎?
http://del.icio.us/
jiangwei說:
知道
莊表偉 說:
同一篇文章,有多人收錄,每個人各自獨立的設(shè)置自己的tags
莊表偉 說:
相似度,就是“兩個tags,分別被不同的用戶,用于同一篇文章的概率”
相關(guān)度,就是“兩個tags,被同時用于一篇文章的概率”
jiangwei說:
我當時同keso爭論的就是如果同一個概念,如果不采用受控語言來表達,如何被廣大用戶解析和理解的問題。
莊表偉 說:
比如一篇文章,一個人定義的tags是:“軟件、Windows”,另一個人定義的tags是:“編程、Windows”
莊表偉 說:
那么,軟件與windows之間,編程與windows之間,都有了相關(guān)度
莊表偉 說:
而在軟件與編程之間,就有了相似度
jiangwei說:
這需要一個中間橋梁,你這里的是windows,如果用戶有的用windows,有的用視窗,有的用微軟平臺,有的用window,有的用windowsxp,等等,怎么辦?
莊表偉 說:
因為是多人收錄,所以,就有一個詞頻的數(shù)據(jù),對外展示一篇文章的主題詞時,就顯示為用戶最多用戶選擇的,也即是推薦詞庫中的詞了。
莊表偉 說:
在民主與集中之間,可以有一個算法的橋梁,并不是絕對不同的
jiangwei說:
我看了365key,感覺里面的tags還沒有真正發(fā)揮作用。
莊表偉 說:
http://del.icio.us/
干凈很多,非常舒服,keso自然是不用的
jiangwei說:
365key那個網(wǎng)站我感覺黃賭毒太多,真想不到后臺是劉韌和keso他們。
莊表偉 說:
唉,那是因為在一個“追求點擊率”的國家
莊表偉 說:
365key有兩個排行榜,一個是收藏榜,一個是點擊率榜,如果只有收藏榜的話,365key就干凈了
莊表偉 說:
但是,他們哪里舍得去掉這么個點擊榜呢?
莊表偉 說:
http://spaces.msn.com/members/zbw25/Blog/cns!1pA6-3FOo9yNp_4lmEHxdDqA!836.entry
jiangwei說:
我現(xiàn)在有想法將365key結(jié)合我們的東西用于政府網(wǎng)站平臺中,你覺得前景如何?
莊表偉 說:
這是寫的一篇新的blog,里面也有一些創(chuàng)意的
莊表偉 說:
那還不如將RSS、tags,引入政府內(nèi)部網(wǎng)呢
jiangwei說:
是的,就是這個思路,rss、tag
莊表偉 說:
但是是用于內(nèi)部網(wǎng),就是給內(nèi)網(wǎng)的公務(wù)員、領(lǐng)導們看的
莊表偉 說:
還有一個好的東西,也可以引入政府內(nèi)網(wǎng),就是像baidu新聞,那樣的RSS關(guān)鍵詞訂閱。
jiangwei說:
我們想得完全一樣啊,這個東西就是我們即將用于北京市公務(wù)員門戶和北京市領(lǐng)導決策系統(tǒng)中的東西。
莊表偉 說:
jiangwei說:
思路同你是完全相同的
莊表偉 說:
這個東西,非常的Web2.0啊
莊表偉 說:
推向公眾,我認為,也是能夠賺大錢的。
jiangwei說:
是的,我就是想把web2.0用于這兩個項目,看看實際效果到底如何
jiangwei說:
這個項目的中標單位,################
jiangwei說:
但是他們都會用我們的主題標引和主題關(guān)聯(lián)技術(shù)
jiangwei說:
其中一個應(yīng)用是每天抓取網(wǎng)上的新聞,然后聚類和關(guān)聯(lián),給領(lǐng)導和公務(wù)員看。
莊表偉 說:
不錯的
jiangwei說:
抓新聞的那家號稱巨牛,專門抓動態(tài)網(wǎng)頁和數(shù)據(jù)庫
jiangwei說:
我們下周就要聯(lián)調(diào)了
莊表偉 說:
呵呵,已經(jīng)快做完了呀
jiangwei說:
但是我覺得信息可視化這方面還沒有做好,我準備在這上面再下下功夫
莊表偉 說:
信息可視化?
jiangwei說:
就是如何圖形化地展現(xiàn)這些信息及其關(guān)聯(lián)
jiangwei說:
包括后臺對這些新聞的統(tǒng)計和分析
jiangwei說:
比如:一周新聞關(guān)注熱點,一周公務(wù)員關(guān)注熱點之類的。
莊表偉 說:
http://home.wangjianshuo.com/cn/20050616_ajax_eeaec.htm
莊表偉 說:
給你看個blog
jiangwei說:
這些都很有啟發(fā),你有這么多創(chuàng)意,干嗎不自己寫一個結(jié)合上述優(yōu)點的東東出來。
莊表偉 說:
唉,人的精力是有限的呀
莊表偉 說:
現(xiàn)在有出版社在約我寫一本AJAX新手入門的書,正在努力寫作過程中
jiangwei說:
希望早日拜讀大作。其實我們的精力也很有限,都放到中文智能處理應(yīng)用領(lǐng)域了。其實這些創(chuàng)意從技術(shù)上看都不難實現(xiàn),但是如何整合應(yīng)用,如何被大多數(shù)人(不是少數(shù)精英)接受,就不是那么容易了,我現(xiàn)在也只是想在下范圍(政府內(nèi)網(wǎng))中嘗試一下。
莊表偉 說:
我們大概會在3月以前寫完,具體什么時候出來就不知道了。
莊表偉 說:
王建碩的那個隨手標注的AJAX應(yīng)用,倒是很值得引入政府內(nèi)部網(wǎng),在Web頁面上,隨手劃劃,就能批注了。
jiangwei說:
是的,而且實現(xiàn)起來也不難。
莊表偉 說:
是啊,領(lǐng)導們肯定會喜歡的
jiangwei說:
但是在政府里面的應(yīng)用,有很多不是技術(shù)問題,就比如這個,我腦子里面想的就不僅僅是好玩,而是它到底給政府工作會帶來什么
莊表偉 說:
能夠統(tǒng)計到“關(guān)注點與關(guān)注程度”
jiangwei說:
王建碩是365key的作者嗎?
莊表偉 說:
不是呀,他是kijiji的創(chuàng)辦者
jiangwei說:
現(xiàn)在在北京嗎?我看了他的blog,覺得同你一樣,很有深度啊
莊表偉 說:
呵呵,應(yīng)該是在上海的
jiangwei說:
可惜可惜,不能當面交流請教
莊表偉 說:
他是一個很出名的blogger,比我出名太多了
jiangwei說:
看材料他在微軟干過6年
莊表偉 說:
是啊,牛人
莊表偉 說:
http://forum.javaeye.com/viewtopic.php?t=15308
莊表偉 說:
這好這里有一個我寫的blog,還有人家的評論
jiangwei說:
里面的“互助式搜索”,提法真好!!
莊表偉 說:
jiangwei說:
“inverted table中 每個詞,每個場景 每篇文檔都是獨立的”這是現(xiàn)有搜索問題的實質(zhì)。
jiangwei說:
也就是沒有語境
jiangwei說:
全新的客戶端軟件+全新的搜索服務(wù)模式+互助式的搜索協(xié)作機制=下一代搜索技術(shù),完全同意。
莊表偉 說:
哈哈,總算是找到知音了
jiangwei說:
因為我也是這樣想的,也找到知音了
莊表偉 說:
弄一個這樣的軟件,咱們就能成為下一個Google??!
jiangwei說:
是很有可能的
jiangwei說:
“標記主題詞看起來可行, 但實際上我想難度很大.
并不是所有用戶對這種標記主題詞的"貢獻"感興趣.”你對這個怎么看?
莊表偉 說:
這就要用到你們的智能輔助標引了
莊表偉 說:
用戶如果不想自己動腦子的,只需要認可機器的選擇即可
jiangwei說:
這是知識管理的一個問題,每人都希望得到別人的,但是卻不愿奉獻自己的。
莊表偉 說:
但是,他總是希望能夠管理自己的知識的
莊表偉 說:
為了管理自己的知識而設(shè)置tags,不只是貢獻給別人
jiangwei說:
我現(xiàn)在在設(shè)想一種機制,奉獻得越多,得到的越多。也就是說,你奉獻的tag數(shù)量越多,被引用得越多,你越有能力查詢到更多的人和信息。
莊表偉 說:
這在公眾中大概可行,在政府中肯定不可行
莊表偉 說:
奉獻tags數(shù)量最多的秘書,權(quán)限不夠
jiangwei說:
是的,我感覺是這可能是一種與google和百度現(xiàn)在的利潤模式不同的商業(yè)模式。
莊表偉 說:
對的,我們可以給他一個新的名字,叫做“社會化搜索”
莊表偉 說:
也可以縮寫為SNS
jiangwei說:
我們的最新版本中,已經(jīng)加入了搜索的功能,現(xiàn)在我們對外介紹的時候,有時候稱為“智能搜索客戶端”
jiangwei說:
不是可以強調(diào)標引功能
jiangwei說:
在這種方式下,用戶實際上是用文章找文章。我稱為“文索未文”
莊表偉 說:
我想起來了,你當時的那個PPT,用了N多自造成語,實在是精彩
jiangwei說:
實踐證明,盡管現(xiàn)在還是調(diào)用的google和百度,但是精度和相關(guān)度確實很高。
莊表偉 說:
能夠理解
jiangwei說:
如果google和百度能夠針對這個技術(shù)進行優(yōu)化或者在排序策略上進行調(diào)整,效果肯定會非常好。我自己現(xiàn)在用luccent檢索,就是想用試驗證明這點。
莊表偉 說:
你寫不寫blog的?
jiangwei說:
不寫
莊表偉 說:
唉,可惜啊
jiangwei說:
好的想法都是在msn上同朋友交流的。
jiangwei說:
原來知識管理網(wǎng)站有個朋友讓我寫,我發(fā)覺還是不習慣。
莊表偉 說:
blog不是寫文章,而是把自己的想法記下來
莊表偉 說:
隨時想到了,就記一點,漸漸的就寫習慣了
jiangwei說:
其實我在搜索、標引、信息可視化、知識管理和數(shù)據(jù)挖掘上,是有很多想法的。
莊表偉 說:
甚至我有個朋友,自己的BLOG上,都是貼的MSN對話
jiangwei說:
呵呵,你也可以貼咱們的對話啊,我沒有意見。
莊表偉 說:
對于以后整理自己的思路,很有幫助的
posted on 2006-01-14 23:48
讀書、思考、生活 閱讀(431)
評論(0) 編輯 收藏