記錄MSN上與北京姜偉的對話:
jiangwei說:
主題標引其實是我們的副業,不過進展很快,昨天又把主題關聯做完了,效果還不錯。
jiangwei說:
其實現在聚類算法挺多的,我們試了幾種,各有優缺點,現在準備根據項目的需要,選擇一種給用戶。
莊表偉 說:
哦,我那天還想到一個思路,我一直認為原來的主題詞那樣的“用、代、屬、分、參、族”的結構實在是過于復雜了。
jiangwei說:
愿聞其詳
莊表偉 說:
于是我就想,能不能以這樣一種方式來定義主題詞:
1、所有的主題詞,都是平行的,沒有高低之分
2、主題詞之間,只有兩個關系:相似度、相關度;
3、所有相似度與相關度的數據,都是從人們自行定義的tags情況計算得來的
4、根據詞頻統計,計算出推薦用詞
莊表偉 說:
然后,專家就可以休息了
jiangwei說:
哈哈,有意思的想法,我仔細想想。
jiangwei說:
所有相似度與相關度的數據,都是從人們自行定義的tags情況計算得來的。我覺得這個最難。
莊表偉 說:
有一個網站你知道嗎?
http://del.icio.us/
jiangwei說:
知道
莊表偉 說:
同一篇文章,有多人收錄,每個人各自獨立的設置自己的tags
莊表偉 說:
相似度,就是“兩個tags,分別被不同的用戶,用于同一篇文章的概率”
相關度,就是“兩個tags,被同時用于一篇文章的概率”
jiangwei說:
我當時同keso爭論的就是如果同一個概念,如果不采用受控語言來表達,如何被廣大用戶解析和理解的問題。
莊表偉 說:
比如一篇文章,一個人定義的tags是:“軟件、Windows”,另一個人定義的tags是:“編程、Windows”
莊表偉 說:
那么,軟件與windows之間,編程與windows之間,都有了相關度
莊表偉 說:
而在軟件與編程之間,就有了相似度
jiangwei說:
這需要一個中間橋梁,你這里的是windows,如果用戶有的用windows,有的用視窗,有的用微軟平臺,有的用window,有的用windowsxp,等等,怎么辦?
莊表偉 說:
因為是多人收錄,所以,就有一個詞頻的數據,對外展示一篇文章的主題詞時,就顯示為用戶最多用戶選擇的,也即是推薦詞庫中的詞了。
莊表偉 說:
在民主與集中之間,可以有一個算法的橋梁,并不是絕對不同的
jiangwei說:
我看了365key,感覺里面的tags還沒有真正發揮作用。
莊表偉 說:
http://del.icio.us/
干凈很多,非常舒服,keso自然是不用的
jiangwei說:
365key那個網站我感覺黃賭毒太多,真想不到后臺是劉韌和keso他們。
莊表偉 說:
唉,那是因為在一個“追求點擊率”的國家
莊表偉 說:
365key有兩個排行榜,一個是收藏榜,一個是點擊率榜,如果只有收藏榜的話,365key就干凈了
莊表偉 說:
但是,他們哪里舍得去掉這么個點擊榜呢?
莊表偉 說:
http://spaces.msn.com/members/zbw25/Blog/cns!1pA6-3FOo9yNp_4lmEHxdDqA!836.entry
jiangwei說:
我現在有想法將365key結合我們的東西用于政府網站平臺中,你覺得前景如何?
莊表偉 說:
這是寫的一篇新的blog,里面也有一些創意的
莊表偉 說:
那還不如將RSS、tags,引入政府內部網呢
jiangwei說:
是的,就是這個思路,rss、tag
莊表偉 說:
但是是用于內部網,就是給內網的公務員、領導們看的
莊表偉 說:
還有一個好的東西,也可以引入政府內網,就是像baidu新聞,那樣的RSS關鍵詞訂閱。
jiangwei說:
我們想得完全一樣啊,這個東西就是我們即將用于北京市公務員門戶和北京市領導決策系統中的東西。
莊表偉 說:
jiangwei說:
思路同你是完全相同的
莊表偉 說:
這個東西,非常的Web2.0啊
莊表偉 說:
推向公眾,我認為,也是能夠賺大錢的。
jiangwei說:
是的,我就是想把web2.0用于這兩個項目,看看實際效果到底如何
jiangwei說:
這個項目的中標單位,################
jiangwei說:
但是他們都會用我們的主題標引和主題關聯技術
jiangwei說:
其中一個應用是每天抓取網上的新聞,然后聚類和關聯,給領導和公務員看。
莊表偉 說:
不錯的
jiangwei說:
抓新聞的那家號稱巨牛,專門抓動態網頁和數據庫
jiangwei說:
我們下周就要聯調了
莊表偉 說:
呵呵,已經快做完了呀
jiangwei說:
但是我覺得信息可視化這方面還沒有做好,我準備在這上面再下下功夫
莊表偉 說:
信息可視化?
jiangwei說:
就是如何圖形化地展現這些信息及其關聯
jiangwei說:
包括后臺對這些新聞的統計和分析
jiangwei說:
比如:一周新聞關注熱點,一周公務員關注熱點之類的。
莊表偉 說:
http://home.wangjianshuo.com/cn/20050616_ajax_eeaec.htm
莊表偉 說:
給你看個blog
jiangwei說:
這些都很有啟發,你有這么多創意,干嗎不自己寫一個結合上述優點的東東出來。
莊表偉 說:
唉,人的精力是有限的呀
莊表偉 說:
現在有出版社在約我寫一本AJAX新手入門的書,正在努力寫作過程中
jiangwei說:
希望早日拜讀大作。其實我們的精力也很有限,都放到中文智能處理應用領域了。其實這些創意從技術上看都不難實現,但是如何整合應用,如何被大多數人(不是少數精英)接受,就不是那么容易了,我現在也只是想在下范圍(政府內網)中嘗試一下。
莊表偉 說:
我們大概會在3月以前寫完,具體什么時候出來就不知道了。
莊表偉 說:
王建碩的那個隨手標注的AJAX應用,倒是很值得引入政府內部網,在Web頁面上,隨手劃劃,就能批注了。
jiangwei說:
是的,而且實現起來也不難。
莊表偉 說:
是啊,領導們肯定會喜歡的
jiangwei說:
但是在政府里面的應用,有很多不是技術問題,就比如這個,我腦子里面想的就不僅僅是好玩,而是它到底給政府工作會帶來什么
莊表偉 說:
能夠統計到“關注點與關注程度”
jiangwei說:
王建碩是365key的作者嗎?
莊表偉 說:
不是呀,他是kijiji的創辦者
jiangwei說:
現在在北京嗎?我看了他的blog,覺得同你一樣,很有深度啊
莊表偉 說:
呵呵,應該是在上海的
jiangwei說:
可惜可惜,不能當面交流請教
莊表偉 說:
他是一個很出名的blogger,比我出名太多了
jiangwei說:
看材料他在微軟干過6年
莊表偉 說:
是啊,牛人
莊表偉 說:
http://forum.javaeye.com/viewtopic.php?t=15308
莊表偉 說:
這好這里有一個我寫的blog,還有人家的評論
jiangwei說:
里面的“互助式搜索”,提法真好!!
莊表偉 說:
jiangwei說:
“inverted table中 每個詞,每個場景 每篇文檔都是獨立的”這是現有搜索問題的實質。
jiangwei說:
也就是沒有語境
jiangwei說:
全新的客戶端軟件+全新的搜索服務模式+互助式的搜索協作機制=下一代搜索技術,完全同意。
莊表偉 說:
哈哈,總算是找到知音了
jiangwei說:
因為我也是這樣想的,也找到知音了
莊表偉 說:
弄一個這樣的軟件,咱們就能成為下一個Google!!
jiangwei說:
是很有可能的
jiangwei說:
“標記主題詞看起來可行, 但實際上我想難度很大.
并不是所有用戶對這種標記主題詞的"貢獻"感興趣.”你對這個怎么看?
莊表偉 說:
這就要用到你們的智能輔助標引了
莊表偉 說:
用戶如果不想自己動腦子的,只需要認可機器的選擇即可
jiangwei說:
這是知識管理的一個問題,每人都希望得到別人的,但是卻不愿奉獻自己的。
莊表偉 說:
但是,他總是希望能夠管理自己的知識的
莊表偉 說:
為了管理自己的知識而設置tags,不只是貢獻給別人
jiangwei說:
我現在在設想一種機制,奉獻得越多,得到的越多。也就是說,你奉獻的tag數量越多,被引用得越多,你越有能力查詢到更多的人和信息。
莊表偉 說:
這在公眾中大概可行,在政府中肯定不可行
莊表偉 說:
奉獻tags數量最多的秘書,權限不夠
jiangwei說:
是的,我感覺是這可能是一種與google和百度現在的利潤模式不同的商業模式。
莊表偉 說:
對的,我們可以給他一個新的名字,叫做“社會化搜索”
莊表偉 說:
也可以縮寫為SNS
jiangwei說:
我們的最新版本中,已經加入了搜索的功能,現在我們對外介紹的時候,有時候稱為“智能搜索客戶端”
jiangwei說:
不是可以強調標引功能
jiangwei說:
在這種方式下,用戶實際上是用文章找文章。我稱為“文索未文”
莊表偉 說:
我想起來了,你當時的那個PPT,用了N多自造成語,實在是精彩
jiangwei說:
實踐證明,盡管現在還是調用的google和百度,但是精度和相關度確實很高。
莊表偉 說:
能夠理解
jiangwei說:
如果google和百度能夠針對這個技術進行優化或者在排序策略上進行調整,效果肯定會非常好。我自己現在用luccent檢索,就是想用試驗證明這點。
莊表偉 說:
你寫不寫blog的?
jiangwei說:
不寫
莊表偉 說:
唉,可惜啊
jiangwei說:
好的想法都是在msn上同朋友交流的。
jiangwei說:
原來知識管理網站有個朋友讓我寫,我發覺還是不習慣。
莊表偉 說:
blog不是寫文章,而是把自己的想法記下來
莊表偉 說:
隨時想到了,就記一點,漸漸的就寫習慣了
jiangwei說:
其實我在搜索、標引、信息可視化、知識管理和數據挖掘上,是有很多想法的。
莊表偉 說:
甚至我有個朋友,自己的BLOG上,都是貼的MSN對話
jiangwei說:
呵呵,你也可以貼咱們的對話啊,我沒有意見。
莊表偉 說:
對于以后整理自己的思路,很有幫助的
posted on 2006-01-14 23:48
讀書、思考、生活 閱讀(431)
評論(0) 編輯 收藏