日本中文一区二区三区亚洲,亚洲国产亚洲综合在线尤物,亚洲精品国产精品乱码不卞

對搜索引擎同義詞支持的實驗, 分析模擬

今天偶爾看到一個同義詞庫, 想到這個有什么用途哪? 肯定是用來判斷2句話, 2篇文章的相似性的.

它對搜索引擎,對論文抄襲鑒定系統肯定有用, 于是去搜索引擎試了試, 結果大失所望失望, 貌似google,bing,baidu對同義詞沒有做處理, 感覺是很簡單的東西, 竟然沒有做相關處理.

而且不僅僅是沒有做同義詞處理, 相關度方面也很差, 真是很奇怪的事情.

我們隨便找一句話: (從google的桌面工具文檔里)

A: "我們十分關注您的安全并為此推出了一項功能",

對應樣本為:

B: "我們非常關注您的安全并為此推出了一項功能"

我們搜索一下, 可以發現 A 可以匹配的很好, 如果改成B, 發現和A匹配的第一項不見了, 按照正常猜想即使改了一個詞相關度應該還是很高, 不知道為什么會這樣.

替換其中一個同義詞: (發現原來的網頁不在前面了, 翻了幾頁也沒有找到)

我們暫且不考慮 "大勝美國隊" 和 "大敗美國隊"的語義分析, 但是上面的結果肯定不盡人意, 因為你可能需要考慮所有同義詞, 否則可能就錯過你想要的結果.

下面我們做一個簡單的分析和模擬來實現同義詞的相關邏輯, 假設的流程如下:

首先我們要有同義詞對應表(多對多,可以有權重)
收錄網頁時把相應同義詞映射到同一個詞, 當然可以映射多個
在搜索時先預處理用戶輸入的內容
根據匹配算法計算

1. 同義詞表結構如下

一百分 -->滿分, 0.8
十分 --> 滿分, 0.8

十分 --> 非常, 0.95
特別 --> 非常, 0.9
格外 --> 非常, 0.9

關心 --> 關注, 0.95
注意 --> 關注, 0.85

......

所有同義詞映射到同一個詞語, 并賦予一個權重. 當然還有多義詞的問題, 會出現多個映射.

當然同義詞的整理也是個巨大的工作量, 網上也有一些詞庫.

2. 根據同義詞庫的映射

   原內容: 我們十分關注您的安全并為此推出了一項功能
   映射后: 我們滿分*0.8|非常*0.95|(十分) 關注您的安全并為此推出了一項功能

   "|"表示有多個選擇, "()"表示為原內容.

3. 對輸入內容的分析映射

   用戶輸入: 我們非常關心您的安全并為此推出了一項功能
   分析映射: 我們非常關注*0.95|(關心) 您的安全并為此推出了一項功能

4. 匹配查找

   匹配查找就是搜索引擎核心的邏輯了, 當然在遇到 "滿分*0.8|非常*0.95|(十分)" 需要增加同義詞判斷邏輯, 根據2個權重可以得出一個同義詞的匹配度, 然后繼續分析即可.

以上只是一個非常簡單的分析模擬, 和實際的搜索引擎邏輯差別非常大, 僅供參考.

posted on 2010-08-16 09:26 Scud(飛云小俠) 閱讀(2631) 評論(1) 編輯收藏所屬分類: Java 、理論原則

目前所有的搜索引擎都只是按關鍵詞查找內容，最多也只是做了一些很簡單的處理，比如搜索：武大，可能會把武漢大學也搜索出來，但像你這篇文章中提到的，現在還沒有搜索引擎能做到。
以后的搜索引擎可能會在智能程度提高，但難度也是非常大的。回復更多評論

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: MAVEN:如何為開發和生產環境建立不同的配置文件 --我的簡潔方案對搜索引擎同義詞支持的實驗, 分析模擬不重復的排列組合示例最近在編寫DBHelper的文檔讀"Under the Hood of J2EE Clustering" J2EE集群幾個提高代碼質量,檢查代碼規范的工具分析XML中的CDATA類型在RSS中的使用使用FreeMarker/Jsp(webwork)生成靜態/動態RSS文件 Rss 中日期格式的研究使用Lucene進行全文檢索(三)---進行搜索

# re: 對搜索引擎同義詞支持的實驗, 分析模擬 2010-08-16 10:02 bbmonkey62笨笨猴

對搜索引擎同義詞支持的實驗, 分析模擬

評論

導航

統計

公告

常用鏈接

留言簿(15)

隨筆分類(113)

隨筆檔案(103)

相冊

友情鏈接

技術網站

搜索

積分與排名

最新評論

閱讀排行榜

評論排行榜