<rt id="bn8ez"></rt>
<label id="bn8ez"></label>

  • <span id="bn8ez"></span>

    <label id="bn8ez"><meter id="bn8ez"></meter></label>

    Terry.Li-彬

    虛其心,可解天下之問;專其心,可治天下之學;靜其心,可悟天下之理;恒其心,可成天下之業。

      BlogJava :: 首頁 :: 新隨筆 :: 聯系 :: 聚合  :: 管理 ::
      143 隨筆 :: 344 文章 :: 130 評論 :: 0 Trackbacks
    Lucene提供了豐富的API來組合定制你所需要的查詢器,同時也可以利用 Query Parser提供的強大的查詢語法解析來構造你想要的查詢器。本文章詳細的介紹了Lucene的查詢語法。通過Java語法分析器把一個查詢字符串解析成 Lucene的查詢器。在你選擇使用Query Parser前,請考慮以下事項:

    如果你打算在程序中拼接查詢語法串然后再利用 Query Parser轉換,那么強烈建議你利用相應的API來自己構造查詢器。也就是說,Query Parser是為手工輸入高級查詢設計的,而不是為程序拼接語法串而設計的。不分詞的字段也最好通過相應的API添加到查詢器中,而不是通過Query Parser。Query Parser 使用的Analyser分析器,作用是將用戶手工輸入的文本轉化為相應的Term。如果一個字段的值是通過程序生成的(例如日期字段,關鍵詞字段等),那 么在查詢的時候也應該保持前后一致,利用程序生成相應的格式來查詢。

    在查詢的目標中,如果字段全部是程序生成的文本,(例如補齊的日期字 段等),最好使用Query Parser以便查詢的時候也是一致的格式。至于其它的,例如日期范圍查詢,關鍵字查詢等,最好調用相應的API來構建查詢器。目標字段中如果僅僅擁有有 限的枚舉值時,最好通過下拉列表提供給用戶選擇,然后利用TermQuery添加到查詢器中,而不是而其拼接到查詢字符串然后利用Query Parser來解析。

    Terms
    一個查詢將分解為若干Term以及操作符,有兩種 Term,其一是單一Term,其二為短語。單一Term是經過分析器分詞后的最小單元,他就是一個簡單的詞,例如“Test”和“Hello”。短語則 是一組被雙引號括起來的一組詞,例如:“Hello dolly”,多個Term可以通過布爾操作合并在一個更加復雜的查詢器中。
    注意:一般來說,創建索引的分析器和查詢的分析器最好保持一致(當然也有特殊情況,比如單字索引,分詞組合查詢),所以選擇一個不會干擾查詢詞的分析器是很重要的。

    Fields
    Lucene 支持多字段數據,當你在查詢的時候你可以指定一個字段查詢,也可以使用默認的字段。你可以使用 字段名 + “:” + 查詢詞來指定字段名搜索。舉個例子,讓我們假定Lucene的索引中含有兩個字段,Title字段和Text字段,其中Text字段是默認字段,當你想找 到一篇文檔其中標題包含“The Right Way”同時文本中包含“go”,你可以輸入:
    title:"The Right Way" AND text:go
    或者:
    title:" The Right Way " AND go
    如果字段是默認字段的話,在查詢語法中可以不需要顯式指定。注意,使用默認字段有可能會造成如下的結果:
    title:Do it right
    以上查詢將查找標題中含有“Do”,Text字段字段中含有“it”和“right”的文檔,因為Text是默認字段,所以如果想要查找Title中完整包含的很用引號引起來。

    Term Modifiers
    Lucene支持在Term中使用通配符來支持模糊查詢。

    Wildcard Searches
    Lucene支持單個或者多個字符的通配符查詢,匹配單一字符使用符號“?”,匹配多個字符使用符號“*”。
    “?”通配符將查找所有滿足通過一個字符替換后符合條件的文檔。比如:搜索“test”和“text”你可以使用:
    te?t
    “*”通配符將查詢0個或者多個字符替換后符合條件的。舉例來說,查詢test,tests或者tester,你可以使用一下字符串來搜索:
    test*
    當然,你也可以將“*”放在字符的中間
    te*t
    注意:你不能將“*”和“?”放在第一個字符來查詢。(Lucene應該是出于性能考慮,所以不支持該功能)

    Fuzzy Searches
    Lucene支持基于編輯距離算法的模糊搜索,你可以使用波浪符號“~”放在查詢詞的后面,比如搜索一個與“roam”拼寫相近的詞可以使用:
    roam~
    該查詢將尋找類似“foam”和“roams”等的詞語。也可以說是相似度查詢。

    Proximity Searches
    Lucene支持指定距離查詢,你可以使用波浪號“~”加數字在查詢詞后。舉例來說搜索“apache”和“jakarta”距離10個字符以內,你可以使用如下語法:
    "jakarta apache"~10
    通過這個語法支持,我們可以單字索引,分詞查詢,分詞完后,滿足每個詞的單字必須間距為0。這樣可以保證100%的召回率,但是在索引方面將造成索引臃腫,同時查詢速度也將在某程度上降低,一般來說,在150W文章數據到200W數據的時候性能將會明顯的降低。

    Range Searches
    范圍查詢允許你指定某個字段最大值和最小值,查詢在二者之間的所有文檔。范圍查詢可以包含或者不包含最大值和最小值,排序是按照字典順序來排序的。
    mod_date:[20020101 TO 20030101]
    這個將查找滿足mode_date字段在大于等于20020101,小于等于20030101范圍的所有文檔,注意:范圍查詢并不是為日期字段專設的,你也可以對非日期字段進行范圍查詢。
    title:{Aida TO Carmen}
    這個將查找所有標題在Aida和Carmen之間但不包含Aida和Carmen的文檔。包含最大值和最小值的查詢使用方括號,排除則使用花括號。

    Boosting a Term
    Lucene支持給不同的查詢詞設置不同的權重。設置權重使用“^”符號,將“^”放于查詢詞的尾部,同時跟上權重值,權重因子越大,該詞越重要。設置權重允許你通過給不同的查詢詞設置不同的權重來影響文檔的相關性,假如你在搜索:
    jakarta apache
    如果你認為“jakarta”在查詢時中更加重要,你可以使用如下語法:
    jakarta^4 apache
    這將使含有Jakarta的文檔具有更高的相關性,同樣你也可以給短語設置權重如下:
    "jakarta apache"^4 "jakarta lucene"
    在默認情況下,權重因子為1,當然權重因子也可以小于1。

    Boolean operators
    布爾操作符可以將多個Term合并為一個復雜的邏輯查詢。Lucene支持AND,
    +,OR,NOT, -作為操作符號。注意,所有的符號必須為大寫。

    OR
    OR 操作符默認的連接操作符。這意味著,當沒有給多個Term顯式指定操作符時,將使用OR,只要其中一個Term含有,則可以查詢出文檔,這跟邏輯符號|| 的意思相似。假設我們查詢一個文檔含有“jakarta apache”或者“jakarta”時,我們可以使用如下語法:
    "jakarta apache" jakarta
    或者
    "jakarta apache" OR jakarta

    AND
    AND操作符規定必須所有的Term都出現才能滿足查詢條件,這跟邏輯符號&&意思相似。如果我們要搜索一個文檔中同時含有“jakarta apache”和“jakarta lucene”,我們可以使用如下語法:
    ?? "jakarta apache" AND "jakarta lucene"

    +
    +操作符規定在其后的Term必須出現在文檔中,也就是查詢詞中的MUST屬性。舉個例子來說,當我們要查詢一個文檔必須包含“jakarta”,同時可以包含也可以不包含“lucene”時,我們可以使用如下語法:
    +jakarta apache

    NOT
    NOT操作符規定查詢的文檔必須不包含NOT之后的Term,這跟邏輯符號中的!相似。當我們要搜索一篇文檔中必須含有“jakarta apache”同時不能含有“Jakarta lucene”時,我們可以使用如下查詢;
    "jakarta apache" NOT "jakarta lucene"
    注意:NOT操作符不能使用在單獨Term中,舉例來說,以下查詢將返回無結果:
    NOT "jakarta apache"

    -
    -操作符排除了包含其后Term的文檔,跟NOT有點類似,假設我們要搜索“Jakarta apache”但不包含“Jakarta lucene”時,我們使用如下語法:
    "jakarta apache" -"jakarta lucene"

    Grouping
    Lucene支持使用圓括號來將查詢表達式分組,這將在控制布爾控制查詢中非常有用。舉例來說:當搜索必須含有“website”,另外必須含有“jakarta”和“apache”之一,我們可以用如下語法:
    (jakarta OR apache) AND website
    這種語法對消除歧義,確保查詢表達式的正確性具有很大的意義。

    Field Grouping
    Lucene支持對字段用圓括號來進行分組,當我們要查詢標題中含有“return”和“pink ranther”時,我們可以使用如下語法:
    title:(+return +"pink panther")

    Escaping Special Characters
    Lucene支持轉義查詢中的特殊字符,以下是Lucene的特殊字符清單:
    + - && || ! ( ) { } [ ] ^ " ~ * ? : \
    轉義特殊字符我們可以使用符號“\”放于字符之前。比如我們要搜索(1+1):2,我們可以使用如下語法:
    \(1\+1\)\:2
    posted on 2010-09-21 10:09 禮物 閱讀(884) 評論(1)  編輯  收藏

    評論

    # re: Lucene Syntax (lucene查詢語法詳解)(轉) 2012-04-16 17:16 guest
    僅僅是翻譯而已  回復  更多評論
      


    只有注冊用戶登錄后才能發表評論。

    網站導航:
     
    主站蜘蛛池模板: 亚洲夜夜欢A∨一区二区三区| 免费无码AV一区二区| 亚洲熟伦熟女新五十路熟妇 | 成年男女男精品免费视频网站| 久久国产一片免费观看| 日韩色视频一区二区三区亚洲| 亚洲欧洲国产视频| 亚洲AV日韩AV永久无码下载| 亚洲精品国产高清不卡在线| 午夜寂寞在线一级观看免费| 18勿入网站免费永久| 久久精品国产免费| 久久er国产精品免费观看8| 亚洲av中文无码乱人伦在线观看| 亚洲一区二区三区国产精品无码| 久久国产亚洲观看| 国产亚洲精品无码成人| 在线观看亚洲成人| 精品国产亚洲男女在线线电影 | 久久亚洲精品成人AV| 亚洲高清国产拍精品26U| 国产亚洲精品自在线观看| 免费在线视频一区| vvvv99日韩精品亚洲| 又粗又大又硬又爽的免费视频 | 亚洲六月丁香婷婷综合| 亚洲伊人久久大香线蕉影院| 亚洲精品456在线播放| 久久精品a亚洲国产v高清不卡| 亚洲综合久久综合激情久久| 亚洲丁香色婷婷综合欲色啪| 亚洲精品免费观看| 亚洲白嫩在线观看| 最新亚洲精品国偷自产在线| 亚洲人成网站看在线播放| 中文字幕 亚洲 有码 在线| 亚洲中文字幕无码爆乳app| 亚洲人成无码网站在线观看| 日韩欧美亚洲中文乱码| 最好2018中文免费视频| 精品一区二区三区免费视频|