久久久久亚洲Av片无码v,亚洲熟妇无码八V在线播放,最新亚洲春色Av无码专区

Lucene 索引数据�?

草原上的骆驼 — Tue, 03 Mar 2009 08:01:00 GMT

Lucene�Q�作��Z��U�全文搜索的辅助工具�Q��ؓ我们�q�行条�g搜烦�Q�无论是像Google,Baidu之类的搜索引擎，�q�是论坛中的搜烦功能�Q�还是其�? C/S架构的搜索，都带来了极大的便利和比较高的效率。本文主要是利用Lucene对MS Sql Server 2000�q�行建立索引�Q�然后进行全文烦引。至于数据库的内容，可以是网��늚�内容�Q�还是其它的。本文中数据库的内容是图书馆��理�pȝ��中的某个作者表 �Q�Authors表�?

　　因�ؓ考虑到篇�q�的问题�Q�所以该文不会讲的很详细�Q�也不可能讲的很深�?/p>

　　本文以这��L��l�构�q�行�Q?/p>

　　1.介绍数据库中Authors表的�l�构

　　2.为数据库建立索引

　　3.为数据库建立查询功能

　　4.在web界面下进行查询�ƈ昄��l�果

　　1�Q�介�l�数据库中Authors表的�l�构

字段名称字段�c�d�� 字段含义

Au_id                Varchar(11)    作者号
Au_name        Varchar(60)     作者名
Phone             Char(12)           电话��L��
Address          Varchar(40)      地址
City                   Varchar(20)     城市
State                Char(2)             省䆾
Zip                    Char(5)             邮编
contract            Bit(1)                外键�Q�关�p�M��大）

表中的部分内容：

　　2�Q��ؓ数据库徏立烦�?/p>

　　首先建立一个类TestLucene.java。这个类��是�Ҏ��据库�q�行建立索引�Q�编写查询条件等�?/p>

　　当然�Q�最开始就是徏立数据库�q�接。连接代码这里就省略了。^_^

　　接着�Q�新��Z��个方法getResutl(String),它返回的是数据库表Authors的内宏V��具体代码如下：

    public ResultSet getResult(String sql){
      try{
        Statement stmt = conn.createStatement();
        ResultSet rs = stmt.executeQuery(sql);
        return rs;
      }
      catch(SQLException e){
        System.out.println(e);
      }
      return null;
    }

然后�Q��ؓ数据库徏立烦引�?/p>

public void Index(ResultSet rs){
      try{
        IndexWriter writer = new IndexWriter("d:/index/", getAnalyzer(), true);
        while(rs.next()){
            Document doc=new Document();
            doc.add(Field.Keyword("id",rs.getString("au_id")));
            doc.add(Field.Text("name",rs.getString("au_name")));
            doc.add(Field.UnIndexed("address",rs.getString("address")));
            doc.add(Field.UnIndexed("phone",rs.getString("phone")));
            doc.add(Field.Text("City",rs.getString("city")));
            writer.addDocument(doc);
          }
        writer.optimize();
        writer.close();
      }
      catch(IOException e){
        System.out.println(e);
      }
      catch(SQLException e){
        System.out.println(e);
      }
    }

    public Analyzer getAnalyzer(){
      return new StandardAnalyzer();
    }

3�Q��ؓ数据库徏立查询功�?/p>

public Hits seacher(String queryString){
      Hits hits=null;;
      try{
        IndexSearcher is = new IndexSearcher("D:/index/");
        Query query=QueryParser.parse(queryString,"City",getAnalyzer());
        hits=is.search(query);
      }catch(Exception e){
        System.out.print(e);
      }
      return hits;
    }

4�Q�在web界面下进行查询�ƈ昄��l�果

　　�q�里建立一个Jsp��面TestLucene.jsp�q�行搜烦�?/p>

　　在TestLucene.jsp��面中首先引入类

<%@ page import="lucenetest.LucentTest"%>
<%@ page import="org.apache.lucene.search.*,org.apache.lucene.document.*" %>

然后定义一个LuceneTest对象�Q�获取查询结果集�Q?/p>

LucentTest lucent=new LucentTest();
Hits hits=lucent.seacher(request.getParameter("queryString"));

定义一个Form�Q�徏立一个查询环境：

草原上的骆驼 — Tue, 03 Mar 2009 07:57:00 GMT

(�?http://www.wujianrong.com/archives/2007/03/lucene_7.html
1.写一�D�传�l�的JDBC�E�序�Q�讲每条的用户信息从数据库读取出�?br /> 2.针对每条用户记录�Q�徏立一个lucene document
Document doc = new Document();
�q�根据你的需要，��用户信息的各个字段对应luncene document中的field �q�行��d��Q�如�Q?
doc.add(new Field("NAME","USERNAME",Field.Store.YES,Field.Index.UN_TOKENIZED));
然后��该条doc加入到烦引中�Q?如： luceneWriter.addDocument(doc);
�q�样��徏立了lucene的烦引库
3.�~�写对烦引库的搜索程序（看lucene文档�Q�，通过对lucene的烦引库的查找，你可以快速找到对应记录的ID
4.通过ID到数据库中查扄��兌��?

用Lucene索引数据�?/font>

Lucene�Q�作��Z��U�全文搜索的辅助工具�Q��ؓ我们�q�行条�g搜烦�Q�无论是像Google,Baidu之类的搜索引擎，�q�是论坛中的搜烦功能�Q�还是其�? C/S架构的搜索，都带来了极大的便利和比较高的效率。本文主要是利用Lucene对MS Sql Server 2000�q�行建立索引�Q�然后进行全文烦引。至于数据库的内容，可以是网��늚�内容�Q�还是其它的。本文中数据库的内容是图书馆��理�pȝ��中的某个作者表�Q? Authors表�?

　　因�ؓ考虑到篇�q�的问题�Q�所以该文不会讲的很详细�Q�也不可能讲的很深�?/p>

　　本文以这��L��l�构�q�行�Q?/p>

　　1.介绍数据库中Authors表的�l�构

　　2.为数据库建立索引

　　3.为数据库建立查询功能

　　4.在web界面下进行查询�ƈ昄��l�果

　　1�Q�介�l�数据库中Authors表的�l�构

字段名称字段�c�d�� 字段含义

　　2�Q��ؓ数据库徏立烦�?/p>

　　首先建立一个类TestLucene.java。这个类��是�Ҏ��据库�q�行建立索引�Q�编写查询条件等�?/p>

　　当然�Q�最开始就是徏立数据库�q�接。连接代码这里就省略了。^_^

　　接着�Q�新��Z��个方法getResutl(String),它返回的是数据库表Authors的内宏V��具体代码如下：

　　首先要定义一个IndexWriter�Q�）�Q�它是将索引写进Lucene自己的数据库中，它存攄��位置是有你自己定义的。在定义 IndexWriter 是需要指定它的分析器。Lucene自己自带有几个分析器�Q�例如：StandarAnalyzer(),SimpleAnalyzer(), StopAnalyzer()�{�。它作用是对文本�q�行分析�Q�判断如何进行切词�?br /> 接着�Q�要定义一个Document。Document相当于二�l�表中一行数据一栗��Document里包含的是Field字段�Q�Field相当于数据库中一列，也就是一个属性，一个字�D�c�?br /> 最后应该对IndexWriter�q�行优化�Q�方法很��单，��是writer.optimize().
具体代码如下�Q?br />
public void Index(ResultSet rs){
      try{
        IndexWriter writer = new IndexWriter("d:/index/", getAnalyzer(), true);
        while(rs.next()){
            Document doc=new Document();
            doc.add(Field.Keyword("id",rs.getString("au_id")));
            doc.add(Field.Text("name",rs.getString("au_name")));
            doc.add(Field.UnIndexed("address",rs.getString("address")));
            doc.add(Field.UnIndexed("phone",rs.getString("phone")));
            doc.add(Field.Text("City",rs.getString("city")));
            writer.addDocument(doc);
          }
        writer.optimize();
        writer.close();
      }
      catch(IOException e){
        System.out.println(e);
      }
      catch(SQLException e){
        System.out.println(e);
      }
    }

    public Analyzer getAnalyzer(){
      return new StandardAnalyzer();
    }

3�Q��ؓ数据库徏立查询功�?/p>

　　在类TestLucene中徏立一个新的方法searcher(String)�Q�它�q�回的是一个搜索的�l�构集，相当于数据库中的ResultSet一栗��它代的参数是你要查询的内容。这里，我把要查询的字段写死了。你可以在添加一个参数表�C��查询的字�D�c�?br /> �q�里主要有两个对象IndexSearcher和Query。IndexSearcher是找到烦引数据库�Q�Query是处理搜索，它包含了三个参数�Q�查询内容，查询字段�Q�分析器�?br /> 具体代码如下�Q?br />
public Hits seacher(String queryString){
      Hits hits=null;;
      try{
        IndexSearcher is = new IndexSearcher("D:/index/");
        Query query=QueryParser.parse(queryString,"City",getAnalyzer());
        hits=is.search(query);
      }catch(Exception e){
        System.out.print(e);
      }
      return hits;
    }

4�Q�在web界面下进行查询�ƈ昄��l�果

　　�q�里建立一个Jsp��面TestLucene.jsp�q�行搜烦�?/p>

　　在TestLucene.jsp��面中首先引入类

<%@ page import="lucenetest.LucentTest"%>
<%@ page import="org.apache.lucene.search.*,org.apache.lucene.document.*" %>

　　然后定义一个LuceneTest对象�Q�获取查询结果集�Q?br />
LucentTest lucent=new LucentTest();
Hits hits=lucent.seacher(request.getParameter("queryString"));

定义一个Form�Q�徏立一个查询环境：

昄��查询�l�果�Q?br />

<%if(hits!=null){%>

<% for(int i=0;i Document doc=hits.doc(i);
 %>

<% }}%>

作者号	作者名	地址	电话��L��
<%=doc.get("id") %>	<%=doc.get("name") %>	<%=doc.get("address") %>	<%=doc.get("phone") %>

用Lucene-1.3-final为网站数据库建立索引

下是看了lnboy写的《用lucene建立大富��论坛的全文��索》后写的��试代码�?br />
为数据库cwb.mdb建立全文索引的indexdb.jsp

<%@ page import ="org.apache.lucene.analysis.standard.*" %>
<%@ page import="org.apache.lucene.index.*" %>
<%@ page import="org.apache.lucene.document.*" %>
<%@ page import="lucene.*" %>
<%@ page contentType="text/html; charset=GBK" %>
<%
 long start = System.currentTimeMillis();
 String aa=getServletContext().getRealPath("/")+"index";
 IndexWriter writer = new IndexWriter(aa, new StandardAnalyzer(), true);
 try {
 Class.forName("sun.jdbc.odbc.JdbcOdbcDriver").newInstance();

String url = "jdbc:odbc:driver={Microsoft Access Driver (*.mdb)}
 ;DBQ=d:""Tomcat 5.0""webapps""zz3zcwbwebhome""WEB-INF""cwb.mdb";
 Connection conn = DriverManager.getConnection(url);
 Statement stmt = conn.createStatement();
 ResultSet rs = stmt.executeQuery(
 "select Article_id,Article_name,Article_intro from Article");
 while (rs.next()) {
 writer.addDocument(mydocument.Document(rs.getString("Article_id"),
 rs.getString("Article_name"),rs.getString("Article_intro")));
 }
 rs.close();
 stmt.close();
 conn.close();

 out.println("索引创徏完毕");
 writer.optimize();
 writer.close();
 out.print(System.currentTimeMillis() - start);
 out.println(" total milliseconds");

 }
 catch (Exception e) {
 out.println(" 出错�?nbsp;" + e.getClass() +
 ""n 错误信息�? " + e.getMessage());
 }
%>

用于昄��查询�l�果的aftsearch.jsp
<%@ page import="org.apache.lucene.search.*" %>
<%@ page import="org.apache.lucene.document.*" %>
<%@ page import="lucene.*" %>
<%@ page import = "org.apache.lucene.analysis.standard.*" %>
<%@ page import="org.apache.lucene.queryParser.QueryParser" %>
<%@ page contentType="text/html; charset=GBK" %>
<%
 String keyword=request.getParameter("keyword");
 keyword=new String(keyword.getBytes("ISO8859_1"));
 out.println(keyword);
 try {
 String aa=getServletContext().getRealPath("/")+"index";
 Searcher searcher = new IndexSearcher(aa);
 Query query = QueryParser.parse(keyword, "Article_name", new StandardAnalyzer());

 out.println("正在查找: " + query.toString("Article_name")+"
");
 Hits hits = searcher.search(query);
 System.out.println(hits.length() + " total matching documents");
 java.text.NumberFormat format = java.text.NumberFormat.getNumberInstance();
 for (int i = 0; i < hits.length(); i++) {
 //开始输出查询结�?nbsp;
 Document doc = hits.doc(i);
 out.println(doc.get("Article_id"));
 out.println("准确度�ؓ�Q? + format.format(hits.score(i) * 100.0) + "%");
 out.println(doc.get("Article_name")+"
");
 // out.println(doc.get("Article_intro"));
 }
 }catch (Exception e) {
 out.println(" 出错�?nbsp;" + e.getClass() +""n 错误信息�? " + e.getMessage());
 }
%>

辅助�c�：
package lucene;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.DateField;

public class mydocument {
public static Document Document(String Article_id,String Article_name,String Article_intro){
 Document doc = new Document();
 doc.add(Field.Keyword("Article_id", Article_id));
 doc.add(Field.Text("Article_name", Article_name));
 doc.add(Field.Text("Article_intro", Article_intro));
 return doc;
 }
 public mydocument() {
 }
}

用lucene为数据库搜烦建立增量索引

�?nbsp;lucene 建立索引不可能每�ơ都重新开始徏�?而是按照新增加的记录,一�ơ次的递增
建立索引的IndexWriter�c?有三个参�?nbsp;

IndexWriter writer = new IndexWriter(path, new StandardAnalyzer(),isEmpty);

其中�W�三个参数是bool型的,指定它可以确定是增量索引,�q�是重徏索引.
对于从数据库中读取的记录,譬如要�ؓ文章建立索引,我们可以记录文章的id�?然后下次再次建立索引的时候读取存下的id�?从此id后往下��l�增加烦�?逻辑如下.

建立增量索引,主要代码如下

public void createIndex(String path)
{
     Statement myStatement = null;
     String articleId="0";
     //��d��文�g,获得文章id��L��,�q�里只存最后一��烦引的文章id
    try {
        FileReader fr = new FileReader("**.txt");
        BufferedReader br = new BufferedReader(fr);
        articleId=br.readLine();
        if(articleId==null||articleId=="")
        articleId="0";
        br.close();
        fr.close();
      } catch (IOException e) {
        System.out.println("error343!");
        e.printStackTrace();
      }
    try {
        //sql语句,�Ҏ��id��d��下面的内�?/span>
        String sqlText = "*****"+articleId;
        myStatement = conn.createStatement();
        ResultSet rs = myStatement.executeQuery(sqlText);
       //写烦�?/span>
        while (rs.next()) {
         Document doc = new Document();
         doc.add(Field.Keyword("**", DateAdded));
         doc.add(Field.Keyword("**", articleid));
         doc.add(Field.Text("**", URL));
         doc.add(Field.Text("**", Content));
         doc.add(Field.Text("**", Title));
         try{
            writer.addDocument(doc);
          }
          catch(IOException e){
            e.printStackTrace();
         }
           //��我索引的最后一��文章的id写入文�g
          try {
           FileWriter fw = new FileWriter("**.txt");
           PrintWriter out = new PrintWriter(fw);
           out.close();
           fw.close();
           } catch (IOException e) {
             e.printStackTrace();
           }
         }
            ind.Close();
            System.out.println("ok.end");
         }
         catch (SQLException e){
            e.printStackTrace();
        }
        finally {
            //数据库关闭操�?/span>
        }
    }

然后控制是都建立增量索引的时候根据能否都到id值来讄��IndexWriter的第三个参数为true 或者是false

boolean isEmpty = true;
try {
    FileReader fr = new FileReader("**.txt");
    BufferedReader br = new BufferedReader(fr);
    if(br.readLine()!= null) {
        isEmpty = false;
     }
     br.close();
     fr.close();
    } catch (IOException e) {
       e.printStackTrace();
  }

  writer = new IndexWriter(Directory, new StandardAnalyzer(),isEmpty);

草原上的骆驼 2009-03-03 15:57 发表评论

Lucene索引查询分页实例

草原上的骆驼 — Tue, 03 Mar 2009 07:56:00 GMT

一、输入关键字的lucene.html

二、进行搜索和昄��l�果的search.jsp <%@ page contentType="text/html; charset=gb2312" %>
<%@ page import="java.util.*" %>
<%@ page import="java.text.SimpleDateFormat" %>
<%@ page import = "org.apache.lucene.analysis.standard.StandardAnalyzer" %>
<%@ page import="org.apache.lucene.index.IndexReader" %>
<%@ page import="org.apache.lucene.document.Document" %>
<%@ page import="org.apache.lucene.search.IndexSearcher" %>
<%@ page import="org.apache.lucene.search.Hits" %>
<%@ page import="org.apache.lucene.search.Query" %>
<%@ page import="page.Pagination" %> <%@ page import="org.apache.lucene.queryParser.QueryParser" %>
<%@ page import ="org.apache.lucene.analysis.Analyzer" %>
<%

  String queryString = request.getParameter("keyword");  



if (queryString == null||queryString.length()==0){

out.println("搜烦关键字不能�ؓ�I?);



}else{

queryString=new String(queryString.getBytes("ISO8859_1"));

String indexPath=getServletContext().getRealPath("/")+"index";    

boolean error = false;    

Document doc;            



IndexSearcher searcher = null;         

Query query = null;                    

Hits hits = null;                      



try {

searcher = new IndexSearcher(IndexReader.open(indexPath));

} catch (Exception e) {                         

out.print("没有扑ֈ�索引文�g�Q?);

out.print(e.getMessage());   

error = true;                                

}

if (error == false) {                                          

Analyzer analyzer = new StandardAnalyzer();

try {

query = QueryParser.parse(queryString, "Article_name", analyzer);  

} catch (Exception e) {                         

out.print(e.getMessage());

error = true;                                 



}

}

if (error == false && searcher != null) {                     



hits = searcher.search(query);                        

if (hits.length() == 0) { 

out.print("对不��P��没有扑ֈ�你所需要的资源. ");

error = true;                                        

}

}

if (error == false && searcher != null) {   

out.print("搜烦关键字："+ queryString+ "");  

//Pagination�c�L���|�上下蝲的，需要传递一个向量，你可以改,�q�样��׃��用做二遍�? 

Vector list=new Vector();

for(int i=0;i< hits.length();i++){

doc = hits.doc(i);     

list.add(doc);

}    



out.print("扑ֈ�的资�?/font>");

Pagination pagination = null;

String pageNumber = request.getParameter("pageNumber");



int showItemNumber = 10;

if (pageNumber == null) {

pageNumber = "1";

}

String HTML = "";

if (list != null && list.size() > 0) {

pagination = new Pagination(); 

pagination.setPageNumber(Integer.parseInt(pageNumber));

pagination.setShowItemNumber(showItemNumber);

pagination.setVisitPageURL("search.jsp?keyword="+queryString);

list =(Vector) pagination.interceptListByStarItemNumber(list);

for(int i=0;i< list.size();i++)

{

doc =(Document) list.get(i);     

String A_id=doc.get("Article_id");               

String doctitle = doc.get("Article_name");            

String url = doc.get("File_name")+"?id="+A_id;                   



out.print("< a +doctitle+"");

}

HTML = pagination.buildHTML("600");

out.print(HTML);

}

}       



}

草原上的骆驼 2009-03-03 15:56 发表评论

Lucene基本使用介绍

草原上的骆驼 — Tue, 03 Mar 2009 03:35:00 GMT

本文�? 目的不在于对Lucene的概念和设计�q�些�q�行介绍�Q�仅在于介绍怎么样去使用Lucene来达到自己想要的几种常见的全文检索的需求，如果��x��入了�? Lucene的话本文不会带给你什么收��L��。看完本文后��x��深入的了解Lucene误��问：http://lucene.apache.org

一. 概述

随着�pȝ��信息的越来越多，怎么样从�q�些信息��h��中捞赯��己想要的那一栚w��变得非帔R��要了�Q�全文检索是通常用于解决此类问题的方案，�?/span>Lucene则�ؓ实现全文��索的工具�Q��Q何应用都可通过嵌入它来实现全文��索�?/span>

�? 环境搭徏

�?/span>lucene.apache.org上下载最新版本的lucene.jar�Q�将�?/span>jar作�ؓ��目�?/span>build path�Q�那么在��目中就可以直接使用lucene了�?/span>

�? 使用说明

3.1. 基本概念

�q�里介绍的主要�ؓ在��用中�l�常��到一些概念，以大安��比较熟悉的数据库来进行类比的讲解�Q��?/span>Lucene�q�行全文��索的�q�程有点�c�M��数据库的�q�个�q�程�Q?/span>table---à查询相应的字�D�|��查询条�g----à�q�回相应的记录，首先�?/span>IndexWriter�Q�通过它徏立相应的索引表，相当于数据库中的table�Q�在构徏此烦引表旉��指定的�ؓ该烦引表采用何种方式�q�行构徏�Q�也��是说对于其中的记录的字�D�以什么方式来�q�行格式的划分，�q�个�?/span>Lucene中称�?/span>Analyzer�Q?/span>Lucene提供了几�U�环境下使用�?/span>Analyzer�Q?/span>SimpleAnalyzer�?/span>StandardAnalyzer�?/span>GermanAnalyzer�{�，其中StandardAnalyzer是经�怋�用的�Q�因为它提供了对于中文的支持�Q�在表徏好后我们��需要往里面插入用于索引的记录，�?/span>Lucene中这个称�?/span>Document�Q�有点类似数据库�?/span>table的一行记录，记录中的字段的添加方法，�?/span>Lucene中称�?/span>Field�Q�这个和数据库中基本一��P��对于Field Lucene分�ؓ可被索引的，可切分的�Q�不可被切分的，不可被烦引的几种�l�合�c�d��Q�通过�q�几个元素基本上��可以徏立�v索引了。在查询时经常碰到的为另外几个概念，首先�?/span>Query�Q?/span>Lucene提供了几�U�经常可以用到的Query�Q?/span>TermQuery�?/span>MultiTermQuery�?/span>BooleanQuery�?/span>WildcardQuery�?/span>PhraseQuery�?/span>PrefixQuery�?/span>PhrasePrefixQuery�?/span>FuzzyQuery�?/span>RangeQuery�?/span>SpanQuery�Q?/span>Query其实也就是指对于需要查询的字段采用什么样的方式进行查询，如模�p�查询、语义查询、短语查询、范围查询、组合查询等�Q�还有就�?/span>QueryParser�Q?/span>QueryParser可用于创��Z��同的Query�Q�还有一�?/span>MultiFieldQueryParser支持对于多个字段�q�行同一关键字的查询�Q?/span>IndexSearcher概念指的为需要对何目录下的烦引文件进行何�U�方式的分析的查询，有点象对数据库的哪种索引表进行查询�ƈ按一定方式进行记录中字段的分解查询的概念�Q�通过IndexSearcher以及Query卛_��查询出需要的�l�果�Q?/span>Lucene�q�回的�ؓHits.通过遍历Hits可获取返回的�l�果�?/span>Document�Q�通过Document则可获取Field中的相关信息了�?/span>

通过对于上面在徏立烦引和全文��索的基本概念的介�l�希望能让你�?/span>Lucene建立一定的了解�?/span>

3.2. 全文��索需求的实现

索引建立部分的代码：

private void createIndex(String indexFilePath) throws Exception{

        IndexWriter iwriter=getWriter(indexFilePath);

        Document doc=new Document();

        doc.add(Field.Keyword("name","jerry"));

        doc.add(Field.Text("sender","bluedavy@gmail.com"));

        doc.add(Field.Text("receiver","google@gmail.com"));

        doc.add(Field.Text("title","用于索引的标�?/span>"));

        doc.add(Field.UnIndexed("content","不徏立烦引的内容"));

        Document doc2=new Document();

        doc2.add(Field.Keyword("name","jerry.lin"));

        doc2.add(Field.Text("sender","bluedavy@hotmail.com"));

        doc2.add(Field.Text("receiver","msn@hotmail.com"));

        doc2.add(Field.Text("title","用于索引的第二个标题"));

        doc2.add(Field.Text("content","建立索引的内�?/span>"));

        iwriter.addDocument(doc);

        iwriter.addDocument(doc2);

        iwriter.optimize();

        iwriter.close();

    }



    private IndexWriter getWriter(String indexFilePath) throws Exception{

        boolean append=true;

        File file=new File(indexFilePath+File.separator+"segments");

        if(file.exists())

            append=false;

        return new IndexWriter(indexFilePath,analyzer,append);

    }

3.2.1. 对于某字�D늚�关键字的模糊查询

Query query=new WildcardQuery(new Term("sender","*davy*"));



 Searcher searcher=new IndexSearcher(indexFilePath);

 Hits hits=searcher.search(query);

 for (int i = 0; i < hits.length(); i++) {

 System.out.println(hits.doc(i).get("name"));

 }

3.2.2. 对于某字�D늚�关键字的语义查询

Query query=QueryParser.parse("索引","title",analyzer);



 Searcher searcher=new IndexSearcher(indexFilePath);

 Hits hits=searcher.search(query);

 for (int i = 0; i < hits.length(); i++) {

 System.out.println(hits.doc(i).get("name"));

 }

3.2.3. 对于多字�D늚�关键字的查询

Query query=MultiFieldQueryParser.parse("索引",new String[]{"title","content"},analyzer);



 Searcher searcher=new IndexSearcher(indexFilePath);

 Hits hits=searcher.search(query);

 for (int i = 0; i < hits.length(); i++) {

 System.out.println(hits.doc(i).get("name"));

 }

3.2.4. 复合查询(多种查询条�g的综合查�?/span>)

Query query=MultiFieldQueryParser.parse("索引",new String[]{"title","content"},analyzer);

 Query mquery=new WildcardQuery(new Term("sender","bluedavy*"));

 TermQuery tquery=new TermQuery(new Term("name","jerry"));



 BooleanQuery bquery=new BooleanQuery();

 bquery.add(query,true,false);

 bquery.add(mquery,true,false);

 bquery.add(tquery,true,false);



 Searcher searcher=new IndexSearcher(indexFilePath);

 Hits hits=searcher.search(bquery);

 for (int i = 0; i < hits.length(); i++) {

 System.out.println(hits.doc(i).get("name"));

 }

�? �ȝ��

�怿�大家通过上面的说明能知道Lucene的一个基本的使用�Ҏ��Q�在全文��索时��大家先采用语义时的搜索，先搜索出有意义的内容�Q�之后再�q�行模糊之类的搜索，^_^�Q�这个还是需要根据搜索的需求才能定了，Lucene�q�提供了很多其他更好用的�Ҏ��Q�这个就�{�待大家在��用的�q�程中自己去�q�一步的摸烦了，比如对于Lucene本��n提供�?/span>Query的更熟练的掌握，对于Filter�?/span>Sorter的��用，自己扩展实现Analyzer�Q�自己实�?/span>Query�{�等�Q�甚臛_��以去了解一些关于搜索引擎的技�?/span>(切词、烦引排�?/span> etc)�{�等�?来源�Q�BlueDavy之技术Blog)

草原上的骆驼 2009-03-03 11:35 发表评论

草原上的骆驼 — Tue, 03 Mar 2009 03:34:00 GMT

看到很多人做lucene的应用时候都要面临中文分词怎么加的问题�Q�下面介�l�一个简单的中文词库�Q�这个词库附带相应的��法�Q�数据结构学�q�的人看懂没什么问题，只要��单的构造一个对象，��可以分词了�Q�对于不是太大的应用来说�Q�还是相当可行的�Q?a >点击下蝲

      该分词库使用很简单，先初试化该类
      ChineseSegmenter seg = ChineseSegmenter.getGBSegmenter();
     然后调用seg.segmentLine("要分词的中文�D?, " ")//�W�二个参��Cؓ分词之间以什么间�?br />       譬如

public static void main(String[] args) throws Exception {

      ChineseSegmenter seg = ChineseSegmenter.getGBSegmenter();
      System.out.println(seg.segmentLine(儿童节日 ,  ));

   }

    输出为儿�?节日儿童�?nbsp;

     下面��要说以下如何加到搜烦代码里，
      lucene 建立索引的代码引入的analysis分词法�ؓ WhitespaceAnalyzer
      import org.apache.lucene.analysis.WhitespaceAnalyzer;

  IndexWriter writer = new IndexWriter(Directory, new WhitespaceAnalyzer(),true);

    public void AddDocument(String Title , String Content , ..)
    {
        Document doc = new Document();

        ChineseSegmenter cs= ChineseSegmenter.getGBSegmenter();    //初始化该�c?/span>

            doc.add(Field.Text("content", cs.segmentLine(Content, " "))); // ��分好的词写�q�烦�?nbsp;

            doc.add(Field.Text("title", cs.segmentLine(Title, " ")));

        try
        {
            writer.addDocument(doc);
        }
        catch(IOException e)
        {
            System.out.println("wrong");
            e.printStackTrace();
        }
    }

草原上的骆驼 2009-03-03 11:34 发表评论

用Lucene��索数据库

草原上的骆驼 — Tue, 03 Mar 2009 03:33:00 GMT

1.写一�D�传�l�的JDBC�E�序�Q�讲每条的用户信息从数据库读取出�?br /> 2.针对每条用户记录�Q�徏立一个lucene document
Document doc = new Document();
�q�根据你的需要，��用户信息的各个字段对应luncene document中的field �q�行��d��Q�如�Q?
doc.add(new Field("NAME","USERNAME",Field.Store.YES,Field.Index.UN_TOKENIZED));
然后��该条doc加入到烦引中�Q?如： luceneWriter.addDocument(doc);
�q�样��徏立了lucene的烦引库
3.�~�写对烦引库的搜索程序（看lucene文档�Q�，通过对lucene的烦引库的查找，你可以快速找到对应记录的ID
4.通过ID到数据库中查扄��兌��?

用Lucene索引数据�?/font>

Lucene�Q�作��Z��U�全文搜索的辅助工具�Q��ؓ我们�q�行条�g搜烦�Q�无论是像Google,Baidu之类的搜索引擎，�q�是论坛中的搜烦功能�Q�还是其它C/S架构的搜索，都带来了极大的便利和比较高的效率。本文主要是利用Lucene对MS Sql Server 2000�q�行建立索引�Q�然后进行全文烦引。至于数据库的内容，可以是网��늚�内容�Q�还是其它的。本文中数据库的内容是图书馆��理�pȝ��中的某个作者表�Q? Authors表�?

　　因�ؓ考虑到篇�q�的问题�Q�所以该文不会讲的很详细�Q�也不可能讲的很深�?/p>

　　本文以这��L��l�构�q�行�Q?/p>

　　1.介绍数据库中Authors表的�l�构

　　2.为数据库建立索引

　　3.为数据库建立查询功能

　　4.在web界面下进行查询�ƈ昄��l�果

　　1�Q�介�l�数据库中Authors表的�l�构

字段名称字段�c�d�� 字段含义

　　2�Q��ؓ数据库徏立烦�?/p>

　　首先建立一个类TestLucene.java。这个类��是�Ҏ��据库�q�行建立索引�Q�编写查询条件等�?/p>

　　当然�Q�最开始就是徏立数据库�q�接。连接代码这里就省略了。^_^

　　接着�Q�新��Z��个方法getResutl(String),它返回的是数据库表Authors的内宏V��具体代码如下：

首先要定义一个IndexWriter�Q�）�Q�它是将索引写进Lucene自己的数据库中，它存攄��位置是有你自己定义的。在定义IndexWriter 是需要指定它的分析器。Lucene自己自带有几个分析器�Q�例如：StandarAnalyzer(),SimpleAnalyzer(), StopAnalyzer()�{�。它作用是对文本�q�行分析�Q�判断如何进行切词�?br /> 接着�Q�要定义一个Document。Document相当于二�l�表中一行数据一栗��Document里包含的是Field字段�Q�Field相当于数据库中一列，也就是一个属性，一个字�D�c�?br /> 最后应该对IndexWriter�q�行优化�Q�方法很��单，��是writer.optimize().
具体代码如下�Q?br />
public void Index(ResultSet rs){
      try{
        IndexWriter writer = new IndexWriter("d:/index/", getAnalyzer(), true);
        while(rs.next()){
            Document doc=new Document();
            doc.add(Field.Keyword("id",rs.getString("au_id")));
            doc.add(Field.Text("name",rs.getString("au_name")));
            doc.add(Field.UnIndexed("address",rs.getString("address")));
            doc.add(Field.UnIndexed("phone",rs.getString("phone")));
            doc.add(Field.Text("City",rs.getString("city")));
            writer.addDocument(doc);
          }
        writer.optimize();
        writer.close();
      }
      catch(IOException e){
        System.out.println(e);
      }
      catch(SQLException e){
        System.out.println(e);
      }
    }

    public Analyzer getAnalyzer(){
      return new StandardAnalyzer();
    }

3�Q��ؓ数据库徏立查询功�?/p>

　　�q�里建立一个Jsp��面TestLucene.jsp�q�行搜烦�?/p>

　　在TestLucene.jsp��面中首先引入类

<%@ page import="lucenetest.LucentTest"%>
<%@ page import="org.apache.lucene.search.*,org.apache.lucene.document.*" %>

昄��查询�l�果�Q?br />

<%if(hits!=null){%>

<% for(int i=0;i Document doc=hits.doc(i);
 %>

<% }}%>

作者号	作者名	地址	电话��L��
<%=doc.get("id") %>	<%=doc.get("name") %>	<%=doc.get("address") %>	<%=doc.get("phone") %>

用Lucene-1.3-final为网站数据库建立索引

�?nbsp;lucene 建立索引不可能每�ơ都重新开始徏�?而是按照新增加的记录,一�ơ次的递增
建立索引的IndexWriter�c?有三个参�?nbsp;

IndexWriter writer = new IndexWriter(path, new StandardAnalyzer(),isEmpty);

然后控制是都建立增量索引的时候根据能否都到id值来讄��IndexWriter的第三个参数为true 或者是false

boolean isEmpty = true;
try {
    FileReader fr = new FileReader("**.txt");
    BufferedReader br = new BufferedReader(fr);
    if(br.readLine()!= null) {
        isEmpty = false;
     }
     br.close();
     fr.close();
    } catch (IOException e) {
       e.printStackTrace();
  }

草原上的骆驼 2009-03-03 11:33 发表评论

草原上的骆驼 — Tue, 03 Mar 2009 03:31:00 GMT

Lucene �?Apache 的一个子��目�Q�是一个全文检索的搜烦引擎库。其提供了简单实用的 API�Q�通过�q�些 API�Q�可以自行编写对文�g�Q�TEXT�Q�XML�Q�HTML�{�）、目录、数据库的全文检索程序�?

Features�Q?span xml:lang="EN-US">
* Very fast indexing, minimal RAM required
* Index compression to 30% of original text
* Indexes text and HTML, document classes available for XML, PDF and RTF
* Search supports phrase and Boolean queries, plus, minus and quote marks, and parentheses
* Allows single and multiple character wildcards anywhere in the search words, fuzzy search, proximity
* Will search for punctuation such as + or
* Field searches for title, author, etc., and date-range searching
* Supports most European languages
* Option to store and display full text of indexed documents
* Search results in relevance order
* APIs for file format conversion, languages and user interfaces

实践��d��Q?span xml:lang="EN-US">
1) �~�写 Java �E�序 MyIndexer.java�Q��?span xml:lang="EN-US"> JDBC 取出 MySQL 数据表内容（以某一论坛数据做测试）�Q�然后通过 org.apache.lucene.index.IndexWriter 创徏索引�?span xml:lang="EN-US">
2) �~�写 Java �E�序 MySearcher.java�Q�通过 org.apache.lucene.search.IndexSearcher �{�查询烦引�?span xml:lang="EN-US">
3) 实现支持中文查询及检索关键字高亮昄��?span xml:lang="EN-US">
4) 通过 PHP / Java Integration 实现�?span xml:lang="EN-US"> MySearch.java 的调用�?span xml:lang="EN-US">
5) 实现�?PHP 手册�Q�简体中文） 的全文检索�?

Java 的程序基本编写完成，实现了对中文的支持。下一步是��其攑ֈ� WEB 上运行，首先惛_��的是使用 JSP�Q�安装了Apache Tomcat/4.1.24�Q�默认的发布端口�?span xml:lang="EN-US"> 8080。现在面临的一个问题是�Q?span xml:lang="EN-US">Apache httpd 的端口是 80�Q��ƈ且我的机器对外只能通过 80 端口�q�行讉K��Q�如果将 Tomcat 的发布端口改�?span xml:lang="EN-US"> 80 的话�Q?span xml:lang="EN-US">httpd ��没法对外了�Q�而其上的 PHP �E�序也将无法�?span xml:lang="EN-US"> 80 端口�q�行�?span xml:lang="EN-US">

对于�q�个问题�Q�我惛_��两种�Ҏ��Q?span xml:lang="EN-US">
1、��?PHP 直接调用 Java。需要做的工作是使用 --with-java 重新�~�译 PHP�Q?span xml:lang="EN-US">
2、��?mod_jk 做桥接的方式�Q�将 servlet 引擎�l�合�?span xml:lang="EN-US"> httpd 中。需要做的工作是�~�译 jakarta-tomcat-connectors-jk-1.2.5-src�Q�生�?span xml:lang="EN-US"> mod_jk.so �l?span xml:lang="EN-US"> httpd 使用�Q�然后按�?Howto 文档 �q�行 Tomcat�?span xml:lang="EN-US">httpd 的配�|��?span xml:lang="EN-US">

对于�W�一个方案的��试�Q��?PHP 直接调用 Java

环境
* PHP 4.3.6 prefix=/usr
* Apache 1.3.27 prefix=/usr/local/apache
* j2sdk1.4.1_01 prefix=/usr/local/jdk

配置步骤
1) 安装 JDK�Q�这个就不多说了�Q?span xml:lang="EN-US">�?/span> GOOGLE 可以搜烦��斚w��的大量文�?/span>�?span xml:lang="EN-US">

2) 重新�~�译 PHP�Q�我�?span xml:lang="EN-US"> PHP 版本�?span xml:lang="EN-US"> 4.3.6�Q?/p>

cd php-4.3.6

./configure --with-java=/usr/local/jdk

make

make install

完成之后�Q�会�?span xml:lang="EN-US"> PHP �?span xml:lang="EN-US"> lib 下（我的是在 /usr/lib/php�Q�有�?span xml:lang="EN-US"> php_java.jar�Q�同时在扩展动态库存放的目录下�Q�我的是�?span xml:lang="EN-US"> /usr/lib/php/20020429�Q�有�?span xml:lang="EN-US"> java.so 文�g。到�q�一步需要注意一个问题，有些 PHP 版本生成的是 libphp_java.so 文�g�Q?span xml:lang="EN-US">extension 的加载只�?span xml:lang="EN-US"> libphp_java.so�Q�直接加�?span xml:lang="EN-US"> java.so 可能会出现如下错误：

PHP Fatal error: Unable to load Java Library /usr/local/jdk/jre/lib/i386/libjava.so, error: libjvm.so:

cannot open shared object file: No such file or directory in /home/nio/public_html/java.php on line 2

所以如果生成的�?span xml:lang="EN-US"> java.so�Q�需要创��Z��个符可��接：

ln -s java.so libphp_java.so

3) 修改 Apache Service 启动文�g�Q�我的这个文件�ؓ /etc/init.d/httpd�Q�，在这个文件中加入�Q?/p>

export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/jdk/jre/lib/i386/server:/usr/local/jdk/jre/lib/i386

正如你所看到的，我的 JDK 装在 /usr/local/jdk 目录下，如果你的不是在此目录�Q�请做相应改动（下同�Q��?span xml:lang="EN-US">

4) 修改 PHP 配置文�g php.ini�Q�找�?span xml:lang="EN-US"> [Java] 部分�q�行修改�Q?/p>

[Java]

java.class.path = /usr/lib/php/php_java.jar

java.home = /usr/local/jdk

;java.library =

;java.library.path =

extension_dir=/usr/lib/php/20020429/

extension=java.so

我将 java.library �?span xml:lang="EN-US"> java.library.path 都注释掉了，PHP 会自动认�?span xml:lang="EN-US"> java.library=/usr/local/jdk/jre/lib/i386/libjava.so�?span xml:lang="EN-US">

5) 重新启动 Apache httpd 服务�Q?/p>

service httpd restart

��试
��试脚本 java.php 源代码：

getProperty('java.version').'
';

print 'Java vendor=' . $system->getProperty('java.vendor').'
';

print 'OS=' . $system->getProperty('os.name') . ' ' .

$system->getProperty('os.version') . ' on ' .

$system->getProperty('os.arch') . '
';

�ȝ��
安装配置�q�算��单，但是�?span xml:lang="EN-US"> PHP �q�行 Java 的速度感觉较慢�Q�所以下定决心开始实�늬�二个�Ҏ��?

今天�ȝ��有些�I�闲旉��Q�正好说说第二种�Ҏ��Q��?mod_jk 做桥接的方式�Q�将 servlet 引擎�l�合�?span xml:lang="EN-US"> httpd 中�?span xml:lang="EN-US">

环境
* PHP 4.3.6 prefix=/usr
* Apache 1.3.27 prefix=/usr/local/apache
* j2sdk1.4.1_01 prefix=/usr/local/jdk
* jakarta-tomcat-4.1.24 prefix=/usr/local/tomcat
* 另外需要下�?jakarta-tomcat-connectors-jk-1.2.5-src.tar.gz

配置步骤
1) 安装 JDK �?span xml:lang="EN-US"> Tomcat�Q�这些安装步骤就不多说了�?span xml:lang="EN-US">

2) �~�译 jakarta-tomcat-connectors-jk-1.2.5-src�Q�生�?span xml:lang="EN-US"> mod_jk.so�Q��ƈ��其复制�?span xml:lang="EN-US"> apache �?span xml:lang="EN-US"> modules 存放目录�Q?/p>

tar xzf jakarta-tomcat-connectors-jk-1.2.5-src.tar.gz

cd jakarta-tomcat-connectors-jk-1.2.5-src/jk/native

./configure --with-apxs=/usr/local/apache/bin/apxs

make

cp apache-1.3/mod_jk.so /usr/local/apache/libexec

3) �~�辑 Apache 配置文�g /usr/local/apache/conf/httpd.conf�Q�加入：

LoadModule jk_module libexec/mod_jk.so

AddModule mod_jk.c

�q�个 LoadModule 语句最好放在其�?span xml:lang="EN-US"> LoadModule 语句后边�?span xml:lang="EN-US">
同时在配�|�文件后边加入：

# workers.properties 文�g所在�\径，后边��对此文件进行讲�?/p>

JkWorkersFile /usr/local/apache/conf/workers.properties

# jk 的日志文件存放�\�?/p>

JkLogFile /usr/local/apache/log/mod_jk.log

# 讄�� jk 的日志��?span xml:lang="EN-US"> [debug/error/info]

JkLogLevel info

# 选择日志旉��格式

JkLogStampFormat "[%a %b %d %H:%M:%S %Y] "

# JkOptions 选项讄��

JkOptions +ForwardKeySize +ForwardURICompat -ForwardDirectories

# JkRequestLogFormat 讄��日志的请求格�?/p>

JkRequestLogFormat "%w %V %T"

# 映射 /examples/* �?span xml:lang="EN-US"> worker1�Q?span xml:lang="EN-US">worker1 �?span xml:lang="EN-US"> workers.properties 文�g中定�?/p>

JkMount /examples/* worker1

4) �?span xml:lang="EN-US"> /usr/local/apache/conf/ 目录下创�?span xml:lang="EN-US"> workers.properties 文�g�Q�其内容如下�Q?/p>

# 定义使用 ajp13 �?span xml:lang="EN-US"> worker1

worker.list=worker1

# 讄�� worker1 的属性（ajp13�Q?/p>

worker.worker1.type=ajp13

worker.worker1.host=localhost

worker.worker1.port=8009

worker.worker1.lbfactor=50

worker.worker1.cachesize=10

worker.worker1.cache_timeout=600

worker.worker1.socket_keepalive=1

worker.worker1.socket_timeout=300

5) 好了�Q�启�?span xml:lang="EN-US"> Tomcat�Q�重启一�?span xml:lang="EN-US"> Apache HTTPD Server�Q�访问：http://localhost/examples/index.jsp�Q�看看结果如何，�?http://localhost:8080/examples/index.jsp 是一��L��?span xml:lang="EN-US">

提示�Q�如果不惌��别�h通过 8080 端口讉K��C��?span xml:lang="EN-US"> Tomcat�Q�可以将 /usr/lcoal/tomcat/conf/server.xml 配置文�g中的如下代码加上注释�Q?/p>

然后重新启动 Tomcat 卛_��?span xml:lang="EN-US">

�ȝ��
此方案安装配�|�稍微复杂些�Q�但执行效率要比�W�一�U�方案要好很多。所以决定��用这�U�方案来完成我的 Lucene 全文��索实践�Q务�?/p>

对于 Lucene 的初步研�I�已�l�过��M��D�|��_��自己感觉�q�不是很深入�Q�但�׃��旉��的关�p�，一直也没再拿�v。应�|�友的要求，��自己实践中写的一些代码脓出来�Q�希望能对大家有用。程序没有做�q�一步的优化�Q�只是很��单的实现功能而已�Q�仅供参考�?br />
在实践中�Q�我以将 PHP 中文手册中的 HTML 文�g生成索引�Q�然后通过一�?JSP 对其�q�行全文��索�?
生成索引�?Java 代码�Q?/span>

/**

* PHPDocIndexer.java

* 用于�?PHPDoc �?HTML ��面生成索引文�g�?/span>

import java.io.File;

import java.io.FileReader;

import java.io.BufferedReader;

import java.io.IOException;

import java.util.Date;

import java.text.DateFormat;

import java.lang.*;

import org.apache.lucene.analysis.cjk.CJKAnalyzer;

import org.apache.lucene.index.IndexWriter;

import org.apache.lucene.document.Document;

import org.apache.lucene.document.Field;

import org.apache.lucene.document.DateField;

class PHPDocIndexer

{

public static void main(String[] args) throws ClassNotFoundException, IOException

{

try {

Date start = new Date();

IndexWriter writer = new IndexWriter("/home/nio/indexes-phpdoc", new CJKAnalyzer(), true); //索引保存目录�Q�必��d��?/span>

indexDocs(writer, new File("/home/nio/phpdoc-zh")); //HTML 文�g保存目录

System.out.println("Optimizing ....");

writer.optimize();

writer.close();

Date end = new Date();

System.out.print("Total time: ");

System.out.println(end.getTime() - start.getTime());

} catch (Exception e) {

System.out.println("Class " + e.getClass() + " throws error!/n errmsg: " + e.getMessage());

} //end try

} //end main

public static void indexDocs(IndexWriter writer, File file) throws Exception

{

if (file.isDirectory()) {

String[] files = file.list();

for (int i = 0; i < files.length; i++) {

indexDocs(writer, new File(file, files[i]));

} //end for

} else if (file.getPath().endsWith(".html")) { //只对 HTML 文�g做烦�?

System.out.print("Add file:" + file + " ....");

// Add html file ....

Document doc = new Document();

doc.add(Field.UnIndexed("file", file.getName())); //索引文�g�?/span>

doc.add(Field.UnIndexed("modified", DateFormat.getDateTimeInstance().format(new Date(file.lastModified())))); //索引最后修�Ҏ��?/span>

String title = "";

String content = "";

String status = "start";

FileReader fReader = new FileReader(file);

BufferedReader bReader = new BufferedReader(fReader);

String line = bReader.readLine();

while (line != null) {

content += line;

//截取 HTML 标题 if ("start" == status && line.equalsIgnoreCase("><TITLE")) { status = "match"; } else if ("match" == status) { title = line.substring(1, line.length() - 7); doc.add(Field.Text("title", title)); //索引标题 status = "end"; } //end if line = bReader.readLine(); } //end while bReader.close(); fReader.close(); doc.add(Field.Text("content", content.replaceAll("<[^<>]+>", ""))); //索引内容 writer.addDocument(doc); System.out.println(" [OK]"); } //end if } } //end class </div> 索引生成完之后，��需要一个检索页面，下边是搜索页面（search.jsp�Q�的代码�Q?/span> <div> <%@ page language="java" import="javax.servlet.*, javax.servlet.http.*, java.io.*, java.util.Date, java.util.ArrayList, java.util.regex.*, org.apache.lucene.analysis.*, org.apache.lucene.document.*, org.apache.lucene.index.*, org.apache.lucene.search.*, org.apache.lucene.queryParser.*, org.apache.lucene.analysis.Token, org.apache.lucene.analysis.TokenStream, org.apache.lucene.analysis.cjk.CJKAnalyzer, org.apache.lucene.analysis.cjk.CJKTokenizer, com.chedong.weblucene.search.WebLuceneHighlighter" %> <%@ page contentType="text/html;charset=GB2312" %> <!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01//EN" "http://www.w3.org/TR/html4/strict.dtd"> <html> <head> <meta http-equiv="Content-Type" content="text/html; charset=gb2312" /> <title>PHPDoc - PHP ��体中文手册全文检�?lt;/title> <base target="main"> <style> body {background-color: white; margin: 4px} body, input, div {font-family: Tahoma; font-size: 9pt} body, div {line-height: 18px} u {color: red} b {color: navy} form {padding: 0px; margin: 0px} .txt {border: 1px solid black} .f {padding: 4px; margin-bottom: 16px; background-color: #E5ECF9; border-top: 1px solid #3366CC; border-bottom: 1px solid #3366CC; text-align: center;} .d, .o {padding-left: 16px} .d {color: gray} .o {color: green} .o a {color: #7777CC} </style> <script language="JavaScript"> function gotoPage(i) { document.frm.page.value = i; document.frm.submit(); } //end function </script> </head> <body> <% String keyVal = null; String pageVal = null; int offset = 0; int curPage = 0; int pages; final int ROWS = 50; //获取 GET 参数 try { byte[] keyValByte = request.getParameter("key").getBytes("ISO8859_1"); //查找关键�?/span> keyVal = new String(keyValByte); pageVal = request.getParameter("page"); //��늠� } catch (Exception e) { //do nothing; } if (keyVal == null) keyVal = new String(""); %> <div class="f"> <form name="frm" action="./index.jsp" method="GET" onsubmit="this.page.value='0';return true;" target="_self"> <input type="text" name="key" class="txt" size="40" value="<%=keyVal%>" /> <input type="hidden" name="page" value="<%=pageVal%>" /> <input type="submit" value="�?�? /> 提示�Q�可使用多个关键字（使用�I�格隔开�Q�提高搜索的准确率�?lt;/font> </form> <script language="JavaScript"> document.frm.key.focus(); </script> </div> <% if (keyVal != null && keyVal.length() > 0) { try { curPage = Integer.parseInt(pageVal); //��当前页转换成整�?/span> } catch (Exception e) { //do nothing; } //end try try { Date startTime = new Date(); keyVal = keyVal.toLowerCase().replaceAll("(or|and)", "").trim().replaceAll("http://s+", " AND "); Searcher searcher = new IndexSearcher("/home/nio/indexes-phpdoc"); //索引目录 Analyzer analyzer = new CJKAnalyzer(); String[] fields = {"title", "content"}; Query query = MultiFieldQueryParser.parse(keyVal, fields, analyzer); Hits hits = searcher.search(query); StringReader in = new StringReader(keyVal); TokenStream tokenStream = analyzer.tokenStream("", in); ArrayList al = new ArrayList(); for (Token token = tokenStream.next(); token != null; token = tokenStream.next()) { al.add(token.termText()); } //end for //总页�?/span> pages = (new Integer(hits.length()).doubleValue() % ROWS != 0) (hits.length() / ROWS) + 1 : (hits.length() / ROWS); //当前��늠� if (curPage < 1) curPage = 1; else if (curPage > pages) curPage = pages; //起始、终止下�?/span> offset = (curPage - 1) * ROWS; int end = Math.min(hits.length(), offset + ROWS); //循环输出查询�l�果 WebLuceneHighlighter hl = new WebLuceneHighlighter(al); for (int i = offset; i < end; i++) { Document doc = hits.doc(i); %> <div class="t"><a href="/~nio/phpdoc-zh/<%=doc.get("file")%>"><%=hl.highLight(doc.get("title"))%></a></div> <div class="d"><%=hl.highLight(doc.get("content").replaceAll("/n", " "), 100)%> ……</div> <div class="o"> /~nio/phpdoc-zh/<%=doc.get("file")%> - <%=doc.get("modified")%> </div> <% } //end for searcher.close(); Date endTime = new Date(); %> <div class="f"> �� 索��d��耗时 <%=((endTime.getTime() - startTime.getTime()) / 1000.0)%> �U�，�U�有 <%=hits.length()%> ��符合条件的记录�Q�共 <%=pages%> ��?/span> <% if (curPage > 1 && pages > 1) { %> |<a href="javascript:gotoPage(<%=(curPage-1)%>);" target="_self">上一��?lt;/a> <% } //end if if (curPage < pages && pages > 1) { %> |<a href="javascript:gotoPage(<%=(curPage+1)%>)" target="_self">下一��?lt;/a> <% } //end if } catch (Exception e) { %>  <% } //end if } //end if %> </body> </html> </div> </div> <div align=right><a style="text-decoration:none;" href="http://www.tkk7.com/nkjava/" target="_blank">草原上的骆驼</a> 2009-03-03 11:31 <a href="http://www.tkk7.com/nkjava/archive/2009/03/03/257498.html#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div> </article> </main></body></html>

久久久久亚洲Av片无码v,亚洲熟妇无码八V在线播放,最新亚洲春色Av无码专区

Lucene 索引数据�?

Lucene索引查询分页实例

Lucene基本使用介绍

用Lucene���索数据库

用Lucene��索数据库