亚洲av无码天堂一区二区三区,亚洲国产系列一区二区三区,亚洲第一页在线视频

persister — Fri, 12 Mar 2010 12:59:00 GMT

今天��Hadoop下蝲下来学习(f��n)了一下文��中的tutorial�Q�然后仿照如下链接实��C��一个word count的例子：

�?Hadoop �q�行分布式数据处理，�W?1 部分: 入门

以下是一部分理论学习(f��n)�Q?br /> The storage is provided by HDFS, and analysis by MapReduce.

MapReduce is a good fit for problems
that need to analyze the whole dataset, in a batch fashion, particularly for ad hoc analysis.
An RDBMS is good for point queries or updates, where the dataset has been indexed
to deliver low-latency retrieval and update times of a relatively small amount of
data.
MapReduce suits applications where the data is written once, and read many
times, whereas a relational database is good for datasets that are continually updated.

MapReduce tries to colocate the data with the compute node, so data access is fast
since it is local.* This feature, known as data locality, is at the heart of MapReduce and
is the reason for its good performance.

Hadoop divides the input to a MapReduce job into fixed-size pieces called input
splits, or just splits. Hadoop creates one map task for each split, which runs the userdefined
map function for each record in the split.

On the other hand, if splits are too small, then the overhead of managing the splits and
of map task creation begins to dominate the total job execution time.For most jobs, a
good split size tends to be the size of a HDFS block, 64 MB by default.

Reduce tasks don’t have the advantage of data locality—the input to a single reduce
task is normally the output from all mappers.

Many MapReduce jobs are limited by the bandwidth available on the cluster, so it pays
to minimize the data transferred between map and reduce tasks. Hadoop allows the
user to specify a combiner function to be run on the map output—the combiner function’s
output forms the input to the reduce function.

Why Is a Block in HDFS So Large?
HDFS blocks are large compared to disk blocks, and the reason is to minimize the cost
of seeks. By making a block large enough, the time to transfer the data from the disk
can be made to be significantly larger than the time to seek to the start of the block.
Thus the time to transfer a large file made of multiple blocks operates at the disk transfer
rate.
A quick calculation shows that if the seek time is around 10ms, and the transfer rate is
100 MB/s, then to make the seek time 1% of the transfer time, we need to make the
block size around 100 MB. The default is actually 64 MB, although many HDFS installations
use 128 MB blocks. This figure will continue to be revised upward as transfer
speeds grow with new generations of disk drives.
This argument shouldn’t be taken too far, however. Map tasks in MapReduce normally
operate on one block at a time, so if you have too few tasks (fewer than nodes in the
cluster), your jobs will run slower than they could otherwise.
意思是�q�样的，Block大的话，��L��Block的时间大概少�Q�主要耗在传输的时间上�Q�但是如果Block��的话，传输的时间和��d��的时间就相当了，�{�于说就是消耗的旉��?倍传输的旉��Q�划不来。具体的说是�Q�如果数据量�?00M�Q�那么Block的大��是100M�Q�那么传输的旉��是1s(100M/s)�Q�但是如果Block的大��是1M�Q�那么传输的旉��q�是1s�Q�但是seek的时�?0ms*100=1s了。这��h��d��花去的时间就�?s。是不是��大��好呢？也不是，太大的话�Q�可能导致文��没有分布式的存储，也就没有很好的利用MapReduce模型�q�行计算了，反而可能更慢�?br />

persister 2010-03-12 20:59 发表评论

Lucene数据存储�l�构中的VInt�Q�可变长度整型）

persister — Tue, 02 Feb 2010 03:08:00 GMT

A variable-length format for positive integers is defined where the high-order bit of each byte indicates whether more bytes remain to be read. The low-order seven bits are appended as increasingly more significant bits in the resulting integer value. Thus values from zero to 127 may be stored in a single byte, values from 128 to 16,383 may be stored in two bytes, and so on.

可变格式的整型定义：最高位表示是否�q�有字节要读取，低七位就是就是具体的有效位，��d��?/p>
�l�果数据中。比�?0000001 最高位表示0�Q�那么说明这个数��是一个字节表�C�，有效位是后面的七�?000001�Q��gؓ(f��)1�?0000010 00000001 �W�一个字节最高位�?�Q�表�C�后面还有字节，�W�二位最高位0表示到此为止了，卛_��是两个字节，那么具体的值注意，是从最后一个字节的七位有效数放在最前面�Q�依�ơ放�|�，最后是�W�一个自��q��七位有效位，所以这个数表示 0000001 0000010�Q�换��成整数��是130

VInt Encoding Example

Value

First byte

Second byte

Third byte

0

00000000

1

00000001

2

00000010

...

127

01111111

128

10000000

00000001

129

10000001

00000001

130

10000010

00000001

...

16,383

11111111

01111111

16,384

10000000

10000000

00000001

16,385

10000001

10000000

00000001

...

Lucene源代码中�q�行存储和读取是�q�样的。OutputStream是负责写�Q?/p>
1   /** Writes an int in a variable-length format.  Writes between one and
2    * five bytes.  Smaller values take fewer bytes.  Negative numbers are not
3    * supported.
4    * @see InputStream#readVInt()
5    */
6   public final void writeVInt(int i) throws IOException {
7     while ((i & ~0x7F) != 0) {
8       writeByte((byte)((i & 0x7f) | 0x80));
9       i >>>= 7;
10     }
11     writeByte((byte)i);
12   }

InputStream负责读：

1   /** Reads an int stored in variable-length format.  Reads between one and
2    * five bytes.  Smaller values take fewer bytes.  Negative numbers are not
3    * supported.
4    * @see OutputStream#writeVInt(int)
5    */
6   public final int readVInt() throws IOException {
7     byte b = readByte();
8     int i = b & 0x7F;
9     for (int shift = 7; (b & 0x80) != 0; shift += 7) {
10       b = readByte();
11       i |= (b & 0x7F) << shift;
12     }
13     return i;
14   }

>>>表示无符号右�U?br />

persister 2010-02-02 11:08 发表评论

�W�一�ơ尝试Nutch

persister — Thu, 23 Jul 2009 07:43:00 GMT

环境�Q�Nutch0.9+Fedora5+tomcat6+JDK6

tomcat和jdk都安装好�Q?/p>

二：nutch-0.9.tar.gz
        ��下载到的tar.gz包，解压�?opt目录下�ƈ改名�Q?br />         #gunzip -xf nutch-0.9.tar.gz |tar xf
        #mv nutch-0.9.tar.gz /usr/local/nutch

       ��试环境是否讄��成功�Q�运行：/urs/local/nutch/bin/nutch看一下有没有命��o参数输出�Q�如果有说明没问题�?/p>

       抓取�q�程�Q?cd /opt/nutch
                         #mkdir urls
                         #vi nutch.txt 输入www.aicent.net
                         #vi conf/crawl-urlfilter.txt 加入以下信息�Q�利用正则表辑ּ�对网站url抓取�{�选�?br />                         /**** accept hosts in MY.DOMAIN.NAME******/
                                +^http://([a-z0-9]*\.)*aicent.net/
                       #vi nutch/nutch-site.xml�Q�给自己的蜘蛛取一个名字）讄��如下�Q?br />

    http.agent.name
    test/unique

开始抓取：#bin/nutch crawl urls -dir crawl -detpth 5 -thread 10 >& crawl.log

�{�待一会，旉��依据�|�站的大��，和设�|�的抓取深度�?/p>

三：apache-tomcat

在这里，当你看到每次��索的��面�?里，需要修改一下参敎ͼ�因�ؓ(f��)tomcat中的nutch的检索�\径不寚w��成的�?br /> #vi /usr/local/tomcat/webapps/ROOT/WEB-INF/classes/nutch-site.xml

searcher.dir
/opt/nutch/crawl抓取�|�页所在的路径
My path to nutch's searcher dir.

#/opt/tomcat/bin/startup.sh

OK,搞定。。�?/p>

问题汇总：

�q�行�Q�sh ./bin/nutch crawl urls -dir crawl -depth 3 -threads 60 -topN 100 >&./logs/nutch_log.log

1.Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
        at org.apache.nutch.crawl.Injector.inject(Injector.java:162)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:115)
�|�上查有说是JDK版本的问题，不能用JDK1.6�Q�于是安�?.5。但是还是同��L(f��ng)��问题�Q�奇怪啊�?br /> 于是�l�箋google�Q�发现有如下的可能：

Injector: Converting injected urls to crawl db entries.
Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
        at org.apache.nutch.crawl.Injector.inject(Injector.java:162)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:115)

说明�Q�一般�ؓ(f��)crawl-urlfilters.txt中配�|�问题，比如�q��o条�g应�ؓ(f��)
+^http://www.ihooyo.com ,而配�|�成�?http://www.ihooyo.com �q�样的情况就引�v如上错误�?/p>

但是自己的配�|�根本就没有问题啊�?br /> 在Logs目录下面除了生成nutch_log.log�q�自动生成一个log文�g�Q�hadoop.log
发现有错误出玎ͼ�

2009-07-22 22:20:55,501 INFO crawl.Crawl - crawl started in: crawl
2009-07-22 22:20:55,501 INFO crawl.Crawl - rootUrlDir = urls
2009-07-22 22:20:55,502 INFO crawl.Crawl - threads = 60
2009-07-22 22:20:55,502 INFO crawl.Crawl - depth = 3
2009-07-22 22:20:55,502 INFO crawl.Crawl - topN = 100
2009-07-22 22:20:55,603 INFO crawl.Injector - Injector: starting
2009-07-22 22:20:55,604 INFO crawl.Injector - Injector: crawlDb: crawl/crawldb
2009-07-22 22:20:55,604 INFO crawl.Injector - Injector: urlDir: urls
2009-07-22 22:20:55,605 INFO crawl.Injector - Injector: Converting injected urls to crawl db entries.
2009-07-22 22:20:56,574 INFO plugin.PluginRepository - Plugins: looking in: /opt/nutch/plugins
2009-07-22 22:20:56,720 INFO plugin.PluginRepository - Plugin Auto-activation mode: [true]
2009-07-22 22:20:56,720 INFO plugin.PluginRepository - Registered Plugins:
2009-07-22 22:20:56,720 INFO plugin.PluginRepository -         the nutch core extension points (nutch-extensionpoints)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Basic Query Filter (query-basic)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Basic URL Normalizer (urlnormalizer-basic)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Basic Indexing Filter (index-basic)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Html Parse Plug-in (parse-html)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Basic Summarizer Plug-in (summary-basic)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Site Query Filter (query-site)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         HTTP Framework (lib-http)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Text Parse Plug-in (parse-text)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Regex URL Filter (urlfilter-regex)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Pass-through URL Normalizer (urlnormalizer-pass)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Http Protocol Plug-in (protocol-http)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Regex URL Normalizer (urlnormalizer-regex)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         OPIC Scoring Plug-in (scoring-opic)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         CyberNeko HTML Parser (lib-nekohtml)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         JavaScript Parser (parse-js)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         URL Query Filter (query-url)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Regex URL Filter Framework (lib-regex-filter)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository - Registered Extension-Points:
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Nutch Summarizer (org.apache.nutch.searcher.Summarizer)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Nutch URL Normalizer (org.apache.nutch.net.URLNormalizer)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Nutch Protocol (org.apache.nutch.protocol.Protocol)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Nutch Analysis (org.apache.nutch.analysis.NutchAnalyzer)
2009-07-22 22:20:56,721 INFO plugin.PluginRepository -         Nutch URL Filter (org.apache.nutch.net.URLFilter)
2009-07-22 22:20:56,722 INFO plugin.PluginRepository -         Nutch Indexing Filter (org.apache.nutch.indexer.IndexingFilter)
2009-07-22 22:20:56,722 INFO plugin.PluginRepository -         Nutch Online Search Results Clustering Plugin (org.apache.nutch.clustering.OnlineClusterer)
2009-07-22 22:20:56,722 INFO plugin.PluginRepository -         HTML Parse Filter (org.apache.nutch.parse.HtmlParseFilter)
2009-07-22 22:20:56,722 INFO plugin.PluginRepository -         Nutch Content Parser (org.apache.nutch.parse.Parser)
2009-07-22 22:20:56,722 INFO plugin.PluginRepository -         Nutch Scoring (org.apache.nutch.scoring.ScoringFilter)
2009-07-22 22:20:56,722 INFO plugin.PluginRepository -         Nutch Query Filter (org.apache.nutch.searcher.QueryFilter)
2009-07-22 22:20:56,722 INFO plugin.PluginRepository -         Ontology Model Loader (org.apache.nutch.ontology.Ontology)
2009-07-22 22:20:56,786 WARN regex.RegexURLNormalizer - can't find rules for scope 'inject', using default
2009-07-22 22:20:56,829 WARN mapred.LocalJobRunner - job_2319eh
java.lang.RuntimeException: java.net.UnknownHostException: jackliu: jackliu
        at org.apache.hadoop.io.SequenceFile$Writer.(SequenceFile.java:617)
        at org.apache.hadoop.io.SequenceFile$Writer.(SequenceFile.java:591)
        at org.apache.hadoop.io.SequenceFile.createWriter(SequenceFile.java:364)
        at org.apache.hadoop.io.SequenceFile.createWriter(SequenceFile.java:390)
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.startPartition(MapTask.java:294)
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.sortAndSpillToDisk(MapTask.java:355)
        at org.apache.hadoop.mapred.MapTask$MapOutputBuffer.access$100(MapTask.java:231)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:180)
        at org.apache.hadoop.mapred.LocalJobRunner$Job.run(LocalJobRunner.java:126)
Caused by: java.net.UnknownHostException: jackliu: jackliu
        at java.net.InetAddress.getLocalHost(InetAddress.java:1353)
        at org.apache.hadoop.io.SequenceFile$Writer.(SequenceFile.java:614)
        ... 8 more

也就是Host配置错误�Q�于是：
Add the following to your /etc/hosts file
127.0.0.1 jackliu

�q�次再次�q�行�Q�结果成功！

2:http://127.0.0.1:8080/nutch-0.9
输入nutch�q�行查询�Q�结果报错：
HTTP Status 500 -

type Exception report

message

description The server encountered an internal error () that prevented it from fulfilling this request.

exception

org.apache.jasper.JasperException: /search.jsp(151,22) Attribute value language + "/include/header.html" is quoted with " which must be escaped when used within the value
org.apache.jasper.compiler.DefaultErrorHandler.jspError(DefaultErrorHandler.java:40)
org.apache.jasper.compiler.ErrorDispatcher.dispatch(ErrorDispatcher.java:407)
org.apache.jasper.compiler.ErrorDispatcher.jspError(ErrorDispatcher.java:198)
org.apache.jasper.compiler.Parser.parseQuoted(Parser.java:299)
org.apache.jasper.compiler.Parser.parseAttributeValue(Parser.java:249)
org.apache.jasper.compiler.Parser.parseAttribute(Parser.java:211)
org.apache.jasper.compiler.Parser.parseAttributes(Parser.java:154)
org.apache.jasper.compiler.Parser.parseInclude(Parser.java:867)
org.apache.jasper.compiler.Parser.parseStandardAction(Parser.java:1134)
org.apache.jasper.compiler.Parser.parseElements(Parser.java:1461)
org.apache.jasper.compiler.Parser.parse(Parser.java:137)
org.apache.jasper.compiler.ParserController.doParse(ParserController.java:255)
org.apache.jasper.compiler.ParserController.parse(ParserController.java:103)
org.apache.jasper.compiler.Compiler.generateJava(Compiler.java:170)
org.apache.jasper.compiler.Compiler.compile(Compiler.java:332)
org.apache.jasper.compiler.Compiler.compile(Compiler.java:312)
org.apache.jasper.compiler.Compiler.compile(Compiler.java:299)
org.apache.jasper.JspCompilationContext.compile(JspCompilationContext.java:586)
org.apache.jasper.servlet.JspServletWrapper.service(JspServletWrapper.java:317)
org.apache.jasper.servlet.JspServlet.serviceJspFile(JspServlet.java:342)
org.apache.jasper.servlet.JspServlet.service(JspServlet.java:267)
javax.servlet.http.HttpServlet.service(HttpServlet.java:717)

note The full stack trace of the root cause is available in the Apache Tomcat/6.0.20 logs.

分析�Q�查看nutch Web应用根目录下的search.jsp可知�Q�是引号匚w��的问题�?/p>

"/> //line 152 search.jsp

�W�一个引号和后面�W�一个出现的引号�q�行匚w��Q�而不是和�q�一行最后一个引可��行匹配，所以问题就出现了�?/p>

解决�Ҏ(gu��)��Q?/p>

��该行代码修改�ؓ(f��)�Q?lt;jsp:include page="<%= language+urlsuffix %>"/>

�q�里我们定一个字�W�串urlsuffix�Q�我们把它定义在language字符串定义之后，

String language =   // line 116 search.jsp
    ResourceBundle.getBundle("org.nutch.jsp.search", request.getLocale())
    .getLocale().getLanguage();
String urlsuffix="/include/header.html";

修改完成后，为确保修�Ҏ(gu��)��功，重启一下Tomcat服务器，�q�行搜烦�Q�不再报错�?/p>

3.无法查询�l�果�Q?br /> �Ҏ(gu��)��nutch_log.log的结果发现和�|�上描述的不同，而且crawl里面只有两个文�g夹segments和crawldb�Q�后来重新爬了一��?br /> 发现�q�次是好的，奇怪不知道��Z��么上�ơ爬的失败了�?br />
4.cached.jsp explain.jsp�{�都有上�?的错误，更正�q�去��O(ji��n)K了�?/p>

5.今天�׃��一上午和半个下午的旉��l�于搞定了nutch的安装和配置了。明天��l�学�?f��n)�?/p>

persister 2009-07-23 15:43 发表评论

PhraseQuery、SpanQuery和PhrasePrefixQuery

persister — Tue, 14 Jul 2009 01:49:00 GMT

PhraseQuery使用位置信息来进行相��x��询，比如TermQuery使用“我们”�?#8220;��国”�q�行查询�Q�那么文档中含有�q�两个词的所有记录都会被查询出来。但是有一�U�情况，我们可能需要查�?#8220;我们”�?#8220;中国”之间只隔一个字和两个字或者两个字�{�，而不是它们之间字距相差十万八千里�Q�就可以使用PhraseQuery。比如下面的情况�Q?br />     doc.add(Field.Text("field", "the quick brown fox jumped over the lazy dog"));
那么�Q?br />     String[] phrase = new String[] {"quick", "fox"};
    assertFalse("exact phrase not found", matched(phrase, 0));
    assertTrue("close enough", matched(phrase, 1));
multi-terms:
    assertFalse("not close enough", matched(new String[] {"quick", "jumped", "lazy"}, 3));
    assertTrue("just enough", matched(new String[] {"quick", "jumped", "lazy"}, 4));
    assertFalse("almost but not quite", matched(new String[] {"lazy", "jumped", "quick"}, 7));
    assertTrue("bingo", matched(new String[] {"lazy", "jumped", "quick"}, 8));

数字表示slop�Q�通过如下方式讄��Q�表�C�按照顺序从�W�一个字�D�到�W�二个字�D�之间间隔的term个数�?br />     query.setSlop(slop);

��序很重要：
    String[] phrase = new String[] {"fox", "quick"};
assertFalse("hop flop", matched(phrase, 2));
assertTrue("hop hop slop", matched(phrase, 3));

原理如下图所�C�：

对于查询关键字quick和fox�Q�只需要fox�U�d��一个位�|�即可匹配quick brown fox。而对于fox和quick�q�两个关键字
需要将fox�U�d��三个位置。移动的距离��大�Q�那么这��记录的score��p��，被查询出来的可能行就��小了�?br />
SpanQuery利用位置信息查询更有意思的查询�Q?br />
SpanQuery type         Description
SpanTermQuery         Used in conjunction with the other span query types. On its own, it’s
                                        functionally equivalent to TermQuery.
SpanFirstQuery         Matches spans that occur within the first part of a field.
SpanNearQuery         Matches spans that occur near one another.
SpanNotQuery         Matches spans that don’t overlap one another.
SpanOrQuery             Aggregates matches of span queries.

SpanFirstQuery�Q�To query for spans that occur within the first n positions of a field, use Span-FirstQuery.

quick = new SpanTermQuery(new Term("f", "quick"));
brown = new SpanTermQuery(new Term("f", "brown"));
red = new SpanTermQuery(new Term("f", "red"));
fox = new SpanTermQuery(new Term("f", "fox"));
lazy = new SpanTermQuery(new Term("f", "lazy"));
sleepy = new SpanTermQuery(new Term("f", "sleepy"));
dog = new SpanTermQuery(new Term("f", "dog"));
cat = new SpanTermQuery(new Term("f", "cat"));

SpanFirstQuery sfq = new SpanFirstQuery(brown, 2);
assertNoMatches(sfq);
sfq = new SpanFirstQuery(brown, 3);
assertOnlyBrownFox(sfq);

SpanNearQuery�Q?br />
彼此盔R��的跨�?

首先�Q�强调一下PhraseQuery对象�Q�这个对象不属于跨度查询�c�，但能完成跨度查询功能�?/p>

匚w��到的文��所包含的项通常是彼此相�?c��)��Q�考虑到原文��中在查询��之间可能有一些中间项�Q�或��Z��能查询倒排的项�Q�PhraseQuery讄��了slop因子�Q?font color="#ff0000">但是�q�个slop因子�?个项允许最大间隔距��，不是传统意义上的距离�Q�是按顺序组成给定的短语�Q�所需要移动位�|�的�ơ数�Q?font color="#0000ff">�q�表�C�PhraseQuery是必��L��照项在文��中出现的顺序计��跨度的�Q�如quick brown fox为文档，则quick fox2个项的slop�?�Q�quick向后�U�d��一��?而fox quick需要quick向后�U�d��3�ơ，所以slop�?

其次�Q�来看一下SpanQuery的子�c�SpanTermQuery�?/p>

它能跨度查询�Q?font color="#0000ff">�q�且不一定非要按��在文��中出现的��序�Q�可以用一个独立的标记表示查询对象必须按顺序，或允许按倒过来的��序完成匚w��?font color="#ff0000">匚w��的跨度也不是指移动位�|�的�ơ数�Q�是指从�W�一个跨度的起始位置到最后一个跨度的�l�束位置�?/font>

在SpanNearQuery中将SpanTermQuery对象作�ؓ(f��)SpanQuery对象使用的效果，与��用PharseQuery的效果非常相伹{��在SpanNearQuery的构造函��C��的第三个参数为inOrder标志�Q�设�|�这个标志，表示按项在文��中出现的顺序倒过来的��序�?/p>

�?the quick brown fox jumps over the lazy dog�q�个文��

public void testSpanNearQuery() throws Exception{

SpanQuery[] quick_brown_dog=new SpanQuery[]{quick,brown,dog};

SpanNearQuery snq=new SpanNearQuery(quick_brown_dog,0,true);//按正帔R��?跨度�?,对三个项�q�行查询

assertNoMatches(snq);//无法匚w��

SpanNearQuery snq=new SpanNearQuery(quick_brown_dog,4,true);//按正帔R��?跨度�?,对三个项�q�行查询

assertNoMatches(snq);//无法匚w��

SpanNearQuery snq=new SpanNearQuery(quick_brown_dog,4,true);//按正帔R��?跨度�?,对三个项�q�行查询

assertOnlyBrownFox(snq);//匚w��成功

SpanNearQuery snq=new SpanNearQuery(new SpanQuery[]{lazy,fox},3,false);//按相反顺�?跨度�?,对三个项�q�行查询

assertOnlyBrownFox(snq);//匚w��成功

//下面使用PhraseQuery�q�行查询�Q�因为是按顺序，所以lazy和fox必须要跨度�ؓ(f��)5

PhraseQuery pq=new PhraseQuery();

pq.add(new Term("f","lazy"));

pq.setslop(4);

assertNoMatches(pq);//跨度4无法匚w��

//PharseQuery,slop因子�?

pq.setSlop(5);

assertOnlyBrownFox(pq);

      }

3.PhrasePrefixQuery 主要用来�q�行同义词查询的�Q?br />     IndexWriter writer = new IndexWriter(directory, new WhitespaceAnalyzer(), true);
    Document doc1 = new Document();
    doc1.add(Field.Text("field", "the quick brown fox jumped over the lazy dog"));
    writer.addDocument(doc1);
    Document doc2 = new Document();
    doc2.add(Field.Text("field","the fast fox hopped over the hound"));
    writer.addDocument(doc2);

    PhrasePrefixQuery query = new PhrasePrefixQuery();
    query.add(new Term[] {new Term("field", "quick"), new Term("field", "fast")});
    query.add(new Term("field", "fox"));

    Hits hits = searcher.search(query);
    assertEquals("fast fox match", 1, hits.length());
    query.setSlop(1);
    hits = searcher.search(query);
    assertEquals("both match", 2, hits.length());

persister 2009-07-14 09:49 发表评论

搜烦引擎中对于输入查询关键词的一些考虑

persister — Sat, 11 Jul 2009 09:33:00 GMT

1、首先就是错别字。怎么判断输入的次为错别字呢？或者就��是有错别字也查询去正确的结果。Luncene使用Metaphone algorithm

2、近义词查询�?SynonymAnalyzer和PhrasePrefixQuery都能解决�q�个问题�?

persister 2009-07-11 17:33 发表评论

Analyzer

persister — Tue, 07 Jul 2009 07:59:00 GMT

Primary analyzers available in Lucene
Analyzer                          Steps taken
WhitespaceAnalyzer         Splits tokens at whitespace
SimpleAnalyzer                Divides text at nonletter characters and lowercases
StopAnalyzer        Divides text at nonletter characters, lowercases, and removes stop words
StandardAnalyzer      Tokenizes based on a sophisticated grammar that recognizes
               e-mail addresses, acronyms, Chinese- Japanese-Korean characters,
    alphanumerics�Q?and more; lowercases;and removes stop words

persister 2009-07-07 15:59 发表评论

Porter stemming algorithm

persister — Mon, 06 Jul 2009 14:47:00 GMT

PorterStemFilter
所�?a target="_blank">Stemming�Q�可以称�?strong>词根�?/strong>�Q�这里有�?strong>overview。在��p��q�样的拉丁语�p�里面，单词有多�U�变形。比如加�?ed�?ing�?ly�{�等。在分词的时候，如果能够把这些变形单词的词根扑և�了，�Ҏ(gu��)��索结果是很有帮助的。Stemming��法有很多了�Q�三大主��算法是Porter stemming algorithm�?a target="_blank">Lovins stemming algorithm�?a target="_blank">Lancaster (Paice/Husk) stemming algorithm�Q�还有一些改�q�的或其它的��法。这个PorterStemFilter里面调用的一个PorterStemmer��是Porter Stemming algorithm的一个实现�?

persister 2009-07-06 22:47 发表评论

Lucene倒排索引原理

persister — Wed, 10 Jun 2009 10:08:00 GMT

zz:http://blog.donews.com/windshow/archive/2005/11/24/638234.aspx

倒排索引�Q�Inverted index

Lucene是一个高性能的java全文��索工具包�Q�它使用的是倒排文�g索引�l�构。该�l�构及相应的生成��法如下�Q?br />
0�Q�设有两��文�?�?
文章1的内容�ؓ(f��)�Q�Tom lives in Guangzhou,I live in Guangzhou too.
文章2的内容�ؓ(f��)�Q�He once lived in Shanghai.

1)�׃��lucene是基于关键词索引和查询的�Q�首先我们要取得�q�两��文章的关键词，通常我们需要如下处理措�?br /> a.我们现在有的是文章内容，即一个字�W�串�Q�我们先要找出字�W�串中的所有单词，卛_��词。英文单词由于用�I�格分隔�Q�比较好处理。中文单词间是连在一��L(f��ng)��需要特�D�的分词处理�?br /> b.文章中的”in”, “once” “too”�{�词没有什么实际意义，中文中的“�?#8221;“�?#8221;�{�字通常也无具体含义�Q�这些不代表概念的词可以�q��o�?br /> c.用户通常希望�?#8220;He”时能把含“he”�Q?#8220;HE”的文章也扑և�来，所以所有单词需要统一大小写�?br /> d.用户通常希望�?#8220;live”时能把含“lives”�Q?#8220;lived”的文章也扑և�来，所以需要把“lives”�Q?#8220;lived”�q�原�?#8220;live”
e.文章中的标点�W�号通常不表�C�某�U�概念，也可以过滤掉
在lucene中以上措施由Analyzer�c�d��?br />
�l�过上面处理�?br />     文章1的所有关键词为：[tom] [live] [guangzhou] [i] [live] [guangzhou]
    文章2的所有关键词为：[he] [live] [shanghai]

2) 有了关键词后�Q�我们就可以建立倒排索引了。上面的对应关系是：“文章�?#8221;�?#8220;文章中所有关键词”。倒排索引把这个关�p�d��过来，变成�Q?#8220;关键�?#8221;�?#8220;拥有该关键词的所有文章号”。文�?�Q?�l�过倒排后变�?br /> 关键�?nbsp;  文章�?br /> guangzhou  1
he         2
i           1
live       1,2
shanghai   2
tom         1

通常仅知道关键词在哪些文章中出现�q�不够，我们�q�需要知道关键词在文章中出现�ơ数和出现的位置�Q�通常有两�U�位�|�：a)字符位置�Q�即记录该词是文章中�W�几个字�W�（优点是关键词亮显时定位快�Q�；b)关键词位�|�，卌��录该词是文章中第几个关键词（优点是节�U�烦引空间、词�l�（phase�Q�查询快�Q�，lucene中记录的��是�q�种位置�?br />
加上“出现频率”�?#8220;出现位置”信息后，我们的烦引结构变为：
关键�?nbsp;  文章号[出现频率]   出现位置
guangzhou 1[2]               3�Q?
he       2[1]               1
i         1[1]               4
live      1[2],2[1]           2�Q?�Q?
shanghai  2[1]               3
tom      1[1]               1

以live�q�行��Z��我们说明一下该�l�构�Q�live在文�?中出��C��2�ơ，文章2中出��C��一�ơ，它的出现位置�?#8220;2,5,2”�q�表�C�Z��么呢�Q�我们需要结合文章号和出现频率来分析�Q�文�?中出��C��2�ơ，那么“2,5”��p��C�live在文�?中出现的两个位置�Q�文�?中出��C��一�ơ，剩下�?#8220;2”��p��C�live是文�?中第2个关键字�?br />
以上��是lucene索引�l�构中最核心的部分。我们注意到关键字是按字�W�顺序排列的�Q�lucene没有使用B�?w��i)结构）�Q�因此lucene可以用二元搜索算法快速定位关键词�?br />
实现�?nbsp;lucene��上面三列分别作��典文�Ӟ��Term Dictionary�Q�、频率文�?frequencies)、位�|�文�?positions)保存。其中词典文件不仅保存有每个关键词，�q�保留了指向频率文�g和位�|�文件的指针�Q�通过指针可以扑ֈ�该关键字的频率信息和位置信息�?br />
    Lucene中��用了field的概念，用于表达信息所在位�|�（如标题中�Q�文章中�Q�url中）�Q�在建烦引中�Q�该field信息也记录在词典文�g中，每个关键词都有一个field信息(因�ؓ(f��)每个关键字一定属于一个或多个field)�?br />
    ��Z��减小索引文�g的大��，Lucene对烦引还使用了压�~�技术。首先，对词典文件中的关键词�q�行了压�~�，关键词压�~��ؓ(f��)<前缀长度�Q�后�~�>�Q�例如：当前词�ؓ(f��)“阿拉伯语”�Q�上一个词�?#8220;阿拉�?#8221;�Q�那�?#8220;阿拉伯语”压羃�?lt;3�Q�语>。其�ơ大量用到的是对数字的压�~�，数字只保存与上一个值的差��|��q�样可以减小数字的长度，�q�而减��保存该数字需要的字节敎ͼ�。例如当前文章号�?6389�Q�不压羃要用3个字节保存）�Q�上一文章��h��16382�Q�压�~�后保存7�Q�只用一个字节）�?br />
    下面我们可以通过对该索引的查询来解释一下�ؓ(f��)什么要建立索引�?br /> 假设要查询单�?nbsp;“live”�Q�lucene先对词典二元查找、找到该词，通过指向频率文�g的指针读出所有文章号�Q�然后返回结果。词兔R��常非常��，因而，整个�q�程的时间是毫秒�U�的�?br /> 而用普通的��序匚w��法�Q�不建烦引，而是�Ҏ(gu��)��有文章的内容�q�行字符串匹配，�q�个�q�程��会相当�~�慢�Q�当文章数目很大�Ӟ��旉��往往是无法忍受的�?br />
自我评论�Q?br /> �q�可以参考http://zh.wikipedia.org/wiki/%E5%80%92%E6%8E%92%E7%B4%A2%E5%BC%95

二元搜烦��法
在排好序的数�l�中扑ֈ�特定的元素�?br /> 首先, 比较数组中间的元素，如果相同�Q�则�q�回此元素的指针�Q�表�C�找��C��?如果不相同，此函数就会��l�搜索其中大��相�W�的一半，然后�l�箋下去。如果剩下的数组长度�?�Q�则表示找不刎ͼ�那么函数��׃��l�束�?br /> 此算法函数如下：

int *binarySearch(int val, int array[], int n)

{

int m = n/2;

if(n <= 0) return NULL;

if(val == array[m]) return array + m;

if(val < array[m]) return binarySearch(val, array, m);

else return binarySearch(val, array+m+1, n-m-1);

}

对于有n个元素的数组来说�Q�二元搜索算法进行最�?+log2(n)�ơ比较�?如果有一百万元素�Q�大概比�?0�ơ，也就是最�?0�ơ递归执行binarySearch()函数�?/p>

persister 2009-06-10 18:08 发表评论

Lucene学习(f��n)index

persister — Tue, 09 Jun 2009 15:33:00 GMT

1.Adding documents to an index�Q?br /> protected String[] keywords = {"1", "2"};
protected String[] unindexed = {"Netherlands", "Italy"};
protected String[] unstored = {"Amsterdam has lots of bridges", "Venice has lots of canals"};
protected String[] text = {"Amsterdam", "Venice"};
Directory dir = FSDirectory.getDirectory(indexDir, true);
IndexWriter writer = new IndexWriter(dir, new SimpleAnalyzer(), true);
writer.setUseCompoundFile(true);
for (int i = 0; i < keywords.length; i++) {
  Document doc = new Document();
  doc.add(Field.Keyword("id", keywords[i]));
  doc.add(Field.UnIndexed("country", unindexed[i]));
  doc.add(Field.UnStored("contents", unstored[i]));
  doc.add(Field.Text("city", text[i]));
  writer.addDocument(doc);
}
writer.optimize();
writer.close();
2.Removing Documents from an index�Q?br /> IndexReader reader = IndexReader.open(dir);
reader.delete(1);
上面的方式一�ơ只能删除一个document�Q�下面的�Ҏ(gu��)��可以删除多个满��条�g的document
IndexReader reader = IndexReader.open(dir);
reader.delete(new Term("city", "Amsterdam"));
reader.close();

3.Index dates
Document doc = new Document();
doc.add(Field.Keyword("indexDate", new Date()));

4.Tuning indexing performance
IndexWriter          System property                            Default value          Description
--------------------------------------------------------------------------------------------------
mergeFactor          org.apache.lucene.mergeFactor        10       Controls segment merge frequency and size
maxMergeDocs     org.apache.lucene.maxMergeDocs   Integar.MAX_VALUE    Limits the number of documents per segement
minMergeDocs        org.apache.lucene.minMergeDocs     10     Controls the amount of   RAM used when indexing

mergeFactor控制写入��盘前内存中�~�存的document数量�Q�同时控制merge index segments的频率。其默认值是10�Q�即存满10�?br /> documents后就必须写入��盘�Q�而且如果segment的数量达�?0的��数的时候会merge成一个segment�Q�当然maxMergeDocs限制了每�?br /> segment最大能够保存的document数量。mergeFactor��大的话��p��能利用RAM�Q�提高index的效率，但是mergeFactor��高也就意味着
merge的频率就��低�Q�会可能��D��segments的数量很大（因�ؓ(f��)没有merge�Q�，�q�样search的时候就需要打开更多的segment文�g�Q�也��?br /> 降低了search的效率。minMergeDocs is another IndexWriter instance variable that affects indexing performance. Its
value controls how many Documents have to be buffered before they’re merged to a segment.也即是说minMergeDocs也具�?br /> mergeFactor控制�~�存document数量的功能�?/p>

5.RAMDirectory帮助利用RAM�Q�也可以采用集群或者多�U�程的方式充分利用硬件和软�g资源�Q�提高index的效率�?/p>

6.有时候对于每个field可能希望控制其大��，比如只对�?000个term做index�Q�这个时候就需要��用maxFieldLength来控制�?/p>

7.IndexWriter’s optimize()�Ҏ(gu��)��是��segments�q�行merge�Q�降低segments的数量从而减��search的时候读取index的时间�?/p>

8.注意多线�E�环境下的工作：an index-modifying IndexReader operation can’t be executed
while an index-modifying IndexWriter operation is in progress.��Z��防止误用�Q�Lucene在��用某些API时会�l?br /> index上锁�?/p>

persister 2009-06-09 23:33 发表评论

Lucene的Query

persister — Mon, 08 Jun 2009 02:05:00 GMT

Lucene基本的查询语句：
Searcher searcher = new IndexSearcher(dbpath);
Query query = QueryParser.parse(searchkey, searchfield,
new StandardAnalyzer());
Hits hits = searcher.search(query);
下面是Query的各�U�子查询�Q�他们斗鱼QueryParser都有对应关系�?/p>

1.TermQuery常用�Q�对一个Term�Q�最��的索引块，包含一个field名字和��|��q�行索引查询�?br /> Term直接与QueryParser.parse里面的key和field直接对应�?/p>

IndexSearcher searcher = new IndexSearcher(directory);
Term t = new Term("isbn", "1930110995");
Query query = new TermQuery(t);
Hits hits = searcher.search(query);

2.RangeQuery用于区间查询,RangeQuery的第三个参数表示是开区间�q�是闭区间�?br /> QueryParser会构��Z��begin到end之间的N个查询进行查询�?/p>

Term begin, end;
Searcher searcher = new IndexSearcher(dbpath);
begin = new Term("pubmonth","199801");
end = new Term("pubmonth","199810");
RangeQuery query = new RangeQuery(begin, end, true);

RangeQuery本质是比较大��。所以如下查询也是可以的�Q�但是意义就于上面不大一样了�Q��M��是大��的比较
讑֮�了一个区��_��在区间内的都能够搜烦出来�Q�这里就存在一个比较大��的原则�Q�比如字�W�串会首先比较第一个字�W�，�q�样与字�W�长度没有关�p�R�?br /> begin = new Term("pubmonth","19");
end = new Term("pubmonth","20");
RangeQuery query = new RangeQuery(begin, end, true);

3.PrefixQuery.对于TermQuery�Q�必��d��全匹配（用Field.Keyword生成的字�D�）才能够查询出来�?br /> �q�就制约了查询的灉|��性，PrefixQuery只需要匹配value的前面�Q何字�D�即可。如Field为name�Q�记�?br /> 中那么有jackliu,jackwu,jackli,那么使用jack��可以查询出所有的记录。QueryParser creates a PrefixQuery
for a term when it ends with an asterisk (*) in query expressions.

IndexSearcher searcher = new IndexSearcher(directory);
Term term = new Term("category", "/technology/computers/programming");
PrefixQuery query = new PrefixQuery(term);
Hits hits = searcher.search(query);

4.BooleanQuery.上面所有的查询都是��Z��单个field的查询，多个field怎么查询呢，BooleanQuery
��是解决多个查询的问题。通过add(Query query, boolean required, boolean prohibited)加入
多个查询.通过BooleanQuery的嵌套可以组合非常复杂的查询�?br />
IndexSearcher searcher = new IndexSearcher(directory);
TermQuery searchingBooks =
new TermQuery(new Term("subject","search"));

RangeQuery currentBooks =
new RangeQuery(new Term("pubmonth","200401"),
new Term("pubmonth","200412"),true);

BooleanQuery currentSearchingBooks = new BooleanQuery();
currentSearchingBooks.add(searchingBook s, true, false);
currentSearchingBooks.add(currentBooks, true, false);
Hits hits = searcher.search(currentSearchingBooks);

BooleanQuery的add�Ҏ(gu��)��有两个boolean参数�Q?br /> true�Q�false�Q�表明当前加入的子句是必��要满��的；
false�Q�true�Q�表明当前加入的子句是不可以被满��的�Q?br /> false�Q�false�Q�表明当前加入的子句是可选的�Q?br /> true�Q�true�Q�错误的情况�?/p>

QueryParser handily constructs BooleanQuerys when multiple terms are specified.
Grouping is done with parentheses, and the prohibited and required flags are
set when the –, +, AND, OR, and NOT operators are specified.

5.PhraseQuery�q�行更�ؓ(f��)�_��的查找。它能够对烦引文本中的两个或更多的关键词的位�|�进�?br /> 限定。如搜查包含A和B�q�且A、B之间�q�有一个文字。Terms surrounded by double quotes in
QueryParser parsed expressions are translated into a PhraseQuery.
The slop factor defaults to zero, but you can adjust the slop factor
by adding a tilde (~) followed by an integer.
For example, the expression "quick fox"~3

6.WildcardQuery.WildcardQuery比PrefixQuery提供了更�l�的控制和更大的灉|��性，�q�个最�Ҏ(gu��)��
理解和��用�?/p>

7.FuzzyQuery.�q�个Query比较特别�Q�它会查询与关键字长得很像的其他记录。QueryParser
supports FuzzyQuery by suffixing a term with a tilde (~),for exmaple wuzza~.

public void testFuzzy() throws Exception {
  indexSingleFieldDocs(new Field[] {
  Field.Text("contents", "fuzzy"),
  Field.Text("contents", "wuzzy")
  });
  IndexSearcher searcher = new IndexSearcher(directory);
  Query query = new FuzzyQuery(new Term("contents", "wuzza"));
  Hits hits = searcher.search(query);
  assertEquals("both close enough", 2, hits.length());
  assertTrue("wuzzy closer than fuzzy",
  hits.score(0) != hits.score(1));
  assertEquals("wuzza bear","wuzzy", hits.doc(0).get("contents"));
}

persister 2009-06-08 10:05 发表评论

Lucene学习(f��n)

persister — Fri, 06 Mar 2009 03:03:00 GMT

今天��?#8220;Lucene学习(f��n)”里面的程序脓(chu��ng)到eclipse工程里实��C��一�?br /> 加深了我�Ҏ(gu��)��索的理解
在全文检索中�Q�可以和数据库进行一个简单的�Ҏ(gu��)��
全文��索没有表的概念，也就没有固定的fields�Q�但是有记录�Q�每一个记录就是一个Document对象
每一个document都可以有自己不同的fields�Q�如下：

    Document doc = new Document();

   doc.add(Field.Keyword("filename",file.getAbsolutePath()));

   //以下两句只能取一�?前者是索引不存�?后者是索引且存�?
   //doc.add(Field.Text("content",new FileReader(file)));
   doc.add(Field.Text("content",this.chgFileToString(file)));

   indexWriter.addDocument(doc);

在查询的时候，需要三个重要的参数
首先是库路径�Q�即在哪个库里面�q�行��索（相当于database的�\径）�Q?br />
Searcher searcher = new IndexSearcher(dbpath);

然后��是你以哪个字段�Q�查询什么关键词�Q�因为根据字�D�就可以得到字段对应的内�?br /> 在得到的内容中检索你的关键词�Q�这个篏死sql语句�Q�只不过没有表的概念
Query query
    = QueryParser.parse(searchkey,searchfield,new StandardAnalyzer());

然后开始查询，查询的结果就是document的集合：
   Hits hits = searcher.search(query);

对得到的集合�q�行处理�Q?br />
   if(hits != null)
{
       list = new ArrayList();
       int temp_hitslength = hits.length();
       Document doc = null;
     for(int i = 0;i < temp_hitslength; i++){
           doc = hits.doc(i);
           //list.add(doc.get("filename"));
           list.add(doc.get("content"));
       }
   }

附常用Field�Q?span style="font-size: 10pt; color: black; font-family: 宋体;">

常用�?/span>Field�Ҏ(gu��)��如下�Q?/span>

�Ҏ(gu��)��	切词	索引	存储	用�?/span>
Field.Text(String name, String value)	Yes	Yes	Yes	切分词烦引�ƈ存储�Q�比如：标题�Q�内容字�D?/span>
Field.Text(String name, Reader value)	Yes	Yes	No	切分词烦引不存储�Q�比如：META信息�Q?/span> 不用于返回显�C�，但需要进行检索内�?/span>
Field.Keyword(String name, String value)	No	Yes	Yes	不切分烦引�ƈ存储�Q�比如：日期字段
Field.UnIndexed(String name, String value)	No	No	Yes	不烦引，只存储，比如�Q�文件�\�?/span>
Field.UnStored(String name, String value)	Yes	Yes	No	只全文烦引，不存�?/span>

切分�? ��是指对文本�q�行切词�Q�用于进行烦引，上面可以看到切分的都会进行烦引；索引即用于通过搜烦词进行查询；存储表示是否存储内容本��n。上面的 Field.Keyword�Ҏ(gu��)��׃��切分但是可以索引�Q�所以可以用�q�个字段�q�行查询�Q�而Field.UnIndexed��׃��能进行查询了。但是由�? Field.Keyword不切分，所以当使用new Term(searchkey,searchfield)�q�行查询�Ӟ��l�出的searchkey必须与vaue参数值完全一致才会查询出来，�? Field.Text和Field.UnStored则就不一�?/span>�?br />
Lucene中国是一个非常好的网站，对Lucene内部�l�构�q�行了详�l�的分析�Q�可以参考�?br />

persister 2009-03-06 11:03 发表评论

Value	First byte	Second byte	Third byte
0	00000000
1	00000001
2	00000010
...
127	01111111
128	10000000	00000001
129	10000001	00000001
130	10000010	00000001
...
16,383	11111111	01111111
16,384	10000000	10000000	00000001
16,385	10000001	10000000	00000001
...