国产亚洲av片在线观看18女人 ,亚洲成人网在线播放,亚洲成年看片在线观看

centos5.4下安装apache+svn

天空苍茫 — Tue, 28 Sep 2010 00:24:00 GMT

1�?/span>首先下蝲apache2.2 下蝲地址�Q?/font>http://mirrors.sohu.com/apache/httpd-2.2.16.tar.gz

2�?/span>然后下蝲SVN

a) 包：subversion-deps-1.6.12.tar.gz

i. 地址�Q?font face="Times New Roman">http://subversion.tigris.org/downloads/subversion-deps-1.6.12.tar.gz

b) susubversion-1.6.12.tar.gz 地址�Q?/font>

i. http://subversion.tigris.org/downloads/subversion-1.6.12.tar.gz

3�?/span>然后解析Apache2�Q�安�?/font>

4�?/span>tar -zxvf httpd-2.2.16.tar.gz

5�?/span>安装Apache

a) ./configure -prefix=/opt/web/apache2 --enable-mods-shared=all --enable-so

b) Make

c) Make install

6�?/span>��?font face="Times New Roman">APACHE是否安装成功�Q?/font>

启动apache:/opt/web/apache2/bin/apachectl start

7�?/span>安装Svn

8�?/span>首先解压�Q?nbsp;tar -zxvf subversion-deps-1.6.12.tar.gz

9�?/span>然后解压�Q?font face="Times New Roman">tar -zxvf susubversion-1.6.12.tar.gz

10�?/span>安装命��o�Q?/span>

a) ./configure --prefix=/opt/web/subversion --with-apxs=/opt/web/apache2/bin/apxs --with-apr=/opt/web/httpd-2.2.16/srclib/apr --with-apr-util=/opt/web/httpd-2.2.16/srclib/apr-util

11�?/font>make make install

天空苍茫 2010-09-28 08:24 发表评论

Lucene�Q?.4.1�Q�技术研�I?5)--IndexWrite�c�L��代码解析�Q�四�Q�RAMDirectory介绍

天空苍茫 — Fri, 08 May 2009 05:56:00 GMT

摘要: RAMDirectory是Directory抽象�c�d��使用内存最为文件存储的实现�c�，其主要是��所有的索引文�g保存到内存中。这样可以提高效率。但是如果烦引文件过大的话，则会��D��内存不��Q�因此，��型的系�l�推荐��用，如果大型的，索引文�g辑ֈ�G�U�别上，推荐使用FSDirectory 首先我们看看该类的源代码�Q?首先该类�l�承与抽象类Directory�Q��ƈ且实��C��序列话接�?&n... 阅读全文

天空苍茫 2009-05-08 13:56 发表评论

Lucene�Q?.4.1�Q�技术研�I?5)--IndexWrite�c�L��代码解析�Q�三�Q�FSDirectory介绍

天空苍茫 — Tue, 05 May 2009 10:02:00 GMT

摘要: 其中常用的就是FSDirectory�Q�表�C�对文�g�pȝ��目录的操作。RAMDirectory �Q�内存中的目录操作�? 首先我们看看�c�FSDirectory的源代码 import java.io.File; import java.io.FileInputStream; import java.io.FileOutputStream; import&n... 阅读全文

天空苍茫 2009-05-05 18:02 发表评论

Linux下安装Oracle11G

天空苍茫 — Fri, 17 Apr 2009 09:27:00 GMT

1、首先检查一下linux下是有存在一下��Y�Ӟ��如果不存在，必须��这些��Y件安�?br /> rpm -q compat-libstdc++-33 elfutils-libelf elfutils-libelf-devel glibc glibc-common glibc-devel gcc- gcc-c++ libaio-devel libaio libgcc libstdc++ libstdc++-devel make sysstat unixODBC unixODBC-devel
2、以root方式登陆�Q�修�?etc/sysctl.conf�Q�在文�g中增加一下参�?br /> kernel.shmall = 2097152
kernel.shmmax = 2147483648
kernel.shmmni = 4096
kernel.sem = 250 32000 100 128
fs.file-max = 65536
net.ipv4.ip_local_port_range =1024 65000
net.core.rmem_default = 4194304
net.core.rmem_max = 4194304
net.core.wmem_default =262144
net.core.wmem_max =262144

然后创徏数据库的所有者：
groupadd oinstall
groupadd dba
useradd -g oinstall -G dba Oracle 创徏用户Oracle
passwd Oracle�Q�修改Oracle的密码）
修改Oracle用户的限�?br /> cd /etc/security
vi limits.conf
在该文�g增加一下内�?br /> Oracle soft nproc 2047
Oracle hard nproc 16384
Oracle soft nofile 1024
Oracle hard nofile 65536
在文�?etc/pam.d/login文�g增加一下内�?br /> session required /lib/security/pam_limits.so
session required pam_limits.so
在文�?etc/profile增加一下内�?/p>

if [$USER = "Oracle"] ; then
if [ $SHELL = " /bin/ksh" ]; then
ulimit -p 16384
ulimit -n 65535
else
ulimit -u 16384 -n 65536
fi
fi
创徏安装目录�Q?br /> mkdir -p /opt/app/oracle
chown -P Oracle:oinstall /opt/app
chmod -R 755 /opt/app
执行命��o�Q�解压安装文�?�Q�unzip linux_11gR1_database.zip
然后�q�入解压后的目录�Q�执�?br /> $ ./runInstaller

天空苍茫 2009-04-17 17:27 发表评论

Lucene�Q?.4.1�Q�技术研�I?5)--IndexWrite�c�L��代码解析�Q�二�Q?-Directory 解析

天空苍茫 — Thu, 16 Apr 2009 09:32:00 GMT

首先我们看构造函��C��的第一个类Directory �c�R��根据这个类的英文，我们能得��个类��是关于目录操作的。Directory 是一个抽象类。其�?个子�c�，分别是：DbDirectory, FSDirectory, JEDirectory, RAMDirectory

首先我们看看Directory 的类
public abstract class Directory {
volatile boolean isOpen = true;
/*** 持有一个LockFactory的实例（实现锁定�q�个目录实例�Q?/
protected LockFactory lockFactory;
/**�q�回该目录下的所有文件数�l?如果�q�个目录下没有文件存在，或者存在权限问题不能访问，该方法可能返回Null*/
public abstract String[] list() throws IOException;
/** * �q�回指定名称的文件是不是存在 */
public abstract boolean fileExists(String name)
throws IOException;
/**�q�回指定名称的文件最后修改的旉��
public abstract long fileModified(String name) throws IOException;
/**讄��指定文�g名的文�g最后的修改旉��为当前时�?/
public abstract void touchFile(String name) throws IOException;

/**删除指定文�g�?*/
public abstract void deleteFile(String name)throws IOException;
/**�q�回指定文�g的长度�?*/
public abstract long fileLength(String name) throws IOException;
/** 在当前目录下使用�l�定的名�U�创��Z��个空的文件。�ƈ且返回一个流来写该文件�?/
public abstract IndexOutput createOutput(String name) throws IOException;
/** * Lucene使用该方法确保所有的针对该文件的写操作都会存储到Index。�ƈ且阻止machine/OS发生故障破坏该index�?/
public void sync(String name) throws IOException {}
/**获取已经存在的一个文件的IndexInput��操作该文�g�?*/
public abstract IndexInput openInput(String name) throws IOException;
/** �q�回已经存在的一个文件、�ƈ且��用指定大��的�~�冲的IndexInput�Q�但是当前目录也可能忽略该缓冲池的大��，
* 当前主要是考虑CompoundFileReader和FSDirectory对于�ơ参数的需求�?/
public IndexInput openInput(String name, int bufferSize) throws IOException {
return openInput(name);
}
/** 创徏一个指定名�U�的�?
public Lock makeLock(String name) {
return lockFactory.makeLock(name);
}
/**
* 清除指定的锁定（��解锁和删除）�q�不仅要求在�q�个时候当前的锁一定不在��用�?*/
public void clearLock(String name) throws IOException {
if (lockFactory != null) {
lockFactory.clearLock(name);
}
}
/** �l�束�q�个store. */
public abstract void close() throws IOException;

/**讄��LockFactory�Q�此目录实例应��光��定执行。每个LockFactory实例只用于一个目录（卻I��不要��q��一个实例在多个目录�Q?*/
public void setLockFactory(LockFactory lockFactory) {
this.lockFactory = lockFactory;
lockFactory.setLockPrefix(this.getLockID());
}

/** 获得LockFactory�Q�此目录例实例��用其锁定执行。请注意�Q�这可能是无效的目录执行�Q�提供自己锁执行*/
public LockFactory getLockFactory() {
return this.lockFactory;
}
/**�q�去锁实例的唯一表示ID的字�W�串描述*/
public String getLockID() {
return this.toString();
}
/**// 拯��源目录src下的文�g�Q�复制到目的目录dest下面�Q�拷贝完成后关闭源目录src*/
public static void copy(Directory src, Directory dest, boolean closeDirSrc) throws IOException {
final String[] files = src.list();
if (files == null)
throw new IOException("cannot read directory " + src + ": list() returned null");
byte[] buf = new byte[BufferedIndexOutput.BUFFER_SIZE];
for (int i = 0; i < files.length; i++) {
IndexOutput os = null;
IndexInput is = null;
try {
// create file in dest directory
os = dest.createOutput(files[i]);
// read current file
is = src.openInput(files[i]);
// and copy to dest directory
long len = is.length();
long readCount = 0;
while (readCount < len) {
int toRead = readCount + BufferedIndexOutput.BUFFER_SIZE > len ? (int)(len - readCount) : BufferedIndexOutput.BUFFER_SIZE;
is.readBytes(buf, 0, toRead);
os.writeBytes(buf, toRead);
readCount += toRead;
}
} finally {
// graceful cleanup
try {
if (os != null)
os.close();
} finally {
if (is != null)
is.close();
}
}
}
if(closeDirSrc)
src.close();
}

从Directory抽象�cȝ��定义�Q�我们可以得到如下几点：
1、管理锁工厂及其锁实例；
2、管理Directory目录实例的基本属性，主要是通过文�g名称�q�行��理�Q?br /> 3、管理与操作该目录相关的一些流对象�Q?br /> 4、管理烦引文件的拯��?br />

天空苍茫 2009-04-16 17:32 发表评论

天空苍茫 — Tue, 07 Apr 2009 09:39:00 GMT

1�?/span>indexWriter�c�M��要功能是对烦引的创徏�Q�加入Document后，合�ƈ各种索引�D�，以及控制与烦引相关的其他斚w��Q�它是lucene索引的主要操�U�者�?/font>

2�?/span>我们首先看看IndexWriter的构造函�?/font>

public IndexWriter(String path, Analyzer a, boolean create, MaxFieldLength mfl)

public IndexWriter(String path, Analyzer a, boolean create)(废弃�Q�不提倡��?

public IndexWriter(File path, Analyzer a, boolean create, MaxFieldLength mfl)

public IndexWriter(File path, Analyzer a, boolean create)(废弃�Q�不提倡��?

public IndexWriter(Directory d, Analyzer a, boolean create, MaxFieldLength mfl)

public IndexWriter(Directory d, Analyzer a, boolean create)(废弃�Q�不提倡��?

public IndexWriter(String path, Analyzer a, MaxFieldLength mfl)

public IndexWriter(String path, Analyzer a)(废弃�Q�不提倡��?

public IndexWriter(File path, Analyzer a, MaxFieldLength mfl)

public IndexWriter(File path, Analyzer a)(废弃�Q�不提倡��?

public IndexWriter(Directory d, Analyzer a, MaxFieldLength mfl)

public IndexWriter(Directory d, Analyzer a)(废弃�Q�不提倡��?

public IndexWriter(Directory d, boolean autoCommit, Analyzer a)(废弃�Q�不提倡��?

public IndexWriter(Directory d, boolean autoCommit, Analyzer a, boolean create)�Q�废弃，不提倡��?

public IndexWriter(Directory d, Analyzer a, IndexDeletionPolicy deletionPolicy, MaxFieldLength mfl)

public IndexWriter(Directory d, boolean autoCommit, Analyzer a, IndexDeletionPolicy deletionPolicy)�Q�废弃，不提倡��?

public IndexWriter(Directory d, Analyzer a, boolean create, IndexDeletionPolicy deletionPolicy, MaxFieldLength mfl)

public IndexWriter(Directory d, boolean autoCommit, Analyzer a, boolean create, IndexDeletionPolicy deletionPolicy)�Q�废弃，不提倡��?

�l�心的读者肯定会发现�Q�废弃的构造函��C��提倡��用的构造函敎ͼ�多了一个MaxFieldLength参数。带有该参数的构造函数都是允许正�怋�用的�?/font>�Q�注释：废弃的构造函数将在Lucene3.0中移除）

仔细查看其构造函数的实现呢，最�l�都转化成一个私有的构造函敎ͼ�如图�Q?/font>

/**

* 该构造函��C��要是创徏一个IndexWrite对象

* d �Q�指定的存放建立索引文�g的烦引目�?/font>

* a �Q�Analyzer 分词分析�?/font>

* create �Q�是否要重新写入索引文�g�Q�如果�ؓtrue�Q�则重写索引文�g�Q�如果�ؓfalse�Q�则�q�加写入索引文�g

* closeDir �Q�一个boolean型变量，表示是否关闭索引目录Directory d�Q�与IndexWriter的一个成员变量相�?/font>

* deletionPolicy �Q�指定删除烦引文件��用的�{�略

* autoCommit �Q�徏立烦引文件后�Q�自动提交�?/font>

* maxFieldLength �Q?nbsp;表示索引中Field的最大长度�?/font>

private void init(Directory d, Analyzer a, final boolean create, boolean closeDir, IndexDeletionPolicy deletionPolicy, boolean autoCommit, int maxFieldLength)

throws CorruptIndexException, LockObtainFailedException, IOException {

this.closeDir = closeDir;

directory = d;

analyzer = a;

setMessageID(defaultInfoStream);//�q�里主要是指定infoStream�Q�是一个PrintStream输出��对�?/font>

this.maxFieldLength = maxFieldLength; //指定Field数据的最大长�?/font>

if (create) {

// 如果是重新创建烦引文�?/font>�Q?/font>清除写锁文�gwrite.lock

directory.clearLock(WRITE_LOCK_NAME);

}

Lock writeLock = directory.makeLock(WRITE_LOCK_NAME);

if (!writeLock.obtain(writeLockTimeout)) // 获取写锁文�g

throw new LockObtainFailedException("Index locked for write: " + writeLock);

this.writeLock = writeLock; //保存新的写锁文�g

try {

if (create) {

// 如果create为true�Q�表�C�重写烦引文件。重写烦引文件之前，要先��d��已经存在的烦引文�Ӟ��q�且要清除掉历史写入的segment信息

try {

segmentInfos.read(directory);

segmentInfos.clear();

} catch (IOException e) {

}

segmentInfos.commit(directory); // 向指定的索引存放目录中写入segment信息

} else {

segmentInfos.read(directory); //��d��segment信息

// We assume that this segments_N was previously

// properly sync'd:

for(int i=0;i

final SegmentInfo info = segmentInfos.info(i);

List files = info.files();

for(int j=0;j

synced.add(files.get(j));

}

this.autoCommit = autoCommit; //执行提交写入索引的标�?nbsp;

setRollbackSegmentInfos(segmentInfos); //克隆原来�?/font>segment状态信息，�q�且��信息保存到HashSet�?/font>

docWriter = new DocumentsWriter(directory, this); //创徏一个DocumentsWriter对象

docWriter.setInfoStream(infoStream); //讄��DocumentsWriter对象�?/font>infoStream信息

docWriter.setMaxFieldLength(maxFieldLength); //讄��DocumentsWriter对象�?/font>maxFieldLength信息

//默认的删除策略实现类为KeepOnlyLastCommitDeletionPolicy�Q�它只是保证��最�q�提交删除的索引文�g�Q�提交删除动�?nbsp;

// IndexFileDeleter deleter是IndexWriter�cȝ��一个私有的成员变量�Q�它在org.apache.lucene.index包里面，主要对删除烦引文件进行实现和��理

deleter = new IndexFileDeleter(directory,

deletionPolicy == null ? new KeepOnlyLastCommitDeletionPolicy() : deletionPolicy,

segmentInfos, infoStream, docWriter);

pushMaxBufferedDocs(); //��h��DocsBuffer�?/font>

if (infoStream != null) { //如果infoStream是null

message("init: create=" + create);

messageState();

}

} catch (IOException e) {

this.writeLock.release();

this.writeLock = null;

throw e;

}

通过IndexWrite的构造函敎ͼ�以及最�l�的实现�Ҏ��的init分发�Q�其主要是实��C��Ҏ��指定的徏立烦引的方式(重写、追加写�?�Q�通过create标志位来判断�Q�从而指定一�U�在操作索引文�g的过�E�中删除索引文�g的策略�?/font>

在理解lucene的时��_��必须熟悉其初始化IndexWrite的原理，才能深入了解该框架在创徏索引的核心实现机制�?/font>

天空苍茫 2009-04-07 17:39 发表评论

天空苍茫 — Tue, 31 Mar 2009 02:48:00 GMT

Field�c�（�c�M��数据库中的字�D�与属性）
    该类实现接口�Q�Fieldable    �l�承静态类: AbstractField
    Fieldable接口。主要是描述一些基��信息的内�?br />         讄��权重以及获取权重 [void setBoost(float boost), float getBoost();]
        获取名称String name();
        获取String�c�d��的值public String stringValue();
        以Reader方式�q�回public Reader readerValue();
        以二�q�制或者TokenStream 方式�q�回public byte[] binaryValue();public TokenStream       tokenStreamValue();
        是否被存储boolean isStored();
        是否被烦引boolean isIndexed();
        是否被分词boolean isTokenized();
        是否是压�~�存�?boolean isCompressed();
        是否是二�q�制boolean isBinary();
           ......其他的读者可以参考源代码
AbstractField抽象�c�d��义的一些常量：
          protected String name = "body";                        //表示该Filed的名�U?br />           protected boolean storeTermVector = false;    //表示是否存储词条向量
          protected boolean storeOffsetWithTermVector = false;  //存储词条向量的偏�U�量
          protected boolean storePositionWithTermVector = false;  //存储词条向量的位�|?br />           protected boolean omitNorms = false;     //
          protected boolean isStored = false;      //是否存储
          protected boolean isIndexed = true;      //是否是烦�?br />           protected boolean isTokenized = true;     //是否是分�?br />           protected boolean isBinary = false;      //是否是二�q�制数据
          protected boolean isCompressed = false;     //是否是压�~?br />           protected boolean lazy = false;      //是否是�g�q?br />           protected boolean omitTf = false;     //
          protected float boost = 1.0f;      //讄��Ȁ励因�?br />           protected Object fieldsData = null;     //Field的内部属性的具体内容
          protected int binaryLength;       //二进制数据长�?br />           protected int binaryOffset;       //二进制数据偏�U�量

Filed�c�L��代码解析
    首先Filed内部定义了三个静态类Store、Index、TermVector�?br /> //定一个静态类Store �Q�主要�ؓ了设�|�Field的存储属�?br /> public static final class Store extends Parameter implements Serializable {
    private Store(String name) {
      super(name);
    }
    //使用压羃的方式来存储Field的�?br />     public static final Store COMPRESS = new Store("COMPRESS");
    //在烦引中存储Field的�?br />     public static final Store YES = new Store("YES");
    //在烦引中不存贮Field的�?br />     public static final Store NO = new Store("NO");
}
//定一个静态类Index �Q�主要�ؓ了设�|�Field的烦引属�?br /> public static final class Index extends Parameter implements Serializable {
    private Index(String name) {
      super(name);
}
//不对Field�q�行索引�Q�所以这个Field��׃��能被��索到(一般来��_��建立索引而��它不被检索，�q�是没有意义�?
//如果对该Field�q�设�|�了Field.Store为Field.Store.YES或Field.Store.COMPRESS�Q�则可以��?br />     public static final Index NO = new Index("NO");

   //对Field�q�行索引�Q�同时还要对其进行分�?由Analyzer来管理如何分�?
    public static final Index ANALYZED = new Index("ANALYZED");
//废弃的属性，使用ANALYZED 来替�?br />      public static final Index TOKENIZED = ANALYZED;
//对Field�q�行索引�Q�但是不对该Field使用分词
    public static final Index NOT_ANALYZED = new Index("NOT_ANALYZED");
//废弃的属性，使用NOT_ANALYZED来替�?br />     public static final Index UN_TOKENIZED = NOT_ANALYZED;
//即不对Field索引�Q�也不对其��用Analyzer来分�?br />     public static final Index NOT_ANALYZED_NO_NORMS = new Index("NOT_ANALYZED_NO_NORMS");
//废弃的属性，有NOT_ANALYZED_NO_NORMS来替�?br />     public static final Index NO_NORMS = NOT_ANALYZED_NO_NORMS;
//对Field属性，使用分词�Q�但是不是��用Analyzer来分�?br />     public static final Index ANALYZED_NO_NORMS = new Index("ANALYZED_NO_NORMS");
}
�q�是一个与词条有关的类。因为在��索的时候需要指定检索关键字�Q�通过��Z��个Field��d��一个TermVector�Q�就可以在检索中把该Field��索到�?br /> public static final class TermVector extends Parameter implements Serializable {
    private TermVector(String name) {
      super(name);
    }
    //不存�?br />     public static final TermVector NO = new TermVector("NO");
   //为每个Document都存储一个TermVector
    public static final TermVector YES = new TermVector("YES");
    //存储�Q��ƈ且存在位�|�信�?br />     public static final TermVector WITH_POSITIONS = new TermVector("WITH_POSITIONS");
    //存储�Q��ƈ且存贮偏�U�量信息
    public static final TermVector WITH_OFFSETS = new TermVector("WITH_OFFSETS");
    //存储位置、偏�U�量�{�所有信�?br />     public static final TermVector WITH_POSITIONS_OFFSETS = new TermVector("WITH_POSITIONS_OFFSETS");
}

构造函�?br /> public Field(String name, String value, Store store, Index index)
public Field(String name, String value, Store store, Index index, TermVector termVector)
public Field(String name, Reader reader)
public Field(String name, Reader reader, TermVector termVector)
public Field(String name, TokenStream tokenStream)
public Field(String name, TokenStream tokenStream, TermVector termVector)
public Field(String name, byte[] value, Store store)
public Field(String name, byte[] value, int offset, int length, Store store)

��程�Q?br /> 首先��查name以及values不能为空以及Nnull�?br /> 然后��查是否是存储以及是否分词如果两者都是No�Q�则抛出异常�?br /> 然后��查是否存储以及是否向量分词，如果两者都是No'�Q�则抛出异常�?br /> 然后��该Filed的名�U�命令传递过来的名称源代码（this.name = name.intern�Q?br /> 表示获取JVM String帔R��池的地址
此时�Ҏ��Store的��|��来设�|�是否存储以及压�~�的�?br /> 然后�Ҏ��Index的��|��来设�|�是否烦引、是否分词、omitNorms 的��g��及置是否是二�q�制
然后开始根据TermVector 的��|��来设�|�是否存储向量、是否存储偏�U�量、是否存储位�|�等信息�?br />

以上信息可能存在分析不正��，请大家给指证�Q�本��语有不怎么好，

天空苍茫 2009-03-31 10:48 发表评论

天空苍茫 — Mon, 30 Mar 2009 08:17:00 GMT

1�?/span>Document文�g

Document是lucene自己定义的一�U�文件格式，lucene使用docement来代替对应的物理文�g或者保存在数据库中的数据。因此Document只能作�ؓ数据源在Lucene中的数据存贮的一�U�文件�Ş式�?/font>

Document只是负责攉��数据源，因�ؓ不同的文件可以构建同一个Document。只要用户将不同的文件创建成Document�c�d��的文�Ӟ��Lucene��p��快速找到查扑�ƈ且��用他们�?/font>

对于一个Document文�g�Q�可以同时增加多个Field。Lucene中对于每个数据源是��用Field�c�L��表示的。多个Field�l�成一个Document�Q�多个Document�l�成一个烦引文件。Document与Field关系如果一所�C?/font>

此时�Q�我们去看看Document�q�个�cȝ��源代码。Document采用默认不带参数的构造函敎ͼ�但是我们他在创徏的时��_��
产生两个变量�Q?/font>fields�?nbsp;boost

其中fields是创��Z��一个arrayList,其主要是保存Field�c?/font>

Boost主要是设�|�该doc的优先��

其方法：add�Q�Fieldable field�Q�增加一个field对象

removeField(String name) �Ҏ��name�U�除一个ield对象�Q�找��C��个就�q�回�Q?/font>

removeFields(String name) �Ҏ��name�U�除所有的field对象

Field getField(String name) �Ҏ��名字扑ֈ�该Field对象�?/font>

Fieldable getFieldable(String name) �Ҏ��名字扑ֈ�Fieldable子类�Q�Fieldable�?/font> 接口�Q�具体有Filed来实玎ͼ�

String get(String name) �Ҏ��名字�Q�找到给Filed对象中包含的内容

public final byte[] getBinaryValue(String name) 主要查找Doc中包含有二进制field 数据�Q�如果不存在�Q�则�q�回null�Q?/font>
public final List getFields() 直接�q�回该Doc中包含的Field�?br />

天空苍茫 2009-03-30 16:17 发表评论

Lucene�Q?.4.1�Q�技术研�I?2)--分析事例

天空苍茫 — Fri, 27 Mar 2009 09:54:00 GMT

1�?/span>我们��d��析一下该�D늨�序�?br />
a) 首先我们创徏一个类IndexWriter,该类是lucene创徏索引的核心，其主要功能是��所有的数据源所有内容，�l�过分词处理�Q�创建成索引格式的文�Ӟ��同数据库惛_��比，一个烦引文件就相当一张表�Q?br />
b) 然后�Q�我们定义了document�c�R��Lucene是将所有的数据源都转换成Document�c�d��的文�Ӟ��lucene内部只能识别出Document�c�d��的文件。（同数据库相比的话�Q�Document��像一个表的每一条记录。）

c) 然后我们定义了一些File�c�，其中File是作为真实的数据存储使用�Q�每一个需要烦引的内容都对应一个Filed�Q�（和数据库相比�Q�Field��q��当一一条记录的一个属性与其��|��?br />
d) 然后��Field增加到Document中，其中每个Document可以增加到多个Field对象。然后将所有的Doc交给IndexWriter��d��建烦引，创徏完成后，如图一

图一 lucene索引后的文�g

E) 然后开始查询，首先使用IndexReader来读取所创徏目录下的索引文�g�Q�然后创��Z��个IndexSearch对象�Q�该对象主要功能��是从烦引中查询�?br />
F) 然后定义查询�{�略�Q�本例中采用queryParse来查询，然后循环�Q�将所有查询的�l�果打印出来�?br />

天空苍茫 2009-03-27 17:54 发表评论

天空苍茫 — Fri, 27 Mar 2009 05:18:00 GMT

摘要: 阅读全文

天空苍茫 2009-03-27 13:18 发表评论

天空苍茫 — Sun, 06 Jul 2008 14:04:00 GMT

摘要: 阅读全文

天空苍茫 2008-07-06 22:04 发表评论

天空苍茫 — Tue, 28 Aug 2007 01:47:00 GMT

�׃��在JAVA自动获得新闻�Q�没有徏立web的环境，��徏立的服务器放�|�在一台服务器上，数据库放在另一台服务器上，�l�果造成使用JDBC速度�~�慢�Q�因此修�Ҏ��q�接池：

import java.sql.Connection;
import java.sql.DriverManager;
import java.sql.SQLException;

import org.apache.commons.dbcp.ConnectionFactory;
import org.apache.commons.dbcp.DriverManagerConnectionFactory;
import org.apache.commons.dbcp.PoolableConnectionFactory;
import org.apache.commons.dbcp.PoolingDriver;
import org.apache.commons.pool.ObjectPool;
import org.apache.commons.pool.impl.GenericObjectPool;
import org.apache.log4j.Logger;

/**
* @author Administrator
*
*/
public class DBConnectionFactory {
/**
* Logger for this class
*/
private static final Logger logger = Logger
.getLogger(DBConnectionFactory.class);

private static ObjectPool connectionPool=null;
private static String sqlJdbc = "";
    private static String sqlUser = "";
    private static String sqlPwd = "";
    @SuppressWarnings("unchecked")
private static Class driverClass=null;

    public static void proDBConnectionFactory(){
    if(sqlJdbc.equals("")){
      sqlJdbc = "jdbc:jtds:sqlserver://27.0.0.1:1433/finance;tds=8.0;lastupdatecount=true";
    }
    if(sqlUser.equals("")){
      sqlUser = "sa";
    }
    if(sqlPwd.equals("")){
      sqlPwd = "11111";
    }
    initDataSource();
    }
     public synchronized static void initDataSource(){
    if(driverClass == null){
       try {
    driverClass = Class.forName("net.sourceforge.jtds.jdbc.Driver");
   } catch (ClassNotFoundException e) {
    logger.error("在注册驱动名�U�的旉��发生错误�Q?+e.getMessage(),e);
   }
    }
    if(connectionPool == null){
       setupDriver(sqlJdbc);
       //printDriverStats();
    }else{
       System.out.print("�q�接池已�l�存�?);
    }
    try {
            // printDriverStats();
         } catch (Exception e) {
             e.printStackTrace();
         }
     }

     public static Connection getConn(){
    proDBConnectionFactory();
    Connection conn = null;
    try {
             conn = DriverManager.getConnection("jdbc:apache:commons:dbcp:FinanceDBPool");
         } catch(SQLException e) {
             e.printStackTrace();
         }
         return conn;

     }

     public static void printDriverStats() throws Exception {
         PoolingDriver driver = (PoolingDriver) DriverManager.getDriver("jdbc:apache:commons:dbcp:");
         ObjectPool connectionPool = driver.getConnectionPool("FinanceDBPool");
         System.out.println("�z�d��的连�? " + connectionPool.getNumActive());
         System.out.println("�I�闲的连�? " + connectionPool.getNumIdle());
     }

     public static void setupDriver(String connectURI){
    try {
   connectionPool = new GenericObjectPool(null);
    ConnectionFactory connectionFactory = new DriverManagerConnectionFactory(connectURI,sqlUser,sqlPwd);
    @SuppressWarnings("unused")
   PoolableConnectionFactory poolableConnectionFactory = new PoolableConnectionFactory(connectionFactory,connectionPool,null,null,false,true);
    Class.forName("org.apache.commons.dbcp.PoolingDriver");
    PoolingDriver driver = (PoolingDriver) DriverManager.getDriver("jdbc:apache:commons:dbcp:");
    //driver.registerPool("FinanceDBPool",connectionPool);
    driver.registerPool("FinanceDBPool",connectionPool);

  } catch (ClassNotFoundException e) {
   logger.error("注册�q�接池的旉��发生错误:"+e.getMessage(),e);
  } catch (SQLException e) {
   logger.error("注册�q�接池的旉��发生错误:"+e.getMessage(),e);
  }
     }

天空苍茫 2007-08-28 09:47 发表评论

StringTokenizer�cȝ��使用�Ҏ��

天空苍茫 — Wed, 29 Nov 2006 04:28:00 GMT

StringTokenizer�Q�字�W�串分隔解析�c�d��
属于�Q�java.util包�?/span>

�Q�、构造函数�?/span>

StringTokenizer(String str)

StringTokenizer(String str, String delim)

StringTokenizer(String str, String delim, boolean returnDelims)

�Q�、方法�?/span>
说明�Q?br />1. 所有方法均为public�Q?br />2. 书写格式�Q��E修饰�W�］　<�q�回�c�d��> <�Ҏ��名（�Q�d��数列表］�Q?gt;
如：
static int parseInt(String s) 表示�Q�此�Ҏ��Q�parseInt�Q��ؓ�c�L��法（static�Q�，�q�回�c�d��为（int�Q�，�Ҏ��所需参数为String�c�d��?/span>

int countTokens()

boolean hasMoreTokens()

boolean hasMoreElements()

String nextToken()

Object nextElement()

String nextToken(String delim)

例子�Q?/span>

		String s = new String("The Java platform is the ideal platform for network computing");
		StringTokenizer st = new StringTokenizer(s);
		System.out.println( "Token Total: " + st.countTokens() );
		while( st.hasMoreElements() ){
			System.out.println( st.nextToken() );
　　　　　　　　　　　}
�l�果为：
Token Total: 10
The
Java
platform
is
the
ideal
platform
for
network
computing

�?:

		String s = new String("The=Java=platform=is=the=ideal=platform=for=network=computing");
		StringTokenizer st = new StringTokenizer(s,"=",true);
		System.out.println( "Token Total: " + st.countTokens() );
		while( st.hasMoreElements() ){
			System.out.println( st.nextToken() );
		}
�l�果为：
Token Total: 19
The
=
Java
=
platform
=
is
=
the
=
ideal
=
platform
=
for
=
network
=
computing

天空苍茫 2006-11-29 12:28 发表评论

数据库设计说明书-

天空苍茫 — Thu, 16 Mar 2006 04:58:00 GMT

1　引言
1�Q?�~�写目的
　　说明�~�写�q�䆾数据库设计说明书的目的，指出预期的读者�?BR>1�Q?背景
　　说明�Q?BR>　　a�Q�说明待开发的数据库的名称和��用此数据库的软�g�pȝ��的名�U�ͼ�
　　b�Q�列��软�g�pȝ��开发项目的��d��提出者、用户以及将安装该��Y件和�q�个数据库的计算站（中心�Q��?
1�Q?定义
　　列出本文件中用到的专门术语的定义、外文首字母�l�词的原词组�?BR>1�Q?参考资�?
　　列出有关的参考资料：
　　a�Q�本��目的经核准的计划�Q务书或合同、上�U�机��x��文；
　　b�Q�属于本��目的其他已发表的文�Ӟ��
　　c�Q�本文�g中各处引用到的文件资料，包括所要用到的软�g开发标准�?
　　列出�q�些文�g的标题、文件编受��发表日期和出版单位�Q�说明能够取得这些文件的来源�?BR>2　外部设计
2�Q?标识�W�和状�?BR>　　联系用途，详细说明用于唯一地标识该数据库的代码、名�U�或标识�W�，附加的描�q�性信息亦要给出。如果该数据库属于尚在实验中、尚在测试中或是暂时使用的，则要说明�q�一特点及其有效旉��范围�?BR>2�Q?使用它的�E�序
　　列出��要使用或访问此数据库的所有应用程序，对于�q�些应用�E�序的每一个，�l�出它的名称和版本号�?
2�Q?�U�定
　　陈述一个程序员或一个系�l�分析员��Z��能��用此数据库而需要了解的建立标号、标识的�U�定�Q�例�?用于标识数据库的不同版本的约定和用于标识库内各个文卷、、记录、数据项的命名约定等�?
2�Q?专门指导
　　向准备从事此数据库的生成、从事此数据库的��试、维护�h员提供专门的指导�Q�例如将被送入数据库的数据的格式和标准、送入数据库的操作规程和步骤，用于产生、修攏V��更新或使用�q�些数据文卷的操作指对{�?如果�q�些指导的内容篇�q�很长，列出可参阅的文�g资料的名�U�和章条�?BR>2�Q?支持软�g
　　��单介�l�同此数据库直接有关的支持��Y�Ӟ��如数据库��理�pȝ��、存储定位程序和用于装入、生成、修攏V��更新数据库的程序等。说明这些��Y件的名称、版本号和主要功能特性，如所用数据模型的�c�d��、允�?的数据容量等。列��些支持��Y件的技术文件的标题、编号及来源�?
3　�l�构设计
3�Q?概念�l�构设计
　　说明本数据库��反映的现实世界中的实体、属性和它们之间的关�pȝ��的原始数据�Ş式，包括各数据项、记录、系、文��L��标识�W�、定义、类型、度量单位和值域�Q�徏立本数据库的每一�q�用戯��图�?
3�Q?逻辑�l�构设计
　　说明把上�q�原始数据进行分解、合�q�后重新�l�织��h��的数据库全局逻辑�l�构�Q�包括所��定的关键字和属性、重新确定的记录�l�构和文��L��构、所建立的各个文卷之间的�怺�关系�Q��Ş成本数据库的数据库管理员视图�?
3�Q?物理�l�构设计
　　建立�pȝ��E�序员视图，包括�Q?BR>　　a�Q�数据在内存中的安排�Q�包括对索引区、缓冲区的设计；
　　b�Q�所使用的外存设备及外存�I�间的组�l�，包括索引区、数据块的组�l�与划分�Q?BR>　　c�Q�访问数据的方式�Ҏ��?BR>4　�q�用设计
4�Q?数据字典设计
　　�Ҏ��据库设计中涉及到的各�U�项目，如数据项、记录、系、文南��模式、子模式�{�一般要建立��h��据字典，以说明它们的标识�W�、同义名及有关信息。在本节中要说明�Ҏ��数据字典设计的基本考虑�?

4�Q?安全保密设计
　　说明在数据库的设计中�Q�将如何通过区分不同的访问者、不同的讉K��c�d��和不同的数据对象�Q�进行分别对待而获得的数据库安全保密的设计考虑�?/P>

天空苍茫 2006-03-16 12:58 发表评论

天空苍茫 — Thu, 16 Mar 2006 04:56:00 GMT

你的工程应该有个好的��L��。一个小�l�要带领客户�q�入需求启发阶�D�而且你要写��Y仉��求说明书。这份说明有些大�Q�但客户会很重视�Q�所以说明必��d��到赞同�?

　　现在你正在设计其中的一个特性，已经发现了需求的一些问题。你可以用多�U�不同的方式解释需�?5�Q�需�? 的说明正好与需�?1相反�Q�你因该�怿�哪一个？需�?4非常含糊�Q�你�Ҏ��不明白它的意思；你不得不�׃��一个小时与2位开发�h员讨论需�?0�Q�只因�ؓ你们对其各有各的理解�Q��ƈ且，唯一能够澄清�q�些问题的客��h��有给你们�{�复。你被迫破解众多需求的含义�Q��ƈ且你能预料到�Q�如果你错了�Q�你要做大量的重复工作�?

　　许多软�g需求说明书�Q�SRS�Q�写得非常糟�p�。�Q何��品的质量需要其原始材料的质量保证，�p�糕的��Y仉��求说明书不可能��Z��U�的��Y件。不�q�的是，几乎没有开发�h员受�q�与需求的抽象、分析、文��、质��有关的教肌Ӏ�而且�Q�没有非常多的好需求可以借鉴学习�Q�部分原因是很少有工�E�可以找��C��个好的借鉴�Q�其他原因是公司不愿意将其��品说明书攑֜�公共区域�?/P>

　　�q�篇文章描述了高质量需求叙�q�和说明的几个特性（特点�Q�。我们将用这些观�Ҏ��查一些有�~�陷的需求，带着痛楚重新�~�写。而且我会谈一些如何编写好的需求的提示。你也许想通过�q�些质量标准评估你的工程需求。对于修订，也许�q�了�Q�但你会学到一些有用的东西�Q��ƈ帮助你的��组在下�ơ编写出更好的需求�?

　　不要期望能够�~�写��Z��份能体现需求应具备的所有特性的SRS。无��Z��怎么�l�化、分析、评论和优化需求，都不可能辑ֈ�完美。但是，如果你牢记这些特性，你就会编写出更好的需求，生��出更好的产品�?/P>

高质量需求叙�q�的�Ҏ�?/P>

　　我们如何从一些有问题的需求中分��L出好的��Y仉��求？�q�一节将分别介绍需求叙�q�应体现�?个特性，下一节将从整体上介绍SRS文��应具备的�Ҏ��。判断每个需求是否具备应有的�Ҏ��的一�U�方式是由持有不同观点的工程资金��理人所作的正规��查。另一�U�有力的�Ҏ��是在�~�写代码前依据需求编写测试例子。测试例子能够明��显现在需求中描述的��品行为（�Ҏ��）�Q�能够显现缺陗��冗余和含糊之处�?

　　正确�Q�每个需求必��ȝ��描�q�要交付的功能。正��性依据于需求的来源�Q�如真实的客��h��高��别的�pȝ��需求说明书。一个��Y仉��求与其对应的�pȝ��需求说明书相抵触是不正��的�Q�当�Ӟ��pȝ��需求说明书本��n可能不正��）�?/P>

　　只有用户的代表能够决定用户需求的正确性，�q�就是�ؓ什么在��查需求时�Q�要包括他们或他们的代理的关键所在。不包括用户的需求检查就会导致开发�h员的�Q�“这是没意义的”，“这可能是他们的意思”等众所周知的猜��?

　　可行性：在已知的能力、有限的�pȝ��及其环境中每个需求必��L��可实现的。�ؓ了避免需求的不可行性，在需求分析阶�D�应该有一个开发�h员参与，在抽象阶�D�应该有市场人员参与。这个开发�h员应能检查在技术上什么能做什么不能做�Q�哪些需要需要额外的付出或者和其他的权衡�?/P>

　　必要性：每个需求应载明什么是客户��实需要的�Q�什么要��应于外部的需求，接口或标准。每个需求源于你认可、具有权说明需求的原始资料�Q�这是考虑必需的另外情形（译注�Q�此句翻译不��，请参照原文：Another way to think of “necessary�?is that each requirement originated from a source you recognize as having the authority to specify requirements�Q�。跟�t�每个需求回溯到出处�Q�如用例�Q�系�l�需求，规章�Q�或来自其他用户的意见。如果你不能标识出处�Q�可能需求只是个镀金的例子�Q�没有真正的必须�?/P>

　　优先权：��Z��表明在一个详�l�的产品版本中应包含哪些要点�Q�需要�ؓ每个需求，特征�Q�或用例分配实现的优先权。客��h��其代理都应有强烈的责��d��立优先权。如果所有的需求都被视为同�{�重要，那么�׃��在开发中�Q�预��削减，计划��时或组员的��d��D��新的需求时�Q?��目�l�理��不能�v��C��用。优先权的作用是提供�l�客��L��价��|��实现的相兌��用，实现相关联的有关技术风险�?

　　我是�?�U��别的优先权：高优先权表明需求必��M��现在下一个��品版本中�Q�中优先权表明需求是必须的，但是如果需要可以推�q�到晚一些的产品版本中，低优先权表明有它很好�Q�但我们必须认识到如果没有充��的旉��或资源，它可以被攑ּ�掉�?/P>

　　明确�Q�需求叙�q�的读者应只能从其得到唯一的解释说明，同样�Q�一个需求的多个读者也应达成共识。自然语�a�极易��D��含糊。要避免使用一些对于SRS作者很清楚但对于读者不清楚的主观词汇，如：用户友好性，�Ҏ��Q�简单，快速，有效�Q�几个，艺术�U�，改善的，最大，最��等�{�。每写一个需要都应简�z�，��单，直观的采用用��L��知的语言�Q�不要采用计��机术语。检查需求模�p�的有效方式包括需求说明书的正规检查，�Ҏ��需求写��试�Q�徏立用��L��假想来说明��品某个特定部分预期的�Ҏ��?

　　可证实：看你是否能够做出��试计划或其他验证方式，如检查和实证�Q�来军_��在��品中每个需求是否正��的实现。如果需求是不可验证的，军_��需求是不是正确的实现就成了判断的事。需求之间不一��_��不可行，不明��也能导致不可证实。�Q何需求如果说产品��要支持什么也是不可证实的�?/P>

高质量需求说明的特征

　　一个完整的SRS不仅是包括长长的功能性需求列表，�q�包括外部接口描�q�和一些诸如质量属性，期望性能的非功能性需求。下面描�q�C��高质量的SRS的一些特性�?/P>

　　完整�Q�不应该遗漏要求和必需的信息。完整性也是一个需求应具备的。发现缺��的信息很难�Q�因为根本不存在。在SRS中将需求以分层目录方式�l�织�Q�将帮助评审人员理解功能性描�q�的�l�构�Q��他们很容易指出遗��q��东西�?/P>

　　在需求抽象时�Q�相对于�pȝ��功能�Q�你�q�多的注意用��L��业务�Q�将��D��在需求的全局观和引进不是真正必需的需求上昑־�不��。在需求抽象上�Q�应用用例方法会发挥很好的作用。能够从不同角度察看需求的囑�Ş分析模型也可以检查出不完整性�?

　　如果你知道已�~�少一些信息，使用TBD�Q�to be determined�Q�标准标志可以突��些缺��P��当你在构��Z�品的相关部分�Ӟ��可以从一个给定的需求集中解��x��有的�~�陷�?/P>

　　一致性：一致性需求就是不要于其他的��Y仉��求或高��别的�pȝ��Q�商业）需求发生冲�H�。需求中的不一致必��d��开发开始前得到解决。只有经�q�调研才能确定哪些是正确的。修攚w��求时一定要谨慎�Q�如果只审定修改的部分，没有审定于修改相关的部分�Q�就可能��D��不一致性�?/P>

　　可修�Ҏ��：当每个需求的要求修改了或�l�护其历史更�Ҏ��Q�你必须能够审定SRS。也��是说每个需求必��ȝ��对于其他需求有其单独的标示和分开的说明，便于清晰的查阅。通过良好的组�l�可以��需求易于修改，如：��相关的需求分�l�，建立目录表，索引�Q�以及前后参考（照）�?/P>

　　可追�t�：你应能将一个��Y件与其原始材料相对应�Q�如高��pȝ��需求，用例�Q�用��L��提议�{�。也能够��Y仉��求与设计元素�Q�源代码�Q�用于构造实现和验证需求的��试相对应。可�q�踪的需求应该具有独立标�C�，�l�密和结构化的编写，不应�q�大�Q�不应是叙述性的文字和公告式的列表�?需求质量的评审

　　�q�些有关需求质量的�Ҏ��的描述在理��Z��都是非常好的�Q�但一个好的需求到底是个什么样子的呢？��Z��体现得更切合实际�Q�我们做个小�l�习。下面有几个从实际的工程选出的需求，依据上面的质量标准，评估每个需求，看看有什么问题，然后用更好的方式重写。我��对每个例子都提��q��分析和改�q�的��。也�Ƣ迎你提��Z��同的见解。我所占优的只是我知道每个需求的出处。因��Z��我都不是真正的客��P��我们只能猜测每个需求的意图�?/P>

　　�?�Q�“��品应在不��于�?0�U�的正常周期内提供状态信息�?BR>　　�q�个需求是不完整的�Q�状态信息是什么，如何昄��l�用戗��这个需求有几处含糊。我们在谈论产品的哪部分�Q�状态信息间隔真的假定�ؓ不少�?0�U�？�Q�甚者每10�q�显�C�Z��条新的状态信息也可以�Q�也许它的意图是消息间隔不应��过60�U�，那么1毫秒是不是太短？“每”这个词��D��了不��定性。问题的后果�Q�就是需求的不可证实�?BR>弥补�~�陷�Q�重写需求的一�U�方法：

　　1、状态信�?BR>　　1�Q?后台��d��理器因该以误差上下不超�q?0�U�的60�U�间隔，在用��L��面的指定位置昄��状态信�?BR>　　1�Q?如果后台�q�程处理正常�Q�那么应该显�C�Z�Q务已完成的百分数/�?BR>　　1�Q?��d��完成�Ӟ��应显�C�相关的信息
　　　1�Q?后台��d��出错应该昄��错误信息
　　��Z��分别��试和追�t�，我将其分成了多个需求。如果将几个需求串接在一节中�Q�在构造和��试时就很容易漏掉一个�?/P>

　　�?�Q�“��品应瞬间在显�C�和隐藏不可打印字符间切换�?
　　计算机在瞬间不能做�Q何事�Q�所以这个需求不切实可行。它的不完整性表现在没有声明触发状态切换的条�g。��Y件要在某些条件下更改自己�Q�或者用户�ؓ了模仿更改要做一些动作？而且�Q�在文档中改变显�C�的范围是多大：选中的文本，整个的文��，或其他的�Q�这也是个模�p�的问题。不可打印字�W�合隐藏字符一样吗�Q�或者是一些属性标志或一些控制字�W�？问题的后果，��是需求的不可证实�?

　　象这��L��写需求也许更好一些：“用戯��够在一个由特定触发条�g�Ȁ�z�d��于编辑的文��中在昄��和隐藏所有HTML标记间切换”。现在就很清楚，不可打印字符是HTML标记。由于没有定义触发条�Ӟ��需求对设计没有�U�束力。只有设计�h员选定了触发条件后�Q�你才能�~�写��试验证触发的正��操作�?/P>

　　�?�Q�“HTML分析器可以��生HTML标记错误报告�Q�帮助HTML入门者快速解决错误”。单词“快速”��其模�p�，没　　有加�q�错误报告的定义也是光��完整。我不知道，你怎么验证�q�个需求。找一个自�U�CؓHTML的入门者，看看能不能根据错误报告快速解决错误？

　　试试�q�个�Q�“HTML分析器可以��生一个错误报告，错误报告包含有在被分析文件中出错的HTML文本和行号以及错误的描述。如果没有错误，��׃��会��生错误报告”。现在我们知道了�Q�什么会被加到出错报告中�Q�但是出错报告是个什么样子，则留��p��计�h员决定。我们还指定了一个例外：如果没有发现错误�Q�不产生错误报告�?/P>

　　�?�Q�“如果可能，�ȝ��L��应通过联机校验�Q�而不是通过��d��体主��号码列表校验”。真感到�l�望�Q�什么是“如果可能”：如果技术上可行�Q�如果主全体�ȝ��L��列表可以联机获得�Q�要避免象“应该”的�q�类不确切的词。客��h��需要这个功能性还是不需要。我曄��q�一些需求说明书�Q�采用诸如：应，��，应该/��要�{�一些词描述优先�U�的�l�微差别。但我更喜欢用“应”清楚的说明需求的意图�Q�指明优先��。这是修改后的：�pȝ��应校验输入的�ȝ��L��而不通过联机的主全体��d��L��列表。如果在列表中没有发��C��号码，��会昄��一条错误信息，也不接受指��o�?/P>

　　在理解各个已完成的糟�p�需求上�Q�开发�h员将会遇到的��N��是：开发�h员与客户��会在审栔R��求，未达成共识前发生�Ȁ烈的争论。详�l�检查大的需求文��不是一件轻杄��事情。我清楚有�h做过�Q�而且他们花在��查上的每一分钟都是值得的。相对于开发阶�D�和用户的抱怨电话，在这个阶�D�修补缺��h��便宜的，

�~�写质量需求的斚w��

　　�~�写优秀的需求是没有公式化的�Ҏ��的。这需要大量的�l�验�Q�要从你在过�ȝ��文档中发现的问题学习。请在组�l��Y仉��求文��时�Q�严格遵从这些方针�?/P>

　　句子和段落要短。采用主动语气。��用正��的语法�Q�拼写，标点。��用术语，要保持一致性，�q�在术语表或数据字典中定义它�?/P>

　　要看需求是否被有效的定义，可以以开发�h员的观点看看。在内心��“当你们做完了找我”这句加到文档尾部，看看能不能是你紧张�v来。换句话��_��你是否需要SRS的编写者的额外解释帮助开发�h员很好的理解需求，以便于设计和实现�Q�如果是的话�Q�在�l�箋工作前，需求还需要细化�?/P>

　　需求编写者还要努力正��地把握�l�化�E�度。要避免包含多个需求的长的叙述�D�落。有帮助的提�C�是�~�写独立的可��试的需求。如果你认�ؓ一��部分测试可以验证一个需求的正确�Q�那么它已经正确的细化了。如果你预想到多�U�不同类的测试，几个需求可能已挤到了一��P��需要拆分开�?

　　密切��x��多个需求合成了单个需求。一个需求中的连接词“和�?“或”徏议几个需求合�q�。不要在一个需求中使用“和�?“或”�?/P>

　　通篇文��l�节上要保持一致。我曄��见过多个需求说明书前后不一致。如�Q�“对于红色合法的颜色代码应是R”及“对于绿色合法的颜色代码应是G”就有可以以分散的需求分��d��Q�而“��品应能对来自语音�~�辑指示做出反应”应作�ؓ一个子�pȝ��Q�不应作为单个的功能性需求�?/P>

　　避免在SRS中过多的甌��需求。在多处包含相同的需求可以��文��更易于阅读，但也会给文��的维护增加困难。文档的多䆾文本要在同一旉��内全部更斎ͼ�避免不一致性�?/P>

　　如果你遵从了�q�些斚w��Q�你能够��早地经常正式或非正式的审查需求，�q�些需求对于��品的构造，�pȝ��试以及最后的客户满意�Q�都会成为好的奠基石。�ƈ且要��C��Q�没有高质量的需求，软�g��p��一盒��y克力�Q�你永远不知道你会得��C��么�?

天空苍茫 2006-03-16 12:56 发表评论

正则表达式系�l�教�E?----------(�?

天空苍茫 — Mon, 23 Jan 2006 05:11:00 GMT

�q�来学习正则表达式，看到�q�篇文章�Q�很不错�?BR>
前言

　　正则表达式是烦琐的，但是强大的，学会之后的应用会让你除了提高效率外，会给你带来绝对的成就感。只要认真去阅读�q�些资料�Q�加上应用的时候进行一定的参考，掌握正则表达式不是问题�?BR>
索引

1. 引子
　　目前�Q�正则表辑ּ�已经在很多��Y件中得到�q�泛的应用，包括*nix�Q�Linux, Unix�{�）�Q�HP�{�操作系�l�，PHP�Q�C#�Q�Java�{�开发环境，以及很多的应用��Y件中�Q�都可以看到正则表达式的影子�?BR>
　　正则表达式的使用�Q�可以通过��单的办法来实现强大的功能。�ؓ了简单有效而又不失强大�Q�造成了正则表辑ּ�代码的难度较大，学习��h��也不是很�Ҏ��Q�所以需要付��Z��些努力才行，入门之后参照一定的参考，使用��h��q�是比较��单有效的�?BR>
　　例子�Q?^.+@.+\\..+$

　　�q�样的代码曾�l�多�ơ把我自��q��吓退�q�。可能很多�h也是被这��L��代码�l�吓跑的吧。��l�阅��L��文将让你也可以自由应用这��L��代码�?BR>
　　注意�Q�这里的�W?部分跟前面的内容看�v来似乎有些重复，目的是把前面表格里的部分重新描述了一�ơ，目的是让�q�些内容更容易理解�?BR>2. 正则表达式的历史

　　正则表达式的“祖先”可以一直上溯至对�h�cȝ��l�系�l�如何工作的早期研究。Warren McCulloch �?Walter Pitts �q�两位神�l�生理学家研�I�出一�U�数学方式来描述�q�些��经�|�络�?BR>
　　1956 �q? 一位叫 Stephen Kleene 的数学家�?McCulloch �?Pitts 早期工作的基��上，发表了一��标题�ؓ“神�l�网事�g的表�C�法”的论文�Q�引入了正则表达式的概念。正则表辑ּ��是用来描述他称为“正则集的代数”的表达式，�?此采用“正则表辑ּ�”这个术语�?BR>
　　随后�Q�发现可以将�q�一工作应用于��?Ken Thompson 的计��搜索算法的一些早期研�IӞ��Ken Thompson �?Unix 的主要发明�h。正则表辑ּ�的第一个实用应用程序就�?Unix 中的 qed �~�辑器�?BR>
　　如他们所��_��剩下的就是众所周知的历史了。从那时��L��至现在正则表辑ּ�都是��Z��文本的编辑器和搜索工具中的一个重要部分�?BR>3. 正则表达式定�?BR>
　　正则表达�?regular expression)描述了一�U�字�W�串匚w��的模式，可以用来��查一个串是否含有某种子串、将匚w��的子串做替换或者从某个串中取出�W�合某个条�g的子串等�?BR>
　　列目录时�Q�　dir *.txt或ls *.txt中的*.txt��׃��是一个正则表辑ּ�,因�ؓ�q�里*与正则式�?的含义是不同的�?

　　正则表达式是由普通字�W�（例如字符 a �?z�Q�以及特�D�字�W�（�U�Cؓ元字�W�）�l�成的文字模式。正则表辑ּ�作�ؓ一个模板，��某个字�W�模式与所搜烦的字�W�串�q�行匚w��?BR>
　　3.1 普通字�W?BR>
　　由所有那些未昑ּ�指定为元字符的打印和非打印字�W�组成。这包括所有的大写和小写字母字�W�，所有数字，所有标点符号以及一些符受��?

　　3.2 非打印字�W?BR>

字符	含义
\cx	匚w��由x指明的控制字�W�。例如， \cM 匚w��一�?Control-M 或回车符。x 的值必��Mؓ A-Z �?a-z 之一。否则，��?c 视�ؓ一个原义的 'c' 字符�?/TD>
\f	匚w��一个换��늬�。等价于 \x0c �?\cL�?/TD>
\n	匚w��一个换行符。等价于 \x0a �?\cJ�?/TD>
\r	匚w��一个回车符。等价于 \x0d �?\cM�?/TD>
\s	匚w��M��I�白字符�Q�包括空根{��制表符、换��늬��{�等。等价于 [ \f\n\r\t\v]�?/TD>
\S	匚w��M��非空白字�W�。等价于 [^ \f\n\r\t\v]�?/TD>
\t	匚w��一个制表符。等价于 \x09 �?\cI�?/TD>
\v	匚w��一个垂直制表符。等价于 \x0b �?\cK�?/TD>

　
　　3.3 �Ҏ��字符

　　所谓特�D�字�W�，��是一些有�Ҏ��含义的字�W�，如上面说�?*.txt"中的*�Q�简单的说就是表�C�Z�Q何字�W�串的意思。如果要查找文�g名中有＊的文�Ӟ��则需要对�Q�进行�{义，卛_��其前加一个\。ls \*.txt。正则表辑ּ�有以下特�D�字�W��?BR>

特别字符	说明
$	匚w��输入字符串的�l�尾位置。如果设�\|�了 RegExp 对象�?Multiline 属性，�?$ 也匹�?'\n' �?'\r'。要匚w�� $ 字符本��n�Q�请使用 \$�?/TD>
( )	标记一个子表达式的开始和�l�束位置。子表达式可以获取供以后使用。要匚w��q�些字符�Q�请使用 $ �?$�?/TD>
*	匚w��前面的子表达式零�ơ或多次。要匚w�� * 字符�Q�请使用 \*�?/TD>
+	匚w��前面的子表达式一�ơ或多次。要匚w�� + 字符�Q�请使用 \+�?/TD>
.	匚w��除换行符 \n之外的�Q何单字符。要匚w�� .�Q�请使用 \�?/TD>
[	标记一个中括号表达式的开始。要匚w�� [�Q�请使用 \[�?/TD>
?	匚w��前面的子表达式零�ơ或一�ơ，或指明一个非贪婪限定�W�。要匚w�� ? 字符�Q�请使用 \?�?/TD>
\	��下一个字�W�标��Cؓ或特�D�字�W�、或原义字符、或向后引用、或八进制�{义符。例如， 'n' 匚w��字符 'n'�?\n' 匚w��换行�W�。序�?'\\' 匚w�� "\"�Q��?'\(' 则匹�?"("�?/TD>
^	匚w��输入字符串的开始位�\|�，除非在方括号表达式中使用�Q�此时它表示不接受该字符集合。要匚w�� ^ 字符本��n�Q�请使用 \^�?/TD>
{	标记限定�W�表辑ּ�的开始。要匚w�� {�Q�请使用 \{�?/TD>
\|	指明两项之间的一个选择。要匚w�� \|�Q�请使用 \\|�?/TD>

　　构造正则表辑ּ�的方法和创徏数学表达式的�Ҏ��一栗��也��是用多�U�元字符与操作符��小的表辑ּ��l�合在一��h��创徏更大的表辑ּ�。正则表辑ּ�的组件可以是单个的字�W�、字�W�集合、字�W�范围、字�W�间的选择或者所有这些组件的��L��l�合�?
　

　　3.4 限定�W?BR>
　　限定�W�用来指定正则表辑ּ�的一个给定组件必��要出现多少�ơ才能满��_��配。有*�?�?或{n}或{n,}或{n,m}�?�U��?BR>
　　*�?�?限定�W�都是贪婪的�Q�因为它们会��可能多的匹配文字，只有在它们的后面加上一�?��可以实现非贪婪或最��匹配�?BR>
　　正则表达式的限定�W�有�Q?BR>

字符	描述
*	匚w��前面的子表达式零�ơ或多次。例如，zo* 能匹�?"z" 以及 "zoo"�? �{��h于{0,}�?/TD>
+	匚w��前面的子表达式一�ơ或多次。例如，'zo+' 能匹�?"zo" 以及 "zoo"�Q�但不能匚w�� "z"�? �{��h�?{1,}�?/TD>
?	匚w��前面的子表达式零�ơ或一�ơ。例如，"do(es)?" 可以匚w�� "do" �?"does" 中的"do" �? �{��h�?{0,1}�?/TD>
{n}	n 是一个非负整数。匹配确定的 n �ơ。例如，'o{2}' 不能匚w�� "Bob" 中的 'o'�Q�但是能匚w�� "food" 中的两个 o�?/TD>
{n,}	n 是一个非负整数。至��匹配n �ơ。例如，'o{2,}' 不能匚w�� "Bob" 中的 'o'�Q�但能匹�?"foooood" 中的所�?o�?o{1,}' �{��h�?'o+'�?o{0,}' 则等价于 'o*'�?/TD>
{n,m}	m �?n 均�ؓ非负整数�Q�其中n <= m。最��匹�?n �ơ且最多匹�?m �ơ。例如，"o{1,3}" ��匹�?"fooooood" 中的前三�?o�?o{0,1}' �{��h�?'o?'。请注意在逗号和两个数之间不能有空根{�?/TD>

　　3.5 定位�W?/STRONG>

　　用来描述字符串或单词的边界，^�?分别指字�W�串的开始与�l�束�Q�\b描述单词的前或后边界�Q�\B表示非单词边界�?SPAN style="COLOR: rgb(255,0,0)">不能对定位符使用限定�W��?

　　3.6 选择

　　用圆括号��所有选择��Ҏ��h��Q�相�ȝ��选择��之间用|分隔。但用圆括号会有一个副作用�Q�是相关的匹配会被缓存，此时可用?:攑֜��W�一个选项前来消除�q�种副作用�?BR>
　　其中?:是非捕获元之一�Q�还有两个非捕获元是?=�?!�Q�这两个�q�有更多的含义，前者�ؓ正向预查�Q�在��M��开始匹配圆括号内的正则表达式模式的位置来匹配搜索字�W�串�Q�后者�ؓ负向预查�Q�在��M��开始不匚w��该正则表辑ּ�模式的位�|�来匚w��搜烦字符丌Ӏ?

　　3.7 后向引用

　　对一个正则表辑ּ�模式或部分模式两�Ҏ��加圆括号��导致相兛_��配存储到一个��时缓冲区中，所捕获的每个子匚w��都按照在正则表达式模式中从左臛_��所遇到的内容存储。存储子匚w��的缓冲区�~�号�?1 开始，�q�箋�~�号直至最�?99 个子表达式。每个缓冲区都可以��?'\n' 讉K��Q�其�?n ��Z��个标识特定缓冲区的一位或两位十进制数�?BR>
　　可以使用非捕获元字符 '?:', '?=', or '?!' 来忽略对相关匚w��的保存�?
4. 各种操作�W�的�q�算优先�U?BR>
　　相同优先�U�的从左到右�q�行�q�算�Q�不同优先��的运��先高后低。各�U�操作符的优先��从高��C��如下�Q?BR>

操作�W? 描述

\ 转义�W?/TD>

(), (?:), (?=), [] 圆括号和�Ҏ��?/TD>

*, +, ?, {n}, {n,}, {n,m} 限定�W?/TD>

^, $, \anymetacharacter 位置和顺�?/TD>

| “或”操�?/TD>
5. 全部�W�号解释

字符描述

\ ��下一个字�W�标��Cؓ一个特�D�字�W�、或一个原义字�W�、或一�?向后引用、或一个八�q�制转义�W�。例如，'n' 匚w��字符 "n"�?\n' 匚w��一个换行符。序�?'\\' 匚w�� "\" �?"\(" 则匹�?"("�?/TD>

^ 匚w��输入字符串的开始位�|�。如果设�|�了 RegExp 对象�?Multiline 属性，^ 也匹�?'\n' �?'\r' 之后的位�|��?/TD>

$ 匚w��输入字符串的�l�束位置。如果设�|�了RegExp 对象�?Multiline 属性，$ 也匹�?'\n' �?'\r' 之前的位�|��?/TD>

* 匚w��前面的子表达式零�ơ或多次。例如，zo* 能匹�?"z" 以及 "zoo"�? �{��h于{0,}�?/TD>

+ 匚w��前面的子表达式一�ơ或多次。例如，'zo+' 能匹�?"zo" 以及 "zoo"�Q�但不能匚w�� "z"�? �{��h�?{1,}�?/TD>

? 匚w��前面的子表达式零�ơ或一�ơ。例如，"do(es)?" 可以匚w�� "do" �?"does" 中的"do" �? �{��h�?{0,1}�?/TD>

{n} n 是一个非负整数。匹配确定的 n �ơ。例如，'o{2}' 不能匚w�� "Bob" 中的 'o'�Q�但是能匚w�� "food" 中的两个 o�?/TD>

{n,} n 是一个非负整数。至��匹配n �ơ。例如，'o{2,}' 不能匚w�� "Bob" 中的 'o'�Q�但能匹�?"foooood" 中的所�?o�?o{1,}' �{��h�?'o+'�?o{0,}' 则等价于 'o*'�?/TD>

{n,m} m �?n 均�ؓ非负整数�Q�其中n <= m。最��匹�?n �ơ且最多匹�?m �ơ。例如，"o{1,3}" ��匹�?"fooooood" 中的前三�?o�?o{0,1}' �{��h�?'o?'。请注意在逗号和两个数之间不能有空根{�?/TD>

? 当该字符紧跟在�Q何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面�Ӟ��匚w��模式是非贪婪的。非贪婪模式��可能少的匹配所搜烦的字�W�串�Q�而默认的贪婪模式则尽可能多的匚w��所搜烦的字�W�串。例如，对于字符�?"oooo"�Q?o+?' ��匹配单�?"o"�Q��?'o+' ��匹配所�?'o'�?/TD>

. 匚w��?"\n" 之外的�Q何单个字�W�。要匚w��包括 '\n' 在内的�Q何字�W�，请��用象 '[.\n]' 的模式�?/TD>

(pattern) 匚w�� pattern �q�获取这一匚w��。所获取的匹配可以从产生�?Matches 集合得到�Q�在VBScript 中��?SubMatches 集合�Q�在JScript 中则使用 $0�?9 属性。要匚w��圆括号字�W�，请��?'$' �?'$'�?/TD>

(?:pattern) 匚w�� pattern 但不获取匚w��l�果�Q�也��是说这是一个非获取匚w��Q�不�q�行存储供以后��用。这在��?"�? 字符 (|) 来组合一个模式的各个部分是很有用。例如， 'industr(?:y|ies) ��是一个比 'industry|industries' 更简略的表达式�?/TD>

(?=pattern) 正向预查�Q�在��M��匚w�� pattern 的字�W�串开始处匚w��查找字符丌Ӏ�这是一个非获取匚w��Q�也��是��_��该匹配不需要获取供以后使用。例如，'Windows (?=95|98|NT|2000)' 能匹�?"Windows 2000" 中的 "Windows" �Q�但不能匚w�� "Windows 3.1" 中的 "Windows"。预查不消耗字�W�，也就是说�Q�在一个匹配发生后�Q�在最后一�ơ匹配之后立卛_��始下一�ơ匹配的搜烦�Q�而不是从包含预查的字�W�之后开始�?/TD>

(?!pattern) 负向预查�Q�在��M��不匹�?pattern 的字�W�串开始处匚w��查找字符丌Ӏ�这是一个非获取匚w��Q�也��是��_��该匹配不需要获取供以后使用。例�?Windows (?!95|98|NT|2000)' 能匹�?"Windows 3.1" 中的 "Windows"�Q�但不能匚w�� "Windows 2000" 中的 "Windows"。预查不消耗字�W�，也就是说�Q�在一个匹配发生后�Q�在最后一�ơ匹配之后立卛_��始下一�ơ匹配的搜烦�Q�而不是从包含预查的字�W�之后开�?/TD>

x|y 匚w�� x �?y。例如，'z|food' 能匹�?"z" �?"food"�?(z|f)ood' 则匹�?"zood" �?"food"�?/TD>

[xyz] 字符集合。匹配所包含的�Q意一个字�W�。例如， '[abc]' 可以匚w�� "plain" 中的 'a'�?/TD>

[^xyz] 负值字�W�集合。匹配未包含的�Q意字�W�。例如， '[^abc]' 可以匚w�� "plain" 中的'p'�?/TD>

[a-z] 字符范围。匹配指定范围内的�Q意字�W�。例如，'[a-z]' 可以匚w�� 'a' �?'z' 范围内的��L��写字母字符�?/TD>

[^a-z] 负值字�W�范围。匹配�Q何不在指定范围内的�Q意字�W�。例如，'[^a-z]' 可以匚w��M��不在 'a' �?'z' 范围内的��L��字符�?/TD>

\b 匚w��一个单词边界，也就是指单词和空格间的位�|�。例如， 'er\b' 可以匚w��"never" 中的 'er'�Q�但不能匚w�� "verb" 中的 'er'�?/TD>

\B 匚w��非单词边界�?er\B' 能匹�?"verb" 中的 'er'�Q�但不能匚w�� "never" 中的 'er'�?/TD>

\cx 匚w��?x 指明的控制字�W�。例如， \cM 匚w��一�?Control-M 或回车符。x 的值必��Mؓ A-Z �?a-z 之一。否则，��?c 视�ؓ一个原义的 'c' 字符�?/TD>

\d 匚w��一个数字字�W�。等价于 [0-9]�?/TD>

\D 匚w��一个非数字字符。等价于 [^0-9]�?/TD>

\f 匚w��一个换��늬�。等价于 \x0c �?\cL�?/TD>

\n 匚w��一个换行符。等价于 \x0a �?\cJ�?/TD>

\r 匚w��一个回车符。等价于 \x0d �?\cM�?/TD>

\s 匚w��M��I�白字符�Q�包括空根{��制表符、换��늬��{�等。等价于 [ \f\n\r\t\v]�?/TD>

\S 匚w��M��非空白字�W�。等价于 [^ \f\n\r\t\v]�?/TD>

\t 匚w��一个制表符。等价于 \x09 �?\cI�?/TD>

\v 匚w��一个垂直制表符。等价于 \x0b �?\cK�?/TD>

\w 匚w��包括下划�U�的��M��单词字符。等价于'[A-Za-z0-9_]'�?/TD>

\W 匚w��M��非单词字�W�。等价于 '[^A-Za-z0-9_]'�?/TD>

\xn 匚w�� n�Q�其�?n 为十六进制�{义倹{��十六进制�{义值必��Mؓ��定的两个数字长。例如，'\x41' 匚w�� "A"�?\x041' 则等价于 '\x04' & "1"。正则表辑ּ�中可以��?ASCII �~�码�?

\num 匚w�� num�Q�其�?num 是一个正整数。对所获取的匹配的引用。例如，'(.)\1' 匚w��两个�q�箋的相同字�W��?/TD>

\n 标识一个八�q�制转义值或一个向后引用。如�?\n 之前臛_�� n 个获取的子表辑ּ��Q�则 n 为向后引用。否则，如果 n 为八�q�制数字 (0-7)�Q�则 n ��Z��个八�q�制转义倹{�?/TD>

\nm 标识一个八�q�制转义值或一个向后引用。如�?\nm 之前臛_��?nm 个获得子表达式，�?nm 为向后引用。如�?\nm 之前臛_��?n 个获取，�?n ��Z��个后跟文�?m 的向后引用。如果前面的条�g都不满��Q�若 n �?m 均�ؓ八进制数�?(0-7)�Q�则 \nm ��匹配八�q�制转义�?nm�?/TD>

\nml 如果 n 为八�q�制数字 (0-3)�Q�且 m �?l 均�ؓ八进制数�?(0-7)�Q�则匚w��八进制�{义�?nml�?/TD>

\un 匚w�� n�Q�其�?n 是一个用四个十六�q�制数字表示�?Unicode 字符。例如， \u00A9 匚w��版权�W�号 (?)�?/TD>
6. 部分例子

正则表达�?/TH> 说明

/\b([a-z]+) \1\b/gi 一个单词连�l�出现的位置

/(\w+):\/\/([^/:]+)(:\d*)?([^# ]*)/ ��一个URL解析为协议、域、端口及相对路径

/^(?:Chapter|Section) [1-9][0-9]{0,1}$/ 定位章节的位�|?/TD>

/[-a-z]/ A至z�?6个字母再加一�?受��?/TD>

/ter\b/ 可匹配chapter�Q�而不能terminal

/\Bapt/ 可匹配chapter�Q�而不能aptitude

/Windows(?=95 |98 |NT )/ 可匹配Windows95或Windows98或WindowsNT,当找��C��个匹配后�Q�从Windows后面开始进行下一�ơ的��索匹配�?/TD>
7. 正则表达式匹配规�?BR>
　　7.1 基本模式匚w��

　　一切从最基本的开始。模式，是正规表辑ּ�最基本的元素，它们是一�l�描�q�字�W�串特征的字�W�。模式可以很��单，由普通的字符串组成，也可以非常复杂，往往用特�D�的字符表示一个范围内的字�W�、重复出玎ͼ�或表�C�Z��下文。例如：

　　^once

　　�q�个模式包含一个特�D�的字符^�Q�表�C��模式只匹配那些以once开头的字符丌Ӏ�例如该模式与字�W�串"once upon a time"匚w��Q�与"There once was a man from NewYork"不匹配。正如如^�W�号表示开头一��P��$�W�号用来匚w��那些以给定模式结��字符丌Ӏ?BR>
　　bucket$

　　�q�个模式�?Who kept all of this cash in a bucket"匚w��Q�与"buckets"不匹配。字�W�^�?同时使用�Ӟ��表示�_��匚w��Q�字�W�串与模式一��P��。例如：

　　^bucket$

　　只匹配字�W�串"bucket"。如果一个模式不包括^�?�Q�那么它与�Q何包含该模式的字�W�串匚w��。例如：模式

　　once

　　与字�W�串

　　There once was a man from NewYork
　　Who kept all of his cash in a bucket.

　　是匹配的�?BR>
　　在该模式中的字母(o-n-c-e)是字面的字符�Q�也��是��_��他们表示该字母本�w�，数字也是一��L��。其他一些稍微复杂的字符�Q�如标点�W�号和白字符�Q�空根{��制表符�{�）�Q�要用到转义序列。所有的转义序列都用反斜�?\)打头。制表符的�{义序列是�Q�\t。所以如果我们要��一个字�W�串是否以制表符开��_��可以用这个模式：

　　^\t

　　�c�M��的，用\n表示“新行”，\r表示回�R。其他的�Ҏ��W�号�Q�可以用在前面加上反斜杠�Q�如反斜杠本�w�用\\表示�Q�句�?用\.表示�Q�以此类推�?BR>
　　7.2 字符��?BR>
　　在INTERNET的程序中�Q�正规表辑ּ�通常用来验证用户的输入。当用户提交一个FORM以后�Q�要判断输入的电话号码、地址、EMAIL地址、信用卡��L��{�是否有效，用普通的��Z��字面的字�W�是不够的�?BR>
　　所以要用一�U�更自由的描�q�我们要的模式的办法�Q�它��是字符��。要建立一个表�C�所有元韛_��W�的字符��，��把所有的元音字符攑֜�一个方括号里：

　　[AaEeIiOoUu]

　　�q�个模式与�Q何元韛_��W�匹配，但只能表�C�Z��个字�W�。用�q�字号可以表�C�Z��个字�W�的范围�Q�如�Q?BR>
　　[a-z] //匚w��所有的��写字母
　　[A-Z] //匚w��所有的大写字母
　　[a-zA-Z] //匚w��所有的字母
　　[0-9] //匚w��所有的数字
　　[0-9\.\-] //匚w��所有的数字�Q�句号和减号
　　[ \f\r\t\n] //匚w��所有的白字�W?

　　同样的，�q�些也只表示一个字�W�，�q�是一个非帔R��要的。如果要匚w��一个由一个小写字母和一位数字组成的字符�Ԍ��比如"z2"�?t6"�?g7"�Q�但不是"ab2"�?r2d3" �?b52"的话�Q�用�q�个模式�Q?BR>
　　^[a-z][0-9]$

　　��管[a-z]代表26个字母的范围�Q�但在这里它只能与第一个字�W�是��写字母的字�W�串匚w��?BR>
　　前面曄��提到^表示字符串的开��_��但它�q�有另外一个含义。当在一�l�方括号里��用^是，它表�C�“非”或“排除”的意思，常常用来剔除某个字符。还用前面的例子�Q�我们要求第一个字�W�不能是数字�Q?BR>
　　^[^0-9][0-9]$

　　�q�个模式�?&5"�?g7"�?-2"是匹配的�Q�但�?12"�?66"是不匚w��的。下面是几个排除特定字符的例子：

　　[^a-z] //除了��写字母以外的所有字�W?
　　[^\\\/\^] //除了(\)(/)(^)之外的所有字�W?
　　[^\"\'] //除了双引�?")和单引号(')之外的所有字�W?

　　�Ҏ��字符"." (点，句号)在正规表辑ּ�中用来表�C�除了“新行”之外的所有字�W�。所以模�?^.5$"与�Q何两个字�W�的、以数字5�l�尾和以其他非“新行”字�W�开头的字符串匹配。模�?."可以匚w��M��字符�Ԍ��除了�I�Z��和只包括一个“新行”的字符丌Ӏ?BR>
　　PHP的正规表辑ּ�有一些内�|�的通用字符��，列表如下�Q?BR>
　　字符��含�?

　　[[:alpha:]] ��M��字母
　　[[:digit:]] ��M��数字
　　[[:alnum:]] ��M��字母和数�?
　　[[:space:]] ��M��白字�W?
　　[[:upper:]] ��M��大写字母
　　[[:lower:]] ��M��写字母
　　[[:punct:]] ��M��标点�W�号
　　[[:xdigit:]] ��M��16�q�制的数字，相当于[0-9a-fA-F]

　　7.3 ��定重复出现

　　到现在�ؓ止，你已�l�知道如何去匚w��一个字母或数字�Q�但更多的情况下�Q�可能要匚w��一个单词或一�l�数字。一个单词有若干个字母组成，一�l�数字有若干个单数组成。跟在字�W�或字符��后面的花括�?{})用来��定前面的内容的重复出现的次数�?

　　字符��?含义
　　^[a-zA-Z_]$ 所有的字母和下划线
　　^[[:alpha:]]{3}$ 所有的3个字母的单词
　　^a$ 字母a
　　^a{4}$ aaaa
　　^a{2,4}$ aa,aaa或aaaa
　　^a{1,3}$ a,aa或aaa
　　^a{2,}$ 包含多于两个a的字�W�串
　　^a{2,} 如：aardvark和aaab�Q�但apple不行
　　a{2,} 如：baad和aaa�Q�但Nantucket不行
　　\t{2} 两个制表�W?
　　.{2} 所有的两个字符

　　�q�些例子描述了花括号的三�U�不同的用法。一个数字，{x}的意思是“前面的字符或字�W�簇只出现x�ơ”；一个数字加逗号�Q�{x,}的意思是“前面的内容�?现x或更多的�ơ数”；两个用逗号分隔的数字，{x,y}表示“前面的内容臛_��出现x�ơ，但不��过y�ơ”。我们可以把模式扩展到更多的单词或数字：

　　^[a-zA-Z0-9_]{1,}$ //所有包含一个以上的字母、数字或下划�U�的字符�?
　　^[0-9]{1,}$ //所有的正数
　　^\-{0,1}[0-9]{1,}$ //所有的整数
　　^\-{0,1}[0-9]{0,}\.{0,1}[0-9]{0,}$ //所有的��数

　　最后一个例子不太好理解�Q�是吗？�q�么看吧�Q�与所有以一个可选的负号(\-{0,1})开�?^)、跟着0个或更多的数�?[0-9]{0,})、和一�?可选的��数�?\.{0,1})再跟�?个或多个数字([0-9]{0,})�Q��ƈ且没有其他�Q何东�?$)。下面你��知道能够��用的更�ؓ��单的�Ҏ��?BR>
　　�Ҏ��字符"?"与{0,1}是相�{�的�Q�它们都代表着�Q��?个或1个前面的内容”或“前面的内容是可选的”。所以刚才的例子可以��化�ؓ�Q?BR>
　　^\-?[0-9]{0,}\.?[0-9]{0,}$

　　�Ҏ��字符"*"与{0,}是相�{�的�Q�它们都代表着�?个或多个前面的内容”。最后，字符"+"�?{1,}是相�{�的�Q�表�C��?个或多个前面的内容”，所以上面的4个例子可以写成：

　　^[a-zA-Z0-9_]+$ //所有包含一个以上的字母、数字或下划�U�的字符�?
　　^[0-9]+$ //所有的正数
　　^\-?[0-9]+$ //所有的整数
　　^\-?[0-9]*\.?[0-9]*$ //所有的��数

　　当然�q��ƈ不能从技术上降低正规表达式的复杂性，但可以��它们更容易阅诅R�?BR>

天空苍茫 2006-01-23 13:11 发表评论

操作�W?	描述
\	转义�W?/TD>
(), (?:), (?=), []	圆括号和�Ҏ��?/TD>
*, +, ?, {n}, {n,}, {n,m}	限定�W?/TD>
^, $, \anymetacharacter	位置和顺�?/TD>
\|	“或”操�?/TD>

字符	描述
\	��下一个字�W�标��Cؓ一个特�D�字�W�、或一个原义字�W�、或一�?向后引用、或一个八�q�制转义�W�。例如，'n' 匚w��字符 "n"�?\n' 匚w��一个换行符。序�?'\\' 匚w�� "\" �?"\(" 则匹�?"("�?/TD>
^	匚w��输入字符串的开始位�\|�。如果设�\|�了 RegExp 对象�?Multiline 属性，^ 也匹�?'\n' �?'\r' 之后的位�\|��?/TD>
$	匚w��输入字符串的�l�束位置。如果设�\|�了RegExp 对象�?Multiline 属性，$ 也匹�?'\n' �?'\r' 之前的位�\|��?/TD>
*	匚w��前面的子表达式零�ơ或多次。例如，zo* 能匹�?"z" 以及 "zoo"�? �{��h于{0,}�?/TD>
+	匚w��前面的子表达式一�ơ或多次。例如，'zo+' 能匹�?"zo" 以及 "zoo"�Q�但不能匚w�� "z"�? �{��h�?{1,}�?/TD>
?	匚w��前面的子表达式零�ơ或一�ơ。例如，"do(es)?" 可以匚w�� "do" �?"does" 中的"do" �? �{��h�?{0,1}�?/TD>
{n}	n 是一个非负整数。匹配确定的 n �ơ。例如，'o{2}' 不能匚w�� "Bob" 中的 'o'�Q�但是能匚w�� "food" 中的两个 o�?/TD>
{n,}	n 是一个非负整数。至��匹配n �ơ。例如，'o{2,}' 不能匚w�� "Bob" 中的 'o'�Q�但能匹�?"foooood" 中的所�?o�?o{1,}' �{��h�?'o+'�?o{0,}' 则等价于 'o*'�?/TD>
{n,m}	m �?n 均�ؓ非负整数�Q�其中n <= m。最��匹�?n �ơ且最多匹�?m �ơ。例如，"o{1,3}" ��匹�?"fooooood" 中的前三�?o�?o{0,1}' �{��h�?'o?'。请注意在逗号和两个数之间不能有空根{�?/TD>
?	当该字符紧跟在�Q何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面�Ӟ��匚w��模式是非贪婪的。非贪婪模式��可能少的匹配所搜烦的字�W�串�Q�而默认的贪婪模式则尽可能多的匚w��所搜烦的字�W�串。例如，对于字符�?"oooo"�Q?o+?' ��匹配单�?"o"�Q��?'o+' ��匹配所�?'o'�?/TD>
.	匚w��?"\n" 之外的�Q何单个字�W�。要匚w��包括 '\n' 在内的�Q何字�W�，请��用象 '[.\n]' 的模式�?/TD>
(pattern)	匚w�� pattern �q�获取这一匚w��。所获取的匹配可以从产生�?Matches 集合得到�Q�在VBScript 中��?SubMatches 集合�Q�在JScript 中则使用 $0�?9 属性。要匚w��圆括号字�W�，请��?'\(' �?'\)'�?/TD>
(?:pattern)	匚w�� pattern 但不获取匚w��l�果�Q�也��是说这是一个非获取匚w��Q�不�q�行存储供以后��用。这在��?"�? 字符 (\|) 来组合一个模式的各个部分是很有用。例如， 'industr(?:y\|ies) ��是一个比 'industry\|industries' 更简略的表达式�?/TD>
(?=pattern)	正向预查�Q�在��M��匚w�� pattern 的字�W�串开始处匚w��查找字符丌Ӏ�这是一个非获取匚w��Q�也��是��_��该匹配不需要获取供以后使用。例如，'Windows (?=95\|98\|NT\|2000)' 能匹�?"Windows 2000" 中的 "Windows" �Q�但不能匚w�� "Windows 3.1" 中的 "Windows"。预查不消耗字�W�，也就是说�Q�在一个匹配发生后�Q�在最后一�ơ匹配之后立卛_��始下一�ơ匹配的搜烦�Q�而不是从包含预查的字�W�之后开始�?/TD>
(?!pattern)	负向预查�Q�在��M��不匹�?pattern 的字�W�串开始处匚w��查找字符丌Ӏ�这是一个非获取匚w��Q�也��是��_��该匹配不需要获取供以后使用。例�?Windows (?!95\|98\|NT\|2000)' 能匹�?"Windows 3.1" 中的 "Windows"�Q�但不能匚w�� "Windows 2000" 中的 "Windows"。预查不消耗字�W�，也就是说�Q�在一个匹配发生后�Q�在最后一�ơ匹配之后立卛_��始下一�ơ匹配的搜烦�Q�而不是从包含预查的字�W�之后开�?/TD>
x\|y	匚w�� x �?y。例如，'z\|food' 能匹�?"z" �?"food"�?(z\|f)ood' 则匹�?"zood" �?"food"�?/TD>
[xyz]	字符集合。匹配所包含的�Q意一个字�W�。例如， '[abc]' 可以匚w�� "plain" 中的 'a'�?/TD>
[^xyz]	负值字�W�集合。匹配未包含的�Q意字�W�。例如， '[^abc]' 可以匚w�� "plain" 中的'p'�?/TD>
[a-z]	字符范围。匹配指定范围内的�Q意字�W�。例如，'[a-z]' 可以匚w�� 'a' �?'z' 范围内的��L��写字母字符�?/TD>
[^a-z]	负值字�W�范围。匹配�Q何不在指定范围内的�Q意字�W�。例如，'[^a-z]' 可以匚w��M��不在 'a' �?'z' 范围内的��L��字符�?/TD>
\b	匚w��一个单词边界，也就是指单词和空格间的位�\|�。例如， 'er\b' 可以匚w��"never" 中的 'er'�Q�但不能匚w�� "verb" 中的 'er'�?/TD>
\B	匚w��非单词边界�?er\B' 能匹�?"verb" 中的 'er'�Q�但不能匚w�� "never" 中的 'er'�?/TD>
\cx	匚w��?x 指明的控制字�W�。例如， \cM 匚w��一�?Control-M 或回车符。x 的值必��Mؓ A-Z �?a-z 之一。否则，��?c 视�ؓ一个原义的 'c' 字符�?/TD>
\d	匚w��一个数字字�W�。等价于 [0-9]�?/TD>
\D	匚w��一个非数字字符。等价于 [^0-9]�?/TD>
\f	匚w��一个换��늬�。等价于 \x0c �?\cL�?/TD>
\n	匚w��一个换行符。等价于 \x0a �?\cJ�?/TD>
\r	匚w��一个回车符。等价于 \x0d �?\cM�?/TD>
\s	匚w��M��I�白字符�Q�包括空根{��制表符、换��늬��{�等。等价于 [ \f\n\r\t\v]�?/TD>
\S	匚w��M��非空白字�W�。等价于 [^ \f\n\r\t\v]�?/TD>
\t	匚w��一个制表符。等价于 \x09 �?\cI�?/TD>
\v	匚w��一个垂直制表符。等价于 \x0b �?\cK�?/TD>
\w	匚w��包括下划�U�的��M��单词字符。等价于'[A-Za-z0-9_]'�?/TD>
\W	匚w��M��非单词字�W�。等价于 '[^A-Za-z0-9_]'�?/TD>
\xn	匚w�� n�Q�其�?n 为十六进制�{义倹{��十六进制�{义值必��Mؓ��定的两个数字长。例如，'\x41' 匚w�� "A"�?\x041' 则等价于 '\x04' & "1"。正则表辑ּ�中可以��?ASCII �~�码�?
\num	匚w�� num�Q�其�?num 是一个正整数。对所获取的匹配的引用。例如，'(.)\1' 匚w��两个�q�箋的相同字�W��?/TD>
\n	标识一个八�q�制转义值或一个向后引用。如�?\n 之前臛_�� n 个获取的子表辑ּ��Q�则 n 为向后引用。否则，如果 n 为八�q�制数字 (0-7)�Q�则 n ��Z��个八�q�制转义倹{�?/TD>
\nm	标识一个八�q�制转义值或一个向后引用。如�?\nm 之前臛_��?nm 个获得子表达式，�?nm 为向后引用。如�?\nm 之前臛_��?n 个获取，�?n ��Z��个后跟文�?m 的向后引用。如果前面的条�g都不满��Q�若 n �?m 均�ؓ八进制数�?(0-7)�Q�则 \nm ��匹配八�q�制转义�?nm�?/TD>
\nml	如果 n 为八�q�制数字 (0-3)�Q�且 m �?l 均�ؓ八进制数�?(0-7)�Q�则匚w��八进制�{义�?nml�?/TD>
\un	匚w�� n�Q�其�?n 是一个用四个十六�q�制数字表示�?Unicode 字符。例如， \u00A9 匚w��版权�W�号 (?)�?/TD>

正则表达�?/TH>	说明
/\b([a-z]+) \1\b/gi	一个单词连�l�出现的位置
/(\w+):\/\/([^/:]+)(:\d)?([^# ])/	��一个URL解析为协议、域、端口及相对路径
/^(?:Chapter\|Section) [1-9][0-9]{0,1}$/	定位章节的位�\|?/TD>
/[-a-z]/	A至z�?6个字母再加一�?受��?/TD>
/ter\b/	可匹配chapter�Q�而不能terminal
/\Bapt/	可匹配chapter�Q�而不能aptitude
/Windows(?=95 \|98 \|NT )/	可匹配Windows95或Windows98或WindowsNT,当找��C��个匹配后�Q�从Windows后面开始进行下一�ơ的��索匹配�?/TD>