久久久久亚洲精品中文字幕,亚洲一区二区精品视频,伊人久久综在合线亚洲91

软�g设计之UML—UML的构成[上]

hoojo — Fri, 30 Aug 2013 08:52:00 GMT

UML是一�U�通用的徏模语�a��Q�其表达能力相当的强�Q�不仅可以用于��Y件系�l�的建模�Q�而且可用于业务徏模以及其它非软�g�pȝ��建模。UML�l�合了各�U�面向对象方法与表示法的优点�Q�至提出之日起就受到了广泛的重视�q�得��C��工业界的支持�?
本章��按视图、模型元素、图以及公共机制依次介绍UML的构造和基本元素�Q�以使得读者对UML有一个��M��了解�Q�其具体�l�节��在后箋章节中详�l�描�q��?/p>

��d��工具�Q�eDraw、jude

�Ƣ迎大家�l�箋支持和关注我的博客：
http://hoojo.cnblogs.com
http://blog.csdn.net/IBM_hoojo
也欢�q�大家和我交��、探讨IT斚w��的知识�?/p>
email�Q?a href="mailto:hoojo_@126.com">hoojo_@126.com

如果你觉得本文不错的话，请你点击屏幕右下方的。如果你以后会用到这��文章的或觉得以后要重新��阅的话�Q�你可以点击屏幕右下角的。如果你觉得我的博文不错或是惛_��W�一旉��看到我的动态的话，你可以点��d��q�右下角。如果你惌��点什么的话，你可以点��d��q�右下方�?a > 。如果你都点�q�了�Q�那真的太谢谢你了，兄弟太支持了。此�Ӟ��或许你可以点�?a > 按钮�Q�然后看看博文的��D��l�箋��览其他文章�?/p>

1. UML的组�?/font>

UML��p��?View)、图(Diagram)�?a name="OLE_LINK13">模型元素(Model Element)�?a name="OLE_LINK14">通用机制(General Mechanism)�{�几个部分组成�?
a) 视图(View)�Q?是表辄��l�的某一斚w��的特征的UML建模元素的子集，由多个图构成�Q�是在某一个抽象层上，对系�l�的抽象表示�?
b) �?Diagram)�Q?是模型元素集的图形表�C�，通常是由弧（关系�Q�和��点�Q�其他模型元素）�怺��q�接构成的�?
c) 模型元素(Model Element)�Q�代表面向对象中的类、对象、消息和关系�{�概念，是构成图的最基本的常用概��c�?
d) 通用机制(General Mechanism)�Q�用于表�C�其他信息，比如注释、模型元素的语义�{�。另外，UML�q�提供扩展机�Ӟ��使UML语言能够适应一个特�D�的�Ҏ��Q�或�q�程�Q�，或扩充至一个组�l�或用户�?

2. UML视图的分�c?/font>

UML是用来描�q�模型的�Q�用模型来描�q�系�l�的机构或静态特征，以及行�ؓ或动态特征。从不同的视角�ؓ�pȝ��构架建模�Q��Ş成系�l�的不同视图�?

(1) 用例视图(Use Case View)�Q?/strong>��从用��L��角度看到的或需要的�pȝ��功能�Q�是被称为参与者的外部用户所能观察到的系�l�功能的模型图�?
(2) 逻辑视图(Logical View)�Q?/strong>展现�pȝ��的静态或�l�构�l�成及特征，也称为结构模型视�?Structural Model View)或静态视�?Static View)�?
(3) �q�发视图(Concurrent View)�Q?/strong>体现了系�l�的动态或行�ؓ特征�Q�也�U�Cؓ行�ؓ模型视图(Behavioral Model View)或动态视�?Dynamic View)�?
(4) �l��g视图(Component View)�Q?/strong>体现了系�l�实现的�l�构和行为特征，也称为实现模型视�?Implementation Model View)�?
(5) 配置视图(Deployment View)�Q?/strong>体现了系�l�实现环境的�l�构和行为特征，也称为环境模型视�?Environment Model View)或物理视�?Physical View)�?

视图是由囄��?/b>的，UML提供9�U�不同的图：

(1) 用例�?/a>(Use Case Diagram)�Q�描�q�系�l�功能；
(2) �c�d��(Class Diagram)�Q�描�q�系�l�的静态结构；
(3) 对象�?Object Diagram)�Q�描�q�系�l�在某个时刻的静态结构；
(4) �l��g�?Component Diagram)�Q�描�q�C��实现�pȝ��的元素的�l�织�Q?
(5) 配置�?Deployment Diagram)�Q�描�q�C��环境元素的配�|�，�q�把实现�pȝ��的元素映��到配置上；
(6) 状态图(State Diagram)�Q�描�q�C��pȝ��元素的状态条件和响应�Q?
(7) 时序�?Sequence Diagram)�Q�按旉��序描述�pȝ��元素间的交互�Q?
(8) 协作�?Collaboration Diagram)�Q�按照时间和�I�间��序描述�pȝ��元素间的交互和它们之间的关系�Q?
(9) �z�d��?Activity Diagram)�Q�描�q�C��pȝ��元素的活动；
建模�Ҏ��?b>建模语言和徏模过�E?/b>两部分构成。其中徏模语�a�是用来表�q�设计方法的表示法，建模�q�程是对设计中所应采取的步骤的描�q�。UML是一�U�徏模语�a��Q�它在很大程度上独立于徏模过�E�。在实际建模中，建模人员最好把UML用于以用案驱动的、以体系机构��Z��心的、�P代的和渐增式的开发过�E�中�?
一般而言�Q��Y件系�l�的体系�l�构�l�出了��Y件系�l�的�l�织、组成系�l�的构造元素及其接口的选择、系�l�的行�ؓ和体�pȝ��构风格等信息。也��是��_��它不仅关心系�l�的�l�构和行为等功能性需求，而且也涉及系�l�的性能、易理解性、易复用性等非功能性需求。如下图所�C�，UML利用用户模型视图、结构模型视图、行为模型视图、实现模型视囑֒�环境模型视图来描�q��Y件系�l�的体系�l�构�?

�Ҏ��它们在不同架构视囄��应用�Q�可以把9�U�图分成�Q?/b>

(1) 用户模型视图�Q�用例图�Q?/a>
(2) �l�构模型视图�Q�类囑֒�对象�Q?
(3) 行�ؓ模型视图�Q�状态图、时序图、协作图和活动图�Q�动态图�Q�；
(4) 实现模型视图�Q�组件图�Q?
(5) 环境模型视图�Q�配�|�图�?
用户模型视图�׃��门描�q?b>最�l�用戗��分析�h员和��试人员看到的系�l�行为的用案�l�成�Q�它实际上是从用戯��?/b>来描�q�系�l�应该具有的功能。用��h��型视图所描述的系�l�功能依靠外部用��h��者另外一个系�l�来�Ȁ�z�，为用��h��者另一�pȝ��提供服务�Q�从而实现用��h��另一�pȝ��与系�l�的交互。系�l�实现的最�l�目标是提供用户模型视图中所描述的功能。在UML中，用户模型视图是由用案囄��?/b>�?
�l�构模型视图描述�l�成�pȝ��?b>�c�R��对象以及它们之间的关系�{�静态结构，用来支持�pȝ��的功能需求，��x��q�系�l�内部功能是如何设计的。结构模型视囄���c�d��和对象图构成�Q?b>主要供设计�h员和开发�h员��?/b>�?
行�ؓ模型�?/b>图主要用来描�q��Ş�?b>�pȝ��q�发与同步机制的�U�程和进�E?/b>�Q�其��x��的重�Ҏ��pȝ��的性能、易伸羃性和�pȝ��的吞吐量�{�非功能性需求。行为模型视囑ֈ�用�ƈ发来描述资源的高效��用、�ƈ行执行和处理异步事�g。除了讲�pȝ��划分为�ƈ发执行的控制�U�程之外�Q�行为模型还必须处理通信和这些线�E�及�q�程之间的同步问题。行为模型视图主要供�pȝ��开发�h员和�pȝ��集成人员使用�Q�它�?b>序列图、协作图、状态图和活动图�l�成�?
实现模型视图用来描述�pȝ��的实现模块它们之间的依赖关系以及资源分配情况。这�U�视图主要用于系�l�的配置��理�Q�它是由一些独立的构�g�l�成的。实现模型视囄��构�g囄��?/b>。其中构件是代码模块�Q�不同类型的代码模块形成不同的构件。实现模型视图主要供开发�h�?/b>使用�?
环境模型视图用来描述物理�pȝ��?b>��g拓扑�l�构。例如，�pȝ��中的计算机和讑֤�的分布情况以及它们之间的�q�接方式�Q�其中计��机和设备统�U�Cؓ节点。在UML中环境模型视图是由部�|�图来表�C�的。系�l�部�|�图描述了系�l�构件在节点上的分布情况�Q�即用来描述软�g构�g到物理节点的映射。部�|�图主要�?b>开发�h员、系�l�集成�h员和��试人员使用�?
上面每一�U�视囑֏�映了�pȝ��的一个特定方面，不同人员可以单独的��用其中每一�U�视图，从而可以关注特定的体系�l�构问题。但在通常情况下，�׃��pȝ��的最�l�目标是提供用户模型视图中描�q�的功能以及其它一些非功能性需求，因此�Q�用��h��型视图是其它视图的核心基��Q�其它视囄��构造都依赖与用��h��型视图中所描述的类宏V�?
�l�心的读者已�l�发玎ͼ�每一�U�UML��N��是由多个囄��成的�Q�每一�U�图都是体系�l�构某个侧面的表�C�，各种囑֮�际上是一致的�Q�所有的囑֜�一��L��成了�pȝ��的完整视图。如下图所�C�，UML中��d��提供了用案图、类图、对象图、序列图、协作图、状态图、活动图、构建图和部�|�图9�U�图。根据它们描�q�的是系�l�的静态结构还是动态行为，可以��它们分为静态图和动态图两类。再�q�一步介�l�这9中UML图时�Q�先了解下什么是模型元素�Q?

3. UML的徏模机�?/b>

UML有两套徏模机�Ӟ��静态徏模机制和动态徏模机制。静态徏模机制包括用例图、类图、对象图、包、组件图和配�|�图。动态徏模机制包括状态图、时序图、协作图、活动图�?
(1) 用例图：用例的可视化工具�Q�它提供计算机系�l�的高层�ơ的用户视图�Q�表�C�Z��外部�z�d��者的角度来看�pȝ��是怎样使用的�?
用例图（用案图）是用于描�q�C��l�用案，参与者以及它们之间的�q�接关系。一个用案图描述了一�l�动作序列，每一个序列表�C�系�l�的外部设施�Q�系�l�的参与者）与系�l�本�w�的交互。从一个特定参与者的角度看，一个用案完成对其有价值的工作。如�?.5所�C�，用案图仅仅是从参与者��用系�l�的角度来描�q�系�l�中的信息，即站在系�l�外部查看系�l�应该具有什么功能，而�ƈ不描�q�该功能在��Y件内部是如何实现的。用案可以应用于整个�pȝ��Q�也可以应用于系�l�的一个部分，包括子系�l�、单个的�c�L��者接口。通常�Q�用案不仅代表这些元素所期望的行为，而且�q�可以把�q�些元素用作开发过�E�中��试用案的基��?
用例囑֌�括以�?斚w��内容�Q?
(a) 用例(Use Case)
(b) 参与�?Actor)
(c) 依赖、泛化和兌��关系
用例囄��例：

(2) �c�d��Q�描�q�类、接口、协作以及它们之间关�pȝ��图�?
�c�d��是用于描�q�C��l�类、接口、协作以及它们之间的静态关�p�R��在面向对象�pȝ��的徏模中�Q�类图是最为常用的图，它用来阐明系�l�的静态结构。事实上�c�L��对一�l�具有相同属性、操作、关�p�d��语义的对象的描述�Q�其中对�cȝ��属性和操作�q�行描述时的一个最重要的细节就是它的可见性�?
�c�d��以以多种形式�q�接�Q�例如关联、泛化、依赖和实现�{�。一个典型的�pȝ��中通常有若�q�个�c�d��。一个类图不一定要包含�pȝ��中所有的�c�，一个类可以加到几个�c�d��中�?
�c�d��C�Z��Q?

(3) 对象图：表示在某一旉��上一�l�对象以及它们之间的关系的图。对象图可以被看做是�c�d��在系�l�某一时刻的实例�?
对象图是�c�d��的实例，用来描述特定�q�行时刻一�l�对象之间的关系。也��是��_��对象用于描述交互的静态部分，它由参与协作的有兛_��象组成。但不包括在对象之间传递的��M��消息�?
在创建对象图�Ӟ��建模人员�q�不需要用单个的对象图来描�q�系�l�中的每一个对象。事实上�Q�绝大多数系�l�中都会包含成百上千的对象。用对象来描�q�系�l�的所有对象以及它们之间的关系一般是不太现实的。因此，建模人员可以选择所感兴��的对象极其之间的关�p�L��描述�?
对象图中所使用的符号和�c�d��中��用的�W�号几乎完全相同�Q�区别仅在于对象囄��对象名带有下划线�Q�而且�c�M��c�M��间关�pȝ��所有的实例都要��d��来�?

(4) �l��g�?/a>�Q�描�q��Y件组件以及组件之间的关系�Q�组件本�w�是代码的物理模块，�l��g囑ֈ�昄��了代码的�l�构�?
�l��g图（构�g图）是用于描�q�C��l�构件之间的�l�织和依赖关�p�，用于建模�pȝ��的静态实现视图。构件可以是可执行程序集、库、表、文件和文档�{�，它包含了逻辑�c�L��者逻辑�cȝ��实现信息�Q�因此结构模型视囑֒�实现模型视图之间存在映射关系�?
构徏图中也可以包括包或子�pȝ��Q�它们都是用于将模型元素�l�成较大的组块�?
�l��g图例图：

(5) 配置�?/a>�Q�描�q�系�l�硬件的物理拓扑�l�构以及在此�l�构上执行的软�g。配�|�图可以昄��计算节点的拓扑结构和通信路径、结点上�q�行的��Y件组件、��Y件组件包含的逻辑单元�Q�对象、类�Q�等。配�|�图常常用于帮助理解分布式系�l��?
配置图（部��v图）用来描述�pȝ��q�行是进行处理的节点以及在节点上�z�d��的构件的配置。部�|�图用来对系�l�的环境模型视图�q�行建模。在大多数情况下�Q�部�|�图用来描述�pȝ��g的扩普结构�?
在UML中，建模人员可以用类图来描述�pȝ��的静态结构，可以用序列图、协作图、状态图、活动图来描�q�系�l�的动态行为，而用部��v图来描述软�g所执行所需的处理器和设备的拓扑�l�构�?

(6) 状态图�Q�通过�c�d��象的生命周期建立模型来描�q�对象随旉��变化的动态行为�?
状态图实际上是一�U�由状态、变�q�、事件和�z�d��l�成的状态机。状态图描述从状态到状态的控制��，常用于系�l�的动态特性徏模。在大多数情况下�Q�它用来对反应型对象的行为徏模�?
在UML中，状态图可以用来对一个对象按事�g排序的行为徏模。一个状态图是强调从状态到状态的控制��的状态机的简单表�C�。一般而言�Q�状态图是对�c�L��描述的设施的补充说明�Q�它描述了类的所有对象可能具有的状态以及引��L��态变化的事�g�?

(7) 时序图：交互图描�q�C��一个交互，它由一�l�对象和它们之间的关�pȝ��成，�q�且�q�包括在对象间传递的信息。交互图表达对象之间的交互，是描�q�C��l�对象如何协作完成某个行为的模型化工兗��?
序列囑֒�协作囄��U�Cؓ交互图。其中，序列囄��来描�q�对象之间消息发送的先后�ơ序�Q�阐明对象之间的交互�q�程以及在系�l�执行过�E�中的某一具体时刻��会发生什么事件。序列图是一�U�强调时间顺序的交互图，其中对象沿横轴方向排列，消息沿纵轴方向排列�?

序列图中的对象生命线是一条垂直的虚线�Q�它表示一个对象在一�D�|��间内存在。由于序列图中大多数对象都存在于整个交互�q�程中，因此�q�些对象全部排列在图的顶部，它们的生命线从图的顶部画到图的底部。每个对象的下方有一个矩形条�Q�它与对象的生命�U�K��叠，它表�C��对象的控制焦炏V��序列图中的消息可以有序��P��但由于这�U�图上的消息已经从纵轴上按时间顺序排序，因此消息序号通常予以省略�?
(8) 协作图：包含�c�d��角色和关联角�Ԍ��而不仅仅是类元和兌��。协作图��参加交互的各对象的组�l�。协作图只对�怺�间有交互作用的对象和�q�些对象间的关系建模�Q�而忽略了其他对象和关联。协作图也是一�U�交互图�Q�它��收发消息的对象的�l�织�l�构�?
协作囑֒�序列图是协作的，它们可以互相转换。在多数情况下，协作图主要对单调的、顺序的控制��徏模，但它也可以用来对包括�q�代和分支在内的复杂控制��进行徏模�?
一般而言�Q�徏模�h员可以创建多个协作图�Q�其中一些是主要的，另外一些是可选择的�\径或者异常条件。徏模�h员可以用包来�l�织�q�些协作图，�q�给每个图�v一个合适的名字�Q�以便与其它囑֌�别开�?

(9) �z�d��图：用于展现参与行�ؓ的类的活动或动作�?
�z�d��图是状态图的一�U�特�D�情况，其中几乎所有或大多数状态都处于�z�d��状态，而且几乎所有或者大多数变迁都是由源状态中�z�d��的完成触发的。活动图本质上是一�U�流�E�图�Q�它描述了从�z�d��到活动的控制��?
可以把活动图看作是新��L��交互图，但交互图观察的是传递消息的对象�Q�而活动图观察到的是对象之间传送的消息。尽��两者在语义上的区别很细微，但它们��用不同的方式来看�pȝ��的�?

如果你觉得本文不错的话，请你点击屏幕右下方的。如果你以后会用到这��文章的或觉得以后要重新��阅的话�Q�你可以点击屏幕右下角的。如果你觉得我的博文不错或是惛_��W�一旉��看到我的动态的话，你可以点��d��q�右下角。如果你惌��点什么的话，你可以点��d��q�右下方�?a > 。如果你都点�q�了�Q�那真的太谢谢你了，兄弟太支持了。此�Ӟ��或许你可以点�?a > 按钮�Q�然后看看博文的��D��l�箋��览其他文章�?/p>

最后，�Ƣ迎大家�l�箋支持和关注我的博客：
http://hoojo.cnblogs.com
http://blog.csdn.net/IBM_hoojo
也欢�q�大家和我交��、探讨IT斚w��的知识�?/p>

hoojo 2013-08-30 16:52 发表评论

软�g设计之UML—UML中的六大关系

hoojo — Thu, 01 Aug 2013 08:17:00 GMT

一、UML中的六大关系

在UML�c�d��中，常见的有以下几种关系: 泛化�Q�Generalization�Q? 实现�Q�Realization�Q�，兌��Q�Association)�Q�聚合（Aggregation�Q�，�l�合(Composition)�Q�依�?Dependency)�?

1.1�?�l�承关系—泛化（Generalization�Q?
指的是一个类�Q�称为子�c�R��子接口�Q��承另外的一个类�Q�称为父�c�R��父接口�Q�的功能�Q��ƈ可以增加它自��q��新功能的能力�Q��承是�c�M��c�L��者接口与接口之间最常见的关�p�；在Java中用extends关键字�?

【泛化关�p�R��是一�U��承关�p�，表示一般与�Ҏ��的关�p�，它指定了子类如何特化父类的所有特征和行�ؓ。例如：猫头鹰是鸟的一�U�，��x��鸟的�Ҏ��也有猫头鹰的共性�?
【箭头指向】带三角��头的实�U�，��头指向父类�?
【描�q�】上图中的类bird有嘴、翅膀、羽毛等属性。会飞、会唧唧喛_��的叫�Q�那么就有这些方法。而猫头鹰有大眼睛和捕捉老鼠的本领，�q�则是自�w�的�Ҏ��?/p>

1.2�?实现关系�Q�Realization�Q?
指的是一个class�c�d��现interface接口�Q�可以是多个�Q�的功能�Q�实现是�c�M��接口之间最常见的关�p�；在Java中此�c�d��p�通过关键字implements明确标识�?

【实现关�p�R��是一�U�类与接口的关系�Q�表�C�类是接口所有特征和行�ؓ的实�?
【箭头指向】带三角��头的虚�U�，��头指向接口�?
【描�q�】上图中IFly是一个接口，接口中有旉��、速度�{�常量，�q�有一个fly�Ҏ��。FlyImpl�l�承了这个IFly接口后，需要实现fly�Ҏ��Q�同时实现类也可以拥有自��q��属性和�Ҏ��?/p>

1.3�?依赖�Q�Dependency�Q?
可以��单的理解�Q�就是一个类A使用��C��另一个类B�Q�而这�U��用关�p�L��h��偶然性的、��时性的、非常弱的，但是B�cȝ��变化会媄响到A�Q�比如某��q�河�Q�需要借用一条船�Q�此时�h与船之间的关�p�d��是依赖；表现在代码层面，为类B作�ؓ参数、属性被�c�A在某个method�Ҏ��中��用；

【依赖关�p�R��是一�U��用的关系�Q�即一个类的实现需要另一个类的协助，所以要��量不��用双向的互相依赖�?
【代码表现】局部变量、方法的参数或者对静态方法的调用
【箭头及指向】带��头的虚�U�，指向被��用�?
【描�q�】Bird�c�M��有一个setFly�Ҏ��Q�它需要��用者用到IFly接口的实玎ͼ�那么�q�种关系��是依赖关系�?/p>

1.4�?兌��
他体现的是两个类、或者类与接口之间语义��别的一�U�强依赖关系�Q�比如我和我的朋友；�q�种关系比依赖更强、不存在依赖关系的偶然性、关�p�M��不是临时性的�Q�一般是长期性的�Q�而且双方的关�p�M��般是�q�等的、关联可以是单向、双向的�Q�表现在代码层面�Q��ؓ被关联类B以类属性的形式出现在关联类A中，也可能是兌��c�A引用了一个类型�ؓ被关联类B的全局变量�Q?

【关联关�p�R��是一�U�拥有的关系�Q�它使一个类知道另一个类的属性和�Ҏ��Q�如�Q�老师与学生，丈夫与妻子关联可以是双向的，也可以是单向的。双向的兌��可以有两个箭头或者没有箭��_��单向的关联有一个箭头�?
【代码体现】成员变�?
【箭头及指向】带普通箭头的实心�U�，指向被拥有�?
【描�q�】在Bird�c�M��有一个IFly�c�d��的fly属性，需要提供IFly的接口实现。Bird对象会利用IFly接口的实现完成fly�Ҏ��?/p>
1.4.1、双向关�?
双方都知道对方的存在�Q�都可以调用�Ҏ��的公共属性、方法�?

【关联关�p�R��双斚w��有关联的关系�Q�通过自��n对对方关联的属性来讉K��Ҏ��的属性和�Ҏ��?/a>
【代码体现】成员变�?
【箭头及指向】用不带��头的实�U�连接双�?
【描�q�】在中国一个妻子只能嫁�l�一个丈夫，一个丈夫也只能取一个妻子�?
1.4.2、自�w�关�?
自己兌��自己�Q�这�U�情冉|��较少出现但是也有用到�?

【自兌��关系】双斚w��有关联的关系�Q�通过自��n对自�w�关联的属性引用来讉K��Ҏ��的属性和�Ҏ��?
【代码体现】成员变�?
【箭头及指向】用带普通箭头的实线�q�接自己
【描�q�】在盗梦�I�间中，演员需要在梦中再造梦�Q�这�U�梦中梦的情况跟上图描述很符合�?

1.5�?聚合�Q�Aggregation�Q?

聚合是关联关�pȝ��一�U�特例，他体现的是整体与部分、拥有的关系�Q�即has-a的关�p�，此时整体与部分之间是可分��ȝ��Q�他们可以具有各自的生命周期�Q�部分可以属于多个整体对象，也可以�ؓ多个整体对象�׃�n�Q�比如计��机与CPU、公�怸�员工的关�pȝ��Q�表现在代码层面�Q�和兌��关系是一致的�Q�只能从语义�U�别来区分；

【聚合关�p�R��是整体与部分的关系�Q�且部分可以��d��整体而单独存在。如车和轮胎是整体和部分的关�p�，轮胎��d��车仍然可以存在。聚合关�p�L��兌��关系的一�U�，是强的关联关�p�；兌��和聚合在语法上无法区分，必须考察具体的逻辑关系�?
【代码体现】成员变�?
【箭头及指向】带�I�心菱�Ş的实心线�Q�菱形指向整�?
【描�q�】birdChild一只鸟有很多鸟宝宝�Q�所以自引用。鸟有很多不同数量和颜色的羽毛，所以引用关�p�L��0~*�?/p>

1.6�?�l�合�Q�Composition�Q?
�l�合也是兌��关系的一�U�特例，他体现的是一�U�contains-a的关�p�，�q�种关系比聚合更强，也称为强聚合�Q�他同样体现整体与部分间的关�p�，但此时整体与部分是不可分的，整体的生命周期结束也��意味着部分的生命周期结束；比如你和你的大脑�Q�表现在代码层面�Q�和兌��关系是一致的�Q�只能从语义�U�别来区分；

【组合关�p�R��是整体与部分的关系�Q�但部分不能��d��整体而单独存在。如公司和部门是整体和部分的关系�Q�没有公司就不存在部门。组合关�p�L��兌��关系的一�U�，是比聚合关系�q�要强的关系�Q�它要求普通的聚合关系中代表整体的对象负责代表部分的对象的生命周期�?
【代码体现】成员变�?
【箭头及指向】带实心菱�Ş的实�U�，菱�Ş指向整体
【描�q�】一个学校由多个班��l�成�Q�班�U�离开学校也就不存在、而学校离开班��也不成立。像�q�种不可分离的关�p�d��需要用�l�合�?/p>

�l�合�C�Z��

对于�l�承、实现这两种关系没多��疑问，他们体现的是一�U�类与类、或者类与接口间的纵向关�p�；其他的四者关�p�d��体现的是�c�M��c�R��或者类与接口间的引用、横向关�p�，是比较难区分的，有很多事物间的关�p�要惛_��备定位是很难的，前面也提刎ͼ��q�几�U�关�p�都是语义��别的�Q�所以从代码层面�q�不能完全区分各�U�关�p�；但�ȝ��来说�Q�后几种关系所表现的强��q��度依�ơ�ؓ�Q�泛�?= 实现 > �l�合 > 聚合 > 兌�� > 依赖�?/p>

hoojo 2013-08-01 16:17 发表评论

ActiveMQ ��x��通讯服务 ��析

hoojo — Thu, 27 Jun 2013 01:09:00 GMT
     摘要: 一�?概述与介�l? ActiveMQ 是Apache出品�Q�最��行的、功能强大的��x��通讯和集成模式的开源服务器。ActiveMQ 是一个完全支持JMS1.1和J2EE 1.4规范�?JMS Provider实现。提供客��L��支持跨语�a�和协议，带有易于在充分支持JMS 1.1�?.4使用J2EE企业集成模式和许多先�q�的功能�? 二�?�Ҏ�? 1�?多种语言和协议编写客��L��。语�a��Q?Java...  阅读全文

hoojo 2013-06-27 09:09 发表评论

ant 入门使用指南

hoojo — Fri, 14 Jun 2013 05:07:00 GMT
     摘要: 一、概�q? ant 是一个将软�g�~�译、测试、部�|�等步骤联系在一起加以自动化的一个工��P��大多用于Java环境中的软�g开发。在实际软�g开发中�Q�有很多地方可以用到ant�? 开发环境： System�Q�Windows JDK�Q?.6+ IDE�Q�eclipse ant�Q?.9.1 Email�Q�hoojo_@126.com Blog�Q�http://blog.csdn....  阅读全文

hoojo 2013-06-14 13:07 发表评论

hoojo — Fri, 12 Apr 2013 07:29:00 GMT

Eclipse下的Java反编译插�Ӟ��Eclipse Class Decompiler�Q�整合了目前最好的2个Java反编译工具Jad和JD-Core�Q��ƈ且和Eclipse Class Viewer无缝集成�Q�能够很方便的��用本插�g查看�c�d��源码�Q�以及采用本插�g�q�行Debug调试�?/p>
转蝲自：http://bbs.csdn.net/topics/390263414

Eclipse Class Decompiler插�g�Q?http://download.csdn.net/detail/ibm_hoojo/5250263
下蝲后，解压可以看到如下目录�Q�复制所有文件粘贴到你的eclipse或MyEclipse的目录：D:\MyEclipse 6.5\myeclipse\eclipse下，选择覆盖卛_��。然后重新启动eclipse�?br>

下图为Eclipse Class Decompiler的首选项��面�Q�可以选择�~�省的反�~�译器工��P��q�进行反�~�译器的基本讄��。缺省的反编译工具�ؓJD-Core�Q�JD-Core更�ؓ先进一些，支持泛型、Enum、注解等JDK1.5以后才有的新语法�?br>
首选项配置选项�Q?br>1.重用�~�存代码�Q�只会反�~�译一�ơ，以后每次打开该类文�g�Q�都昄��的是�~�存的反�~�译代码�?br>2.忽略已存在的源代码：若未选中�Q�则查看Class文�g是否已绑定了Java源代码，如果已绑定，则显�C�Java源代码，如果未绑定，则反�~�译Class文�g。若选中此项�Q�则忽略已绑定的Java源代码，昄��反编译结果�?br>3.昄��反编译器报告�Q�显�C�反�~�译器反�~�译后生成的数据报告及异�怿�息�?br>4.使用Eclipse代码格式化工��P��使用Eclipse格式化工具对反编译结果重新格式化排版�Q�反�~�译整个Jar包时�Q�此操作会消耗一些时间�?br>5.使用Eclipse成员排序�Q��用Eclipse成员排序对反�~�译�l�果重新格式化排版，反编译整个Jar包时�Q�此操作会消耗大量时间�?br>6.以注释方式输出原始行号信息：如果Class文�g包含原始行号信息�Q�则会将行号信息以注释的方式打印到反�~�译�l�果中�?br>7.�Ҏ��行号寚w��源代码以便于调试�Q�若选中该项�Q�插件会采用AST工具分析反编译结果，�q�根据行号信息调整代码顺序，以便于Debug�q�程中的单步跟踪调试�?br>8.讄��c�d��~�译查看器作为缺省的�c�L��件编辑器�Q�默认�ؓ选中�Q�将忽略Eclipse自带的Class Viewer�Q�每�ơEclipse启动后，默认使用本插件提供的�c�L��看器打开Class文�g�?/p>

插�g提供了系�l�菜单，工具栏，当打开了插件提供的�c�d��~�译查看器后�Q�会�Ȁ�z�菜单和工具栏选项�Q�可以方便的�q�行首选项配置�Q�切换反�~�译工具重新反编译，以及导出反编译结果�?br>

�c�d��~�译查看器右键菜单包含了Eclipse自带�c�L��看器右键菜单的全部选项�Q��ƈ增加了一个“导出反�~�译源代码”菜单项�?br>

打开��目路径下的Class文�g�Q�如果设�|�类反编译查看器为缺省的查看器，直接双击Class文�g卛_��Q�如果没有设�|��ؓ�~�省查看器，可以使用右键菜单�q�行查看�?br>

Eclipse Class Decompiler插�g也提供了反编译整个Jar文�g或者Java包的反编译。该操作支持Package Explorer对包昄��布局的操作，如果是��^铺模式布局�Q�则导出的源代码不包含子包，如果是层�U�模式布局�Q�则导出选中的包及其所有的子包�?br>

Debug调试�Q�可以在首选项选中寚w��行号�q�行单步跟踪调试�Q�和普通的包含源代码时的调试操作完全一��_��同样的也可以讄��断点�q�行跟踪�?br>

转蝲�Q?a >http://bbs.csdn.net/topics/390263414

hoojo 2013-04-12 15:29 发表评论

跟我一步一步开发自��q��Openfire插�g

hoojo — Thu, 07 Mar 2013 03:25:00 GMT
     摘要: �q�篇是简单插件开发，下篇聊天记录插�g�? 开发环境： System�Q�Windows WebBrowser�Q�IE6+、Firefox3+ JavaEE Server�Q�tomcat5.0.2.8、tomcat6 IDE�Q�eclipse、MyEclipse 8 开发依赖库�Q? Jdk1.6、jasper-compiler.jar、jasper-runtime.jar、openfire.jar...  阅读全文

hoojo 2013-03-07 11:25 发表评论

hoojo — Wed, 31 Oct 2012 04:44:00 GMT

本�h是做Java开发的�Q�在�E�序开发中会经�怋�用到OpenSource开源框�Ӟ��q�些框架大多都灵�z�R��简单、易用、方�ѝ��而且开源框架一般会提供一些基本的配置�Q�如我们常用的框架就有Hibernate要配�|�对象实体到数据库的映射�Q�Spring要配�|�bean的管理及其对象、属性的注入�Q�Struts要配�|�Action对象和返回的资源路径�Q�MyBatis要配�|�CRUD�Q�增删改查）的相关SQL语句。这些配�|�你不能省略�Q�必��d��有，没有�E�序也不会自动添加。我们也是极可能的简化这些配�|�，不管怎么��L��化但�q�些配置是不能省略，虽然�q�些框架�l�我们开发程序都提供了很大方面上的便利�?/p>

但有时候你是否有纠�l�这么样的一个问题：到底是用XML配置�Q�还是用Annotation注解配置�Q�或是用XML和Annotation混合配置�Q?/font>

首先看看两种配置的优�~�点比较

XML它是无可代替的超文本标记语言�Q�可��L��、传输性好�Q�它�q�具有一下优点：
1、可��L��、传输性好�Q�XML可扩展标记语�a��Q�最大的优势在于开发者能够�ؓ软�g量��n定制适用的标讎ͼ�使代码可��L��大大提升�?br>2、灵�z�L��、易用性、扩展性、移植性好�Q�利用XML配置能��软�g更具扩展性。如Spring��class间的依赖配置在XML中，最大限度地提升应用的可扩展性。同��P��如果是基于接口注入方式，可以随便切换接口实现�c�进行注入即可�?br>3、验证机�Ӟ��h��成熟的验证机制确保程序正��性。利用Schema或DTD可以对XML的正��性进行验证，避免了非法的配置��D��应用�E�序出错�?br>4、修攚w��|�而无需变动现有�E�序、无需重新�~�译�?

~~虽然XML有如此多的好处，但它也不是万能的�Q�XML也有自��n的缺点：~~
1、开发友好性支持：需要解析工��h��c�d��的支持。如果你的XML配置需要用到XML的提�C�或是解析编译，需要用到Schema或DTD�q�行验证�?br>2、性能影响�Q�解析XML势必会媄响应用程序性能�Q�占用系�l�资源。至��你会用��C��些解析XML的技术去解析节点元素内容�?br>3、维护性高�Q�配�|�文件过多导致管理变得困难�?br>4、编译期无法对其配置��的正确性进行验证，或要查错只能在运行期。如Spring Bean配置了一个错误的�c��\径class�?br>5、IDE 无法验证配置��的正确性无能�ؓ力。如Spring注入一个错误的对象或属性�?br>6、查错变得困难。往往配置的一个手误导致莫名其妙的错误�?br>7、开发�h员不得不同时�l�护代码和配�|�文�Ӟ��开发效率变得低下�?br>8、配�|�项与代码间存在潜规则，改变了�Q何一斚w��有可能媄响另外一斏V�?

让我们来看看Annotation的优�?br>1、保存在class文�g中，降低�l�护成本�?br>2、无需工具支持�Q�无需解析�?br>3、编译期卛_��验证正确性，查错变得�Ҏ��Q�虽然有部分错误需要在�q�行期间才能看到�?br>4、配�|�简单、简�U�，提升开发效率�?

~~同样Annotation也不是万能的�Q�它也有很多�~�点~~
1、若要对配置��进行修改，不得不修改Java文�g�Q�重新编译打包应用�?br>2、配�|�项�~�码在Java文�g中，可扩展性差、移植性性低�?

那到底用什么样的配�|�呢�Q�在�q�里我谈谈我个�h的看法：
1、在开发期间我们用Annotation注解�Q�这样在一定程度上不仅可以省去对XML配置文�g的维护，而且大大的提高了开发效率，�~�短了开发周期�?br>2、开发后期，��目功能完成�Q�我们可以将Annotation配置转换为XML配置�Q�禁用Annotation卛_��。这样做的理由是如果��目上线�Q�我们需要修改相关代码的配置�Q�直接改XML、properties配置文�g卛_��。这样就不需要开发�h员找到相应的代码修改源代码、重新编译打包发布。而xml的配�|�是可以直接修改的，不需要重新编译，只需重启下你的服务器卛_��?

如果�q�样是不是即利用到框架给我们提供的Annotation注解�Q�也利用��C��XML配置。充分的发挥了开源框架给我们提供的技术应用�?
3、�؜合模式，Annotation和XML�怺��q�用。需要动态配�|�、后期经常性修改的��q��XML配置�Q�如果是不怎么修改的就用Annotation。或许这�U��؜合模式更适合我们�Q�你觉得呢？O(∩_�?O~

hoojo 2012-10-31 12:44 发表评论

Lucene 基础理论

hoojo — Thu, 06 Sep 2012 01:34:00 GMT

1. 全文��索系�l�与Lucene��?/h3>
1.1 什么是全文��索与全文��索系�l?/h4>

全文��索是指计��机索引�E�序通过扫描文章中的每一个词�Q�对每一个词建立一个烦引，指明该词在文章中出现的次数和位置�Q�当用户查询�Ӟ��索程序就�Ҏ��事先建立的烦引进行查找，�q�将查找的结果反馈给用户的检索方式。这个过�E�类��g��通过字典中的��索字表查字的�q�程�?
全文��索的�Ҏ��主要分�ؓ按字��索和按词��索两�U�。按字检索是指对于文章中的每一个字都徏立烦引，��索时��词分解为字的组合。对于各�U�不同的语言而言�Q�字有不同的含义�Q�比如英文中字与词实际上是合一的，而中文中字与词有很大分别。按词检索指�Ҏ��章中的词�Q�即语义单位建立索引�Q�检索时按词��索，�q�且可以处理同义��等。英文等西方文字�׃��按照�I�白切分词，因此实现上与按字处理�c�M��Q�添加同义处理也很容易。中文等东方文字则需要切分字词，以达到按词烦引的目的�Q�关于这斚w��的问题，是当前全文检索技术尤其是中文全文��索技术中的难点，在此不做详述�?
全文��索系�l�是按照全文��索理论徏立�v来的用于提供全文��索服务的软�g�pȝ��。一般来��_��全文��索需要具备徏立烦引和提供查询的基本功能，此外��C��的全文检索系�l�还需要具有方便的用户接口、面向WWW[1]的开发接口、二�ơ应用开发接口等�{�。功能上�Q�全文检索系�l�核心具有徏立烦引、处理查询返回结果集、增加烦引、优化烦引结构等�{�功能，外围则由各种不同应用��h��的功能组成。结构上�Q�全文检索系�l�核心具有烦引引擎、查询引擎、文本分析引擎、对外接口等�{�，加上各种外围应用�pȝ��{�等共同构成了全文检索系�l�。图1.1展示了上�q�全文检索系�l�的�l�构与功能�?

在上图中�Q�我们看刎ͼ�全文��索系�l�中最为关键的部分是全文检索引擎，各种应用�E�序都需要徏立在�q�个引擎之上。一个全文检索应用的优异�E�度�Q�根本上由全文检索引擎来军_��。因此提升全文检索引擎的效率��x��我们提升全文��索应用的�Ҏ��。另一个方面，一个优异的全文��索引擎，在做到效率优化的同时�Q�还需要具有开攄��体系�l�构�Q�以方便�E�序员对整个�pȝ��q�行优化攚w��，或者是��d��原有�pȝ��没有的功能。比如在当今多语�a�处理的环境下�Q�有旉��要给全文��索系�l�添加处理某�U�语�a�或者文本格式的功能�Q�比如在英文�pȝ��中添加中文处理功能，在纯文本�pȝ��中添加XML或者HTML格式的文本处理功能，�pȝ��的开放性和扩充性就十分的重要�?

1.2 什么是Lucene

Lucene是apache软�g基金会jakarta��目�l�的一个子��目�Q�是一个开放源代码的全文检索引擎工具包�Q�即它不是一个完整的全文��索引擎，而是一个全文检索引擎的架构�Q�提供了完整的查询引擎和索引引擎�Q�部分文本分析引擎（英文与�d文两�U�西方语�a��Q�。Lucene的目的是��Y件开发�h员提供一个简单易用的工具包，以方便的在目标系�l�中实现全文��索的功能�Q�或者是以此为基��建立起完整的全文��索引擎�?
Lucene的原作者是Doug Cutting�Q�他是一位资深全文烦�?��索专�Ӟ��曄��是V-Twin搜烦引擎的主要开发者，后在Excite担�Q高��pȝ��架构设计师，目前从事于一些Internet底层架构的研�I�。早先发布在作者自��q��http://www.lucene.com/�Q�后来发布在SourceForge�Q?001�q�年底成为apache软�g基金会jakarta的一个子��目�Q?a >http://jakarta.apache.org/lucene/�?

1.3 Lucene的应用、特点及优势

作�ؓ一个开放源代码��目�Q�Lucene从问世之后，引发了开放源代码�C��的巨大反响，�E�序员们不仅使用它构建具体的全文��索应用，而且��之集成到各�U�系�l��Y件中去，以及构徏Web应用�Q�甚��x��些商业��Y件也采用了Lucene作�ؓ其内部全文检索子�pȝ��的核心。apache软�g基金会的�|�站使用了Lucene作�ؓ全文��索的引擎�Q�IBM的开源��Y件eclipse�?.1版本中也采用了Lucene作�ؓ帮助子系�l�的全文索引引擎�Q�相应的IBM的商业��Y件Web Sphere中也采用了Lucene。Lucene以其开放源代码的特性、优异的索引�l�构、良好的�pȝ��架构获得了越来越多的应用�?
Lucene作�ؓ一个全文检索引擎，其具有如下突出的优点�Q?
�Q?�Q�烦引文件格式独立于应用�q�_��。Lucene定义了一套以8位字节�ؓ基础的烦引文件格式，使得兼容�pȝ��或者不同��^台的应用能够�׃�n建立的烦引文件�?
�Q?�Q�在传统全文��索引擎的倒排索引的基��上，实现了分块烦引，能够针对新的文�g建立��文件烦引，提升索引速度。然后通过与原有烦引的合�ƈ�Q�达��C��化的目的�?
�Q?�Q�优�U�的面向对象的�pȝ��架构�Q��得对于Lucene扩展的学习难度降低，方便扩充新功能�?
�Q?�Q�设计了独立于语�a�和文件格式的文本分析接口�Q�烦引器通过接受Token��完成烦引文件的创立�Q�用��h��展新的语�a�和文件格式，只需要实现文本分析的接口�?
�Q?�Q�已�l�默认实��C��一套强大的查询引擎�Q�用��h��需自己�~�写代码即�ɾpȝ��可获得强大的查询能力�Q�Lucene的查询实��C��默认实现了布��操作、模�p�查询（Fuzzy Search�Q�、分�l�查询等�{��?
面对已经存在的商业全文检索引擎，Lucene也具有相当的优势�Q?
首先�Q�它的开发源代码发行方式�Q�遵守Apache Software License�Q�，在此基础上程序员不仅仅可以充分的利用Lucene所提供的强大功能，而且可以深入�l�致的学习到全文��索引擎制作技术和面相对象�~�程的实践，�q�而在此基��上根据应用的实际情况�~�写出更好的更适合当前应用的全文检索引擎。在�q�一点上�Q�商业��Y件的灉|��性远�q�不及Lucene。其�ơ，Lucene�U�承了开放源代码一贯的架构优良的优势，设计了一个合理而极��h��充能力的面向对象架构�Q�程序员可以在Lucene的基��上扩充各�U�功能，比如扩充中文处理能力�Q�从文本扩充到HTML、PDF�{�等文本格式的处理，�~�写�q�些扩展的功能不仅仅不复杂，而且�׃��Lucene恰当合理的对�pȝ��讑֤�做了�E�序上的抽象�Q�扩展的功能也能��L��的达到跨�q�_��的能力。最后，转移到apache软�g基金会后�Q�借助于apache软�g基金会的�|�络�q�_��Q�程序员可以方便的和开发者、其它程序员交流�Q�促成资源的�׃�n�Q�甚至直接获得已�l�编写完备的扩充功能。最后，虽然Lucene使用Java语言写成�Q�但是开放源代码�C�֌�的程序员正在不懈的将之��用各�U�传�l�语�a�实现�Q�例�?net framework�Q�，在遵守Lucene索引文�g格式的基��上，使得Lucene能够�q�行在各�U�各��L��q�_��上，�pȝ��理员可以根据当前的�q�_��适合的语�a�来合理的选�?

2. Lucene�pȝ��l�构分析

2.1 �pȝ��l�构�l�织

Lucene作�ؓ一个优�U�的全文检索引擎，其系�l�结构具有强烈的面向对象特征。首先是定义了一个与�q�_��无关的烦引文件格式，其次通过抽象��系�l�的核心�l�成部分设计为抽象类�Q�具体的�q�_��实现部分设计为抽象类的实玎ͼ�此外与具体��^台相关的部分比如文�g存储也封装�ؓ�c�，�l�过层层的面向对象式的处理，最�l�达成了一个低耦合高效率，�Ҏ��二次开发的��索引擎系�l��?
以下��讨论Lucene�pȝ��的结构组�l�，�q�给出系�l�结构与源码�l�织图：

从图中我们清楚的看到�Q�Lucene的系�l�由基础�l�构��装、烦引核心、对外接口三大部分组成。其中直接操作烦引文件的索引核心又是�pȝ��的重炏V��Lucene的将所有源码分��Z��7个模块（在java语言中以包即package来表�C�）�Q�各个模块所属的�pȝ��部分也如上图所�C�。需要说明的是org.apache.lucene.queryPaser是做为org.apache.lucene.search的语法解析器存在�Q�不被系�l�之外实际调用，因此�q�里没有当作对外接口看待�Q�而是��之独立出来�?
从面象对象的观点来考察�Q�Lucene应用了最基本的一条程序设计准则：引入额外的抽象层以降低耦合性。首先，引入对烦引文件的操作org.apache.lucene.store的封装，然后��烦引部分的实现建立在（org.apache.lucene.index�Q�其之上�Q�完成对索引核心的抽象。在索引核心的基��上开始设计对外的接口org.apache.lucene.search与org.apache.lucene.analysis。在每一个局部细节上�Q�比如某些常用的数据�l�构与算法上�Q�Lucene也充分的应用了这一条准则。在高度的面向对象理论的支撑下，使得Lucene的实现容易理解，易于扩展�?
Lucene在系�l�结构上的另一个特点表��Cؓ其引入了传统的客��L��服务器结构以外的的应用结构。Lucene可以作�ؓ一个运行库被包含进入应用本�w�中去，而不是做��Z��个单独的索引服务器存在。这自然和Lucene开放源代码的特征分不开�Q�但是也体现了Lucene在编写上的本来意图：提供一个全文烦引引擎的架构�Q�而不是实现�?

2.2 数据��分�?/h4>

了解数据��分析的重要性：
理解Lucene�pȝ��l�构的另一个方式是��L��讨其中数据流的走向，�q�以此摸清楚Lucene�pȝ��内部的调用时序。在此基��上，我们能够更加深入的理解Lucene的系�l�结构组�l�，以方便以后在Lucene�pȝ��上的开发工作。这部分的分析，是深入Lucene�pȝ��的钥匙，也是�q�行重写的基��?
Lucene�pȝ��中的主要的数据流以及它们之间的关�p�d��Q?

�?.2很好的表明了Lucene在内部的数据��组�l�情况，�q�且沿着数据��的方向我们也可以对与Lucene内部的执行时序有一个清楚的了解。现在将图中的涉及到的流的类型与各个逻辑对应�pȝ��的相关部分的关系说明一下�?
图中共存�?�U�数据流�Q�分别是文本��、token��、字节流与查询语句对象流。文本流表示了对于烦引目标和交互控制的抽象，即用文本��表�C�Z��要索引的文�Ӟ��用文本流向用戯��Z��息；在实际的实现中，Lucene中的文本��采用了UCS-2作�ؓ�~�码�Q�以辑ֈ�适应多种语言文字的处理的目的。Token��是Lucene内部所使用的概念，是对传统文字中的词的概念的抽象，也是Lucene在徏立烦引时直接处理的最��单位；��单的讲Token��是一个词和所在域值的�l�合�Q�后面在叙述文�g格式时也��l�涉及到token�Q�这里不详细展开。字节流则是�Ҏ��件抽象的直接操作的体玎ͼ�通过固定长度的字节（Lucene定义�?比特位长�Q�后面文件格式将详细叙述�Q�流的处理，��文件操作解脱出来，也做��C��与��^台文件系�l�的无关性。查询语句对象流则是仅仅在查询语句解析时用到的概念，它对查询语句抽象�Q�通过�cȝ��l�承�l�构反映查询语句的结构，��之传送到查找逻辑来进行查扄��操作�?
图中的涉及到了多�U�逻辑�Q�基本上直接对应于系�l�某一模块�Q�但是也有跨模块调用的问题发生，�q�是因�ؓLucene的重用程度非常好�Q�因此很多实现直接调用了以前的工作成果，�q�在某种�E�度上其实是加强了模块耦合性，但是也是��Z��避免�pȝ��的过于庞大和不必要的重复设计的一�U�折衷体现。词法分析逻辑对应于org.apache.lucene.analysis部分。查询语句语法分析逻辑对应于org.apache.lucene.queryParser部分�Q��ƈ且调用了org.apache.lucene.analysis的代码。查询结束之后向评分排序逻辑输出token��，�l�而由评分排序逻辑处理之后�l�出文本��的�l�果�Q�这一部分的实��C��包含在了org.apache.lucene.search中。烦引构建逻辑对应于org.apache.lucene.index部分。烦引查��N��辑则主要是org.apache.lucene.search�Q�但是也大量的��用了org.apache.lucene.index部分的代码和接口定义。存储抽象对应于org.apache.lucene.store。没有提到的模块则是做�ؓ�pȝ��公共基础设施存在�?

2.3 ��Z��Lucene的应用开�?/h4>

首先�Q�我们需要的是按照目标语�a�的词法结构来构徏相应的词法分析逻辑�Q�实现Lucene在org.apache.lucene.analysis中定义的接口�Q��ؓLucene提供目标�pȝ��所使用的语�a�处理能力。Lucene默认的已�l�实��C��英文和�d文的��单词法分析逻辑�Q�按照空格分词，�q�去除常用的语法词，如英语中的is�Q�am�Q�are�{�等�Q�。在�q�里�Q�主要需要参考实现的接口在org.apache.lucene.analysis中的Analyzer.java和Tokenizer.java中定义，Lucene提供了很多英文规范的实现��h��Q�也可以做�ؓ实现时候的参考资料。其�ơ，需要按照被索引的文件的格式来提供相应的文本分析逻辑�Q�这里是指除开词法分析之外的部分，比如HTML文�g�Q�通常需要把其中的内�Ҏ��照所属于域分门别�c�d��入烦引，�q�就需要从org.apache.lucene.document中定义的�c�document�l�承�Q�定义自��q��HTMLDocument�c�，然后��可以将之交�l�org.apache.lucene.index模块来写入烦引文件。完成了�q�两步之后，Lucene全文��索引擎就基本上完备了。这个过�E�可以用下图表示�Q?

下面是��用java语言开发，Lucene�pȝ��能够方便的嵌入到整个�pȝ��中去�Q�作��Z��个API集来调用。这个过�E�十分简单，以下便是一个示例程序，配合注释理解��h��很容易�?

2.4 Lucene索引文�g格式

首先在Lucene的文件格式中�Q�以字节为基��Q�定义了如下的数据类型：
�?/b> 3.1 Lucene文�g格式中定义的数据�c�d��

数据�c�d��

所占字节长度（字节�Q?/b>

说明

Byte

1

基本数据�c�d��Q�其他数据类型以此�ؓ基础定义

UInt32

4

32位无�W�号整数�Q�高位优�?/p>

UInt64

8

64位无�W�号整数�Q�高位优�?/p>

VInt

不定�Q�最��?字节

动态长度整敎ͼ�每字节的最高位表明�q�剩多少字节�Q�每字节的低七位表明整数的��|��高位优先。可以认为值可以�ؓ无限大。其�C�Z��如下

�?/p>

字节1

字节2

字节3

0

00000000

1

00000001

2

00000010

127

01111111

128

10000000

00000001

129

10000001

00000001

130

10000010

00000001

16383

10000000

10000000

00000001

16384

10000001

10000000

00000001

16385

10000010

10000000

00000001

Chars

不定�Q�最��?字节

采用UTF-8�~�码^[20]的Unicode字符序列

String

不定�Q�最��?字节

由VInt和Chars�l�成的字�W�串�c�d��Q�VInt表示Chars的长度，Chars则表�C�Z��String的�?/p>

以上的数据类型就是Lucene索引文�g格式中用到的全部数据�c�d��Q�由于它们都以字节�ؓ基础定义而来�Q�因此保证了是��^台无养I��q�也是Lucene索引文�g格式�q�_��无关的主要原因。接下来我们看看Lucene索引文�g的概�늻�成和�l�构�l�成�?

以上��是Lucene的烦引文件的概念�l�构。Lucene索引index��p��q�段(segment)�l�成�Q�每一�D는�若干的文档（document�Q�组成，每一个文档由若干的域�Q�field�Q�组成，每一个域��p��q�的��（term�Q�组成。项是最��的索引概念单位�Q�它直接代表了一个字�W�串以及其在文�g中的位置、出现次数等信息。域是一个关联的元组�Q�由一个域名和一个域值组成，域名是一个字�Ԍ��域值是一个项�Q�比如将“标题”和实际标题的项�l�成的域。文档是提取了某个文件中的所有信息之后的�l�果�Q�这些组成了�D�，或者称��Z��个子索引。子索引可以�l�合为烦引，也可以合�q��ؓ一个新的包含了所有合�q��内部元素的子索引。我们可以清楚的看出�Q�Lucene的烦引结构在概念上即��Z��l�的倒排索引�l�构�?
从概念上映射到结构中�Q�烦引被处理��Z��个目录（文�g夹）�Q�其中含有的所有文件即为其内容�Q�这些文件按照所属的�D�不同分�l�存放，同组的文件拥有相同的文�g名，不同的扩展名。此外还有三个文�Ӟ��分别用来保存所有的�D늚�记录、保存已删除文�g的记录和控制��d��的同步，它们分别是segments�Q�deletable和lock文�g�Q�都没有扩展名。每个段包含一�l�文�Ӟ��它们的文件扩展名不同�Q�但是文件名均�ؓ记录在文件segments中段的名字。让我们看如下的�l�构�?.2�Q?

每个�D늚�文�g中，主要记录了两大类的信息：域集合与��w��合。这两个集合中所含有的文件在�?.2中均有表明。由于烦引信息是静态存储的�Q�域集合与项集合中的文�g�l�采用了一�U�类似的存储办法�Q�一个小型的索引文�g�Q�运行时载入内存�Q�一个对应于索引文�g的实际信息文�Ӟ��可以按照索引中指�C�的偏移量随��问；索引文�g与信息文件在记录的排列顺序上存在隐式的对应关�p�，即烦引文件中按照“烦引项1、烦引项2…”排列，则信息文件则也按照“信息项1、信息项2…”排列。比如在�?.2所�C�文件中�Q�segment1.fdx与segment1.fdt之间�Q�segment1.tii与segment1.tis、segment1.prx、segment1.frq之间�Q�都存在�q�样的组�l�关�p�R��而域集合与项集合之间则通过域的在域记录文�g�Q�比如segment1.fnm�Q�中所记录的域记录��L��持对应关�p�，在图3.2中segment1.fdx与segment1.tii中就是通过�q�种方式保持联系。这��P��域集合和��w��合不仅仅联系��h��Q�而且其中的文件之间也�怺�联系��h��。此外，标准化因子文件和被删除文档文件则提供了一些程序内部的辅助设施�Q�标准化因子用在评分排序机制中，被删除文档是一�U�伪删除手段�Q�。这��P��整个�D늚�索引信息��通过�q�些文档有机的组成�?

2.5 一些公用的基础�c?/h4>

基础�l�构��装�Q�或者基��c�，由org.apache.lucene.util和org.apache.lucene.document两个包组成，前者定义了一些常量和优化�q�的常用的数据结构和��法�Q�后者则是对于文档（document�Q�和域（field�Q�概�늚�一个类定义。以下我们用列表的方式来分析�q�些��装�c�，指出其要点；

�?/b> 3.2 基础�c�d��org.apache.lucene.util

�c?/b>

说明

Arrays

一个关于数�l�的排序�Ҏ��的静态类�Q�提供了优化的基于快排序的排序方法sort

BitVector

C/C++语言中位域的java实现品，但是加入了序列化能力

Constants

帔R��静态类�Q�定义了一些常�?/p>

PriorityQueue

一个优先队列的抽象�c�，用于后面实现各种具体的优先队列，提供常数旉��内的最��元素访问能力，内部实现机制是哈析表和堆排序��法

�?/b> 3.3 基础�c�d��org.apache.lucene.document

�c?/b>

说明

Document

是文档概�늚�一个实现类�Q�每个文档包含了一个域表（fieldList�Q�，�q�提供了一些实用的�Ҏ��Q�比如多�U�添加域的方法、返回域表的�q�代器的�Ҏ��

Field

是域概念的一个实现类�Q�每个域包含了一个域名和一个��|��以及一些相关的属�?/p>

DateField

提供了一些辅助方法的静态类�Q�这些方法将java中Date和Time数据�c�d��和String�怺�转化

2.6 存储抽象

org.apache.lucene.store包：存储抽象是唯一能够直接对烦引文件存取的包，因此其主要目的是抽象出和�q�_��文�g�pȝ��无关的存储抽象，提供诸如目录服务�Q�增、删文�g�Q�、输入流和输出流。在分析其实��C��前，首先我们看一下UML图；

�?/b> 3.3 存储抽象实现UML图（一�Q?/b>

�?/b> 3.4 存储抽象实现UML图（二）

�?/b> 3.4 存储抽象实现UML图（三）
�?.2�?.4展示了整个org.apache.lucene.store中主要的�l�承体系。共有三个抽象类定义�Q�Directory、InputStream和OutputStrem�Q�构成了一个完整的��Z��抽象文�g�pȝ��的存取体�pȝ��构，在此基础上，实作��Z��两个实现品：�Q�FSDirectory�Q�FSInputStream�Q�FSOutputStream�Q�和�Q�RAMDirectory�Q�RAMInputStream和RAMOutputStream�Q�。前者是以实际的文�g�pȝ��做�ؓ基础实现的，后者则是徏立在内存中的虚拟文�g�pȝ��。前者主要用来永久的保存索引文�g�Q�后者的作用则在于烦引操作时是在内存中徏立小的烦引，然后一�ơ性的输出合�ƈ到文件中去，�q�一�Ҏ��们在后面的烦引逻辑部分能够看到。此外，�q�定以了org.apache.lucene.store.lock和org.apache.lucene.store.with两个辅助内部实现的类用在实现Directory�Ҏ��的makeLock的时候，以在锁定索引��d��之前来让客户�E�序做一些准备工作�?
�Q�FSDirectory�Q�FSInputStream�Q�FSOutputStream�Q�的内部实现依托于java语言中的io�c�d��Q�只是简单的做了一个外部逻辑的包装。这当然要归功于java语言所提供的跨�q�_��Ҏ��，同时也带了一些隐患：文�g存取的效率提升需要依耐于文�g�c�d��的优化。如果需要��l�优化文件存取的效率�Q�应该还提供一个文件与目录的抽象，以根据各�U�文件系�l�或者文件类型来提供一个优化的��Z��。当�Ӟ��q�是应用开发者所不需要关�pȝ��问题�?
�Q�RAMDirectory�Q�RAMInputStream和RAMOutputStream�Q�的内部实现��比较直接了�Q�直接采用了虚拟的文件RAMFile�c�（定义于文件RAMDirectory.java中）来表�C�文�Ӟ��目录则看作一个String与RAMFile对应的关联数�l�。RAMFile中采用数�l�来表示文�g的存储空间。在此的基础上，完成各项操作的实玎ͼ��Ş成了��Z��内存的虚拟文件系�l�。因为在实际使用�Ӟ��q�不会牵涉到很大字节数量的文�Ӟ��因此�q�种设计是简单直接的�Q�也是高效率的�?

3. Lucene索引构徏逻辑模块分析

3.1对象体系与UML�?/h4>

1�Q?��（Term�Q?/b>
��（Term�Q�：包括概念所实际涉及的类、永久化�c�R��项�Q�Term�Q�所表示的是一个字�W�串�Q�它拥有域、频数和位置信息�{�等属性。因此，Lucene中设计了两个�c�L��表示�q�个概念�Q�如下图

�?/b> 4.1 UML图（�Q�）

上图中，有意的突��Z��c�Term和TermInfo中的数据成员�Q�因为它反映了对于项�Q�Term�Q�这个概�늚�具体表示。同时上图中也同时列��Z��用于�怹�化项�Q�Term�Q�的代理�c�TermInfosWriter和TermInfosReader�Q�它们完成永久化的功能，需要注意的是，TermInfosReader内部使用了数�l�indexTerms和indexInfos来存储一�p�d��；而TermInfosWriter则是一个类��g��链表的结构，通过一个other指向下一个TermInfosWriter�Q�每一个TermInfosWriter只负责本�w�那个lastTerm和lastTi的永久化工作。这是一个设计上的技巧，通过扚w��d��Q�或者称为缓冲的方式�Q�来获得��d��时候的效率优化�Q�而通过一个链表式的、各负其责的方式�Q�来获得写出时候的设计��化�?
��（term�Q�这部分的设计中�Q�还有一些重要的接口和类�Q?

�?4.2 UML图（二）

�?.2中，我们看到三个�c�：TermEnum、TermDocs与TermPositions�Q�第一个是抽象�c�，后两个都是接口。TermEnum的设计主要用在后面Segment和Document�{�等的实��C��Q�以提供枚�D其中每一个项�Q�Term�Q�的能力。TermDocs是一个接口，用来�l�承以提供返�?lt;document, frequency>值对的能力，通过�q�个接口��可以获得某个项�Q�Term�Q�在某个文档中出现的频数。TermPositions则是在TermDocs上的扩展�Q�将��（Term�Q�在文档中的位置信息也表�C�出来。TermDocs�Q�TermPositions�Q�接口的使用方式�c�M��于java中的Enumration接口�Q�即通过next�Ҏ��跌��{�Q�通过doc�Q�freq�{�方法获得当前的属性倹{�?
2�Q?域（Field�Q?/b>
�׃��Field的基本概念在org.apache.lucene.document中已�l�做了定义，因此在这部分主要是针寚w��文�g�Q?fnm文�g�?fdx文�g�?fdt文�g�Q�所需要的信息再来设计一些类�?

�?4.3 UML图（三）

�?4.3中展�C�的�Q�就是表�C�Z��域（Field�Q�所兌��的属性信息的�c�R��其中isIndexed表示的这个域的值是否被索引�q�，卛_��是否被分词然后索引�Q�另外两个属性所表示的意思则很明显：一个是域的名字�Q�一个是域的�~�号�?
关于域表和存取逻辑的UML图：

FieldInfos即�ؓ域表的概念表�C�，内部采用了冗余的方式以获取在通过域的�~�号讉K��或者通过域的名字来访问时候的高效率。FieldsReader与FieldsWriter则分别是写出和读入的代理�c�R��在功能和实��C��Q�这两个�c�都比较��单�?
3�Q?文档�Q�document�Q?/b>
文档�Q�document�Q�同样也是在org.apache.lucene.document中定义过的结构。由于对于这部分比较重要�Q�我们也来看看其UML图：

�?4.5 UML图（五）
在图4.5中我们看刎ͼ�Document的设计基本上沿用了链表的处理�Ҏ��。左边的Document�c�M��Z��个数据外包类�Q�用来提供对于内部结构DocumentFieldList的增加删除访问操作等�{�。DocumentFieldList才是实际上的数据存储单位�Q�它用了链表的处理方法，直接指向一个当前的Field对象和下一个DocumentFieldList对象�Q�这个与前面的类伹{��ؓ了能够逐个讉K��链表中的节点�Q�还设计了DocumentFieldEnumeration枚�D�c�R�?

�?4.6 UML图（六）

实际上定义于org.apache.lucene.index中的有关于Document的就是永久化的代理类。在�?.6中给��Z��其UML图。需要说明的是�ؓ什么没有出现读入的�Ҏ��Q�这个方法已�l�隐含在�?.5中Document�c�M��的add�Ҏ��中了�Q�结合图2.4中的�E�序代码�D�，我们��p��够清楚的理解�q�种设计�?
4�Q?�D�（segment�Q?/b>
�D�（Segment�Q�这一部分设计的比较特�D�，在实现简单的对象�l�构之上�Q�还�Ҏ��的设计了用于�D�之间合�q�的�c�R��接下来�Q�我们仍焉��取对照UML分析的方式逐个叙述。接下来我们看Lucene中如何表�C�段�q�个概念�?

�?4.7 UML图（七）
Lucene定义了一个类SegmentInfo用来表示每一个段�Q�Segment�Q�的信息�Q�包括名字（name�Q�、含有的文档的数目（docCount�Q�和�D�|��位于的目录的位置�Q�dir�Q�。根据烦引文件中的段的意义，有了�q�三点，��p��唯一��定一个段了。SegmentInfos�q�个�c�d��是用来表�C�Z��个段的链表（从标准的java.util.Vector�l�承而来�Q�，实际上，也就是烦引（index�Q�的意思了。需要注意的是，�q�里�q�没有在SegmentInfo中安插一个文档（document�Q�的链表。这样做的原因牵涉到Lucene内部对于文档�Q�相当于一个被索引文�g�Q�的处理�Q�Lucene内部采用了赋予文档编��P��l�域赋值的方式来处理文档，卛_��入的文档��次�~�号�Q�以后用文档可��C�文档，而�\径信息，文�g名字�{�等在以后烦引查��N��要的属性，都作为域存储下来�Q�因此SegmentInfo中�ƈ没有另外存储一个文档（document�Q�的链表�Q�对于这些的写出和读入，则交�l�了�怹�化的代理�c�L��做�?

�?4.8 UML图（八）
�?.8�l�出了负责段�Q�segment�Q�的��d��操作的代理类�Q�而负责段�Q�segment�Q�的写出操作也同��h��有定义，�q�些操作都直接实现在了类IndexWriter�c�M��。段的操作同样采用了之前的数�l�或者说是缓冲的处理方式�?
针对前面��（term�Q�那部分定义的几个接口，�D�（segment�Q�这部分也需要做相应的接口实玎ͼ�因�ؓ提供直接遍历讉K��D�中的各个项的能力对于检索来��_��无疑是十分重要的。即�q�部分的设计�Q�实际上都是在�ؓ了检索在服务�?

�?4.9 UML图（九）

�?4.10 UML图（十）
�?.9和图4.10分别展示了前面项�Q�term�Q�那里定义的接口是如何在�q�里通过�l�承实现的。Lucene在处理这部分的时候，也是分成两部分（Segment与Segments开头的�c�）来实玎ͼ�而且很合理的�q�用了数�l�的技法，以及注意了��扉K��用。但是细化到局部，�l�归是比较简单的按照语义来获得结果而已了�?
Lucene��Z��兼顾建立索引时的效率和读取烦引查扄��速度�Q�引入了分小�D�徏立烦引的方式�Q�即每一�ơ批量徏立烦引时�Q�先在内存中的虚拟文件系�l�中为每一个文档单独徏立一个段�Q�然后在输出的时候将�q�些�D�合�q�之后输出成为烦引文�Ӟ��q�时仅仅存在一个段。多�ơ徏立的索引后，如果想优化烦引文�Ӟ��也可采取合�ƈ�D늚��Ҏ��Q�将索引中的�D�合�q�成��Z��个段。我们来看一下在IndexWriter�c�M��相应的方法的实现�Q�来了解一下这中徏立烦引的实现�?

在mergeSegments函数中，��用到几个重要的�cȝ��构，它们记录了合�q�时候的一些重要信息，完成合�ƈ时候的工作。接下来�Q�我们来看这几个�cȝ��UML图：

�?4.12 UML图（十一�Q?/b>

从图4.12中，我们看到Lucene设计一个类SegmentMergeInfo用来保存每一个被合�ƈ的段的信息，也保存能够访问其内部的接口句柄，也就是说合�ƈ时的操作使用�q�个�c�M��为对被合�q�的�D늚�操作代理。类SegmentMergeQueue则设计�ؓorg.apache.lucene.util.PriorityQueue的子�c�，做�ؓSegmentMergeInfo的容器类�Q�而且附带能够自动排序。SegmentMerger是主要进行操作的�c�，主要完成合�ƈ各个数据��的问题�?
5�Q?IndexReader�c�M��IndexWirter�c?/b>
最后剩下的�Q�就是整个烦引逻辑部分的��用接口类了。外界通过�q�两个类以及文档�Q�document�Q�类的构造函数调用之�Q�比如图2.4中的代码�C�Z��所�C�。下面我们来看一下这部分最后两个类的UML图：

�?4.13 UML图（十二�Q?/b>

IndexWriter的设计与IndexReader的设计很不相同，前者是一个实现类�Q�而后者是一个抽象类�Q�带有没有实现的接口。IndexWriter的主要作用就是接收新加入的文档（document�Q�，然后在内部�ؓ之生成相应的��段�Q�最后再合�ƈ�q�向索引文�g中输出，�?.11中已�l�给��Z��一些实现的代码。由于Lucene在面向对象上��装的努力，通过各个构造函数就已经完成了对于各个概�늚�构造过�E�，剩下部分的代码主要是依据各个数组或者是链表中的信息�Q�逐个逐个的将信息写出到相应的文�g中去了。IndexReader部分则只是做了接口设计，没有具体的实玎ͼ��q�个和本部分所完成的主要功能有养I��索引构徏逻辑。设计这个抽象类的目的是�Q�预先完成一些函敎ͼ��Z��后的��索（search�Q�部分的各种形式的IndexReader铺��^道�\�Q�也是利用了在同一个包内可以方便访问其它类的保护变量这个java语言的限制�?a name="_Toc43005336">
3.2 数据��逻辑
从宏观上明白一个系�l�的设计�Q�理清楚其中的运行规律，最好的方式应该是通过数据��图。在分析了各个位于烦引构建逻辑部分的类的设计之后，我们接下来就通过分析数据��图的方式来�ȝ��一下。但是由于之前提到的原因�Q�烦引读入部分在�q�一部分�q�没有完全实玎ͼ�所以我们在数据��图中主要给出的是烦引构建的数据��图�?

对于�?.14中所描述的内容，�l�合Lucene源代码中的一些文件看�Q�能够加��q��解。准备阶�D�可以参考demo文�g夹中的org.apache.lucene.demo.IndexFiles�c�d��java文�g夹中的org.apache.lucene.document文�g包。烦引构建阶�D늚�主要源码位于java文�g夹中org.apache.lucene.index.IndexWriter�c�，因此�q�部分可以结合这个类的实现来看。至于内存文件系�l�，比较复杂�Q�但是这时的逻辑相对��单，因此也不隄��解�?
上面的数据流囑֍�分清楚的勄��除了整个索引构徏逻辑�q�部分的设计�Q�通过层层嵌套的类�l�构�Q�在构徏时候即分步骤有计划的生成了索引�l�构�Q�将之存储到内存中的文�g�pȝ��中，然后通过对内存中的文件系�l�优化合�q�输出到实际的文件系�l�中�?

本文是在�?010�q�学习Lucene的时候在互联�|�上摘抄整理而来�Q�当时是在一家电子商务公司做商品��索需要用到Lucene�Q�所以就研究了下。这��文章也是在当时在网�l�上阅读Lucene相关知识整理而来的�?/p>

hoojo 2012-09-06 09:34 发表评论

hoojo — Wed, 05 Sep 2012 04:21:00 GMT

什么是全文��索与全文��索系�l�？

全文��索是指计��机索引�E�序通过扫描文章中的每一个词�Q�对每一个词建立一个烦引，指明该词在文章中出现的次数和位置�Q�当用户查询�Ӟ��索程序就�Ҏ��事先建立的烦引进行查找，�q�将查找的结果反馈给用户的检索方式。这个过�E�类��g��通过字典中的��索字表查字的�q�程�?

全文��索的�Ҏ��主要分�ؓ按字��索和按词��索两�U�。按字检索是指对于文章中的每一个字都徏立烦引，��索时��词分解为字的组合。对于各�U�不同的语言而言�Q�字有不同的含义�Q�比如英文中字与词实际上是合一的，而中文中字与词有很大分别。按词检索指�Ҏ��章中的词�Q�即语义单位建立索引�Q�检索时按词��索，�q�且可以处理同义��等�?

全文��索系�l�是按照全文��索理论徏立�v来的用于提供全文��索服务的软�g�pȝ��。一般来��_��全文��索需要具备徏立烦引和提供查询的基本功能，此外��C��的全文检索系�l�还需要具有方便的用户接口、面向WWW[1]的开发接口、二�ơ应用开发接口等�{�。功能上�Q�全文检索系�l�核心具有徏立烦引、处理查询返回结果集、增加烦引、优化烦引结构等�{�功能，外围则由各种不同应用��h��的功能组成。结构上�Q�全文检索系�l�核心具有烦引引擎、查询引擎、文本分析引擎、对外接口等�{�，加上各种外围应用�pȝ��{�等共同构成了全文检索系�l��?/p>

什么是Lucene�Q?/b>

Lucene是apache软�g基金会jakarta��目�l�的一个子��目�Q�是一个开放源代码的全文检索引擎工具包�Q�即它不是一个完整的全文��索引擎，而是一个全文检索引擎的架构�Q�提供了完整的查询引擎和索引引擎�Q�部分文本分析引擎（英文与�d文两�U�西方语�a��Q�。Lucene的目的是��Y件开发�h员提供一个简单易用的工具包，以方便的在目标系�l�中实现全文��索的功能�Q�或者是以此为基��建立起完整的全文��索引擎�?

Lucene的原作者是Doug Cutting�Q�他是一位资深全文烦�?��索专�Ӟ��曄��是V-Twin搜烦引擎的主要开发者，后在Excite担�Q高��pȝ��架构设计师，目前从事于一些Internet底层架构的研�I�。早先发布在作者自��q��http://www.lucene.com/�Q�后来发布在SourceForge�Q?001�q�年底成为apache软�g基金会jakarta的一个子��目�Q?a >http://jakarta.apache.org/lucene/�?/p>

Lucene作�ؓ一个全文检索引擎，其具有如下突出的优点�Q?/b>

�Q?�Q�烦引文件格式独立于应用�q�_��。Lucene定义了一套以8位字节�ؓ基础的烦引文件格式，使得兼容�pȝ��或者不同��^台的应用能够�׃�n建立的烦引文件�?
�Q?�Q�在传统全文��索引擎的倒排索引的基��上，实现了分块烦引，能够针对新的文�g建立��文件烦引，提升索引速度。然后通过与原有烦引的合�ƈ�Q�达��C��化的目的�?
�Q?�Q�优�U�的面向对象的�pȝ��架构�Q��得对于Lucene扩展的学习难度降低，方便扩充新功能�?
�Q?�Q�设计了独立于语�a�和文件格式的文本分析接口�Q�烦引器通过接受Token��完成烦引文件的创立�Q�用��h��展新的语�a�和文件格式，只需要实现文本分析的接口�?
�Q?�Q�已�l�默认实��C��一套强大的查询引擎�Q�用��h��需自己�~�写代码即�ɾpȝ��可获得强大的查询能力�Q�Lucene的查询实��C��默认实现了布��操作、模�p�查询（Fuzzy Search�Q�、分�l�查询等�{��?/p>

面对已经存在的商业全文检索引擎，Lucene也具有相当的优势�Q?/b>

首先�Q�它的开发源代码发行方式�Q�遵守Apache Software License�Q�，在此基础上程序员不仅仅可以充分的利用Lucene所提供的强大功能，而且可以深入�l�致的学习到全文��索引擎制作技术和面相对象�~�程的实践，�q�而在此基��上根据应用的实际情况�~�写出更好的更适合当前应用的全文检索引擎。在�q�一点上�Q�商业��Y件的灉|��性远�q�不及Lucene�?
其次�Q�Lucene�U�承了开放源代码一贯的架构优良的优势，设计了一个合理而极��h��充能力的面向对象架构�Q�程序员可以在Lucene的基��上扩充各�U�功能，比如扩充中文处理能力�Q�从文本扩充到HTML、PDF�{�等文本格式的处理，�~�写�q�些扩展的功能不仅仅不复杂，而且�׃��Lucene恰当合理的对�pȝ��讑֤�做了�E�序上的抽象�Q�扩展的功能也能��L��的达到跨�q�_��的能力�?
最后，转移到apache软�g基金会后�Q�借助于apache软�g基金会的�|�络�q�_��Q�程序员可以方便的和开发者、其它程序员交流�Q�促成资源的�׃�n�Q�甚至直接获得已�l�编写完备的扩充功能。最后，虽然Lucene使用Java语言写成�Q�但是开放源代码�C�֌�的程序员正在不懈的将之��用各�U�传�l�语�a�实现�Q�例�?net framework�Q�，在遵守Lucene索引文�g格式的基��上，使得Lucene能够�q�行在各�U�各��L��q�_��上，�pȝ��理员可以根据当前的�q�_��适合的语�a�来合理的选�?/p>

索引和搜索的关系

索引是现代搜索引擎的核心�Q�徏立烦引的�q�程��是把源数据处理成非常方便查询的索引文�g的过�E�。�ؓ什么烦引这么重要呢�Q�试想你现在要在大量的文档中搜烦含有某个关键词的文档�Q�那么如果不建立索引的话你就需要把�q�些文档��序的读入内存，然后��查这个文章中是不是含有要查找的关键词�Q�这��L��话就会耗费非常多的旉��Q�想��x��索引擎可是在毫秒�U�的旉��内查扑և�要搜索的�l�果的。这��是�׃��建立了烦引的原因�Q�你可以把烦引想象成�q�样一�U�数据结构，他能够��你快速的随机讉K��存储在烦引中的关键词�Q�进而找到该关键词所兌��的文档。Lucene 采用的是一�U�称为反向烦引（inverted index�Q�的机制。反向烦引就是说我们�l�护了一个词/短语表，对于�q�个表中的每个词/短语�Q�都有一个链表描�q�C��有哪些文档包含了�q�个�?短语。这样在用户输入查询条�g的时候，��p��非常快的得到搜烦�l�果。我们将在本�p�d��文章的第二部分详�l�介�l?Lucene 的烦引机�Ӟ��׃�� Lucene 提供了简单易用的 API�Q�所以即使读者刚开始对全文本进行烦引的机制�q�不太了解，也可以非常容易的使用 Lucene 对你的文档实现烦引�?
�Ҏ��档徏立好索引后，��可以在�q�些索引上面�q�行搜烦了。搜索引擎首先会�Ҏ��索的关键词进行解析，然后再在建立好的索引上面�q�行查找�Q�最�l�返回和用户输入的关键词相关联的文档�?/p>

Lucene 软�g包分�?/b>

Package: org.apache.lucene.document
�q�个包提供了一些�ؓ��装要烦引的文档所需要的�c�，比如 Document, Field。这��P��每一个文档最�l�被��装成了一�?Document 对象�?
Package: org.apache.lucene.analysis
�q�个包主要功能是�Ҏ��档进行分词，因�ؓ文档在徏立烦引之前必��要�q�行分词�Q�所以这个包的作用可以看成是为徏立烦引做准备工作�?
Package: org.apache.lucene.index
�q�个包提供了一些类来协助创建烦引以及对创徏好的索引�q�行更新。这里面有两个基��的类�Q�IndexWriter �?IndexReader�Q�其�?IndexWriter 是用来创建烦引�ƈ��d��文档到烦引中的，IndexReader 是用来删除烦引中的文档的�?
Package: org.apache.lucene.search
�q�个包提供了对在建立好的索引上进行搜索所需要的�c�R��比�?IndexSearcher �?Hits, IndexSearcher 定义了在指定的烦引上�q�行搜烦的方法，Hits 用来保存搜烦得到的结�?/p>

Lucene包结构功能表

包名

功能

org.apache.lucene.analysis

语言分析器，主要用于的切词，支持中文主要是扩展此�c?/p>

org.apache.lucene.document

索引存储时的文档�l�构��理�Q�类��g��关系型数据库的表�l�构

org.apache.lucene.index

索引��理�Q�包括烦引徏立、删除等

org.apache.lucene.queryParser

查询分析器，实现查询关键词间的运��，如与、或、非�{?/p>

org.apache.lucene.search

��索管理，�Ҏ��查询条�g�Q�检索得到结�?/p>

org.apache.lucene.store

数据存储��理�Q�主要包括一些底层的I/O操作

org.apache.lucene.util

一些公用类

一个简单的搜烦应用�E�序

假设我们的电脑的目录中含有很多文本文档，我们需要查扑֓�些文档含有某个关键词。�ؓ了实现这�U�功能，我们首先利用
Lucene 对这个目录中的文档徏立烦引，然后在徏立好的烦引中搜烦我们所要查扄��文档。通过�q�个例子读者会对如何利�?
Lucene 构徏自己的搜索应用程序有个比较清楚的认识�?/p>

建立索引
��Z��Ҏ��档进行烦引，Lucene 提供了五个基��的类�Q�他们分别是 Document, Field, IndexWriter, Analyzer, Directory。下面我们分别介�l�一下这五个�cȝ��用途：

Document
Document 是用来描�q�文档的�Q�这里的文档可以指一�?HTML ��面�Q�一��电子邮�Ӟ��或者是一个文本文件。一�?Document 对象由多�?Field 对象�l�成的。可以把一�?Document 对象惌��成数据库中的一个记录，而每�?Field 对象��是记录的一个字�D�c�?

接口�?/p>

备注

add(Field field)

��d��一个字�D�（Field�Q�到Document�?/p>

String get(String name)

从文档中获得一个字�D�对应的文本

Field getField(String name)

由字�D�名获得字段�?/p>

Field[] getFields(String name)

由字�D�名获得字段值的�?/p>

Field
Field 对象是用来描�q�C��个文档的某个属性的�Q�比如一��电子邮件的标题和内容可以用两个 Field 对象分别描述�?
即上文所说的“字�D�”，它是Document的片�D�section�?
Field的构造函敎ͼ�
Field(String name, String string, boolean store, boolean index, boolean token)�?
Indexed�Q�如果字�D�|��Indexed的，表示�q�个字段是可��索的�?
Stored�Q�如果字�D�|��Stored的，表示�q�个字段的值可以从��索结果中得到�?
Tokenized�Q�如果一个字�D�|��Tokenized的，表示它是有经�q�Analyzer转变后成��Z��个tokens序列�Q�在�q�个转变�q�程tokenization中，Analyzer提取出需要进行烦引的文本�Q�而剔除一些冗余的词句�Q�例如：a�Q�the,they�{�，详见org.apache.lucene.analysis.StopAnalyzer.ENGLISH_STOP_WORDS和org.apache.lucene.analysis.standard.StandardAnalyzer(String[] stopWords)的API�Q�。Token是烦引时候的基本单元�Q�代表一个被索引的词�Q�例如一个英文单词，或者一个汉字。因此，所有包含中文的文本都必��L��Tokenized的�?

Analyzer
在一个文档被索引之前�Q�首先需要对文档内容�q�行分词处理�Q�这部分工作��是�?Analyzer 来做的。Analyzer �c�L��一个抽象类�Q�它有多个实现。针对不同的语言和应用需要选择适合�?Analyzer。Analyzer 把分词后的内容交�l?IndexWriter 来徏立烦引�?

接口�?/p>

备注

addDocument(Document doc)

索引��d��一个文�?/p>

addIndexes(Directory[] dirs)

��目录中已存在烦引添加到�q�个索引

addIndexes(IndexReader[] readers)

��提供的索引��d��到这个烦�?/p>

optimize()

合�ƈ索引�q�优�?/p>

close()

关闭

IndexWriter
IndexWriter �?Lucene 用来创徏索引的一个核心的�c�，他的作用是把一个个�?Document 对象加到索引中来�?

Directory
�q�个�c�M��表了 Lucene 的烦引的存储的位�|�，�q�是一个抽象类�Q�它目前有两个实玎ͼ��W�一个是 FSDirectory�Q�它表示一个存储在文�g�pȝ��中的索引的位�|�。第二个�?RAMDirectory�Q�它表示一个存储在内存当中的烦引的位置�?/p>

熟悉了徏立烦引所需要的�q�些�c�d��Q�我们就开始对某个目录下面的文本文件徏立烦引了�Q�给��Z��Ҏ��个目录下的文本文件徏立烦引的源代码�?

public class TextFileIndexer {
public static void main(String[] args) throws Exception {
// fileDir is the directory that contains the text files to be indexed
File fileDir = new File("C:\\index");

// indexDir is the directory that hosts Lucene's index files
File indexDir = new File("C:\\luceneIndex");
Analyzer luceneAnalyzer = new StandardAnalyzer(Version.LUCENE_30);
IndexWriter indexWriter = new IndexWriter(FSDirectory.open(indexDir), luceneAnalyzer, true, IndexWriter.MaxFieldLength.LIMITED);
File[] textFiles = fileDir.listFiles();
long startTime = new Date().getTime();

// Add documents to the index
for (int i = 0; i < textFiles.length; i++) {
if (textFiles[i].isFile() && textFiles[i].getName().endsWith(".txt")) {
System.out.println("File " + textFiles[i].getCanonicalPath() + " is being indexed");
Reader textReader = new FileReader(textFiles[i]);
Document document = new Document();

document.add(new Field("content", textReader));
document.add(new Field("path", textFiles[i].getPath(), Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));
indexWriter.addDocument(document);
}
}

indexWriter.optimize();
indexWriter.close();
long endTime = new Date().getTime();

System.out.println("It took " + (endTime - startTime) + " milliseconds to create an index for the files in the directory " + fileDir.getPath());
}
}

我们注意到类 IndexWriter 的构造函数需要三个参敎ͼ��W�一个参数指定了所创徏的烦引要存放的位�|�，他可以是一�?File 对象�Q�也可以是一�?FSDirectory 对象或�?RAMDirectory 对象。第二个参数指定�?Analyzer �cȝ��一个实玎ͼ�也就是指定这个烦引是用哪个分词器�Ҏ��挡内容进行分词。第三个参数是一个布��型的变量，如果�?true 的话��׃��表创��Z��个新的烦引，�?false 的话��׃��表在原来索引的基��上进行操作。接着�E�序遍历了目录下面的所有文本文档，�q��ؓ每一个文本文档创��Z��一�?Document 对象。然后把文本文档的两个属性：路径和内容加入到了两�?Field 对象中，接着在把�q�两�?Field 对象加入�?Document 对象中，最后把�q�个文档�?IndexWriter �cȝ�� add �Ҏ��加入到烦引中厅R��这��h��们便完成了烦引的创徏。接下来我们�q�入在徏立好的烦引上�q�行搜烦的部分�?/p>

搜烦文档

Query
�q�是一个抽象类�Q�他有多个实玎ͼ�比如TermQuery, BooleanQuery, PrefixQuery. �q�个�cȝ��目的是把用户输入的查询字�W�串��装成Lucene能够识别的Query�?
Term
Term是搜索的基本单位�Q�一个Term对象有两个String�c�d��的域�l�成。生成一个Term对象可以有如下一条语句来完成�Q�Term term = new Term(“fieldName�?”queryWord�?; 其中�W�一个参��C��表了要在文档的哪一个Field上进行查找，�W�二个参��C��表了要查询的关键词�?
TermQuery
TermQuery是抽象类Query的一个子�c�，它同时也是Lucene支持的最为基本的一个查询类。生成一个TermQuery对象由如下语句完成： TermQuery termQuery = new TermQuery(new Term(“fieldName�?”queryWord�?); 它的构造函数只接受一个参敎ͼ�那就是一个Term对象�?
IndexSearcher
IndexSearcher是用来在建立好的索引上进行搜索的。它只能以只�ȝ��方式打开一个烦引，所以可以有多个IndexSearcher的实例在一个烦引上�q�行操作�?
Hits
Hits是用来保存搜索的�l�果的�?/p>

介绍完这些搜索所必须的类之后�Q�我们就开始在之前所建立的烦引上�q�行搜烦了，清单2�l�出了完成搜索功能所需要的代码�?

如何��d��一个文档到索引�?/b>

Document document = new Document();
document.add(new Field("content",textReader));
document.add(new Field("path",textFiles[i].getPath(), Field.Store.YES, Field.Index.ANALYZED_NO_NORMS));
indexWriter.addDocument(document);
//最后不要忘��C��关闭
indexWriter.close();

首先�W�一行创��Z��c?Document 的一个实例，它由一个或者多个的�?Field)�l�成。你可以把这个类惌��成代表了一个实际的文档�Q�比如一�?HTML ��面�Q�一�?PDF 文档�Q�或者一个文本文件。而类 Document 中的域一般就是实际文档的一些属性。比如对于一�?HTML ��面�Q�它的域可能包括标题�Q�内容，URL �{�。我们可以用不同�c�d��?Field 来控制文档的哪些内容应该索引�Q�哪些内容应该存储。如果想获取更多的关�?Lucene 的域的信息，可以参�?Lucene 的帮助文档。代码的�W�二行和�W�三行�ؓ文档��d��了两个域�Q�每个域包含两个属性，分别是域的名字和域的内容。在我们的例子中两个域的名字分别�?content"�?path"。分别存储了我们需要烦引的文本文�g的内容和路径。最后一行把准备好的文档��d��C��索引当中�?/p>

从烦引中删除文档
�c�IndexReader负责从一个已�l�存在的索引中删除文档�?

File indexDir = new File("C:\\luceneIndex");
IndexReader ir = IndexReader.open(indexDir);
ir.delete(1);
ir.delete(new Term("path","C:\\file_to_index\lucene.txt"));
ir.close();

�W�二行用静态方�?IndexReader.open(indexDir) 初始化了�c?IndexReader 的一个实例，�q�个�Ҏ��的参数指定了索引的存储�\径。类 IndexReader 提供了两�U�方法去删除一个文档，如程序中的第三行和第四行所�C�。第三行利用文档的编��h��删除文档。每个文档都有一个系�l�自动生成的�~�号。第四行删除了�\径�ؓ"C:\\file_to_index\lucene.txt"的文档。你可以通过指定文�g路径来方便的删除一个文档。值得注意的是虽然利用上述代码删除文档使得该文档不能被��索到�Q�但是�ƈ没有物理上删除该文档。Lucene 只是通过一个后�~�名�ؓ .delete 的文件来标记哪些文档已经被删除。既然没有物理上删除�Q�我们可以方便的把这些标��Cؓ删除的文档恢复过来，如清�?3 所�C�，首先打开一个烦引，然后调用�Ҏ�� ir.undeleteAll() 来完成恢复工作�?/p>

恢复已删除文�?/b>

File indexDir = new File("C:\\luceneIndex");
IndexReader ir = IndexReader.open(indexDir);
ir.undeleteAll();
ir.close();

如何物理上删除文�?/b>

File indexDir = new File("C:\\luceneIndex");
Analyzer luceneAnalyzer = new StandardAnalyzer();
IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer,false);
indexWriter.optimize();
indexWriter.close();

�W�三行创��Z��c?IndexWriter 的一个实例，�q�且打开了一个已�l�存在的索引。第 4 行对索引�q�行清理�Q�清理过�E�中��把所有标��Cؓ删除的文档物理删除�?/p>

提高索引性能
利用 Lucene�Q�在创徏索引的工�E�中你可以充分利用机器的��g资源来提高烦引的效率。当你需要烦引大量的文�g�Ӟ��你会注意到烦引过�E�的瓉��是在往��盘上写索引文�g的过�E�中。�ؓ了解册��个问�? Lucene 在内存中持有一块缓冲区。但我们如何控制 Lucene 的缓冲区呢？�q�运的是�Q�Lucene 的类 IndexWriter 提供了三个参数用来调整缓冲区的大��以及往��盘上写索引文�g的频率�?
1�Q�合�q�因子（mergeFactor�Q?
�q�个参数军_��了在 Lucene 的一个烦引块中可以存攑֤��文档以及把��盘上的索引块合�q�成一个大的烦引块的频率。比如，如果合�ƈ因子的值是 10�Q�那么当内存中的文档数达�?10 的时候所有的文档都必��d��到磁盘上的一个新的烦引块中。�ƈ且，如果��盘上的索引块的隔数辑ֈ� 10 的话�Q�这 10 个烦引块会被合�ƈ成一个新的烦引块。这个参数的默认值是 10�Q�如果需要烦引的文档数非常多的话�q�个值将是非�怸�合适的。对批处理的索引来讲�Q��ؓ�q�个参数赋一个比较大的��g��得到比较好的索引效果�?
2�Q�最��合�q�文档数
�q�个参数也会影响索引的性能。它军_��了内存中的文档数臛_��辑ֈ�多少才能��它们写回磁盘。这个参数的默认值是10�Q�如果你有��够的内存�Q�那么将�q�个值尽量设的比较大一些将会显著的提高索引性能�?
3�Q�最大合�q�文档数
�q�个参数军_��了一个烦引块中的最大的文档数。它的默认值是 Integer.MAX_VALUE�Q�将�q�个参数讄��为比较大的值可以提高烦引效率和��索速度�Q�由于该参数的默认值是整型的最大��|��所以我们一般不需要改动这个参数�?

int mergeFactor = 10;
int minMergeDocs = 10;
int maxMergeDocs = Integer.MAX_VALUE;
IndexWriter indexWriter = new IndexWriter(indexDir,luceneAnalyzer,true);
indexWriter.mergeFactor = mergeFactor;
indexWriter.minMergeDocs = minMergeDocs;
indexWriter.maxMergeDocs = maxMergeDocs;

下面我们来看一下这三个参数取不同的值对索引旉��的媄响，注意参数值的不同和烦引之间的关系。我们�ؓ�q�个实验准备�?10000 个测试文档。表 1 昄��了测试结果�?
�?/b>1�Q�测试结�?/b>

通过�?1�Q�你可以清楚地看��C��个参数对索引旉��的媄响。在实践中，你会�l�常的改变合�q�因子和最��合�q�文档数的值来提高索引性能。只要你有��够大的内存，你可以�ؓ合�ƈ因子和最��合�q�文档数�q�两个参数赋��量大的��g��提高索引效率�Q�另外我们一般无需更改最大合�q�文档数�q�个参数的��|��因�ؓ�pȝ��已经默认��它讄��成了最大�?/p>

hoojo 2012-09-05 12:21 发表评论

hoojo — Wed, 01 Aug 2012 02:23:00 GMT
     摘要: 开发环境： System�Q�Windows JavaSDK�Q?.6 IDE�Q�eclipse、MyEclipse 6.6 开发依赖库�Q? Jdk1.4+、mina-core-2.0.4.jar、slf4j-api-1.5.11.jar、slf4j-log4j12-1.5.11.jar Email�Q�hoojo_@126.com Blog�Q�http://blog.csdn.net/IBM_ho...  阅读全文

hoojo 2012-08-01 10:23 发表评论

�U�d��应用�Q�手机应用）开发IM聊天�E�序解决�Ҏ��

hoojo — Tue, 31 Jul 2012 07:16:00 GMT

�q�个解决�Ҏ��已经定制下来很久了，上一�D�|��间比较忙�Q�没有时间整�q�些东西。最�q�稍微好些，不怎么加班。所以抽�I��ȝ��下，同时也分享给大家�Q�也��是�l�大家一个借鉴吧！或许�q��ƈ不是最好的解决�Ҏ��Q�但只要能满��_��前需求的最好方案也��是最好的解决�Ҏ��Q�谁说不是呢�Q�O(∩_∩)O~

我们采用的方案如下：

先看�?/p>

上图的流�E�大致上是这��L��Q?

手机端向PC端发送聊天内�?
1、手机端�E�序通过Socket�q�接服务器端的ServerSocket
2、然后服务器端根据手机Mobile客户端发送过来统一规范的报文或聊天内容�Q�进行解�?
3、然后将解析的内容，再用smack框架转发到openfire服务�?
4、最后由openfire服务器向客户端（BS、CS、PhoneClient�Q�程序发送聊天信息。这里的客户端可以是pc上的��览器，pc上的桌面应用�Q�手机应用等
5、PC客户端BS�E�序�Q�用http bind方式监听�Q�的长连接监听到openfire服务器发送过来的数据�Q�直接在��面中显�C?/p>

同样�Q�PC客户端向手机端发送聊天内�?
1、PC客户端（BS�Q�可以直接用http bind�Q�xmpp 提供的http��h��的长�q�接方式�Q�直接向openfire服务器发送聊天数据；
2、然后openfire服务器接收到聊天内容的时候，�q�时候socket服务器中的smack框架中有一个聊天内容的监听�?
3、监听到PC端向openfire发送的内容后，会用socket的流向手机端发送我们定义好的报文或是聊天内�?
4、手机端的socket会不停的轮询�Q�可以模拟心跛_��长连接的方式�Q�，判断是否有消息到达，如果有则昄��

而普通的聊天�E�序的流�E�则是客��L��发送信息到openfire服务器，openfire服务器再��消息�{发给其他客户端。他们省��M��socket服务器这部分�Q�那我们��Z��么要加上socket服务器这部分呢？

我们�q�样做也是有自己的道理的�Q?
首先�Q�如果让手机端自己实现向openfire服务器发送程序的代码�Q�那工作量是相当大的。因为每个手机��^��C��用的语言都不同，每个�q�_��都需要实现向openfire服务器发送聊天信息的报文。这其实��是在做重复的工作，而且每个�q�_��实现向手机端发送报文信息的技术会让每个手机端的开发�h员都要学会一套和openfire交互的代码。这势必会重复工作、重复相同业务的代码。所以，把这些代码放在一个tcp/ip的socket中�{服务器进行统一发送，�q�也是有好处的�?
其次�Q�把所以发送消息在报文在socket服务器完成，可以对业务进行一个统一的处理、消息过滤�?/p>

~~手机端被否决的解��x��案，供参�?/font>~~

手机端用http长连接的方式�Q�这个是不行�?/p>
其一、手机的�U�d��|�络不稳定，长连接会�l�常断掉�Q�当然你可以自动�q�行重连

其二、长�q�接一直连接在服务器上�Q�占用服务器资源。当然你可以使用心蟩式长�q�接或是轮询方式

其三、手机端一直连接服务器会��用手机端用户的网�l�带宽流量（��量不是免费的，客户会怎么惻I��

其四、手机端一直连着服务器，�Ҏ��机的电量也有消耗（现在��决电量也是一个问题）

hoojo 2012-07-31 15:16 发表评论

EhCache 分布式缓�?�~�存集群

hoojo — Thu, 19 Jul 2012 08:33:00 GMT
     摘要: 开发环境： System�Q�Windows JavaEE Server�Q�tomcat5.0.2.8、tomcat6 JavaSDK�Q?jdk6+ IDE�Q�eclipse、MyEclipse 6.6 开发依赖库�Q? JDK6�?JavaEE5、ehcache-core-2.5.2.jar Email�Q�hoojo_@126.com Blog�Q�http://blog.csdn....  阅读全文

hoojo 2012-07-19 16:33 发表评论

hoojo — Thu, 12 Jul 2012 02:15:00 GMT
     摘要: Ehcache在很多项目中都出现过�Q�用法也比较��单。一般的加些配置��可以了�Q�而且Ehcache可以寚w��面、对象、数据进行缓存，同时支持集群/分布式缓存。如果整合Spring、Hibernate也非常的��单，Spring对Ehcache的支持也非常好。EHCache支持内存和磁盘的�~�存�Q�支持LRU、LFU和FIFO多种淘汰��法�Q�支持分布式的Cache�Q�可以作为Hibernate的缓存插件。同时它也能...  阅读全文

hoojo 2012-07-12 10:15 发表评论

NoSQL �?Morphia 操作 MongoDB

hoojo — Fri, 17 Feb 2012 02:34:00 GMT
     摘要: 上两��文�?http://www.cnblogs.com/hoojo/archive/2011/06/01/2066426.html http://www.cnblogs.com/hoojo/archive/2011/06/02/2068665.html 介绍��C��在MongoDB的控制台完成MongoDB的数据操作、以及通过Java MongoDB 的驱动完成在Java中对Mon...  阅读全文

hoojo 2012-02-17 10:34 发表评论

hoojo — Fri, 21 Oct 2011 08:41:00 GMT
     摘要: Solr 是一�U�可供企业��用的、基�?Lucene 的搜索服务器�Q�它支持层面搜烦、命中醒目显�C�和多种输出格式。在�q�篇文章中，��介�l?Solr �q�展�C�如何轻村֜��其表现优异的全文本搜烦功能加入�?Web 应用�E�序中�? 开发环境： System�Q�Windows WebBrowser�Q�IE6+、Firefox3+ JDK�Q?.6+ JavaEE Server�Q�tomcat5.0.2.8、tom...  阅读全文

hoojo 2011-10-21 16:41 发表评论

Oracle加入NoSQL阵营

hoojo — Fri, 21 Oct 2011 03:18:00 GMT
     摘要:   阅读全文

hoojo 2011-10-21 11:18 发表评论

�c?/b>	说明
Arrays	一个关于数�l�的排序�Ҏ��的静态类�Q�提供了优化的基于快排序的排序方法sort
BitVector	C/C++语言中位域的java实现品，但是加入了序列化能力
Constants	帔R��静态类�Q�定义了一些常�?/p>
PriorityQueue	一个优先队列的抽象�c�，用于后面实现各种具体的优先队列，提供常数旉��内的最��元素访问能力，内部实现机制是哈析表和堆排序��法

�c?/b>	说明
Document	是文档概�늚�一个实现类�Q�每个文档包含了一个域表（fieldList�Q�，�q�提供了一些实用的�Ҏ��Q�比如多�U�添加域的方法、返回域表的�q�代器的�Ҏ��
Field	是域概念的一个实现类�Q�每个域包含了一个域名和一个��\|��以及一些相关的属�?/p>
DateField	提供了一些辅助方法的静态类�Q�这些方法将java中Date和Time数据�c�d��和String�怺�转化

Lucene包结构功能表
包名	功能
org.apache.lucene.analysis	语言分析器，主要用于的切词，支持中文主要是扩展此�c?/p>
org.apache.lucene.document	索引存储时的文档�l�构��理�Q�类��g��关系型数据库的表�l�构
org.apache.lucene.index	索引��理�Q�包括烦引徏立、删除等
org.apache.lucene.queryParser	查询分析器，实现查询关键词间的运��，如与、或、非�{?/p>
org.apache.lucene.search	��索管理，�Ҏ��查询条�g�Q�检索得到结�?/p>
org.apache.lucene.store	数据存储��理�Q�主要包括一些底层的I/O操作
org.apache.lucene.util	一些公用类

接口�?/p>	备注
add(Field field)	��d��一个字�D�（Field�Q�到Document�?/p>
String get(String name)	从文档中获得一个字�D�对应的文本
Field getField(String name)	由字�D�名获得字段�?/p>
Field[] getFields(String name)	由字�D�名获得字段值的�?/p>

接口�?/p>	备注
addDocument(Document doc)	索引��d��一个文�?/p>
addIndexes(Directory[] dirs)	��目录中已存在烦引添加到�q�个索引
addIndexes(IndexReader[] readers)	��提供的索引��d��到这个烦�?/p>
optimize()	合�ƈ索引�q�优�?/p>
close()	关闭

久久久久亚洲精品中文字幕,亚洲一区二区精品视频,伊人久久综在合线亚洲91

软�g设计之UML—UML的构成[上]

软�g设计之UML—UML中的六大关系

一、UML中的六大关系

ActiveMQ ��x��通讯服务 ���析

ant 入门使用指南

跟我一步一步开发自��q��Openfire插�g

Lucene 基础理论

1. 全文���索系�l�与Lucene����?/h3>

1.2 什么是Lucene

1.3 Lucene的应用、特点及优势

2. Lucene�pȝ���l�构分析

2.1 �pȝ���l�构�l�织

2.4 Lucene索引文�g格式

2.6 存储抽象

3. Lucene索引构徏逻辑模块分析

�U�d��应用�Q�手机应用）开发IM聊天�E�序解决�Ҏ��

EhCache 分布式缓�?�~�存集群

NoSQL �?Morphia 操作 MongoDB

Oracle加入NoSQL阵营

ActiveMQ ��x��通讯服务 ��析

1. 全文��索系�l�与Lucene��?/h3>

2. Lucene�pȝ��l�构分析

2.1 �pȝ��l�构�l�织