亚洲av无码乱码在线观看野外,国产日韩成人亚洲丁香婷婷,亚洲精品无码久久久久秋霞

Hadoop完整分布式配�|�方�?Fully distributed mode)

一酌散千忧 — Tue, 03 Jul 2012 23:38:00 GMT

��g资源�Q?/span>

三台CentOS5.6虚拟机（Vmware�Q?/span>

本机 windows7 64x

基本资源配置�Q?/span>

三台虚拟机均是克隆自同一个镜�?/span>

已经安装�?/span>Java环境�Q?/span>jdk1.6.0_25�Q?/span>

Hadoop路径�?/span>/usr/hadoop/hadoop-0.20.205.0

操作步骤�Q?/span>

1、机器名�U�规�?/span>

ip分别�?/span>128�?/span>129�?/span>130�Q�将128讄��?/span>master�Q�其他设�|��ؓslave

修改

/etc/sysconfig/network

/etc/hosts

两处配置�Q�名�U�分别�ؓhadoop-master\hadoop-slave01\hadoop-slave02

注意�Q�此处名�U�最好不用��用下划线�Q�有可能引发namenode的启动异常�?/span>

2、修�?/span>Hadoop配置

�?/span>master节点�?/span>conf中修�?/span>master�?/span>slave文�g�Q�分别�ؓ机器�?/span>ip地址

修改master节点�?/span>conf中：

core-site.xml

fs.default.name

hdfs://ip-master:9000

mapred-site.xml

mapred.job.tracker

master:9001

hdfs-site.xm

dfs.replication

注意此处的端口号均�ؓ默认�?/span>

3、徏�?/span>m-s之间�?/span>ssh�q�接

首先master�?/span>slave机器都需要进�?/span>ssh信�Q文�g生成�Q�执行如下命令：

$ ssh-keygen -t rsa

中间需要输入的地方直接回�R�Q�接受缺省值即�?/span>

�׃��使用root用户��d��Q�所以密钥文件生成在 /root/.ssh/文�g夹下�Q�存有一对密�?/span>id_dsa�?/span>id_dsa.pub�?/span>

此处id_dsa�Q�私钥）必须为其他用户不可读�Q�所以文件属性应当是600

�?/span>master机器执行�Q?/span>

��?/span>id_dsa.pub�Q�公钥）复制�?/span> authorized_keys

$ cp id_dsa.pub authorized_keys

如果是多台机器需�?/span>,无密码登�?/span>,则各自机器��生公钥追加到authorized_keys卛_��.

使用scp协议覆盖slave端的密钥文�g夹，使得slave机器信�Q来自master的连�?/span>:

$ scp /root/.ssh/* ip-slave:/root/.ssh

4、启动服�?/span>

��?/span>$HADOOP_HOME/bin下的所有文件给与执行权限：

$ chmod 777 bin

master作�ؓnamenod需要执行如下脚本：

$HADOOP_HOME/bin/hadoop namenode –format

完成后执�?/span> $HADOOP_HOME/bin/start-all.sh

5、问题检�?/span>

�?/span>Hadoop根目录下�?/span>logs文�g中，��查各个服务日志的启动情况

6、其他情况说明：

Q: $HADOOP_HOME is deprecated

A: 基本不会产生��M��影响。由于脚本启动时讄��了该环境变量�Q�就会提�C�用户原有环境变量失效。可以取消环境变量设�|�，或者直接去bin/hadoop中找到这句话�Q�去掉即�?/span>

Q: 无效的选项 -jvm / Unrecognized option: -jvm

A: 在��?/span>root用户��d��?/span> bin/hadoop 脚本��׃��q�行判断�Q�加�?/span>-jvm参数。此处是��Z��q�入jsvc�Q?/span>http://commons.apache.org/daemon/jsvc.html�Q�，此处�q�不��定是否bug�Q�也不再�q�行详细的追溯，解决�Ҏ��是�q�入 bin/hadoop 脚本�?/span> 扑ֈ� jvm 参数�q�去掉�?/span>

一酌散千忧 2012-07-04 07:38 发表评论

一酌散千忧 — Mon, 21 May 2012 21:02:00 GMT

公司里有同事时常抱怨，��目的用户体验太差，常常挨领导的骂。大安��认�ؓ是在用户体验的设计方面，公司人员的能力和�l�验都不��_��L��。发牢骚的时候也会说�Q�如果公司能够请得�v“淘宝”�?/span>UI设计师，�׃��的系�l�肯定会更上一层楼。我之前也一直认为如此，��x��们的设计是媄响项目体验的重要原因。最�q�被领导调动��d��助一个项目，产生了一些不一��L��体会�?/span>

��目背景�Q�一个新的��品，��型��目�Q�纯开发�h�?/span>3-4人，2名熟�l�开发�h员，1名新手，偶尔会有协助人员。没有技术经理，��目�l�理�w�负多个��目�Q�对��目�q�度兛_��不��Q�部门经理会协助�q�行工作和进度管理。可以看到管理还是比较�؜乱�?/span>

�׃��目�q�度太慢�Q�领��D��求从我这边调一个熟�l��h员协助开发。我也基本了解他们的��目状况�Q��ؓ了不让我的�h�q�去抓瞎�Q�我��和他一起去了解��目情况�?/span>

��目状况比较�p�糕�Q�介入项目时已经开发了一�D�|��_��保留的文档只有两份，一副数据库说明�Q�一份非常粗略的需求说明，而且�q�与开发进度不同步�Q�就是没有维护�?/span>

我了解了一下项目目前的隑ֺ��Q�开发�h员和我反映一个是人员熟练�E�度的问题，二是需求变更的问题。我整体了解了一下项目目前的需求和设计�Q�以及进度。就挑了一个模块询问他们的变更情况�Q�这个模块是一个关键词匚w��功能。结果是领导看了他们的页面之后，嫌信息量太少�Q�就要求提供一些更�l�化的数据展�C�。开发�h员问我有什么意见，我就��单讲了一下页面大概怎么构徏。其中有一个点�Q�是用于变更数据范围�Q�即查询的表变更�Q�我一开始觉得��用下拉框��可以，产生了一些意见。有人徏议分��Z��同子模块�Q�或�?/span>tab��，或者分为多块�ƈ列展�C�。我想了惻I��q��他们讲了我认为几�U�方案的优点�~�点及适用范围�?/span>

1. 多块�q�行展示�Q?/span>

多个不同范围的数据在同一��面中分��Z��同区域以相同形式展示。原因是�׃��多块数据之间有一定的兌��因果关系�Q�或值得�Ҏ��。适用范围�Q�如购物�|�站中的多个物品比较�?/span>

2. Tab��：

同一个页面的多个tab��，表示多个tab��中的数据可能在一定的领域概念之下有一定的兌��Q�但兌��度不强。因�?/span>tab��|��重要的是��一个同步工作的状态，�?/span>A tab��|��看一定信息，会打开B tab��|��看其他信息，中途还会切�?/span>A tab��c��适用范围�Q�如邮箱中，收�g��和草稿��?/span>

3. 下拉�?/span>

下拉框作为查询条件的一部分�Q�常用于有着常规或固定的可选择内容中（如性别�Q�月份）�Q�更多是以过滤的形态出玎ͼ�即下拉框更适合针对某表的某个字�D�过滤，如果针对的是数据范围或是对用户需要直观了解的重要业务条�g则不太合适。适用范围�Q�如在考试成�W中��用下拉框�q��o“男女”�?#8220;及格不及�?#8221;�?/span>

4. 单选框

单选框与下拉框的作用范围相��|��但是不同之处在于��被选项全部展示�Q�目的在于能够让用户清楚的了解当前数据显�C�的实际范围或条�Ӟ��以及备选的其他范围或条件。更适用于选项与实际业务及当前展示数据关系重要�Q�不同选项可能会引发用��L��不同行�ؓ。适用范围�Q�如银行�pȝ��昄��了当前用户下�l�定多个帐号�Ӟ��使用单选框�?/span>

�l�过上述讨论�Q�我们仔�l�分析了�q�个模块中用��L��实际需求，以及可能后箋操作�Q�最�l�选择的单选框的方案�?/span>

目前�q�没有后�l�，但是我想我们��Z��用户真是需求的挖掘和后�l�操作的认真分析�Q�会让我们在与领��D��行需求讨论的时候有更加充分合理的依据�?/span>

回来之后我又看了看淘宝的搜烦��面�Q�比如就搜烦“鞋子”来讲�Q�将品牌�q�栏讄��为单选和下拉��是完全不同的效果，而确定方案的理由则是对于用户的需求和实际行�ؓ的深入研�I�。这个应该是需求分析和调研的结果。将搜烦条�g�?/span>tag的�Ş式标注于��面上，�q�且可以直接点击X按钮�q�行删除�Q�我觉得更加可以們֐�为用户体验。满��_ƈ充分考虑了用户实际需求的是好的需求分析，能够��化�ƈ引导用户行�ؓ的是好的用户体验�?/span>

当我们面临的�pȝ��感觉非常隄��的时候，往往�q�时候�ƈ非是用户体验差，我们应该��讨的是我们对用户需求有没有好好挖掘�Q�做出来的是不是用户惌��、用戯��用的�pȝ��?/span>

一酌散千忧 2012-05-22 05:02 发表评论

Zookeeper的学习�ȝ��

一酌散千忧 — Tue, 15 May 2012 03:02:00 GMT

Zookeeper的核心概念：

ZNode

Znode��是核心�l�构�Q�Zookeeper服务中是由大量的Znode构成。Znode一般是由客��L��建立和修改，作�ؓ信息或标志的载体�Q�甚��x��w�就是标志�?/span>

Znode可以讄��为持久（PERSISTENT�Q�或临时�Q�EPHEMERAL�Q�，区别在于临时的节点若断开�q�接后就自动删除。徏立节�Ҏ��可选择是否使用序列号命名（SEQUENTIAL�Q�，若启用则会自动在节点名后加入唯一序列�~�号�?/span>

Session

作�ؓ客户端和Zookeeper服务之间交互的凭证�?/span>

Watch

当客��L��对节点信息进行查询操作之后，可以选择是否讄��一个Watch。其作用��是当本�ơ查询的数据在服务器端发生变化之后，会对讄��Watch的客��L��发送通知。一�ơ发送之后，��将删除该Watch�Q�以后的变更或不再设�|�Watch则不会通知�?/span>

ACLs

节点的权限限制��用ACL�Q�如增删�Ҏ��操作�?/span>

Zookeeper的服务器安装�Q?/span>

1�?/span>下蝲对应版本��L��tar.gz文�g

2�?/span>使用 tar xzvf zookeeper-3.4.2.tar.gz -C ./ 解压

3�?/span>讄��Q�将conf/zoo.example.cfg复制到conf/zoo.cfg或者手动徏立一个新的�?/span>

4�?/span>启动Zookeeper服务�Q�bin/zkServer.sh start

5�?/span>启动客户端连接：bin/zkCli.sh -server 127.0.0.1:2181�Q�此处在本机�Q�且使用了默认端口，且在Java环境中）

6�?/span>使用命��o�Q�ls、get、set�{��?/span>

7�?/span>关闭Zookeeper服务�Q�bin/zkServer.sh stop

Zookeeper代码�~�写�Q?/span>

代码�~�写部分比较��单，因�ؓ暴露的接口很��，主要复杂在于��目如何使用节点以及节点信息�?/span>

启动Zookeeper服务之后�Q�客��L��代码�q�行节点的增删，Watch的设�|�，内容的改查等�?/span>

此处��查看官方的《Programming with ZooKeeper - A basic tutorial》部分，当中举了两个例子来模拟分布式�pȝ��的应用�?/span>

代码基本没有问题�Q�唯一需要注意的��是�Q�若之间按照原版�q�行调试�Ӟ��有可能在调用

Stat s = zk.exists(root, false);

�q�句代码时会出现一个异常，当中包括“KeeperErrorCode = ConnectionLoss for”�?/span>

�q�个问题引�v的原因可以看一下代�?/span>

System.out.println("Starting ZK:");
                zk = new ZooKeeper(address, 3000, this);
                mutex = new Integer(-1);
                System.out.println("Finished starting ZK: " + zk);

最后一行有打印出Zookeeper目前的信息，若未修改的原代码�Q�此处的State应当是CONECTING。连接中的时候去验证是否存在节点会报错。解决的�Ҏ��也很��单，��是�{�到Zookeeper客户端以及完全连接上服务器，State为CONECTED之后再进行其他操作。给��Z��码示例：

// 使用了倒数计数�Q�只需要计��C��?/span>
private CountDownLatch connectedSignal = new CountDownLatch(1);
SyncPrimitive(String address) {
    if(zk == null){
        try {
            System.out.println("Starting ZK:");
            zk = new ZooKeeper(address, 3000, this);
            mutex = new Integer(-1);
            connectedSignal.await(); // �{�待�q�接完成
            System.out.println("Finished starting ZK: " + zk);
        } catch (IOException e) {
            System.out.println(e.toString());
            zk = null;
        } catch (InterruptedException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
    //else mutex = new Integer(-1);
}
synchronized public void process(WatchedEvent event) {
    // 此处讄��在Watch中会在状态变化后触发事�g
    if (event.getState() == KeeperState.SyncConnected) {
        connectedSignal.countDown();// 倒数-1
    }

        synchronized (mutex) {
            //System.out.println("Process: " + event.getType());
            mutex.notify();
        }
}

�q�样��可以正��运行代码了�?/span>

Zookeeper的应用场景及方式�Q?/span>

此处是�ؓ引用�Q�原地址为（http://rdc.taobao.com/team/jm/archives/1232 �Q?/span>

ZooKeeper是一个高可用的分布式数据��理与系�l�协调框架。基于对Paxos��法的实玎ͼ�使该框架保证了分布式环境中数据的��Z��致性，也正是基于这��L��Ҏ��，使得zookeeper能够应用于很多场景。网上对zk的��用场景也有不��介�l�，本文��结合作者��n边的��目例子�Q�系�l�的对zk的��用场景进行归�c�M��l��?nbsp;值得注意的是�Q�zk�q�不是生来就��些场景设计，都是后来众多开发者根据框架的�Ҏ��，摸烦出来的典型��用方法。因此，也非常欢�q�你分��n你在ZK使用上的奇技淫��y�?/span>

场景�c�d��	典型场景描述�Q�ZK�Ҏ��，使用�Ҏ��Q?/span>	应用中的具体使用
数据发布与订�?/span>	发布与订阅即所谓的配置��理�Q�顾名思义��是��数据发布到zk节点上，供订阅者动态获取数据，实现配置信息的集中式��理和动态更新。例如全局的配�\|�信息，地址列表�{�就非常适合使用�?/span>	1. 索引信息和集��中机器节点状态存攑֜�zk的一些指定节点，供各个客��L��订阅使用�?. �pȝ��日志�Q�经�q�处理后的）存储�Q�这些日志通常2-3天后被清除�?nbsp; 3. 应用中用到的一些配�\|�信息集中管理，在应用启动的时候主动来获取一�ơ，�q�且在节点上注册一个Watcher�Q�以后每�ơ配�\|�有更新�Q�实旉��知到应用，获取最新配�\|�信息�?/span> 4. 业务逻辑中需要用到的一些全局变量�Q�比如一些消息中间�g的消息队列通常有个offset�Q�这个offset存放在zk上，�q�样集群中每个发送者都能知道当前的发送进度�?/span> 5. �pȝ��中有些信息需要动态获取，�q�且�q�会存在人工手动��M��改这个信息。以前通常是暴露出接口�Q�例如JMX接口�Q�有了zk后，只要��这些信息存攑ֈ�zk节点上即可�?/span>
Name Service	�q�个主要是作为分布式命名服务�Q�通过调用zk的create node api�Q�能够很�Ҏ��创徏一个全局唯一的path�Q�这个path��可以作��Z��个名�U��?/span>
分布通知/协调	ZooKeeper中特有watcher注册与异步通知机制�Q�能够很好的实现分布式环境下不同�pȝ��之间的通知与协调，实现�Ҏ��据变更的实时处理。��用方法通常是不同系�l�都对ZK上同一个znode�q�行注册�Q�监听znode的变化（包括znode本��n内容及子节点的）�Q�其中一个系�l�update了znode�Q�那么另一个系�l�能够收到通知�Q��ƈ作出相应处理�?/span>	1. 另一�U�心��x��机�Ӟ��系�l�和被检��系�l�之间�ƈ不直接关联�v来，而是通过zk上某个节点关联，大大减少�pȝ��耦合�?. 另一�U�系�l�调度模式：某系�l�有控制台和推送系�l�两部分�l�成�Q�控制台的职责是控制推送系�l�进行相应的推送工作。管理�h员在控制��C��的一些操作，实际上是修改了ZK上某些节点的状态，而zk��把�q�些变化通知�l�他们注册Watcher的客��L��Q�即推送系�l�，于是�Q�作出相应的推送�Q务�?nbsp; 3. 另一�U�工作汇报模式：一些类��g��d��分发�pȝ��Q�子��d��启动后，到zk来注册一个��时节点，�q�且定时��自��q��q�度�q�行汇报�Q�将�q�度写回�q�个临时节点�Q�，�q�样��d��理者就能够实时知道��d��q�度�?/span> ��M��Q��用zookeeper来进行分布式通知和协调能够大大降低系�l�之间的耦合�?/span>
分布式锁	分布式锁�Q�这个主要得益于ZooKeeper为我们保证了数据的强一致性，即用户只要完全相信每时每刻，zk集群中�Q意节点（一个zk server�Q�上的相同znode的数据是一定是相同的。锁服务可以分�ؓ两类�Q?/span>一个是保持独占�Q�另一个是控制时序�?/span> 所谓保持独占，��是所有试图来获取�q�个锁的客户端，最�l�只有一个可以成功获得这把锁。通常的做法是把zk上的一个znode看作是一把锁�Q�通过create znode的方式来实现。所有客��L��都去创徏 /distribute_lock 节点�Q�最�l�成功创建的那个客户端也��x��有了�q�把锁�?/span> 控制时序�Q�就是所有视图来获取�q�个锁的客户端，最�l�都是会被安排执行，只是有个全局时序了。做法和上面基本�c�M��Q�只是这�?nbsp;/distribute_lock 已经预先存在�Q�客��L��在它下面创徏临时有序节点�Q�这个可以通过节点的属性控�Ӟ��CreateMode.EPHEMERAL_SEQUENTIAL来指定）。Zk的父节点�Q?distribute_lock�Q�维持一份sequence,保证子节点创建的时序性，从而也形成了每个客��L��的全局时序�?/span>
集群��理	1. 集群机器监控�Q�这通常用于那种寚w��中机器状态，机器在线率有较高要求的场景，能够快速对集群中机器变化作出响应。这��L��场景中，往往有一个监控系�l�，实时��集��机器是否存�z�R��过�ȝ��做法通常是：监控�pȝ��通过某种手段�Q�比如ping�Q�定时检��每个机器，或者每个机器自己定时向监控�pȝ��汇报“我还�zȝ��”�?nbsp;�q�种做法可行�Q�但是存在两个比较明昄��问题�Q?. 集群中机器有变动的时候，牵连修改的东西比较多�?. 有一定的延时�?nbsp; 利用ZooKeeper有两个特性，��可以实时另一�U�集��机器存�z�L��监控系�l�：a. 客户端在节点 x 上注册一个Watcher�Q�那么如�?nbsp;x 的子节点变化了，会通知该客��L��。b. 创徏EPHEMERAL�c�d��的节点，一旦客��L��和服务器的会话结束或�q�期�Q�那么该节点��׃��消失�?/span> 例如�Q�监控系�l�在 /clusterServers 节点上注册一个Watcher�Q�以后每动态加机器�Q�那么就往 /clusterServers 下创��Z��?nbsp;EPHEMERAL�c�d��的节点：/clusterServers/{hostname}. �q�样�Q�监控系�l�就能够实时知道机器的增减情况，至于后箋处理��是监控�pȝ��的业务了�?/span> 2. Master选�D则是zookeeper中最为经典的使用场景了�?/span> 在分布式环境中，相同的业务应用分布在不同的机器上�Q�有些业务逻辑�Q�例如一些耗时的计��，�\|�络I/O处理�Q�，往往只需要让整个集群中的某一台机器进行执行，其余机器可以�׃�n�q�个�l�果�Q�这样可以大大减��重复劳动，提高性能�Q�于是这个master选�D便是�q�种场景下的��到的主要问题�?/span> 利用ZooKeeper的强一致性，能够保证在分布式高�ƈ发情况下节点创徏的全局唯一性，卻I��同时有多个客��L��h��创徏 /currentMaster 节点�Q�最�l�一定只有一个客��L��h��能够创徏成功�?/span> 利用�q�个�Ҏ��，��p��很轻易的在分布式环境中进行集��选取了�?/span> 另外�Q�这�U�场景演化一下，��是动态Master选�D。这��p��用到 EPHEMERAL_SEQUENTIAL�c�d��节点的特性了�?/span> 上文中提刎ͼ�所有客��L��创徏��h��Q�最�l�只有一个能够创建成功。在�q�里�E�微变化下，��是允许所有请求都能够创徏成功�Q�但是得有个创徏��序�Q�于是所有的��h��最�l�在ZK上创建结果的一�U�可能情冉\|��q�样�Q?nbsp;/currentMaster/{sessionId}-1 , /currentMaster/{sessionId}-2 , /currentMaster/{sessionId}-3 ….. 每次选取序列��h��的那个机器作�ؓMaster�Q�如果这个机器挂了，�׃��他创建的节点会马上小�Ӟ��那么之后最��的那个机器��是Master了�?/span>	1. 在搜索系�l�中�Q�如果集��中每个机器都生成一份全量烦引，不仅耗时�Q�而且不能保证彼此之间索引数据一致。因此让集群中的Master来进行全量烦引的生成�Q�然后同步到集群中其它机器�?. 另外�Q�Master选�D的容灾措施是�Q�可以随时进行手动指定master�Q�就是说应用在zk在无法获取master信息�Ӟ��可以通过比如http方式�Q�向一个地方获取master�?/span>
分布式队�?/span>	队列斚w��Q�我目前感觉有两�U�，一�U�是常规的先�q�先出队列，另一�U�是要等到队列成员聚齐之后的才统一按序执行。对于第二种先进先出队列�Q�和分布式锁服务中的控制时序场景基本原理一��_��q�里不再赘述�?nbsp; �W�二�U�队列其实是在FIFO队列的基��上作了一个增强。通常可以�?nbsp;/queue �q�个znode下预先徏立一�?queue/num 节点�Q��ƈ且赋��gؓn�Q�或者直接给/queue赋值n�Q�，表示队列大小�Q�之后每�ơ有队列成员加入后，��判断下是否已经到达队列大小�Q�决定是否可以开始执行了。这�U�用法的典型场景是，分布式环境中�Q�一个大��d��Task A�Q�需要在很多子�Q务完成（或条件就�l�）情况下才能进行。这个时候，凡是其中一个子��d��完成�Q�就�l�）�Q�那么就�?nbsp;/taskList 下徏立自��q��临时时序节点�Q�CreateMode.EPHEMERAL_SEQUENTIAL�Q�，�?nbsp;/taskList 发现自己下面的子节点满��指定个数�Q�就可以�q�行下一步按序进行处理了�?/span>

一酌散千忧 2012-05-15 11:02 发表评论

一酌散千忧 — Wed, 09 May 2012 05:46:00 GMT

MongoDB介绍

当今NoSQL领域中有很多有力的竞争者通过多种方式来处理�v量数据问题。其中重要的解决�Ҏ��之一��是MongoDB。MongoDB是面向文档的��q��构化存储�Ҏ��Q��用JSON格式来展现、查询和修改数据�?/span>

MongoDB文档相当完备�Q�扩展规模与安装一��L��单。它提供冗余、切片、烦引以及map/reduce�{�概忉|��持。MongoDB的开源社区非常大且非常活跃。MongoDB在很多大型��品中被实际运用，如：Disney, Craigslist, Foursquare, Github 和SourceForge。MongoDB是一个开源项目，�?/span>10gen.com建立�q�维护，该公司由DoubleClick的前��L��行�h员创立。同�Ӟ��10gen也提供了极好的商业支持与参与��?/span>

MongoDB �?/span> NoSQL: �~�陷与优�?/span>

MongoDB作�ؓ一个可用NoSQL�Ҏ��h��很多优势。我刚开始接触NoSQL数据库了解了一�p�d��Z��Java的方案，�q�且�׃��大量的时间来弄懂什么是列家族，Hadoop与HBase的关�p�，ZooKeeper到底是什么。当我终于全部清楚之后，发现Cassandra与HBase��实是对于NoSQL领域非常可靠、可信赖的解��x��案。但与其他的解决�Ҏ��相比�Q�MongoDB让我在能够开始写代码之前�Q�不用理解那么多的概��c�?/span>

与其他��Y件相��|��MongoDB也存在缺陗��经�q�一�D�|��间��用MongoDB�Q�我列�D�l�历�q��ƈ需要注意的一些事情，我成�?#8220;Gotchas”�Q?/span>

不要按照关系型数据库来思考。这很明显，MongoDB使得构徏和执行复杂查询变得非常容易。当实际使用的时候，你会主要��x��于效率问题（像我一��P��?/span>
MongoDB的烦引是二进制的树。如果你不是很熟悉B-tree�Q�可能需要了解一下。这些都涉及到构建符合提供查询条仉��求的建立索引的方式�?/span>
��心的设计烦引结构。这涉及��C��面提到的B-tree。刚开始我的烦引包含文档中的很多字�D�，以防我会使用��C��们。不要犯同样的错误。我有一个很��集合的索引�Q�大�U?千万记录�Q�增长到��过17GB的空��_��比集合本�w�还大。你应该不会惌��索引一个包含成百上千个实体的列表字�D�c�?/span>
MongoDB采用了非常有意思的方式来实现NoSQL�Q�采用BSON作�ؓ存储�Q�JSON作�ؓ展示�Q�JavaScript用于��理和Map/Reduce。因此也引�v了一些小问题比如�q�个 �Q�破坏了Number和Long的相�{�操作）�Q�在MongoDB逐渐��行之后�Q�可能会不断的展�C�出来�?/span>

MongoDB, 命��o行与驱动

MongoDB基本是��用JavaScript客户端命令行�E�序来进行复杂�Q务管理的�Q�如数据整合和简单信息处理，�~�程都是完全使用JavaScript语言来的。本文中�Q�我们会展示命��o行的使用�C�Z��。现在有大量的MongoDB客户端��品提供，�q�且由MongoDB�C�֌�来支持驱动。通常每种�~�程语言都有驱动�Q��ƈ且所有流行的语言都有包括�Q�一些不那么��行的也包含在内。这��文章展�C�Z��使用MongoDB的Java驱动�Q��ƈ使用一个ORM库（MJORM�Q�与之进行比较�?/span>

介绍 MJORM: MongoDB�?/span>ORM�Ҏ��

在解决的众多有意思的问题中，最�q?span>NoSQL数据存储在开发者中主要的问题趋势就是对象关�p�L��。对象关�p�L��就是将传统中保存在关系型数据库中的持久化数据映��ؓ在应用程序中使用的对象。这使得�~�程语言使用��h��更加��畅和自然�?/span>

MongoDB面向文档的架构��得它非常适合对象关系映射�Q�因为文档本�w�就是以对象形式存储的。可惜没有太多的MongoDB的Java对象关系映射库，但是�q�是有一些，�?/span>morphia-(A type-safe Java library for MongoDB)�Q?span> spring-data(SpringData��目的MongoDB实现)

�q�些ORM库大量��用了注解�Q�因��Z��些原因对我不适合�Q�其中最重要的就是这些被注解的对象在多个��目中的兼容性问题。这让我开始了mongo-Java-orm 或�?"MJORM" (发音 me-yorm)��目�Q�一个MongoDB的Java对象关系映射��目。MJORM是在MIT许可之下�Q��ƈ且在发布在了google code project。项目采�?span>maven构徏�Q��ƈ且maven构�g仓库托管于google code版本控制服务器。MJORM的最新可用发布版本�ؓ0.15�Q�已�l�由一些项目��用与生��环境中�?/span>

开始��?/span>ORM

加入MJORM �?/span>

Maven的��用者首先应当在pom.xml中加入MJORM的maven仓库�Q��得MJORM构�g可用�?/span>

         mjorm-webdav-maven-repo

         mjorm maven repository

         http://mongo-Java-orm.googlecode.com/svn/maven/repo/

         default

然后加入依赖:

         com.googlecode

         mongo-Java-orm

         0.15

�q�样��可以在应用中引�?span>MJORM代码。假如没有��用maven�Q�则你需要手动下载MJORM的pom.xml中列丄��所有依赖�?/span>

建立 POJOs

依赖已经导入�Q�可以开始编码了。我们从POJO开�?

class Author {

         private String firstName;

         private String lastName;

         // ... setters and getters ...

class Book {

         private String id;

         private String isbn;

         private String title;

         private String description;

         private Author author;

         // ... setters and getters ...

我们在这个对象模型中的描�q�是�Q�作者有ID、姓和名�Q�书有ID、ISNB、标题、描�q�和作者�?/span>

你可能注意到书的id属性是一个字�W�串�Q�这是�ؓ了适应MongoDB的对象ID�c�d��。MongoDB的ID是一�?2字节的二�q�制值显�C�Zؓ一个十六进制的字符丌Ӏ�MongoDB要求集合中的每个文档都必��L��一个唯一id�Q�但不要求一定要是ObjectId。目前MJORM只支持ObjectId�Q��ƈ且显�C�Zؓ字符丌Ӏ?/span>

你也可能注意��C��Author没有id字段。这是因为Book是它的父文档�Q�因此不需要有id。记住，MongoDB只要求集合中的文档在根��别的id�?/span>

创徏XML映射文�g

下一个步骤就是徏�?span>XML映射文�g�Q�MJORM能够��MongoDB文档转换为对象。我们�ؓ每个文档创徏一个对象作为示范，无论��所有的映射攑֜�一个XML文�g中还是分开都是可以的�?/span>

Author.mjorm.xml:

Book.mjorm.xml:

�q�些映射文�g能够很好的自解释�?/span>descriptors 元素是根元素�Q�必��d��含在每个映射文�g中。在它下面是object元素定义了文档与之对应的�c�R�?/span>Object包含�?/span>property 元素主要用于描述POJO中的属性以及这些属性如何与MongoDB中的文档惛_��应�?/span>property 元素臛_��必须包含一�?/span>name 属性，�q�个元素��是POJO和MongoDB的文档中的属性名�U��?/span>column 属性则是可选的�Q�用于特定一个在MongoDB文档中的可选属性名�U��?/span>

property 元素当中�?span>id属性应该是对象的唯一识别。一个对象只能有一�?/span>property 元素包含id属性�?/span>auto 的设�|�会使得MJORM在持久化时�ؓ该属性自动生成一个倹{�?/span>

可以�?span>google code的MJORM��目主页中查看XML映射文�g的更多细节描�q��?/span>

整合POJO�?/span>XML

我们创徏了数据模型以及映��文�Ӟ��使得MJORM可以从MongoDB序列号以及反序列号POJO。我们可以进行一些有意思的事情了，首先打开MongoDB的链接：

Mongo mongo = new Mongo(

         new MongoURI("mongodb://localhost/mjormIsFun")); // 10gen driver

Mongo 对象是由10gen�~�写的Java驱动提供的。示例中�q�接了一个本地的MongoDB实例中的mjormIsFun数据库。接下来我们创徏MJORM ObjectMapper 。目�?/span>ObjectMapper 在MJORM中的唯一实现��是XmlDescriptorObjectMapper�Q��用XML�l�构描述信息。可能之后会增加�Ҏ��解或其他�l�构定义的支持�?/span>

XmlDescriptorObjectMapper objectMapper = new XmlDescriptorObjectMapper();

mapper.addXmlObjectDescriptor(new File("Book.mjorm.xml"));

mapper.addXmlObjectDescriptor(new File("Author.mjorm.xml"));

建立好了XmlDescriptorObjectMapper �q�且加入了映��文件。接下来建立由MJORM提供�?/span>MongoDao 对象的实例�?/span>

DB db = mongo.getDB("mjormIsFun"); // 10gen driver

MongoDao dao = new MongoDaoImpl(db, objectMapper);

首先我们要获�?span>10gen驱动提供的DB对象实例。然后��用DB�?/span>ObjectMapper 建立MongoDao 。我们准备开始持久化数据�Q�徏立一�?/span>Book 然后保存到MongoDB中�?/span>

Book book = new Book();

book.setIsbn("1594743061");

book.setTitle("MongoDB is fun");

book.setDescription("...");

book = dao.createObject("books", book);

System.out.println(book.getId()); // 4f96309f762dd76ece5a9595

首先建立Book 对象�q�且填��|��然后调用MongoDao �?/span> createObject �Ҏ��Q�将Book 对象传入"books" 的集合中。MJORM会按照之前的xml映射文�g��?/span>Book 转换�?/span>DBObject (�q�是10gen的Java驱动使用的基本类�?�Q��ƈ保存一个新的文档进"books" 集合。MJORM�q�回Book对象�Ӟ��id属性会被填充。请注意�Q�MongoDB默认是不需要在使用前徏立数据库或集合的�Q�系�l�会在需要时自动创徏�Q�这可能会造成某些困扰。在MongoDB的命令行中查看Book对象大概如下�Q?/span>

> db.books.find({_id:ObjectId("4f96309f762dd76ece5a9595")}).pretty()

         "_id":          ObjectId("4f96309f762dd76ece5a9595"),

         "isbn":         "1594743061",

         "title":        "MongoDB is fun",

         "description": "..."

我们来看看假如不�?span>MJORM而直接��?0gen的Java驱动�Q�如何��?/span>createObject �Ҏ��Q?/span>

Book book = new Book();

book.setIsbn("1594743061");

book.setTitle("MongoDB is fun");

book.setDescription("...");

DBObject bookObj = BasicDBObjectBuilder.start()

         .add("isbn",              book.getIsbn())

         .add("title",             book.getTitle())

         .add("description",       book.getDescription())

         .get();

// 'db' is our DB object from earlier

DBCollection col = db.getCollection("books");

col.insert(bookObj);

ObjectId id = ObjectId.class.cast(bookObj.get("_id"));

System.out.println(id.toStringMongod()); // 4f96309f762dd76ece5a9595

下面�q�行对象的查�?span>:

Book book = dao.readObject("books", "4f96309f762dd76ece5a9595", Book.class);

System.out.println(book.getTitle()); // "MongoDB is fun"

readObject �Ҏ��Ҏ��l�定文档的id从指定的集合中读取文档，转换为对象（再次使用映射文�g�Q��ƈ�q�回�?/span>

敏锐的读者会注意�?span>Book�q�没有指定Author�Q�仍然保存了。这归咎于MongoDB的结构不敏感的特性。我们不能要求集合中的文档包含所有属性（id属性是必须的）�Q�所有在MongoDB中没有Author的Book是可以的。我们现在�ؓBook��d��一个Author�q�且更新一下：

Author author = new Author();

author.setFirstName("Brian");

author.setLastName("Dilley");

book.setAuthor(author);

dao.updateObject("books", "4f96309f762dd76ece5a9595", book);

现在Book��包含了Author�Q��ƈ且在MongoDB中持久化了。现在在命��o行查看了Book�Q?/span>

> db.books.find({_id:ObjectId("4f96309f762dd76ece5a9595")}).pretty()

         "_id":          ObjectId("4f96309f762dd76ece5a9595"),

         "isbn":         "1594743061",

         "title":        "MongoDB is fun",

         "description": "..."

         "author": {

             "firstName": "Brian",

             "lastName": "Dilley"

可以看到持久化的Book中已�l�包含了author。不使用MJORM来操作一遍：

Author author = new Author();

author.setFirstName("Brian");

author.setLastName("Dilley");

book.setAuthor(author);

DBObject bookObj = BasicDBObjectBuilder.start()

         .add("isbn",              book.getIsbn())

         .add("title",             book.getTitle())

         .add("description",       book.getDescription())

         .push("author")

                 .add("firstName",         author.getFirstName())

                 .add("lastName",  author.getLastName())

                 .pop()

         .get();

DBCollection col = db.getCollection("books");

col.update(new BasicDBObject("_id", bookObj.get("_id")), bookObj);

对于MongoDao �Ҏ��的深入讨论已�l�超��Z��本文的范围。对于将MJORM有兴��用于实际项目中的用户强烈徏议了解一下MJORM��目提供的相��x��档，或�?/span>MongoDao 接口提供的相关用法�?/span>

�ȝ��

希望�q�篇文章�?span>MongoDB和MJORM的亮�Ҏ��所展示。MongDB是一个优�U�的呃NoSQL数据存储�Q�有着大量优秀的特性，会是NoSQL市场中长期竞争者。若你会在一个Java��目中��用MongoDB�Q�希望你也能够考虑使用MJORM作�ؓ你的ORM框架。十分欢�q�大家提交特性需求、错误异常报告、文档和源码修正�?/span>

作�?/span> Bio

Brian Dilley 是一个经验丰富的高��工程师以及项目领��|��?/span>Java/Java EE /Spring Framework/Linux内部�l�构理解和管理有着��过13�q�的�l�验�?/span>Brian对于创业公司有很多经验，推向市场�Q�构�?/span>/�l�护产品�{�。他�?/span>Iaas�?/span>cloud�?/span>PHP�?/span>Linux的专�Ӟ��熟悉产品的采购、安装及配置定义�Q�以及公司的软硬件架构包括负载均衡、数据库、微博等。可�?/span>follow Brian�?/span> Twitter �?/span>

一酌散千忧 2012-05-09 13:46 发表评论

数据集成的演化：从EII到Big Data

一酌散千忧 — Wed, 18 Apr 2012 23:15:00 GMT

“企业信息集成�Q?/span>EII�Q�：实用方式”�?/span>2005�q�发布，描述了一套集成不同数据源的方法论�Q�利用了当时的先�q�技术，如面向服务架构（SOA�Q��?/span>Web Services�?/span>XML、资源描�q�架构（RDF�Q�、基�?/span>XML的元数据格式以及数据提取、�{换和加蝲�Q?/span>ETL�Q��?/span>EII能够基本为关�p�d��数据元素提供�l�一视角�Q�但在性能效率上缺乏能够替代数据仓库和多维数据库的能力。五�q�之后技术已�l�得��C��显著提升�Q�不仅在于对于分散数据的操作�Q�还有简化了单一容器下不同数据的整合�Q�以及对数据深入挖掘的能力�?/span>

转变了数据管理方式的技术正是虚拟化。低成本存储、云计算�?/span>NoSQL数据库以�?/span>Hadoop。当我们提�v虚拟化时�Q�已�l�远�q�超��Zؓ一台物理机器提供一套��Y件实例这一概念。时至今日，我们可以虚拟化服务器、存储以及网�l�。所有这些虚拟化意味着我们不再被这些物理条件所限制�Q�能够迅速构建物理环境以支持我们特定时刻的特定需求。当面对Gb�?/span>Tb�?/span>Pb�{��数据量的处理需求时�Q�我们基本能摆脱�l�构化的数据仓库。我们不在需要仅仅�ؓ了发掘业务的某一斚w��而徏立一个特�D�的环境了�?/span>

低成本存储在业务的数据存储方面节省了开支。高昂的存储成本会��得企业寻扑֜�限定规模的数据之上进行关键业务分析的�Ҏ��Q�这样��得如何选择最重要的数据变得十分关键，而且�q�限制了�pȝ��能够处理的数据的质量�?/span>

负面影响便是业务最�l�可能面临很��的选择�Q�因为没有��够的历史数据提供从而识别一个有效关键模式。或者因为高昂的投入使得业务被停止，而��用常规惯例来识别模式�?/span>

云计��ؓ那些需要通过��量数据源在合理旉��范围内��生结果的需求提供了一个可用的方式。�v量数据处理需要两点：�Ҏ��存储，CPU。高速网�l�很有帮助，但是待会我们会看到在发掘软�g在处理�v量数据时�Q�它�q��是系�l�的瓉��。弹性存储意味着企业不会在期望操作的数据规模或类型上受到限制�Q�降低了使用数据仓库无法获取最佳结果的风险。更多的CPU使得�l�果能够在期望的旉��范围内更快的被交付�?/span>

NoSQL提供了�v量数据的支持�Q�但与传�l�的关系型数据库没有兌��。而且大部�?/span>NoSQL数据库是开源的�Q�无��L��付购买证书等费用�?/span>NoSQL对于表结构有着惊�h的灵�z�L��，无须随着�pȝ��的改�q�而不断修改完善定义�?/span>NoSQL可以支持不同数据源的合�ƈ查看�Q�从而成�?/span>EII之后另一个备选方案，�q�或许是NoSQL最重要的方面了�?/span>

NoSQL内置了数据冗余与分布式数据存储机制。�v量数据的最大问题之一��是��盘��d��Q?/span>NoSQL通过��数据分布至一�p�d��节点来缓解这个问题。当一个查询请求发出时�Q�这些节点能够�ƈ行查询自�w�节点，而不是仅仅依靠一块磁盘，一个磁盘阵列或一条网�l�连接等�Q�数据查询能够在节省了读写开支之后变得更加迅速�?/span>

最�l�，我们来讨�?/span>Hadoop�Q�集合了上述所有技术力量与一�w�的用于��和分析数据的框架。有些�h可能认�ؓHadoop是一��?/span>NoSQL技术，实际�?/span>Hadoop是一个分布组件的java框架�Q�用于分�?#8220;吃大�?#8221;�Q�此处也双关Hadoop是以创立者的儿子�l�自��q��一个大象玩兯��v的名字）的工�?#8212;—每次一口�?/span>

Hadoop自��n实际上与待处理数据是各自独立的。它��大型查询�Q务分解�ؓ��的�q�行查询��d��Q�然后收集结果，�q�整合出�{�案�q�回�l�用戗��?/span>Hadoop相对�?/span>NoSQL来说是一个�ƈ行查询框�Ӟ��通过云计��驱动节点，�q�行在低成本存储及虚拟化技术之上�?/span>

Kicking的知识回��?/span>

�?/span>EII�W�一�ơ作为最佛_��践出��C��2003-2004�q�_��关键要素��是无需再移动数据了。当时大部分的数据中心仍然运行于低速网�l�中�Q�有限的�I�间用于复制数据。之后，EII成�ؓ了当时可用技术和问题域中最优秀的解��x��案�?/span>EII的某些方面的优秀即��在�v量数据中也是很显著的�?/span>

EII的优点之一��是��处理过�E��{�U�d��数据所在地。�v量数据方案的关键架构要素之一��是��处理过�E��{�U�d��数据所在地�Q�而不是�{�U�L��据�?/span>EII中的一个重要原则就是��用数据归属地的查询功能。这��实践就是构建靠�q�数据源�|�络�?/span>Web Service�Q�能够徏立�v通用查询接口�Q�但只针�Ҏ��地数据库�q�行查询。我们通过开攄��Z��Web的接口解决了数据的专有格式的问题�Q�从而��得多个数据子集能够迅速的整合�q�以�l�一模式展示�?/span>

有了低成本存储和10G�|�络之后�Q�我们就不必那么担心数据冗余与数据迁�U�，但还是有其他问题存在的，数据仓库无法��保数据的原始性便是其中之一。在EII中，我们��从原始数据源获取数据视�?#8220;黄金准则”�Q�这样就能够保证信息未被修改�q�，且是准确的�?/span>

Big Data要求数据必须转移到新的物理位�|�，�q�样可信��d��又成��Z��问题�?/span>EII的那些获取基�U�数据的最佛_��践仍然是相关而且重要的。实际上�Q�那些�ؓEII设计开发的Web Services接口最�l�在Big Data的启用中扮演主要角色�?/span>

当然�Q�讨论数据管理不能不涉及到安全问题�?/span>EII在安全领域中�q�是��过�?/span>Big Data。技术上来说�Q?/span>Big Data在数据集成方面更加高效与敏捷�Q�但是大部分�~�少了固有的安全性，因�ؓ在设计上会加大处理的隑ֺ�。所以，可能要由源系�l�来担�Q��h��据访问安全方面的责�Q。因�?/span>EII直接在源�pȝ��中查询数据，所以必��要求有适当的授权，否则查询��将��p�|�?/span>

上述关于安全讨论描述的是内在的安全控制情��c��将讉K��权限控制列表集成�q�数据库是非常合理的�Q�这��确保安全能够作为查询的一部分�q�行�l�护。然后，一旦能够直接查�?/span>NoSQL数据源，��意味着能够自由的访问你所有的数据�?/span>

�ȝ��

引用老的Virginia Slims的广告中的台词：“我们已经历很长的路途了�Q�宝贝儿�Q?#8221;文中讨论到的技术的发展已经�?/span>21世纪�W�二�?/span>10�q�中的的数据解决�Ҏ��产生了巨大的影响。商业化与小型化扫除了一些思想体系上的障碍�Q��得架构师能够专注于问题本�w�，而不是寻找一些实用及可实现的问题解决�Ҏ��。构�?/span>10000个节点的处理引擎�Q�能够在数秒内处�?/span>Pb�U�别的数据量�Q�却只消耗每��时几便士，�q�就是数据处理的��好前景�?/span>

有了�q�些新工��P��我们��p��重新考虑如何推进数据��理。�ؓ何数据无法被很好地被�l�护整合�Q��ƈ且需要花�Ҏ��万美元。数据管理几乎是每个大中型企业的心病。数据管理曾�l�在存储、管理、访问、整合以及查询上��p��巨大�Q�但是今后不再会是这样了�?/span>

关于作�?/span>

JP Morgenthal 是在IT�{�略与云计算斚w��的世界��专家之一。他在企业复杂问题域的解��x��案实施上有着25�q�的�l�验�?/span>JP Morgenthal以其在技术方面的深度和广度，有利的支持他在企业问题域中的敏感度。他在集成、��Y件开发和云计��是一位让人尊敬的作者，同时也是InfoQ在引领云计算斚w��的编辑，�q�且参与�?#8220;云计��：评估风险”��目�?/span>

原文�?/span>接：http://www.infoq.com/articles/DataIntegrationFromEIItoBigData

一酌散千忧 2012-04-19 07:15 发表评论

一酌散千忧 — Fri, 06 Apr 2012 06:48:00 GMT

��目�l�理�Q?/span>Project manager�Q�是��目的支�׃��核心�Q�维基百�U�的定义�Q�项目经理是��目��理斚w��的专�Ӟ��负责��目的策划、执行和�l�束�Q�即整个生命周期�q�程。项目经理手中的“�q�将莫邪”便是软�g开发过�E�方法（software development process/software development life cycle (SDLC)�Q�，可能采取的有RUP�Q?/span>Rational Unified Process�Q�，敏捷�{��?/span>

其实软�g开发区分阶�D�已�l�广为大家接受，普遍的概念即需要区分�ؓ分析、设计、实施、测试、发布，�q�程中会产生若干产物�Q�如需求说明书、概要设计、详�l�设计等。若提及�q�程�Ҏ��Q�如RUP的话�Q�主要分为四大阶�D�，先启�Q?/span>Inception�Q�、精华（Elaboration�Q�、构建（Construction�Q�、交付（Transition�Q��P代的开发方式，�?/span>Scrum的核心概念则�?/span>Sprint�?/span>

Maven在项目管理中有那些帮助呢�Q?/span>Maven能够从一个信息中心�ؓ��目提供构徏�Q�报告，文档�~�制�{�工作。在Maven官方介绍�?/span>What is maven》中介绍�?/span>maven的项目目标（Objectives�Q�（http://maven.apache.org/what-is-maven.html�Q�，如下�Q?/span>

l ��化构��E?/span>

l 提供�l�一的构建系�l?/span>

l 提供��目质量信息

l 提供对于开发最佛_��늚�指导

l 允许对于新特性的透明整合

对于Maven影响最为深�ȝ��是它的构徏�pȝ��Q�几乎诏�I�了整个实施阶段。作为对比我们参考一�?/span>RUP�?/span>Construction阶段�Q�以�?/span>Scrum的单�?/span>Sprint�q�程�?/span>

RUP�?/span>Construction阶段的目标：

�q�个阶段的目标是澄清需求�ƈ��Z��架构基线完成开发�?/span>

l 通过优化资源来羃减开支，�q��免无意义的争执与�q�工�?/span>

l 实用性与质量兼具�?/span>

l ��快发布可用版本�?/span>

l 完成�Ҏ��有功能的分析、设计、开发、测试�?/span>

l 采用增量�q�代的模式完成开发�ƈ准备交付�?/span>

l ��查项目发布的所有资源是否已�l�准备完全�?/span>

l 形成��目�l�之间的�q�行开发�?/span>

在《硝烟中�?/span>Scrum�?/span>XP》一书中�Q�介�l�了作者实�?/span>Scrum的过�E�。在一�?/span>Sprint中，不是只有Sprint backlog�?/span>burn down chat�{�，实施�q�程中的敏捷思想也是其中的核心，我们来看看敏捷信奉的一部分最佛_��践：

l ��单设计（Simple Design�Q?/span>

l �l�对�~�程�Q?/span>Pair Programming�Q?/span>

l ��试驱动�Q?/span>Test-Driven Development�Q?/span>

l ��规模发布（Small Releases�Q?/span>

l 持箋集成�Q?/span>Continuous Integration�Q?/span>

l 集体拥有代码�Q?/span>Collective Code Ownership�Q?/span>

l �~�码标准�Q?/span>Coding Standard�Q?/span>

Maven对于上述目标中的质量�Q�实用性与质量�Q�以��试驱动�Q�、可用（可用版本�Q�小规模�Q�、资源管理等均能发挥较大的作用。主要是其定义了一套完整优�U�的构建生命周期机�Ӟ��其基本阶�D�如下：

l validate – 验证��目正确性及依赖有效�?/span>

l compile – �~�译��目源码

l test – 使用合适的单元��试框架对编译后的源码进行测试，��试代码不会被打包或发布

l package –��编译后的代码以规定格式打包�Q�如Jar

l integration-test – ��打包后的代码放�|�于环境中进行集成测�?/span>

l verify – ��查打包的有效性�ƈ验证质量标准

l install – ��包装蝲入本��C��库，以提供与其他��目的依�?/span>

l deploy – ��包发布臌��E�仓库中

其上每一个阶�D�实际都分�ؓ前中后三个阶�D�，用户可以定义在每一个阶�D�前后进行自定义的操作，打造自��q��构徏��程�Q�如在某个阶�D�|��行前制定�Ҏ��的配�|�文�Ӟ��完成后再改回默认�Q�。对于阶�D늚�实际使用方式�Q�如�Q?/span>validate可以��目所有依赖有效，test可以针对dao层进行单元测试，intergration-test可以对完整业务流�E�或服务层等�q�行集成��试�?/span>

在项目中实际使用的经验，对于标签的��用心得：

1. - 依赖标签�Q�最重要的标�{�，也是Maven的基��功能�?/span>

junit

4.8.1

test

2. - 资源仓库�Q�可以包含多个，常用的有Maven�Q?/span>Jboss�{�，如下是公司内建的Nexus资源库�?/span>

Suntang's Maven Repository

Suntang Nexus Repository

http://10.10.10.33:8081/nexus/content/groups/public

3. - 解释为情景模式可能较为合适。可以有多个�Q�在何种场景下会使用哪些属性、插件等。如下例子便是当�~�失某个文�g时激�z�R�?/span>

�Q�感觉写的不错的一��，http://blog.csdn.net/turkeyzhou/article/details/4894657�Q?/span>

target/generated-sources/axistools/wsdl2java/org/apache/maven

4. - 构徏�q�程。是�q�行整个��目��理的核心标�{�。重炚w��要掌握的知识��是生命周期�?/span>

�Q?/span>http://maven.apache.org/guides/introduction/introduction-to-the-lifecycle.html#Lifecycle_Reference�Q?/span>

下面的例子就是制定了打包时的资源路径�Q��ƈ且定义了最�l�打包的名称�?/span>

src/main/resources

**/*

src/main/assembly

**/*

4.< plugin > - 支持插�g。如单元��试自动化，之前提到�?/span>Ant的插件等。若有某些功能觉得不��手�Q�可以尝试官�|�找一下有没有合适的插�g�Q?/span>http://maven.apache.org/plugins/index.html�Q��?/span>

下面的例子就是在集成��试中，只运行后�~��?/span>TestSuitex.java的测试类

org.apache.maven.plugins

maven-surefire-plugin

2.4.3

junit:junit

once

default-test

integration-test

test

false

**/*TestSuitex.java

一酌散千忧 2012-04-06 14:48 发表评论

一酌散千忧 — Thu, 05 Apr 2012 03:26:00 GMT

环境背景�Q?/span>

我作为项目经理和技术架构管理�h员负责公�怸�条生产线。讨��Z��后，首席架构师希望我们能够实�?/span>TDD。在实施TDD的过�E�中�Q�设计实施过�E�的整体思�\��是�Q�单元测试用例文�?/span> - 实施单元��试 - 实施业务代码 – 修改业务代码逻辑。实施�h员需要参与每个环节，按照规范�~�写单元��试用例文档。单元测试我们按照模块（模块与�h员基本没有重合）划分包（suite�Q�，保证实施��h��不会产生�q�扰。。技术架构决定采用：maven�Q?/span>junit�Q?/span>svn�?/span>

技术背景：

技术架构设计上�Q�我们封装了dao层的实现�Q�所以实施�h员基本无需涉及dao层的开发。服务层我们采用�?/span>JAX-RS的服务规范，对外开发服务接口�?/span>

在测试覆盖率斚w��Q�我们基本不要求�?/span>dao层的单元��试�Q�但要求在服务层的单元测试达�?/span>100%。由于服务层�?/span>Restful WS的模式，所以我们采用了模拟HTTP��h��的方式在��试服务层�?/span>

�׃��需要模�?/span>HTTP的请求，所以我们在单元��试中采用了jetty作�ؓ内嵌服务器，单元��试开始时同一启动�Q�完成后关闭�?/span>

实施�q�程�Q?/span>

开发过�E�中�Q�实际实施的时候发��C��个问题，对于��试数据的管理问题。即��试当中需要一定的数据环境来验证业务逻辑。这个数据环境如何徏立？

�Ҏ��一�Q��?/span>dbunit�?/span>hsqldb。在��试启动旉��建数据环境�?/span>

否决�Q�原因：

1.与实际运行环境差异较大�?/span>

2.反复重徏数据环境�Q�效率上有缺失�?/span>

3.技术架构增加，学习和维护曲�U�较大�?/span>

讨论后决定��?/span>

�Ҏ��二，独立��Z��套测试数据库�Q�完整数据环境。考虑到增删改与查询的冲突�Q�制定默认规则，�?/span>id�?/span>20之内的不允许�q�行��M��改动。以��量隔离增删改的影响�?/span>

针对�Ҏ��二，有一个较大的问题�Q�如何在开发过�E�中自由的切换数据库配置呢？�׃��我们�q�是用了Hudson作�ؓCI服务器，�q�要考虑到打包的�q�程。整体考虑之后�Q�有两个步骤需要注意：

一�?span style="font-family:宋体;Times New Roman";Times New Roman"">开发过�E�。开发过�E�中�Q�我们将配置直接指向��试数据库�?/span>

二�?span style="font-family:宋体;Times New Roman";Times New Roman"">打包�q�程。��用了maven�Q�存在单元测试配�|�与最�l��品配�|�的冲突�?/span>

所以最�l�问题的焦点集中在打包过�E�的maven配置�Ҏ��?/span>

搜烦之后比较好的资料�?/span>

MAVEN:如何为开发和生��环境建立不同的配�|�文�?/span> --我的��z�方�?/span>

�Q?/span>http://www.tkk7.com/scud/archive/2010/10/27/336326.html�Q?/span>

�q�篇博客是介�l�在maven 中��?/span>mvn package -P test �q�样的自定义profile来实现的。这��h��可行的，但是�?/span>Hudson中无法实��C��条命令切换两套配�|��?/span>

于是�l�箋��L��Q�最�l�在maven的官方网站找到�?/span>Building For Different Environments with Maven 2》（http://maven.apache.org/guides/mini/guide-building-for-different-environments.html�Q�看完文章之后发玎ͼ�实际maven提供了一个非常好的插�?/span>maven-antrun-plugin�Q�以实现某些ant的功能。此处还需要了解的知识��是maven的构建生命周期标准（http://maven.apache.org/guides/introduction/introduction-to-the-lifecycle.html�Q�。基于上�q�C��个知识点�Q�我们制定出如下�Ҏ��Q?strong>在项目中建立��试配置目录及��品配�|�目录，�?/strong>maven�?/span>package阶段开始前�Q�都使用��试配置�Q�运行集成测试，完成�?/span>package阶段前将产品配置覆盖��x��包文件夹内，然后�q�行打包。思�\��是�q�样�Q�下面脓�?/span>pom文�g的关键部分�?/span>

POM.xml

节点定义覆盖文�g的方式内�?/span> -->

product

maven-antrun-plugin

pre_product

prepare-package

run

此处�?/span>ant的�Q务相�?/span> -->

构徏�q�程 -->

指定资源目录 -->

src/test/resources

**/*

src/test/assembly

**/*

指定集成��试配置 -->

org.apache.maven.plugins

maven-surefire-plugin

2.4.3

junit:junit

once

default-test

integration-test

test

false

**/*TestSuitex.java

一酌散千忧 2012-04-05 11:26 发表评论

Nosql企业之道

一酌散千忧 — Wed, 04 Apr 2012 13:41:00 GMT

摘要: Nosql企业之道 http://www.infoq.com/articles/nosql-in-the-enterprise 介绍作�ؓ一个企业架构师的好处，��是我一直在找一些新的有希望的概忉|��x��Q�能够帮助我的企业用户处理不同垂直行业之间的问题。甚臛_��NoSQL�q�个词被杜撰�Q�错误的杜撰�Q�此处作者认为NoSQL�q�个词�ƈ不恰当，后面会提刎ͼ�出来之前�Q�因��Z��q�的原因我曾持箋... 阅读全文

一酌散千忧 2012-04-04 21:41 发表评论

Hadoop in action 实践(伪分布式)

一酌散千忧 — Sun, 01 Apr 2012 07:00:00 GMT

《Hadoop in action�?span style="font-family: 宋体; ">�?/span>Manning出版�Q�磕��绊�l��ȝ��是看完了。书的内容就不做介绍�Q�主要讲一下实�늚��q�程。�ƈ且在实践�q�程中参考的书籍的部分也会简单介�l��?br />
灰色背景部分��Z��些介�l�，或过�E�中出现问题的描�q�ͼ�可以直接忽略�?/span>

�׃��公司的业务需要，要在�|�络攉��|�页之后对网��进行结构化的解析，�q�个�l�构化过�E�希望能够基�?/span>HDFS�q�且使用MR��法实现�?/span>

我虚拟了一个需求，针对http://hadoop.apache.org/common/releases.html ��面�Q�假讑ַ��l�下载了��面�q�入库。要求最�l�体现的数据�?/span> “版本�?/span>+完整链接�Q�即a标签全部内容�Q?#8221; 的结构�?/span>

伪分布式环境搭徏在虚拟机上，操作�pȝ��?/span>centos5.5�Q?/span>hadoop的版本是1.0.0.

插入书中的一些环境搭建的介绍
书中�?/span>2.1节中介绍了每个进�E�的作用�?/span>2.2节中�?/span>ssh讄��也比较重要，否则好像会一直提�C�Z��输入密码�?/span>2.3.2节介�l�了伪分布式的配�|�方式，�?/span>core-site.xml�Q?/span>mapred-site.xml�Q?/span>hdfs-site.xml�q�行配置之后�Q�需要对namenode节点�q�行格式化�?/span>
bin/hadoop namenode –format

hadoop的根目录�?/span>/usr/local/hadoop-1.0.0�Q�直接启�?/span>start-all.sh

[root@localhost hadoop-1.0.0]# ./bin/start-all.sh

启动成功后��?/span>jps命��o

jdk��工�?/span>jps介绍
jps(Java Virtual Machine Process Status Tool)�?/span>JDK 1.5提供的一个显�C�当前所�?/span>java�q�程pid的命令，��单实用，非常适合�?/span>linux/unix�q�_��上简单察看当�?/span>java�q�程的一些简单情��c�?/span> jps存放�?/span>JAVA_HOME/bin/jps

[root@localhost hadoop-1.0.0]# jps

5694 SecondaryNameNode

5461 NameNode

5578 DataNode

6027 Jps

5784 JobTracker

5905 TaskTracker

�q�几个进�E�是非常重要的。很多时候出现意外就是因为某��Ҏ��务未启动或异常。可以看��C��面的命��o上打印出日志位置。出现异常后可以在日志中查看详细的堆栈信息�?/span>

��x��Q?/span>hadoop已经启动�Q�环境已�l�准备就�l��?/span>

下面准备我们的测试数据，��目标页面的html保存�?/span>news.txt�Q�伪分布式也同样支持hdfs�Q�所以我们��?/span> fs –put ��?/span>news.txt存入hdfs中�?/span>

[root@localhost hadoop-1.0.0]# ./bin/hadoop fs -put /mnt/hgfs/shared/news.txt /user/root

[root@localhost hadoop-1.0.0]# ./bin/hadoop fs -lsr /userdrwxr-xr-x - root supergroup 0 2012-04-01 11:22 /user/root

-rw-r--r-- 1 root supergroup 3935 2012-04-01 11:22 /user/root/news.txt

实现的代码在eclipse中��?/span>maven打包�Q�上传至虚拟机�?/span>

文�g�?/span>com.suntang.analyse.hadoop-0.0.1.jar�?br />使用hadoop的中的jar命��o调用该jar文�g�?br />

[root@localhost hadoop-1.0.0]# ./bin/hadoop jar com.suntang.analyse.hadoop-0.0.1.jar com.suntang.analyse.hadoop.AnalyseJob /user/root/news.txt output_root_test

12/04/01 14:40:04 INFO input.FileInputFormat: Total input paths to process : 1

12/04/01 14:40:05 INFO mapred.JobClient: Running job: job_201204011420_0001

12/04/01 14:40:06 INFO mapred.JobClient: map 0% reduce 0%

12/04/01 14:40:19 INFO mapred.JobClient: map 100% reduce 0%

12/04/01 14:40:31 INFO mapred.JobClient: map 100% reduce 100%

12/04/01 14:40:37 INFO mapred.JobClient: Job complete: job_201204011420_0001

…

此处注意我犯的一个错误：
[root@localhost hadoop-1.0.0]# ./bin/hadoop jar com.suntang.analyse.hadoop-0.0.1.jar AnalyseJob -libjars hadoop-core-1.0.0.jar /user/root/news.txt output_root_test
Exception in thread "main" java.lang.ClassNotFoundException: AnalyseJob
提示找不到类�Q�因为我忘了写完整类名，命��o应该改�ؓ
./bin/hadoop jar com.suntang.analyse.hadoop-0.0.1.jar com.suntang.analyse.hadoop.AnalyseJob -libjars hadoop-core-1.0.0.jar /user/root/news.txt output_root_test 卛_��?/span>

此处�q�行可能出现另外一个错误。在命��o行中出现
12/04/01 14:01:38 INFO mapred.JobClient: Task Id : attempt_201204011356_0001_m_000001_0, Status : FAILED
java.lang.Throwable: Child Error
at org.apache.hadoop.mapred.TaskRunner.run(TaskRunner.java:271)
Caused by: java.io.IOException: Creation of symlink from /mnt/hgfs/shared/hadoop-1.0.0/libexec/../logs/userlogs/job_201204011356_0001/attempt_201204011356_0001_m_000001_0 to 。。�?/span>
��׃��打全了，重点在与
Creation of symlink�Q�看详细日志�?/span>hadoop-root-tasktracker-localhost.localdomain.log中提�C?/span>org.apache.hadoop.fs.FileUtil: Command 'ln -s ....': Operation not supported�Q�即ln操作不支持�?/span>google可知�q�个是由�?/span>vm中的�׃�n区域的问题，解决�Ҏ��是��?/span>hadoop完全转移�?/span>linux目录中。本例中�?/span>/mnt/hgfs/shared/hadoop-1.0.0转移�?/span>/usr/local/hadoop-1.0.0�?/span>

执行完成后可�?/span>hdfs中查看结果，查看目录�l�构�?/span>

-rw-r--r-- 1 root supergroup 0 2012-04-01 14:40 /user/root/output_root_test/_SUCCESS

drwxr-xr-x - root supergroup 0 2012-04-01 14:40 /user/root/output_root_test/_logs

drwxr-xr-x - root supergroup 0 2012-04-01 14:40 /user/root/output_root_test/_logs/history

-rw-r--r-- 1 root supergroup 13634 2012-04-01 14:40 /user/root/output_root_test/_logs/history/job_201204011420_0001_1333262405103_root_ccAnalyseJob

-rw-r--r-- 1 root supergroup 20478 2012-04-01 14:40 /user/root/output_root_test/_logs/history/job_201204011420_0001_conf.xml

-rw-r--r-- 1 root supergroup 3580 2012-04-01 14:40 /user/root/output_root_test/part-r-00000

/user/root/output_root_test/part-r-00000即�ؓ最�l�结果文件�?/span>

=======================================================================

附加AnalyseJob代码

package com.suntang.analyse.hadoop;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;

import org.apache.hadoop.conf.Configured;

import org.apache.hadoop.fs.Path;

import org.apache.hadoop.io.LongWritable;

import org.apache.hadoop.io.Text;

import org.apache.hadoop.mapreduce.Job;

import org.apache.hadoop.mapreduce.Mapper;

import org.apache.hadoop.mapreduce.Reducer;

import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;

import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;

import org.apache.hadoop.util.Tool;

import org.apache.hadoop.util.ToolRunner;

public class AnalyseJob extends Configured implements Tool {

public static class MapClass extends Mapper {

@Override

protected void map(LongWritable key, Text value, Context context)

throws IOException, InterruptedException {

// TODO Auto-generated method stub

// super.map(key, value, context);

if (value.toString().matches("]*>.*?release.*?"))

context.write(

new Text(value.toString().substring(

value.toString().indexOf("release") + 8,

value.toString().indexOf("available") - 1)),

value);

}

public static class ReduceClass extends Reducer {

@Override

protected void reduce(Text arg0, Iterable arg1, Context arg2)

throws IOException, InterruptedException {

// TODO Auto-generated method stub

// super.reduce(arg0, arg1, arg2);

arg2.write(arg0, arg1.iterator().next());

}

public int run(String[] args) throws Exception {

Configuration conf = getConf();

Job job = new Job(conf, "myAnalyseJob");

job.setJarByClass(getClass());

Path in = new Path(args[0]);

Path out = new Path(args[1]);

FileInputFormat.setInputPaths(job, in);

FileOutputFormat.setOutputPath(job, out);

job.setMapperClass(MapClass.class);

job.setReducerClass(ReduceClass.class);

job.setInputFormatClass(TextInputFormat.class);

job.setOutputFormatClass(TextOutputFormat.class);

job.setOutputKeyClass(Text.class);

job.setOutputValueClass(Text.class);

System.exit(job.waitForCompletion(true) ? 0 : 1);

return 0;

}

public static void main(String[] args) throws Exception {

int res = ToolRunner.run(new Configuration(), new AnalyseJob(), args);

System.exit(res);

}

一酌散千忧 2012-04-01 15:00 发表评论

亚洲av无码乱码在线观看野外,国产日韩成人亚洲丁香婷婷,亚洲精品无码久久久久秋霞

Hadoop完整分布式配�|�方�?Fully distributed mode)

Zookeeper的学习�ȝ��

Zookeeper的核心概念：

Zookeeper的服务器安装�Q?/span>

Zookeeper代码�~�写�Q?/span>

Zookeeper的应用场景及方式�Q?/span>

MongoDB介绍

MongoDB �?/span> NoSQL: �~�陷与优�?/span>

MongoDB, 命��o行与驱动

介绍 MJORM: MongoDB�?/span>ORM�Ҏ��

开始���?/span>ORM

加入MJORM �?/span>

建立 POJOs

创徏XML映射文�g

整合POJO�?/span>XML

�ȝ��

作�?/span> Bio

数据集成的演化：从EII到Big Data

Nosql企业之道

Hadoop in action 实践(伪分布式)

开始��?/span>ORM