亚洲欧美国产国产一区二区三区,亚洲女人被黑人巨大进入,亚洲日本一区二区三区

招聘 hadoop开发工�E�师

俞灵 — Sun, 15 Sep 2013 10:21:00 GMT

淘宝招聘hadoop工程师若�q? 面向在校�?2014�q�毕�?,工作地点:杭州或北�?/strong>

Hadoop研发工程�?br />职位描述
�(zh��n)�将负责�Q?br />1�Q�预研、开发、测试hdfs/mapreduce/hive/hbase的功能、性能和扩展；
2�Q�对有助于提升集��处理能�?高可用�?高扩展性的各种解决�Ҏ(gu��)��q�行跟踪和落圎ͼ�
3�Q�解��x�v量数据不断增镉K��临的挑战�Q�解决业务需求�?/span>

�(zh��n)�需要具备：(x��)
1、熟�l�运用java语言�Q?br />2、熟�(zh��n)�jvm�q�行机制、熟�(zh��n)�linux�Q?br />3、至��熟�(zh��n)�hadoop、hbase、hive�{��Y件之一�Q?br />

有意者请发送邮件到 yuling.sh@taobao.com

俞灵 2013-09-15 18:21 发表评论

俞灵 — Tue, 03 Jul 2012 14:17:00 GMT

mapreduce�?/span>,一�?/span>job�?/span>map个数, 每个map处理的数据量是如何决定的�?/span>? 另外每个map又是如何��d��输入文�g的内容呢? 用户是否可以自己军_��输入方式, 军_��map个数�?/span>? �q�篇文章��详�l�讲�q?/span>hadoop中各�U?/span>InputFormat的功能和如何�~�写自定义的InputFormat.

��?/span>: mapreduce作业�?x��)根据输入目录��生多�?/span>map��d��, 通过多个map��d��q�行执行来提高作业运行速度, 但如�?/span>map数量�q�少, �q�行量低, 作业执行�?/span>, 如果map数过�?/span>, 资源有限, 也会(x��)增加调度开销. 因此, �Ҏ(gu��)��输入产生合理�?/span>map�?/span>, 为每�?/span>map分配合适的数据�?/span>, 能有效的提升资源利用�?/span>, �q��作业�q�行速度加快.

    �?/span>mapreduce�?/span>, 每个作业都会(x��)通过 InputFormat来决�?/span>map数量. InputFormat是一个接�?span>, 提供两个�Ҏ(gu��)��:

InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;

RecordReader getRecordReader(InputSplit split,

                                     JobConf job,

                                     Reporter reporter) throws IOException;

    其中getSplits�Ҏ(gu��)��?x��)根据输入目录��?/span>InputSplit数组, 每个InputSplit�?x��)相应��生一�?/span>map��d��, map的输入定义在InputSplit�?/span>. getRecordReader�Ҏ(gu��)��q�回一�?/span>RecordReader对象, RecordReader军_��?/span>map��d��如何��d��输入数据, 例如一行一行的��d��q�是一个字节一个字节的��d��, �{�等.

    下图�?/span>InputFormat的实现类:

       (暂时无法上传)

    �q�理详细介绍FileInputFormat�?/span>CombineFileInputFormat, 其它不常�?/span>,有兴��的可以自己查看hadoop源码.

FileInputFormat(旧接�?/span>org.apache.hadoop.mapred)

mapreduce默认使用TextInputFormat�Q?/span>TextInputFormat没有实现自己�?/span>getSplits�Ҏ(gu��)��,�?/span>�l�承�?/span>FileInputFormat, 因此使用�?/span>FileInputFormat�?

org.apache.hadoop.mapred.FileInputFormat�?/span>getSplits��程:

两个配置

mapred.min.split.size        (一�?/span>map最��输入长�?/span>),

mapred.map.tasks                (推荐map数量)

如何军_��每个map输入长度�?/span>? 首先获取输入目录下所有文件的长度�?/span>, 除以mapred.map.tasks得到一个推荐长�?/span>goalSize, 然后通过式子: Math.max(minSize, Math.min(goalSize, blockSize))军_��map输入长度. �q�里�?/span>minSize�?/span>mapred.min.split.size, blockSize为相应文件的block长度. �q�式子能保证一�?/span>map的输入至��大�?/span>mapred.min.split.size, 对于推荐�?/span>map长度,只有它的长度��于blockSize且大�?/span>mapred.min.split.size才会(x��)有效�?/span>. �׃��mapred.min.split.size默认长度�?/span>1, 因此通常情况下只要小�?/span>blockSize��有效果,否则使用blockSize做�ؓ(f��)map输入长度.

因此, 如果惛_��?/span>map�?/span>, 可以�?/span>mapred.min.split.size调小(其实默认值即�?/span>), 另外�q�需要把mapred.map.tasks讄��?

如果需要减��?/span>map�?/span>,可以�?/span>mapred.min.split.size调大, 另外�?/span>mapred.map.tasks调小.

�q�里要特别指出的�?/span>FileInputFormat�?x��)让每个输入文�g臛_��产生一�?/span>map��d��, 因此如果你的输入目录下有许多文�g, 而每个文仉��很小, 例如几十kb, 那么每个文�g都��生一�?/span>map�?x��)增加调度开销. 作业变慢.

那么如何防止�q�种问题�?/span>? CombineFileInputFormat能有效的减少map数量.

FileInputFormat(新接�?/span>org.apache.hadoop.mapreduce.lib.input)

Hadoop 0.20开始定义了一套新�?/span>mapreduce�~�程接口, 使用新的FileInputFormat, 它与旧接口下�?/span>FileInputFormat主要区别在于, 它不再��?/span>mapred.map.tasks, 而��?/span>mapred.max.split.size参数代替goalSize, 通过Math.max(minSize, Math.min(maxSize, blockSize))军_��map输入长度, 一�?/span>map的输入要大于minSize,��于

Math.min(maxSize, blockSize).

    若需增加map�?/span>,可以�?/span>mapred.min.split.size调小,�?/span>mapred.max.split.size调大. 若需减少map�?/span>, 可以�?/span>mapred.min.split.size调大, �q�把mapred.max.split.size调小.

CombineFileInputFormat

��֐�思义, CombineFileInputFormat的作用是把许多文件合�q�作��Z��?/span>map的输�?/span>.

在它之前,可以使用~~MultiFileInputFormat~~,不过其功能太��?/span>, �?/span>以文件�ؓ(f��)单位�Q�一个文件至多分�l�一�?/span>map处理, 如果某个目录下有许多��文�?/span>, 另外�q�有一个超大文�?/span>, 处理大文件的map�?x��)严重偏�?/span>.

CombineFileInputFormat是一个被推荐使用�?/span>InputFormat. 它有三个配置:

mapred.min.split.size.per.node�Q?/span> 一个节点上split的至��的大小

mapred.min.split.size.per.rack   一个交换机�?/span>split臛_��的大��?/span>

mapred.max.split.size             一�?/span>split最大的大小

它的主要思�\是把输入目录下的大文件分成多�?/span>map的输�?/span>, �q�合�q�小文�g, 做�ؓ(f��)一�?/span>map的输�?/span>. 具体的原理是下述三步:

1.�Ҏ(gu��)��输入目录下的每个文�g,如果光��度超�q?/span>mapred.max.split.size,�?/span>block为单位分成多�?/span>split(一�?/span>split是一�?/span>map的输�?/span>),每个split的长度都大于mapred.max.split.size, 因�ؓ(f��)�?/span>block为单�?/span>, 因此也会(x��)大于blockSize, 此文件剩下的长度如果大于mapred.min.split.size.per.node, 则生成一�?/span>split, 否则先暂时保�?/span>.

2. 现在剩下的都是一些长度效短的��片,把每�?/span>rack下碎片合�q?/span>, 只要长度��过mapred.max.split.size��合�q�成一�?/span>split, 最后如果剩下的��片�?/span>mapred.min.split.size.per.rack�?/span>, ��合�q�成一�?/span>split, 否则暂时保留.

3. 把不�?/span>rack下的��片合�ƈ, 只要长度��过mapred.max.split.size��合�q�成一�?/span>split, 剩下的碎片无论长�?/span>, 合�ƈ成一�?/span>split.

举例: mapred.max.split.size=1000

     mapred.min.split.size.per.node=300

      mapred.min.split.size.per.rack=100

输入目录下五个文�?/span>,rack1下三个文�?/span>,长度�?/span>2050,1499,10, rack2下两个文�?/span>,长度�?/span>1010,80. 另外blockSize�?/span>500.

�l�过�W�一�?/span>, 生成五个split: 1000,1000,1000,499,1000. 剩下的碎片�ؓ(f��)rack1�?/span>:50,10; rack2�?/span>10:80

�׃��两个rack下的��片和都不超�q?/span>100, 所以经�q�第二步, split和碎片都没有变化.

�W�三�?/span>,合�ƈ四个��片成一�?/span>split, 长度�?/span>150.

如果要减��?/span>map数量, 可以调大mapred.max.split.size, 否则调小卛_��.

其特�Ҏ(gu��)��: 一个块臛_��作�ؓ(f��)一�?/span>map的输入，一个文件可能有多个块，一个文件可能因为块多分�l�做��Z��?/span>map的输入，一�?/span>map可能处理多个块，可能处理多个文�g�?/span>

�~�写自己�?/span>InputFormat

    待箋

俞灵 2012-07-03 22:17 发表评论

俞灵 — Sun, 03 Jun 2012 03:43:00 GMT

Yarn做�ؓ(f��)hadoop下一代集��资源管理和调度�q�_��, 其上能支持多�U�计��框�?/span>, 本文��q��要介�l�一下这些计��框�?/span>.

1.       MapReduce

首先是大家熟�(zh��n)�的mapreduce, �?/span>MR2之前, hadoop包括HDFS�?/span>mapreduce, 做�ؓ(f��)hadoop上唯一的分布式计算框架, 其优�Ҏ(gu��)��用户可以很方便的�~�写分布式计��程�?/span>, �q�支持许多的应用, �?/span>hive, mahout, pig�{?/span>. 但是其缺�Ҏ(gu��)��无法充分利用集群资源, 不支�?/span>DAG, �q�代式计��等. ��Z��解决�q�些问题, yahoo提出�?/span>Yarn (next generation mapreduce), 一个分布式集群集群资源��理和调度��^�?/span>. �q�样除了mapreduce�?/span>, �q�可以支持各�U�计��框�?/span>.

2.       Spark

Spark是一�U�与mapreduce�怼�的开源计��框�?/span>, 不同之处在于Spark在某些工作负载方面表现更�?/span>, 因�ؓ(f��)它��用了内存分布式数据集, 另外除了提供交互式查询外, 它还可以优化�q�代工作负蝲.

3.       Apache HAMA

Apache Hama 是一个运行在HDFS上的BSP(Bulk Synchronous Parallel大容量同步�ƈ�? 计算框架, 主要针对大规模科学计��?如矩�? 囑փ�, �|�络��法�{?当前它有一下功�?

作业提交和管理接�?/span>
单节点上�q�行多个��d��
输入/输出格式�?/span>
备䆾恢复
支持通过Apache Whirr�q�行在云�?/span>
支持�?/span>Yarn一赯��?/span>

4.       Apache Giraph

囑փ�处理�q�_��上运行这大型��法(�?/span>page rank, shared connections, personalization-based popularity �{?/span>)已经很流�?/span>, Giraph采用BSP模型�Q?/span>bulk-synchronous parallel model�Q�，可用于等�q�代�cȝ��法�?/span>

5.       Open MPI

�q�是一个高性能计算函数库，通常�?/span>HPC�Q?/span>High Performance Computing�Q�中采用�Q�与MapReduce相比�Q�其性能更高�Q�用户可控性更强，但编�E�复杂，定w��性差�Q�可以说�Q�各有所长，在实际应用中�Q�针对不�?/span> 该应用会(x��)采用MPI或�?/span>MapReduce�?/span>

6.       Apache HBase

HBase是一�?/span>hadoop数据�?/span>, 其特�Ҏ(gu��)��分布式，可扩展的�Q�存储大数据。当有需要随�?/span>,实时��d��的大数据�? 使用HBase很适合.
本文参�?
http://wiki.apache.org/hadoop/PoweredByYarn
http://www.oschina.net/p/open+mpi
http://incubator.apache.org/hama/
http://incubator.apache.org/giraph/

http://hbase.apache.org/

俞灵 2012-06-03 11:43 发表评论

俞灵 — Thu, 24 May 2012 06:46:00 GMT

转蝲
http://fujun.sinaapp.com/2011/11/02/68.html
�W�一步，打开�l�端�Q�看看你的显卡Ubuntu能认出多��显�C�分辨率讄��Q�输入命�?br /> wufujun@wufujun-VirtualBox:~$ xrandr

�pȝ��l�出的结�?/p>
Screen 0: minimum 64 x 64, current 1024 x 768, maximum 32000 x 32000
VBOX0 connected 1024×768+0+0 0mm x 0mm
1024×768 60.0 + 60.0
1600×1200 60.0
1440×1050 60.0
1280×960 60.0
800×600 60.0
640×480 60.0

�q�里可以看到�Q�没�?6�Q?的的分��L率设�|?/p>
�W�二步，用cvt命��o(h��)��试1368×768是否可用
wufujun@wufujun-VirtualBox:~$ cvt 1368 768
昄��l�果如下
# 1368×768 59.88 Hz (CVT) hsync: 47.79 kHz; pclk: 85.86 MHz
Modeline “1368x768_60.00″ 85.25 1368 1440 1576 1784 768 771 781 798 -hsync +vsync

从这个结果里可以刎ͼ�16�Q?的分辨率是可以用�?/p>
�W�三�?输入
wufujun@wufujun-VirtualBox:~$ sudo xrandr --newmode "1368x768" 85.86 1368 1440 1576 1784 768 771 781 798 -hsync +vsync
建立新的分��L率模�?368×768�Q�把刚才cvt得到的数据写�q�参�?/p>
�W�四�?�l�箋输入
sudo xrandr --addmode VBOX0 "1368x768"
�l�当前显�C�器VBOX0增加1368×768分��L率设�|?/p>
做完以上操作后，可以�?#8221;昄��“讄��里面看到昄��的分辨率列表中多了一�?1368×768(16:9)的选项。选中�q�个选项�Q�点��d��用，完美的宽屏显�C�回来了�Q?/p>
�l�过��试�Q�上面的�Ҏ(gu��)��做完以后�Q�每�ơ注销后就又变回了4�Q?的比例，而且�?x��)有的报错，没办法，按上面的修改完毕后，�q�要再修改一�?etc/X11/xorg.conf�q�个文�g�Q�这个配�|�文件在现在的版里已�l�取消了�Q�所以需要我们新��Z��?/p>
$ sudo gedit /etc/X11/xorg.conf

�~�辑内容为：(x��)
Section "Device" Identifier "Configured Video Device" EndSection
Section "Monitor" Identifier "Configured Monitor" Modeline "1368x768_60.00" 85.86 1368 1440 1584 1800 768 769 772 795 -HSync +Vsync EndSection
Section "Screen" Identifier "Default Screen" Monitor "Configured Monitor" Device "Configured Video Device" SubSection "Display" Modes "1368x768@60" EndSubSection EndSection
其中 Modeline “1368x768_60.00″ 85.86 1368 1440 1584 1800 768 769 772 795 -HSync +Vsync ��是�? cvt 1368 768得到的倹{��也可以�? gtf 1368 768 60命��o(h��)来得到这个Modeline的��|��q�个命��o(h��)中，1368 768是分辨率 60为刷新率�Q�用�q�个命��o(h��)得到的值可能会(x��)更�ؓ(f��)准确一些�?br /> SubSection "Display" Modes "1368x768@60" EndSubSection
�q�段是设�|�默认显�C�最�?j��ng)_��辨率�?/p>
注意�q�段文�g中的一些规�?/p>
Section “Device”区块中，Identifier指定了显卡的唯一名称�Q�这个名�U�可以随便取�Q�但一定要与Section “Screen”区块中的device选项中的名称相同。在Section “Monitor”区块中，Identifier指定了显�C�器的唯一名称�Q�这个名�U�可以随便取�Q�但一定要与Section “Screen”区块中的Monitor选项中所指定的名�U�相同。Section “Screen”区块中的Identifier选项�Q�指定了�q�个昑֍�与显�C�器相结合的唯一名称。这个名�U�C��可以随便取的。这个名�U�需要与Section “ServerLayout” 区块中的名称相同。这个Section “ServerLayout” 区块我们一般不必编�?/p>

俞灵 2012-05-24 14:46 发表评论

实现自定义的classLoader加蝲classpath中的class

俞灵 — Sun, 20 May 2012 11:43:00 GMT
     摘要:      最�q�这些天学习(f��n)了classLoader的原�? 原因是因为服务器上的一个java�q�程启动时加载两个不同版本的jar�? 含有相同名字的类, 而且服务端的jar包排在前�? 我上传的jar包排在后�? 于是每次都��用服务端的jar�? 我的jar包便无法生效, 因此希望修改classLader, 让它按相反的��序加蝲jar�?  ...  阅读全文

俞灵 2012-05-20 19:43 发表评论

High Availability for the HDFS Namenode�Q�翻译）

俞灵 — Sat, 24 Mar 2012 13:38:00 GMT
     摘要: High Availability for the HDFS Namenode Sanjay Radia, Suresh Srinivas Yahoo! Inc (本文为namdnoe HA的设计文档翻�? 1.       问题阐述有许多方法可以改善HDFS Namednoe�Q�NN�Q�的可用性，包括减少启动旉��Q�更...  阅读全文

俞灵 2012-03-24 21:38 发表评论

JAVA代码�~�写�?0条徏�?

俞灵 — Mon, 28 Nov 2011 06:34:00 GMT

本文转自:
http://blog.csdn.net/zhouysh/article/details/304767

JAVA代码�~�写�?0条徏�?
(1) �c�d��首字母应该大写。字�D�c(di��n)��方法以�?qi��ng)对象（句柄�Q�的首字母应��写。对于所有标识符�Q�其中包含的所有单词都应紧靠在一��P��而且大写中间单词的首字母。例如：(x��)
ThisIsAClassName
thisIsMethodOrFieldName
若在定义中出��C��常数初始化字�W�，则大写static final基本�c�d��标识�W�中的所有字母。这样便可标志出它们属于�~�译期的常数�?
Java包（Package�Q�属于一�U�特�D�情况：(x��)它们全都是小写字母，即便中间的单词亦是如此。对于域名扩展名�U�ͼ�如com�Q�org�Q�net或者edu�{�，全部都应��写�Q�这也是Java 1.1和Java 1.2的区别之一�Q��?

(2) ��Z��常规用途而创��Z��个类�Ӟ��请采�?�l�典形式"�Q��ƈ包含对下�q�元素的定义�Q?

equals()
hashCode()
toString()
clone()�Q�implement Cloneable�Q?
implement Serializable

(3) 对于自己创徏的每一个类�Q�都考虑�|�入一个main()�Q�其中包含了用于��试那个�cȝ��代码。�ؓ(f��)使用一个项目中的类�Q�我们没必要删除��试代码。若�q�行了�Q何�Ş式的改动�Q�可方便地返回测试。这些代码也可作为如何��用类的一个示例��用�?

(4) 应将�Ҏ(gu��)��设计成简要的、功能性单元，用它描述和实��C��个不�q�箋的类接口部分。理��x��况下�Q�方法应��明扼要。若长度很大�Q�可考虑通过某种方式��其分割成较短的几个�Ҏ(gu��)��。这样做也便于类内代码的重复使用�Q�有些时候，�Ҏ(gu��)��必须非常大，但它们仍应只做同��L(f��ng)��一件事情）�?

(5) 设计一个类�Ӟ��误��w�处��Cؓ(f��)客户�E�序员考虑一下（�cȝ��使用�Ҏ(gu��)��应该是非常明��的�Q�。然后，再设�w�处��Cؓ(f��)��理代码的�h考虑一下（预计有可能进行哪些�Ş式的修改�Q�想想用什么方法可把它们变得更��单）�?
(6) 使类��可能短��精�(zh��n)�，而且只解决一个特定的问题。下面是对类设计的一些徏议：(x��)
■一个复杂的开兌��句：(x��)考虑采用"多�Ş"机制
■数量众多的方法涉�?qi��ng)到�c�d��差别极大的操作：(x��)考虑用几个类来分别实�?
■许多成员变量在特征上有很大的差别�Q�考虑使用几个�c?

(7) 让一切东襉K��可能地"�U�有"--private。可使库的某一部分"公共�?�Q�一个方法、类或者一个字�D늭��{�）�Q�就永远不能把它拿出。若��拿出�Q�就�?能破坏其他�h现有的代码，使他们不得不重新�~�写和设计。若只公布自己必��d��布的�Q�就可放心大胆地改变其他��M��东西。在多线�E�环境中�Q�隐�U�是特别重要的一�?因素--只有private字段才能在非同步使用的情况下受到保护�?

(8) 谨惕"巨大对象�l�合�?。对一些习(f��n)惯于��序�~�程思维、且初涉OOP领域的新手，往往喜欢先写一个顺序执行的�E�序�Q�再把它嵌入一个或两个巨大的对象里。根据编�E�原理，对象表达的应该是应用�E�序的概念，而非应用�E�序本��n�?

(9) 若不得已�q�行一些不太雅观的�~�程�Q�至��应该把那些代码�|�于一个类的内部�?

(10) ��M��时候只要发现类与类之间�l�合得非常紧密，��需要考虑是否采用内部�c�，从而改善编码及(qi��ng)�l�护工作�Q�参见第14�?4.1.2��节�?用内部类改进代码"�Q��?

(11) ��可能细致地加上注释�Q��ƈ用javadoc注释文档语法生成自己的程序文档�?

(12) 避免使用"��术数字"�Q�这些数字很难与代码很好地配合。如以后需要修改它�Q�无疑会(x��)成�ؓ(f��)一场噩梦，因�ؓ(f��)�Ҏ(gu��)��不知�?100"到底是指"数组大小"�q�是"其他全然不同的东�?。所以，我们应创��Z��个常敎ͼ��q��ؓ(f��)其��用具有说服力的描�q�性名�U�ͼ��q�在整个�E�序中都采用常数标识�W�。这样可使程序更易理解以�?qi��ng)更易维护�?

(13) 涉及(qi��ng)构徏器和异常的时候，通常希望重新丢弃在构建器中捕��L(f��ng)��M��异常--如果它造成了那个对象的创徏��p�|。这样一来，调用者就不会(x��)以�ؓ(f��)那个对象已正��地创徏�Q�从而盲目地�l�箋�?

(14) 当客��L(f��ng)��序员用完对象以后�Q�若你的�c�要求进行�Q何清除工作，可考虑��清除代码置于一个良好定义的�Ҏ(gu��)��里，采用�c�M��于cleanup()�q�样的名字，明确�?明自��q��用途。除此以外，可在�c�d��攄��一个boolean�Q�布?y��u)��(d��ng)）标记�Q�指出对象是否已被清除。在�cȝ��finalize()�Ҏ(gu��)��里，��L(f��ng)��定对象已被清除， �q�已丢弃了从RuntimeException�l�承的一个类�Q�如果还没有的话�Q�，从而指��Z��个编�E�错误。在采取象这��L(f��ng)��Ҏ(gu��)��之前�Q�请��定 finalize()能够在自��q��pȝ��中工作（可能需要调用System.runFinalizersOnExit(true)�Q�从而确保这一行�ؓ(f��)�Q��?

(15) 在一个特定的作用域内�Q�若一个对象必��L��除（非由垃圾攉��机制处理�Q�，请采用下�q�方法：(x��)初始化对象；若成功，则立卌��入一个含有finally从句的try块，开始清除工作�?

(16) 若在初始化过�E�中需要覆盖（取消�Q�finalize()�Q�请��C��调用super.finalize()�Q�若Object属于我们的直接超�c�，则无此必要）。在对finalize()�q�行覆盖的过�E�中�Q�对super.finalize()的调用应属于最后一个行动，而不应是�W�一个行动，�q�样可确保在需�?基础�cȝ��件的时候它们依然有效�?

(17) 创徏大小固定的对象集合时�Q�请��它们传输至一个数�l�（若准备从一个方法里�q�回�q�个集合�Q�更应如此操作）。这样一来，我们��可享受到数�l�在�~�译期进行类型检查的好处。此外，��Z��用它们，数组的接收者也许�ƈ不需要将对象"造型"到数�l�里�?

(18) ��量使用interfaces�Q�不要��用abstract�c�R��若已知某样东西准备成�ؓ(f��)一个基��c�，那么�W�一个选择应是��其变成一个interface�Q�接口）。只有在不得不��用方法定义或者成员变量的时候，才需要将其变成一个abstract�Q�抽象）�c�R��接口主要描�q�C��客户希望做什么事情，而一个类则致�?于（或允许）具体的实施细节�?

(19) 在构建器内部�Q�只�q�行那些��对象设为正��状态所需的工作。尽可能地避免调用其他方法，因�ؓ(f��)那些�Ҏ(gu��)��可能被其他�h覆盖或取消，从而在构徏�q�程中��生不可预知的�l�果�Q�参见第7章的详细说明�Q��?

(20) 对象不应只是��单地容纳一些数据；它们的行��Z��应得到良好的定义�?

(21) 在现成类的基��上创建新�c�L��Q�请首先选择"新徏"�?创作"。只有自��q��设计要求必须�l�承�Ӟ��才应考虑�q�方面的问题。若在本来允许新建的场合使用了��承，则整个设计会(x��)变得没有必要地复杂�?

(22) 用��承及(qi��ng)�Ҏ(gu��)��覆盖来表�C��为间的差异，而用字段表示状态间的区别。一个非常极端的例子是通过对不同类的��承来表示颜色�Q�这是绝对应该避免的�Q�应直接使用一�?颜色"字段�?

(23) 为避免编�E�时遇到�ȝ��Q�请保证在自��q��路径指到的�Q何地方，每个名字都仅对应一个类。否则，�~�译器可能先扑ֈ�同名的另一个类�Q��ƈ报告出错消息。若怀疑自��q��C��c��\径问题，误��试在�c��\径的每一个�v点，搜烦一下同名的.class文�g�?

(24) 在Java 1.1 AWT中��用事�?适配�?�Ӟ��特别�Ҏ(gu��)��到一个陷阱。若覆盖了某个适配器方法，同时拼写�Ҏ(gu��)��没有特别讲究�Q�最后的�l�果��是新添加一个方法，而不是覆盖现成方法。然而，�׃��q�样做是完全合法的，所以不�?x��)从�~�译器或�q�行期系�l�获得�Q何出错提�C?-只不�q�代码的工作��变得不正常了�?

(25) 用合理的设计�Ҏ(gu��)��消除"伪功�?。也��是��_(d��)��假若只需要创建类的一个对象，��׃��要提前限制自�׃��用应用程序，�q�加上一�?只生成其中一�?注释。请考虑��?其封装成一�?独生�?的�Ş式。若在主�E�序里有大量散�ؕ的代码，用于创徏自己的对象，误��(g��)�虑采纳一�U�创造性的�Ҏ(gu��)��Q�将些代码封装�v来�?

(26) 警惕"分析瘫痪"。请��C��Q�无论如何都要提前了解整个项目的状况�Q�再去考察其中的细节。由于把握了全局�Q�可快速认识自己未知的一些因素，防止在考察�l�节的时候陷�?死逻辑"中�?

(27) 警惕"�q�早优化"。首先让它运行�v来，再考虑变得更快--但只有在自己必须�q�样做、而且�l�证实在某部分代码中的确存在一个性能瓉��的时候，才应�q�行优化�?除非用专门的工具分析瓉��Q�否则很有可能是在浪费自��q��旉��。性能提升的隐含代��h��自己的代码变得难于理解，而且难于�l�护�?

(28) 误��住，阅读代码的时间比写代码的旉��多得多。思�\清晰的设计可获得易于理解的程序，但注释、细致的解释以及(qi��ng)一些示例往往��h��不可估量的�h(hu��n)倹{��无论对你自己，�q�是对后来的人，它们都是相当重要的。如�Ҏ(gu��)��仍有怀疑，那么误��惌��p��图从联机Java文档里找出有用信息时��到的挫折，�q�样或许能将你说服�?

(29) 如认��己已�q�行了良好的分析、设计或者实施，那么��L(f��ng)��微更换一下思维角度。试试邀(g��)请一些外来�h�?-�q�不一定是专家�Q�但可以是来自本公司其他部门的�h�?请他们用完全新鲜的眼光考察你的工作�Q�看看是否能扑և�你一度熟视无睹的问题。采取这�U�方式，往往能在最适合修改的阶�D�|��Z��些关键性的问题�Q�避免��品发�?后再解决问题而造成的金钱及(qi��ng)�_�֊�斚w��的损失�?

(30) 良好的设计能带来最大的回报。简�a�之，对于一个特定的问题�Q�通常�?x��)花较长的时间才能找��C��U�最恰当的解��x��案。但一旦找��C��正确的方法，以后的工作就��L�� 多了�Q�再也不用经历数��时、数天或者数月的痛苦挣扎。我们的努力工作�?x��)带来最大的回报�Q�甚��x��可估量）。而且�׃��自己倾注了大量心血�Q�最�l�获得一个出色的设计�Ҏ(gu��)��Q�成功的快感也是令�h心动的。坚持抵制草草完工的诱惑--那样做往往得不偿失

俞灵 2011-11-28 14:34 发表评论

俞灵 — Mon, 21 Nov 2011 01:04:00 GMT

本文转自it186云计��频道，原文地址�Q?a >cloud.it168.com

在互联网�q�个领域一直有�q�样的说法：(x��)“如果老二无法战胜老大�Q�那么就把老大赖以生存的东西开源吧”。当�q�Yahoo!与Google�q�是处在强烈竞争关系时候，招聘了Doug(Hadoop创始�?�Q�把Google老大赖以生存的DFS与Map-Reduce开源了�Q�开始了Hadoop的童�q?时期。差不多�?008�q�的时候，Hadoop才算逐渐成熟�?/p>
从初创到现在�Q�Hadoop�l�过了至��?�q�的�U�篏�Q�现在的Hadoop不仅是当�q�的老二Yahoo的专用��品了�Q�从Hadoop镉K��的用户名单中�Q?可以看到Facebook、Linkedin、Amazon�Q�可以看到EMC、eBay、Twitter、IBM、Microsoft,、Apple�?HP…国内的公司有淘宝、百度等�{��?/p>

本文��对Hadoop七年�Q?004-2011�Q�的发展历程�q?行梳理。读完本文后�Q�将不难看出�Q�Hadoop的发展基本上�l�历了这样一个过�E�：(x��)从一个开源的Apache基金�?x��)项目，随着��来��多的用��L(f��ng)��加入�Q�不断地使用、�A(ch��)献和完善�Q��Ş成一个强大的生态系�l�，�?009�q�开始，随着云计��和大数据的发展�Q�Hadoop作�ؓ(f��)��量数据分析的最佌��x��案，开始受到许�?IT厂商的关注，从而出��C��许多Hadoop的商业版以及(qi��ng)支持Hadoop的��品，包括软�g和硬件�?/p>
2004�q�_(d��)��Google发表论文�Q�向全世界介�l�了MapReduce�?/li>
2005�q�初�Q��ؓ(f��)了支持Nutch搜烦引擎��目�Q�Nutch的开发者基于Google发布的MapReduce报告�Q�在Nutch上开发了一个可工作的MapReduce应用�?/li>
2005�q�年中，所有主要的Nutch��法被移植到使用MapReduce和NDFS(Nutch Distributed File System )来运行�?/li>
2006�q?月，Doug Cutting加入雅虎�Q�Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网�l�上�q�行的系�l��?/li>
2006�q?月，Apache Hadoop��目正式启动以支持MapReduce和HDFS的独立发展�?/li>
2007�q�_(d��)��癑ֺ�开始��用Hadoop做离�U�处理，目前差不�?0%的Hadoop集群用作日志处理�?/li>
2007�q�_(d��)��中国�U�d��开始在“大云”研究中��用Hadoop技术，规模��过1000台�?/li>
2008�q�_(d��)��淘宝开始投入研�I�基于Hadoop的系�l?#8212;—云梯�Q��ƈ��其用于处理�?sh��)子商�?/a>相关数据。云�?的��d��量大概�ؓ(f��)9.3PB�Q�包含了1100台机器，每天处理�U?8000道作业，扫描500TB数据�?/li>
2008�q?月，Hadoop成�ؓ(f��)Apache��目�?/li>
2008�q?月，Yahoo!宣布其搜索引擎��品部�|�在一个拥�?万个内核的Hadoop集群上�?/li>
2008�q?月，Hadoop打破1TB数据排序基准��试记录。Yahoo!的一个Hadoop集群�?09�U�完�?TB数据的排�?�Q�比上一�q�的�U�录保持者保持的297�U�快了将�q?0�U��?/li>
2009 �q?3 月，Cloudera推出CDH(Cloudera’s Distribution including Apache Hadoop)�q�_��Q�完全由开放源码��Y件组成，目前已经�q�入�W?版�?/li>
2009�q?月，Yahoo的团队��用Hadoop�? TB的数据进行排序只�׃��62�U�时间�?/li>
2009�q?�?�Q�Hadoop Core��目更名为Hadoop Common;
2009�q?�?�Q�MapReduce �?Hadoop Distributed File System (HDFS) 成�ؓ(f��)Hadoop��目的独立子��目�?/li>
2009�q?�?�Q�Avro �?Chukwa 成�ؓ(f��)Hadoop新的子项目�?/li>
2010�q?�?�Q�Avro��q��Hadoop��目�Q�成为Apache��目�?/li>
2010�q?�?�Q�HBase��q��Hadoop��目�Q�成为Apache��目�?/li>
2010�q?月，IBM提供了基于Hadoop 的大数据分析软�g——InfoSphere BigInsights�Q�包括基��版和企业版�?/li>
2010�q?月，Hive( Facebook) ��q��Hadoop�Q�成为Apache��目�?/li>
2010�q?月，Pig��q��Hadoop�Q�成为Apache��目�?/li>
2011�q?月，ZooKeeper ��q��Hadoop�Q�成为Apache��目�?/li>
2011�q?月，Apache Hadoop获得Media Guardian Innovation Awards �?/li>
2011�q?月， Platform Computing 宣布在它的Symphony软�g中支持Hadoop MapReduce API�?/li>
2011�q?月，Mapr Technologies公司推出分布式文件系�l�和MapReduce引擎——MapR Distribution for Apache Hadoop�?/li>
2011�q?月，HCatalog 1.0发布。该��目由Hortonworks �?010�q?月䆾提出�Q�HCatalog主要用于解决数据存储、元数据的问题，主要解决HDFS的瓶颈，它提供了一个地�Ҏ(gu��)��存储数据的状态信息，�q��?数据清理和归档工具可以很�Ҏ(gu��)��的进行处理�?/li>
2011�q?月，SGI( Silicon Graphics International )��Z��SGI Rackable和CloudRack 服务�?/a>产品�U�提供Hadoop优化的解��x��案�?/li>
2011�q?月，EMC为客��h��Z��U�新的基于开源Hadoop解决�Ҏ(gu��)��的数据中心设�?#8212;—GreenPlum HD�Q�以助其满��客户日益增长的数据分析需求�ƈ加快利用开源数据分析��Y件。Greenplum是EMC�?010�q?月收购的一家开源数据仓库公司�?/li>
2011�q?月，在收购了Engenio之后�Q?NetApp推出与Hadoop应用�l�合的��品E5400存储�pȝ��?/li>
2011�q?月，Calxeda公司(之前公司的名字是Smooth-Stone)发�v�?#8220;开拓者行�?#8221;�Q�一个由10家��Y件公司组成的团队��ؓ(f��)��Z��Calxeda卛_��推出的ARM�pȝ��上芯片设计的服务�?/a>提供支持。�ƈ为Hadoop提供低功耗服务器技术�?/li>
2011�q?月，数据集成供应商Informatica发布了其旗舰产品�Q��品设计初��h��处理当今事务和社�?x��)媒体所产生的�v量数据，同时支持Hadoop�?/li>
2011�q?月，Yahoo!和硅谷风险投资公�?Benchmark Capital创徏了Hortonworks 公司�Q�旨在让Hadoop更加鲁棒(可靠)�Q��ƈ让企业用��h��Ҏ(gu��)��安装、管理和使用Hadoop�?/li>
2011�q?月，Cloudera公布了一��Ҏ(gu��)��益于合作伙伴生态系�l�的计划——创徏一个生态系�l�，以便��g供应商、��Y件供应商以及(qi��ng)�pȝ��集成商可以一��h��索如何��用Hadoop更好的洞察数据�?/li>
2011�q?月，Dell与Cloudera联合推出Hadoop解决�Ҏ(gu��)��——Cloudera Enterprise。Cloudera Enterprise��Z��Dell PowerEdge C2100机架服务器以�?qi��ng)Dell PowerConnect 6248以太�|?a title="交换�? target="_blank">交换�?/a> �?/li>

在梳理的�q�程中，�W�者发��C��上图�Q�它很好地展��C��Hadoop生态系�l�是如何在��用中一步一步成长�v来的�?/p>

俞灵 2011-11-21 09:04 发表评论

让你提升命��o(h��)行效率的 Bash 快捷�?[完整版]

俞灵 — Tue, 15 Nov 2011 02:04:00 GMT

本文转自:
http://linuxtoy.org/archives/bash-shortcuts.html

生活�?Bash shell 中，熟记以下快捷键，��极大的提高你的命��o(h��)行操作效率�?

�~�辑命��o(h��)

Ctrl + a �Q�移到命令行�?/li>
Ctrl + e �Q�移到命令行��?/li>
Ctrl + f �Q�按字符前移�Q�右向）
Ctrl + b �Q�按字符后移�Q�左向）
Alt + f �Q�按单词前移�Q�右向）
Alt + b �Q�按单词后移�Q�左向）
Ctrl + xx�Q�在命��o(h��)行首和光标之间移�?/li>
Ctrl + u �Q�从光标处删除至命��o(h��)行首
Ctrl + k �Q�从光标处删除至命��o(h��)行尾
Ctrl + w �Q�从光标处删除至字首
Alt + d �Q�从光标处删除至字尾
Ctrl + d �Q�删除光标处的字�W?/li>
Ctrl + h �Q�删除光标前的字�W?/li>
Ctrl + y �Q�粘贴至光标�?/li>
Alt + c �Q�从光标处更改�ؓ(f��)首字母大写的单词
Alt + u �Q�从光标处更改�ؓ(f��)全部大写的单�?/li>
Alt + l �Q�从光标处更改�ؓ(f��)全部��写的单�?/li>
Ctrl + t �Q�交换光标处和之前的字符
Alt + t �Q�交换光标处和之前的单词
Alt + Backspace�Q�与 Ctrl + w 相同�c�M��Q�分隔符有些差别 [感谢 rezilla 指正]

重新执行命��o(h��)

Ctrl + r�Q�逆向搜烦命��o(h��)历史
Ctrl + g�Q�从历史搜烦模式退�?/li>
Ctrl + p�Q�历史中的上一条命�?/li>
Ctrl + n�Q�历史中的下一条命�?/li>
Alt + .�Q��用上一条命令的最后一个参�?/li>

控制命��o(h��)

Ctrl + l�Q�清�?/li>
Ctrl + o�Q�执行当前命令，�q��择上一条命�?/li>
Ctrl + s�Q�阻止屏�q�输�?/li>
Ctrl + q�Q�允许屏�q�输�?/li>
Ctrl + c�Q�终止命�?/li>
Ctrl + z�Q�挂起命�?/li>

Bang (!) 命��o(h��)

!!�Q�执行上一条命�?/li>
!blah�Q�执行最�q�的�?blah 开头的命��o(h��)�Q�如 !ls
!blah:p�Q�仅打印输出�Q�而不执行
!$�Q�上一条命令的最后一个参敎ͼ��?Alt + . 相同
!$:p�Q�打印输�?!$ 的内�?/li>
!*�Q�上一条命令的所有参�?/li>
!*:p�Q�打印输�?!* 的内�?/li>
^blah�Q�删除上一条命令中�?blah
^blah^foo�Q�将上一条命令中�?blah 替换�?foo
^blah^foo^�Q�将上一条命令中所有的 blah 都替换�ؓ(f��) foo

友情提示�Q?/p>
以上介绍的大多数 Bash 快捷键仅当在 emacs �~�辑模式时有效，若你��?Bash 配置�?vi �~�辑模式�Q�那��遵�?vi 的按键绑定。Bash 默认�?emacs �~�辑模式。如果你�?Bash 不在 emacs �~�辑模式�Q�可通过 set -o emacs 讄��?/li>
^S、^Q、^C、^Z 是由�l�端讑֤�处理的，可用 stty 命��o(h��)讄��?/li>

俞灵 2011-11-15 10:04 发表评论

国外java �l�典地址

俞灵 — Tue, 15 Nov 2011 01:45:00 GMT

希望大家喜欢�Q�自��q��个备份，没事逛逛！�Q?br />
http://www.javaalmanac.com - Java开发者年鉴一书的在线版本. 要想快速查到某�U�Java技巧的用法�?qi��ng)示例代�? �q�是一个不错的��d��.
http://www.onjava.com - O'Reilly的Java�|�站. 每周都有新文�?
http://java.sun.com - 官方的Java开发者网�?- 每周都有新文章发�?
http://www.developer.com/java - 由Gamelan.com �l�护的Java技术文章网�?
http://www.java.net - Sun公司�l�护的一个Java�C�֌��|�站.
http://www.builder.com - Cnet的Builder.com�|�站 - 所有的技术文�? 以Java��Z��.
http://www.ibm.com/developerworks/java - IBM的Developerworks技术网�? �q�是其中的Java技术主��?
http://www.javaworld.com - 最早的一个Java站点. 每周更新Java技术文�?
http://www.devx.com/java - DevX�l�护的一个Java技术文章网�?
http://www.fawcette.com/javapro - JavaPro在线杂志�|�站.
http://www.sys-con.com/java - Java Developers Journal的在�U�杂志网�?
http://www.javadesktop.org - 位于Java.net的一个Java桌面技术社区网�?
http://www.theserverside.com - �q�是一个讨论所有Java服务器端技术的�|�站.
http://www.jars.com - 提供Java评论服务. 包括各种framework和应用程�?
http://www.jguru.com - 一个非常棒的采用Q&A形式的Java技术资源社�?
http://www.javaranch.com - 一个论坛，得到Java问题�{�案的地方，初学者的好去处�?
http://www.ibiblio.org/javafaq/javafaq.html - comp.lang.java的FAQ站点 - 攉��了来自comp.lang.java新闻�l�的问题和答案的分类目录.
http://java.sun.com/docs/books/tutorial/ - 来自SUN公司的官方Java指南 - 对于了解几乎所有的java技术特性非常有帮助.
http://www.javablogs.com - 互联�|�上最�z�跃的一个Java Blog�|�站.
http://java.about.com/ - 来自About.com的Java新闻和技术文章网�?

俞灵 2011-11-15 09:45 发表评论

亚洲欧美国产国产一区二区三区,亚洲女人被黑人巨大进入,亚洲日本一区二区三区

招聘 hadoop开发工�E�师

转蝲 http://fujun.sinaapp.com/2011/11/02/68.html

实现自定义的classLoader加蝲classpath中的class

High Availability for the HDFS Namenode�Q�翻译）

JAVA代码�~�写�?0条徏�?

本文转自it186云计���频道，原文地址�Q?a >cloud.it168.com

让你提升命��o(h��)行效率的 Bash 快捷�?[完整版]

本文转自:http://linuxtoy.org/archives/bash-shortcuts.html

�~�辑命��o(h��)

重新执行命��o(h��)

控制命��o(h��)

Bang (!) 命��o(h��)

国外java �l�典地址

转蝲
http://fujun.sinaapp.com/2011/11/02/68.html

本文转自it186云计��频道，原文地址�Q?a >cloud.it168.com

本文转自:
http://linuxtoy.org/archives/bash-shortcuts.html