精品亚洲aⅴ在线观看,亚洲国产夜色在线观看,久久亚洲精品11p

HDAOOP SIMPLIZE TOOLKIT hadoop mapreduce��化开发包

溪石 — Sun, 29 Jan 2017 02:10:00 GMT

虽然大数据的发展已经��近10个年头了�Q?/span>hadoop技术仍然没有过�Ӟ��特别是一些低成本�Q�入门��的小��目�Q��?/span>hadoop�q�是蛮不错的。而且�Q�也不是每一个公叔R��有能力招聘和培养自己�?/span>spark人才�?/span>

我本人对�?/span>hadoop mapreduce是有一些意见的�?/span>hadoop mapreduce技术对于开发�h员的友好度不高，�E�序隑ֆ��Q�调试困难，对于复杂的业务逻辑�q�没�?/span>spark得心应手�?/span>

2016�q�的春节前接��C��个�Q务，要在一个没�?/span>spark的��^台实现电力系�l�的一些统计分析算法，可选的技术只�?/span>hadoop mapreduce。受了这个刺�Ȁ之后产生了一些奇思妙惻I��然后做了一些试验，�q�最�l��Ş�?/span>HST---hadoop simplize toolkit�Q�还真是无心载柳��x��荫啊�?/span>

HST基本优点如下�Q?/span>

屏蔽�?/span>hadoop数据�c�d��Q�取消了driver�Q�将mapper�?/span>reducer转化�?/span>transformer�?/span>joiner�Q�业务逻辑更接�q?/span>sql。相当程度的减少了代码量�Q�极大的降低了大数据�~�程的门槛，让基层程序员通过��单的学习卛_��掌握大数据的开发�?/span>

克服�?/span>hadoop mapreduce数据源单一的情况，比如在一�?/span>job内，input可以同时��L��件和来自不同集群�?/span>hbase�?/span>

�q�程日志�pȝ��Q�让mapper�?/span>reducer的日志集中到driver的控制台�Q�极大减��M��q�行多进�E�程序的调试隑ֺ��?/span>

克服�?/span>hadoop mapreduce�~�写业务逻辑�Ӟ��不容易区分数据来自哪个数据源的困难。接�q�了spark�Q�或�?/span>sql�Q�的水��^�?/span>

天生的多�U�程执行�Q�即�?/span>mapper�?/span>reducer端都默认使用多线�E�来执行业务逻辑�?/span>

对于多次�q�代的�Q务，相连的两个�Q务可以徏立关联，下一个�Q务直接引用上一个�Q务的�l�果�Q��多次�q�代��d��的代码结构变得清��C��?/span>

以下会逐条说明

基本概念的小变化�Q?/span>

Source�c�M��替了hadoop Input体系(format�Q?/span>split�?/span>reader)

Transformer代替�?/span>mapper

Joiner代替�?/span>Reducer

��L��了饱受诟病的Driver�Q�改为内�|�的实现�Q�现在完全不用操心了�?/span>

1. 基本上，屏蔽�?/span>hadoop的数据类型，使用�U?/span>java�c�d��

在原生的hadoop mapreduce开发中�Q��?/span>org.apache.hadoop.io包下的各�U�hadoop数据�c�d��Q�比如hadoop的Text�c�d��Q�算法的�~�写中一些�{换非�怸�方便。而在HST中一律��用java基本�c�d��Q�完全屏蔽了hadoop�c�d��体系�?/span>

比如在hbase作�ؓsource�Q�Input�Q�的时候，再也不用直接使用ImmutableBytesWritable和Result了，HST��Z��做了自动的�{换�?/span>

现在的mapper�Q�改名叫Transformer了）风格是这��L��

public static class TransformerForHBase0 extends HBaseTransformer

…

现在map�Ҏ��叫flatmap�Q�看到没�Q�已�l�帮你自动�{成了string和map

public void flatMap(String key, Map row,

Collector collector)

可阅读xs.hadoop.iterated.IteratedUtil�c�M��关于�c�d��自动转换的部�?/span>

2. 克服�?/span>hadoop mapreduce数据源单一的情��c��比如在一�?/span>job内，数据源同时读文�g�?/span>hbase�Q�这在原生的hadoop mapreduce是不可能做到�?/span>

以前讉K��hbase�Q�需要��?/span>org.apache.hadoop.hbase.client.Scan和TableMapReduceUtil�Q�现在完全改��Z��spark�怼�的方式�?/span>

现在的风格是�q�样的：

Configuration conf0 = HBaseConfiguration.create();

conf0.set("hbase.zookeeper.property.clientPort", "2181");

conf0.set("hbase.zookeeper.quorum", "172.16.144.132,172.16.144.134,172.16.144.136");

conf0.set(TableInputFormat.INPUT_TABLE,"APPLICATION_JOBS");

conf0.set(TableInputFormat.SCAN_COLUMN_FAMILY,"cf");

conf0.set(TableInputFormat.SCAN_CACHEBLOCKS,"false");

conf0.set(TableInputFormat.SCAN_BATCHSIZE,"20000");

...其他hbase�?/span>Configuration�Q�可以来自不同集��?/span>

IteratedJob iJob = scheduler.createJob("testJob")

.from(Source.hBase(conf0), TransformerForHBase0.class)

.from(Source.hBase(conf1), TransformerForHBase1.class)

.from(Source.textFile("file:///home/cdh/0.txt"),Transformer0.class)

.join(JoinerHBase.class)

Hadoop中的input,现在完全�?/span>source�c�L��代替。通过内置的机制�{化�ؓinputformat�Q?/span>inputsplit�?/span>reader。在HST的框架下�Q�其实可以很�Ҏ��的写��?/span>Source.dbms(),Source.kafka()以及Source.redis()�Ҏ��。想惛_��Q�在一�?/span>hadoop job中，你终于可以将��L��数据源，例如来自不同集群�?/span>HBASE和来自数据库�?/span>source�q�行join了，�q�是多么happy的事情啊�Q?/span>

3. �q�程日志�pȝ��。让mapper�?/span>reducer的日志集中在driver�q�行昄��Q�极大减��M��了�ƈ行多�q�程�E�序的调试难�?/span>

各位都体验过�Q?/span>job fail后到控制台页面，甚至ssh到计��节点去查看日志的痛苦了吧。对�Q?/span>hadoop原生的开发，调试很痛苦的呢！

现在好了�Q�有�q�程日志�pȝ��Q�可以在调试时将mapper�?/span>reducer的日志集中在driver上，错误和各�U?/span>counter也会自动发送到driver上，�q�实时显�C�在你的控制��C��。如果在eclipse中调试程序，��可以实现点�?/span>console中的错误�Q�直接蟩到错误代码行的功能喽�Q?/span>

Ps�Q�有人可能会问，如何在集��外使用eclipse调试一�?/span>job�Q�却可以以集��方式运行呢�Q�这里不再赘�q�C��Q�网上有很多�{�案的哦

4. 克服�?/span>hadoop mapreduce�?/span>join上，区分数据来自哪个数据源的困难�Q�接�q?/span>spark�Q�或�?/span>sql�Q�的水��^

在上面给出示例中�Q�大安��看到了，现在�?/span>mapper可以�l�定input喽！�Q�也��是每个input都有自己独立�?/span>mapper。正因�ؓ此，现在�?/span>input�?/span>mapper改名�?/span>Source�?/span>Transformer�?/span>

那么�Q�大家又要问了，�?/span>mapper中，我已�l�可以轻松根据不同的数据输入写出不同�?/span>mapper了，�?/span>reducer中怎么办，spark�?/span>sql都是很容易实现的哦？比如看�h�?/span>sql

Select a.id,b.name from A a,B b where a.id = b.id

多么��L��愉悦�?/span>!

在原�?/span>hadoop mapreduce中，�?/span>reducer中找出哪个数据对应来自哪�?/span>input可是一个��o人抓狂的问题呢！

现在�q�个问题已经被轻松解军_��Q�看下面�q�个joiner�Q�对应原生的reducer

public static class Joiner0 extends Joiner

…

Reduce�Ҏ��改名�?/span>join�Ҏ��Q�是不是更脓�q?/span>sql的概念呢�Q?/span>

public void join(Long key,RowHandler handler,Collector collector) throws Exception{

List row = handler.getSingleFieldRows(0);//对应索引�?/span>0�?/span>source

List row2 = handler.getSingleFieldRows(1);//对应�W�二个定义的source

注意上面两句�Q�可以按照数据源定义的烦引来取出来自不同数据�?/span>join后的数据了，以后有时间可能会�Ҏ��按照别名来取出，大家看源码的时候，会发现别名这个部分的接口都写好了�Q�要不你来帮助实��C��吧�?/span>

5. 天生的多�U�程执行�Q�即�?/span>mapper�?/span>reducer端都默认使用多线�E�来执行业务逻辑�?/span>

看看源码吧，HST框架是�ƈ发调�?/span>flatMap�?/span>join�Ҏ��的，同时又不能改变系�l�调�?/span>reduce�Ҏ��的顺�?/span>(否则hadoop的辛苦排序可��q��瞎了)�Q�这可不是一件容易的事呢!

看到�q�里�Q�有的同学说了。你�q�个HST好是好，但你搞的自动转换�c�d��q�个机制可能会把性能拉下来的。这个吗�Q�不得不承认�Q�可能是会有一点媄响。但在生产环境做的比对可以证明，影响太小了，基本忽略不计�?/span>

�W�者在生��环境做了做了多次试验�Q?/span>mapper�Ҏ��多线�E�后性能�q�未有提高，特别是对一些业务简单的job�Q�增�?/span>Transformer中的�q�发�U�别效率可能�q�会下降�?/span>

很多同学喜欢在mapper中做所�?#8220;mapper端的join”。这�U�方式，�怿�在HST中通过提高mapper的�ƈ发��别后会有更好的表现�?/span>

Reducer中的性能相对原生提升的空间还是蛮大的。大部分的mapreduce��目�Q�都是mapper��单而reducer复杂�Q�HST采用�q�发执行join的方式对提升reducer性能是超好的�?/span>

6. 对于多次�q�代的�Q务，相连的两个�Q务可以徏立关联，在流�E�上的下一�?/span>job直接引用上一�?/span>job的结果，使多�ơ�P代�Q务的代码�l�构变得清晰优美

虽然在最后才提到�q�一点，但这却是我一开始想要写HST原因。多�ơ�P代的��d��太麻烦了�Q�上一个�Q务要写在hdfs做存储，下一个�Q务再取出使用�Q�麻烦不�ȝ��。如果都��q��序自动完成，岂不��哉�Q?/span>

在上一个�Q务里format一�?/span>

IteratedJob iJob = scheduler.createJob("testJob")

...//各种source定义

.format("f1","f2")

在第二个��d��中，直接引用

IteratedJob stage2Job = scheduler.createJob("stage2Job")

.fromPrevious(iJob, Transformer2_0.class);

//Transformer2_0.class

public static class Transformer2_0 extends PreviousResultTransformer

...

public void flatMap(Long inputKey, String[] inputValues,Collector collector) {

String f1 = getFiledValue(inputValues, "f1");

String f2 = getFiledValue(inputValues, "f2");

看到没，��是�q�么��单�?/span>

在最开始的计划中，我还设计了��?/span>redis队列来缓冲前�?/span>job的结果，供后面的job作�ؓ输入。这��h��来必��M��g��行的job可以在一定程度上�q�发。另外还设计了子��d��的�ƈ发调度，�q�都留给以后��d��现吧�?/span>

7. 便捷的自定义参数传递�?/span>

有时候，在业务中需要作一�?#8220;开兛_��?#8221;�Q�在�q�行时动态传入不同的��g��实现不同的业务逻辑。这个问�?/span>HST框架其实也�ؓ你考虑��C��?/span>

Driver中的自定义参敎ͼ�source中的自定义参数都会以内置的方式传�?/span>transformer�?/span>joiner中去�Q�方便程序员书写业务�?/span>

查看transformer�?/span>joiner的源码就会发玎ͼ�

getSourceParam(name)�?/span>getDriverParam(pIndex)�Ҏ��Q�在计算节点��L��的得到在driver�?/span>source中设�|�的各层�ơ��别的自定义参�?/span>,爽吧!

8. 其他工具

HST提供的方便还不止以上�q�些�Q�比如在工具�c�M��q�提供了两行数据�Q?/span>map�c�d��Q�直�?/span>join的方法。这些都留给你自己去发现�q�实践吧!
https://github.com/jonenine/HST

溪石 2017-01-29 10:10 发表评论

溪石 — Sun, 28 Dec 2014 06:35:00 GMT

摘要: 使用jboss netty 创徏高性能webservice客户端及服务�? 通过本文�Q�读者将了解以下内容 �Q?�Q�利用jboss netty创徏一个高性能的web服务客户�? �Q?�Q�不使用��M��W�三�Ҏ��Ӟ��手工在web容器内创建webse... 阅读全文

溪石 2014-12-28 14:35 发表评论

在web开发中更加富有效率的��用JSON

溪石 — Sat, 06 Dec 2014 06:08:00 GMT

摘要: /Files/jonenine/blog.rar本文一共分3个部分，介绍了在web中如何灵�z�而高效��用json�Q��ƈ同大家分享了实际的代码，希望大家喜欢。（一�Q?nbsp; 在jvm中��用jsonjson的��用在当下已经普及��h��了，作者��用json也已�l�有很长的时间了�Q�早在它普及之前��尝试着在项目中应用它。今天给大家介绍的代码都是实际项目中真实的代码，虽然不尽完美�Q�但却禁得住�?.. 阅读全文

溪石 2014-12-06 14:08 发表评论

利用动态类加蝲技术调式ECLIPSE插�g

溪石 — Mon, 04 May 2009 06:06:00 GMT

利用动态类加蝲技术调�?/span>ECLIPSE插�g

eclipse�q�_��提供runtime方式调试插�g�?/span>RCP��目�Q�但随着插�g��目��写�U�复杂，启动旉��也越来越长，特别是集成了诸如 Hibernate�?/span>Spring之类的容器��框架的时候。仅仅�ؓ了调试代码中一些琐��的片段而频�J�的重启��目实在是一件异常烦人的工作�?/span>

即��重启了项目也许还没完。�ؓ了�ə�目处于某个特定的状态下以方便测试，每次都要重新操作一遍前面业务流�E�，�q�同��h��十分令�h厌倦的�?/span>

eclispe使用�?/span>OGSI作�ؓ微内核，引入了一些动态特性。但�?/span>OSGI的动态特性是在保持��^台运行的情况下动态更�?/span>Bundle�Q�也��是说需要重启插件才能完成动态加载的�q�程。有没有一些更加细�_�度的动态蝲入方案呢�Q?/span>

�?/span>Tomcat下开发过web��目的�h都知道，使用调试模式来部�|�项目即”热部�|?/span>”可以实现动态蝲�?/span>class文�g,让程序员得以动态调试项目。今天向大家提供的这�?/span>jar包��得这�U�效果可以在eclipse runtime上实现�?/span>

�q�是我在自己的插件��^台项目—�?/span>SCOOP框架中��用的几个包�?/span>

它可以非常好的解军_��态类载入的问�?/span>,包括内部�cȝ��动态蝲入都可以很好解决�?/span>

其他的几个包�q�进行了以下��试

1. 使用元数据标注的办法解决SWT UI �U�程的种�U�问�?/span>

2. �q�提供了eclipse��程框架的简单实玎ͼ�以规范插件开发。特别是提出了一个面向业务而不是面向技术的工作��概念，使得�~�码�_�度变大�Q��ƈ得以提高效率。另外这个简单的��程框架�q�将前面的两�U�机制很好的�l�合��h��Q��ƈ且可以和eclipse�q�_��的一些复杂机制解耦，为复杂流�E�的开发测试提供了方便。�ؓ��来实现自定义脚本语�a�(比如某个�c�M��?/span>BPEL的工作流语言)开�?/span>eclise插�g��目甚至使用囑�Ş化的开发奠定了一定的基础�?/span>

我给��Z��一个完整的�C�Z��—�?/span>JAXB插�g。很多框架同jaxb一��h��供了code generation工具�Q�可以在�q�个例子的基��上经�q�简单修改�ؓ�q�些框架提供插�g�Q�比�?/span>CXF插�g�?/span>AXIS2插�g�{�等�?/span>

动态类载入�~�码原则

使用动态类载入机制来进行调试在�~�码上有一定限制�?/span>

首先是要�q�行动态蝲入的实例不要在非动态域�q�行引用。只有这��P��当一个流�E�结束时此实例才会在jvm中得以释放。当�Ӟ��非要在其他地方进行引用从而长久的在运行时保持�q�个实例也是有解��x��案的(可以使用代理�c�L��术来实现�Q�具体解军_��法不在本文之�?/span>)�?/span>

其次是进行接口同实现�cȝ��分离或父�c�d��子类的分��，以隔��M��同的class load scope。接口由父类载入器蝲入，不同的实�?/span>(比如修改后的实现)�׃��同的子类载入器蝲入。��得最�l�同一个类型由同一个类载入器蝲入，�q�样才能�W�合jvm的类载入规范。在父类载入域的父类型的�Ҏ��的参数类型及�q�回值类型也不能在动态域中�?/span>

最�?/span>,那些注册在扩展点上的�c�d��ActionDelegate�?/span>WorkbenchPart�{�是不能够动态蝲入的�Q�他们必��ȝ��eclipse提供的类载入器蝲入（�q�_��会自动蝲入�ƈ��理其生命周期）。如果需要让�q�些�c�M��动态蝲入，��需要在�q�_��提供的动态注册机制基��上��用代理或�?/span>EJB2.0一样��用��R入式�~�译来实��C��理机�Ӟ��q�个话题同样不在本文之内�?/span>

下面��׃�D例说明��用方�?/span>

因�ؓ旉��有限我无法详��的完成此文�Q�请感兴��的朋友自己阅读�C�Z��源码�?/span>

1. 几种动态类载入的办�?/span>

(1) 使用手动�~�码�q�行�c�蝲�?/span>

因�ؓ会��二次开发�h员��生迷惑，故未举例

(2) 在调试时使用spring文�g配置动态类载入�?/span>

Spring配置文�g同样也是动态的�Q�而且会��调试开发工作变得更加清晎ͼ�推荐使用

(3) 使用Flow框架来进行动态类载入

2. 使用元数据标注解�?/span>UI�U�程讉K��的问�?/span>

使用三个元数据及动态代理类解决SWT�?/span>Eclipse的线�E�问题�?/span>

3. �?/span>eclipse内部机制解耦以方便开发和��试

开发插仉��目很多时候需要实�?/span>Eclipse内部的一些回调接口来实现功能�Q�这对程序员的水�q�x��一�U�考验�Q�也使得插�g开发工作更加复杂化。比如在实现progressMonitor的时候，��需要实现它的回调接口，��业务逻辑攄��在其指定的回调接口—�?/span>runable接口来实玎ͼ��q�是非常不方便的。我们需要是一�U�可以提供功能的工具�c�，像调用一个普�?/span>javaBean一��h��调用它，而不是将我们的业务代码变形撕��去融入�?/span>Eclipse的种�U�机制中厅R�?/span>

�q�样做的另外一个坏处就是很难进行单元测试，比如��q��eclipse�q�_��Q��用一�?/span>mock�c�L��q�行��单有效的单元��试�?/span>

我在�q�方面也�q�行了一些尝试—�?/span>”反客��Z��”�Q�将必须遵守eclipse的回调要求变为必��遵守业务开发简单快��L��要求。同��h��?/span>progressMonitor上面�Q��用工厂类来创�?/span>delegate�Q�然后可以在回调机制的外部向调用javaBean一��h��使用�q�_��l�我们提供的�q�个功能�?/span>

�q�种��试是有一定难度的�Q�要使用��C��同的设计模式�Q�处理各�U�线�E�问题。更重要的一�Ҏ��eclipse�q�_��本��n有这��L��潜力�Q�它也在�{�待着我们�q�样做�?/span>

4. 使用Flow规范插�g��目开�?/span>

我的scoop��目最�l�搁��，到最后我发现实现它已�l�超��Z��我当时的能力。我原本是想开发一个统一的插件开发及部��v�q�_��。这样很多中��Y件企业，特别是像我原来工作的那家公司��可以拥有自��q��eclipse插�g集，以适应自己�Ҏ��的要求。我�q�想提供一套面向插件开发业务的接口�Q�而不再面向技术也屏蔽各种技术细节，使得可以非常方便的扩展、修改甚至移植插件。我只是心里有想念就��d��现而已�Q�当最�l�认识到它有多么困难的时候不得不攑ּ�了�?/span>最后虽然失败了�Q�但�q�不觉得气馁。因为知道了要努力的方向�Q�同时也�U�篏了丰富的�l�验。最后就��这�?/span>jar包命名�ؓSCOOP已示�U�念�?br />

演示文档及框架JAR包如�?/o:p>

/Files/jonenine/Eclipse_Dynamic_Classload.rar

溪石 2009-05-04 14:06 发表评论

溪石 — Mon, 04 May 2009 05:14:00 GMT

摘要: 在web开发中的树状视图技�?树型数据模型在现实生�z�M��应用相当�q�泛�Q�从��市的商品分�c�d��政府的组�l�结构无不都�?#8221;树�Ş”的。在实际的项目开发中也经帔R��要显�C��U�结构。比如，在树状视图上�l�一个单位的职工赋予�pȝ��操作权限�? 在web开发中实现树状昄��在技术上主要有以下两�U�方�?1... 阅读全文

溪石 2009-05-04 13:14 发表评论

精品亚洲aⅴ在线观看,亚洲国产夜色在线观看,久久亚洲精品11p

HDAOOP SIMPLIZE TOOLKIT hadoop mapreduce���化开发包

在web开发中更加富有效率的��用JSON

利用动态类加蝲技术调式ECLIPSE插�g

HDAOOP SIMPLIZE TOOLKIT hadoop mapreduce��化开发包