??xml version="1.0" encoding="utf-8" standalone="yes"?>
Ƣ迎来到Hadoop周刊周一特别版。本周有大量来自Spark?/span>Kafka?/span>Beam?/span>Kudu的技术新闅R如果你正在L一些更前沿的技术,Apache MetronQ孵化中Q发布了它们W一个版本?/span>MetronQ是一个构建在Hadoop上正在不断发展的通用安全pȝ?/span>
技术新?/span>
本文介绍了如何在AWS上构建流式处理系l。包括了诸如Amazon Kinesis ?/span>AWS Lambda?/span>Kineses S3 connector之类单的搭配ҎQ也介绍?/span>AWS实现实时分析场景q样相对复杂点的Ҏ?/span>
本文介绍了怎样使用Spark Testing Base?/span>Spark Testing Base是一个用Scala~写Q通过Java调用?/span>Spark试框架。本文的样例代码展示了如何隔L试逻辑重构Spark代码Q同时还通过Java处理了一些臃肿的Scala API?/span>
http://www.jesse-anderson.com/2016/04/unit-testing-spark-with-java/
Altiscale博客概述了在Spark环境下,构徏thin?/span>uber jar包的优劣。示范了?/span>Maven?/span>SBT分别构徏两种包的情况?/span>
https://www.altiscale.com/blog/spark-on-hadoop-thin-jars/
LinkedIn介绍了他们的Kafka生态系l,生态系l包含一个特D的Kafka producerQ一个ؓ?/span>Java客户端提供的REST APIQ一?/span>avro模式注册表,以及GobblinQ装载数据到Hadoop的工P{等?/span>
https://engineering.linkedin.com/blog/2016/04/kafka-ecosystem-at-linkedin
?/span>Spark Streaming教程介绍了怎样通过twitter4j API拉推文,Z标签qoQ对推文q行情感分析?/span>
https://www.mapr.com/blog/spark-streaming-and-twitter-sentiment-analysis
Apache KuduQ孵化中Q是Apache ImpalaQ孵化中Q的l佳伴GQ因为它能高效地解决q泛的分析和有针Ҏ的查询。本文描qC两者集成的技术细节,例如Kudu的设计如何保证高效地查询能力Q如何通过Impala?/span>Kudu执行写/更新Q删除操作等{?/span>
http://blog.cloudera.com/blog/2016/04/how-to-use-impala-and-kudu-together-for-analytic-workloads/
MapR撰文介绍了?/span>spark-sklearn扩展一个已存在?/span>scikit-learn模型。文章介l了如何透过Airbnb数据集内部徏模,q介l了如何傍着spark-sklearnq行交叉验证?/span>
https://www.mapr.com/blog/predicting-airbnb-listing-prices-scikit-learn-and-apache-spark
AWS大数据博客写了个如何?/span>Amazon EMR中?/span>HBase?/span>Hive的教E。本教程介绍?/span>HBaseQ描qC如何?/span>S3中恢?/span>HBase表,C?/span>Hive?/span>HBase如何集成{等?/span>
本文描述了ؓ学生在大数据评上提供实战经验的挑战。作者经历若q次的P代和选择g有了一个好Ҏ— Altiscale?/span>Hadoop-as-a-Service?/span>
https://www.altiscale.com/blog/hadoop-as-a-service-in-the-classroom/
Cloudera博客的一客做文章,作者比较了Parquet?/span>Avro在跨两个数据集的不同处理方式Q一个数据集H?/span>(3?/span>)、一个数据集?/span>(103?/span>)Q。在?/span>Spark?/span>Spark SQL试查询Q操作后Q作者发?/span>Parquet?/span>Avro在查询序列化数据斚w有时表现很类|管在大多数情况下查?/span>Parquet数据的时候更快点Q序列化数据更小Q?/span>
http://blog.cloudera.com/blog/2016/04/benchmarking-apache-parquet-the-allstate-experience/
本文介绍了如何在CDHq样的分布式环境中?/span>SparkRQ尽?/span>SparkR官方q没有支持这U方式。借助YARN?/span>worker本地安装R语言包,jobE加攚w就能执行了?/span>
http://www.nodalpoint.com/sparkr-in-cloudera-hadoop/
很多开源框枉能执?/span>MapReduce以及借助更高U的~程模型完成cM的工作。纵观过去,它们依赖独立q行的框Ӟ例如MapReduce, StormQ,但是最q的某些变化使得q一切充满了变数?/span>Apache BeamQ孵化中Q更q一步地跨越了批处理、流式处理两U执行模式,内置更加复杂的计模型?/span>
http://www.datanami.com/2016/04/22/apache-beam-emerges-ambitious-goal-unify-big-data-development/
Apache博客发布?/span>HBase?/span>HDD?/span>SSD以及RAMDISK上的写入性能试比对?/span>7系列文章。通过q一分析Q作者发现ƈ提议?/span>HBase?/span>HDFS上实C些未覆盖的功能?/span>
https://blogs.apache.org/hbase/entry/hdfs_hsm_and_hbase_part
其他新闻
Tom WhiteQ?/span>“Hadoop权威指南”的作者撰文介l他是如何步?/span>Apache HadoopD堂的。他的早期A献是l着Hadoop?/span>Amazon Web Services集成展开Q而今AWS已成?/span>Hadoop目成功的重要部分?/span>
http://vision.cloudera.com/how-i-got-into-hadoop/
FluoQؓApache Accumulo准备的分布式处理引擎Q向Apache孵化器提交了孵化甌?/span>
https://wiki.apache.org/incubator/FluoProposal
Apache Phoenix宣布在HBaseCon后D行会议,Apache Phoenix是一?/span>SQL-on-HBasepȝ。该会议只有半天Q主题是介绍Phoenix内部情况和用例?/span>
http://hortonworks.com/blog/announcing-first-annual-phoenixcon-apache-phoenix-user-conference/
产品发布
Apache MetronQ构ZHadoop上的安全框架Q发布了0.1版?/span>Hortonworks支撑其作为技术预览版Qƈ撰写本文介绍了如何上手,如何贡献Q如何?/span>Metron UI{等?/span>
http://hortonworks.com/blog/apache-metron-tech-preview-1-come-get/
http://hortonworks.com/blog/apache-metron-use-case-finding-needle-haystack/
Apache NiFi本周发布?/span>0.6.1版。这是修复了10多个bug后的修复版?/span>
Apache Flink本周发布?/span>1.0.2版。本ơ发布包括了bug修复Q?/span>RocksDB环境下的性能提升以及一些文档方面的q步?/span>
http://flink.apache.org/news/2016/04/22/release-1.0.2.html
Amazon发布了新?/span>Amazon EMRQ开始支?/span>HBase 1.2?/span>
https://aws.amazon.com/blogs/aws/amazon-emr-update-apache-hbase-1-2-is-now-available/
zd
中国
?/span>
2016q?/span>4?/span>17?/span>
启明星辰——q_和大数据整体l编?nbsp;
Hortonworks在本?/span>HadoopƧ洲C上有若干爆料Q诏I了本期整个内容。伴随着骄h的新Ҏ,Apache Storm发布?/span>1.0.0版。在技术新L面,有不基?/span>Kafka构徏大规模服务和分布式系l测试的文章。如果你错过?/span>HadoopCQ那么不用担心,演讲视频已经攑ֈ了网上?/span>
技术新?/span>
Smyte撰文介绍了他们基于事件数据流实时垃N件和诈骗信息的基设施。最初的事g处理pȝ构徏?/span>Kafka?/span>Redis?/span>Secor以及S3上,Z满规模不断扩张和廉L要求Q他们把pȝq移到基于磁盘的Ҏ上,使用Redis协议?/span>RocksDB交互Q?/span>Kafkaq行复制?/span>
https://medium.com/the-smyte-blog/counting-with-domain-specific-databases-73c660472da
本文?/span>rsyslog?/span>Kafka?/span>AWS ?/span>ELK栈(ElasticSearch?/span>Logstash?/span>KibanaQ结合,处理诸如反压、规模以及维护方面的问题。本文覆盖了rsyslog集成Kafka以及schema斚w的技巧,也介l了如何q行Kafka?/span>Zookeeper以及AWS中大规模自动分组?/span>
https://www.bashton.com/blog/2016/elk-on-ark/
Hortonworks撰文介绍?/span>Apache Atlas以及Apache Range要引入的数据管理特性。这些特性是Q分c访问控制、数据有效期{略、位|特性策略、禁止数据集l合、跨lg家族Q例如从Kafka?/span>Storm再到Hive的数据跟t)?/span>
http://hortonworks.com/blog/the-next-generation-of-hadoop-based-security-data-governance/
Apache HAWQ Q孵化中Q是一个基?/span>Greenplum?/span>HDFS上提供数据查询的SQL引擎。本文讨Z其典型设计以及新版本的诸多改q。包括它?/span>Spark?/span>MapReduce的区别,q有?/span>Hadoop挑战l典MPP设计的内容,以及HAWQ的新设计怎样l合MPP和批处理技术进而其两者兼?/span>
Cloudera博客撰文介绍了对Hadoop分布式系l进行故障注入、组|的试工具AgenTEST。它能注入网l故障(例如丢包Q,资源满蝲Q例?/span>CPU?/span>IO、磁盘空_{等。当试|络分区Ӟ可以评估环Şl网、桥接组|等{?/span>
Hortonworks博客展望了将包含新版?/span>Spark?/span>Zeppelin?/span>HDP 2.4.2?/span>Spark2.0预览版和Zeppelin新特性都包含在内?/span>
http://hortonworks.com/blog/apache-spark-apache-zeppelin-whats-coming-in-hdp-2-4-2/
Cask撰文介绍了在Hbase region compactionq样|见事g发生的前后,他们是怎样通过长时间测试以评估分布式系l正性的?/span>
http://blog.cask.co/2016/04/long-running-tests-in-cdap/
本文介绍了如何结?/span>SparkR与亚马?/span>EMRq行地理I间分析的。通过SparkR?/span>Hive集成lgQ可以立d?/span>S3上的数据映射Hive外部表。从q开始,数据p直接加蝲到内存中使用R语言分析Q很Ҏ实现高质量的数据可视化?/span>
MapR~写了?/span>Pig?/span>Hive分析职业球大联盟球队水q的教程?/span>Pig用于数据初加工,Hive提供ZSQL的数据查询环境。借助Hive ODBC驱动?/span>Hive服务器,使得微YExcel也能用于获取和分析数据?/span>
https://www.mapr.com/blog/using-hive-and-pig-baseball-statistics
SignalFX通过27节点?/span>Kafka集群每天处理700多亿条消息。只有基于他们积累的大规?/span>Kafka使用l验才能有如此高的量Q因此他们共享了不少调试Kafka的技巧,定位告警Q例如日志刷新gq增加)Q以?/span>Kafka横向扩展?/span>
http://www.confluent.io/blog/how-we-monitor-and-run-kafka-at-scale-signalfx
dataArtisan's博客Z度量Flink在数据流效率、低延迟、正性上的能力,专门写了q篇文章。ؓ了证明效率,在高吞吐量的环境下运行了最新的Yahoo!式基准试E序。在正确性方面,文章H出?/span>Flink事g判别和处理事Ӟ星球大战电媄q表做类比)斚w的优ѝ最后,文章描述?/span>Flink未来版本Z内存的查询Q务?/span>
http://data-artisans.com/counting-in-streams-a-hierarchy-of-needs/
本教E介l了怎样?/span>TCP Socket中的文本数据{换ؓSpark式数据源?/span>
https://medium.com/@anicolaspp/spark-custom-streaming-sources-e7d52da72e80
本文介绍了在构徏Hadoop的时候怎样防止AWS证书意外提交到补丁或git资源库。除Hadoop本n外,本文q徏议?/span>“git-secrets”工具防止意外提交讉K/安全密钥。如果你用的?/span>Hadoop S3Q还推荐了新补丁供评估?/span>
http://steveloughran.blogspot.co.uk/2016/04/testing-against-s3-and-object-stores.html
Big Data & Brews采访?/span>MapR?/span>Ted Dunning?/span>Jacques Nadeau?/span>Apache Arrow也在本次采访范围内?/span>
https://www.youtube.com/watch?v=l3mDDKjDjMk
https://www.youtube.com/watch?v=Xo9CO0a0VJI
其他新闻
DataEngConf最q在旧金山召开。本文ȝ?/span>Uber?/span>Stripe?/span>Microsoft?/span>Instacart?/span>Jawbone的发a内容。也介绍了会议主?/span>“数据U学在现实世界中是一个品和工程学科”?/span>
Hortonworks在上周都柏林举行?/span>HadoopƧ洲C上大攑ּ彩?/span>ZDNet报导了这些亮点,其中包括?/span>PivotalQ已转售l?/span>HDPQ的扩展合作Q与Syncosrt的{售协议,以及Atlas?/span>Ranger?/span>Zeppelin?/span>Metron的技术预览。报D介绍?/span>Hortonworks?/span>Cloudera?/span>MapR产品的不同之处?/span>
Flink 2016C在九月于d国柏林D行。讨题征集将于六月末l束?/span>
http://flink.apache.org/news/2016/04/14/flink-forward-announce.html
YouTube上发布了Hadoop都柏林峰会演讲视频。正如预期的那样Q这些演讲内Ҏ?/span>Hadoop生态系l的各个部分?/span>
产品发布
Metascope是一个配?/span>Schedoscope?/span>Hadoop集群中进行元数据理的新工具。通过web界面Q利用数据沿袭它能洞察大量的数据。也提供索、内嵌文档?/span>REST API{等功能?/span>
https://github.com/ottogroup/metascope
Apache HBase 1.2.1于本周发布,?/span>1.2.0的基上解决了27个问题。发布声明中重点介绍了四个高优先U的问题?/span>
Apache Mahout机器学习库发布了0.12.0版。该版本?/span>“Samsara”数学环境开始支?/span>Apache Flink了,q且是^台无关的。发布声明中分n了与Flink集成、已知问题、项目演q计划相关的内容?/span>
Apache Storm 1.0.0本周发布了。亮点包括性能提升Q普遍提?/span>3倍以上)、新的分布式~存API?/span>nimbus的高可用性、自动反压、动?/span>worker性能分析{等?/span>
http://storm.apache.org/2016/04/12/storm100-released.html
Apache KuduQ孵化中Q本周发布了0.8.0版。本ơ发布添加了Apache Flume sink、部分功能提升、修复了一?/span>bug?/span>
http://getkudu.io/releases/0.8.0/docs/release_notes.html
Cloudbreak本周发布?/span>1.2版,它ؓ云环境提?/span>Hadoop集群Docker。新Ҏ包括支?/span>OpenStack以及定义服务器提供配|脚本?/span>
http://hortonworks.com/blog/announcing-cloudbreak-1-2/
Cloudera发布?/span>Cloudera Enterprise 5.4.10Q内|了Flume?/span>Hadoop?/span>HBase?/span>Hive?/span>Impala{组件?/span>
Presto Accumulo是个新项目,?/span>Accumulod数据提供?/span>Prestoq接器?/span>
https://github.com/bloomberg/presto-accumulo
zd
中国
?/span>
W?165 ?2016q??0?
启明星辰——q_和大数据整体l编?/strong>
本周Q包?/span>LinkedIn ?/span>Airbnb新开源项目在内的C产品q行了重大版本发布。本期技术部分与式处理有关——Spark?/span>Flink?/span>Kafka{等Q新闻部分是关于Spark Summit ?/span>HbaseCon的会议议E?/span>
Zalando发表了他们是如何选择Apache Flink作ؓ式处理框架的文章。该文章阐述了对评h标准q行验证后得出的l论Q阐明了选择Apache Flink的主?/span>—在高吞吐量的情况下依然能保持低gq,真正的流式处理,开发h员支持?/span>
https://tech.zalando.com/blog/apache-showdown-flink-vs.-spark/
Cloudera博客刊登了来?/span>Wargaming.net的文章,通过本文可了解到他们如何通过Kafka?/span>HBase?/span>Drools?/span>Spark构徏实时处理基础设施的。另外,在数据流E方面,他们介绍了如何对HBase的检索和序列化?/span>HBase?/span>Spark之间的数据本地化以及Spark计算斚w的优化措施?/span>
http://blog.cloudera.com/blog/2016/04/inside-wargamings-data-driven-real-time-rules-engine/
InfoQ发布了大规模式处理—SMACKQ?/span>Spark?/span>Mesos?/span>Akka?/span>Cassandra以及 KafkaQ栈的介l视频。讨ZZ?/span>SMACK栈在处理同样问题的时候比Lambda架构更简单?/span>
http://www.infoq.com/presentations/stream-analytics-scalability
Confluent“日志压羃”pd博文又有更新Q介l了Kafka目三月份发生的事情。有不少令hx的开发内容,包括机架感知?/span>Kerberos支持、基于时间烦引方面的q展。以及不你Q我也是Q没有时间持l关注的最新研发成果?/span>
Apache Flink 1.0引入了新的复杂事件处理(CEPQ库。啰嗦几句,CEP提供了一U检事件模式的Ҏ。本文借助传感器从数据中心服务器上攉数据Q运用一U可能的异常用例,诠释?/span>Flink?/span>CEP模式API ?/span>
http://flink.apache.org/news/2016/04/06/cep-monitoring.html
Genome Analysis Toolkit Q?/span>GATKQ最q宣布,下一个版本(当前?/span>alphaQ将支持Apache Spark。本文简要介l了工具ƈ展示了怎样通过Spark来检重?/span>DNA片段的?/span>
InfoWorldlD?/span>Spark2.0关于l构化流式处理方面的计划。微批处理将依然延箋Q还有些新特性,例如无限数据帧(Infinite DataFramesQ、一的重复查询支持?/span>
AWS大数据博客发布了一通过存储?/span>AWS Key Management Service Q?/span>KMSQ中的加密密钥加载数据到S3?/span>Redshift的文章。除了描q所需步骤Q本文还介绍了如何在AWS S3中通过KMS密钥加密数据?/span>
Confluent博客介绍了如何?/span>Kafka Connect ?/span> Kafka Streams ~写非凡?/span>“hello world”E序。更切地说Q范例程序从IRC拉维基百U数据,q解析消息、进行多斚w的统计计。本文还用了若干E序展示了整个实现过E?/span>
http://www.confluent.io/blog/hello-world-kafka-connect-kafka-streams
本文?/span>Postgres ?/span> Cassandra转换单的模式Q?/span>schemasQ,q描qC主要的差?/span>—复制、数据类型(Cassandra不支?/span>JSONQ、主键、最l以一致性?/span>
http://neovintage.org/2016/04/07/data-modeling-in-cassandra-from-a-postgres-perspective/
ESG博客报导了最q?/span>Strata+Hadoop World大会的情cƈ有些重点xQ例?/span>Spark的良好势头、机器学习、云服务?/span>
http://blog.esg-global.com/riding-high-at-stratahadoop-world
InformationWeek也报gStrata大会Q关注了MapR?/span>Pivotal的关灯片、h工智能等?/span>
Spark Summit 2016议程敲定Q将?/span>6?/span>6-8日在旧金׃D行。会议将有两天展开五个方向的讨论?/span>
https://databricks.com/blog/2016/04/04/agenda-announced-for-sparksummit-2016-in-san-francisco.html
布斯采访了Cloudera CEO Tom ReillyQ他讨论了公司的机遇、竞争性市场、上市计划等?/span>
Datanami撰文正在崛LApache Kafka作ؓ式处理的支柱。文章还采访?/span>Confluent联合创始人兼CTO Neha NarkhedeQ坊间她表示最q将推出Kafka Connect ?/span> Kafka Streams?/span>
http://www.datanami.com/2016/04/06/real-time-rise-apache-kafka/
HBaseCon于5?/span>24日在旧金山召开Q最q议E才正式宣布。在三个方向上,有20个以上的议题要讨论?/span>
http://blog.cloudera.com/blog/2016/04/hbasecon-2016-speaker-lineup-announced/
Apache HBase 0.98.18 ?/span>1.1.4最q都发布了?/span>1.1.4上有包括九个或正性在内的若干修复?/span>HBase 0.98.18答{的仅解决了50个问题(bug、改善两个新Ҏ)?/span>
http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCANZa%3DGu-mAxKEtfoRjctHcE0KD7z52oE010Fgsf6AMmW2tDZLA%40mail.gmail.com%3E
http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCA%2BRK%3D_CtZ1L07nS6Og2ekfVwet0qTE7jw-bmyD2pp5UPweUehQ%40mail.gmail.com%3E
Apache Lens发布?/span>2.5.0-betaQ作为统一分析接口Q它已经支持Hadoop生态系l的执行引擎数据存储了。本ơ发布解决了87,主要?/span>bug修复和实现新功能?/span>
Airbnb 开源了 CaravelQ数据探索系l(数据可视化^収ͼ?/span>Caravel支持多种在商业品上才能看到的特性,能够q接CQ意只要支?/span>SQL方言的系l。尤其它支持面向Druid的实时分析?/span>
https://medium.com/airbnb-engineering/caravel-airbnb-s-data-exploration-platform-15a72aa610e5
MapR 宣布支持Apache Drill 1.6作ؓ他们的分布式pȝ。比较有亮点的发布有MapR-DB新存储插件、新SQLH口函数支持以及端对端安全。在|页介绍部分Q有些?/span>MapR-DB API?/span>?/span>数据q?/span>q?/span>Drill查询的例子?/span>
Apache Flink发布了修?/span>bug后的1.0.x。这ơ发布解决了23个问题,推荐所?/span>1.0.0的用户升U?/span>
http://flink.apache.org/news/2016/04/06/release-1.0.1.html
Cloudera Enterprise 5.7发布附带?/span>Spark?/span>HBase?/span>Impala?/span>Kafka{组件版本的升。本ơ发布的亮点包括?/span>Cloudera Labs 新鲜推荐?/span>Hive-on-Spark?/span>HBase-Spark?/span>Impala性能重要提升Q支?/span>SSD ?/span>HBase WAL?/span>
http://blog.cloudera.com/blog/2016/04/cloudera-enterprise-5-7-is-released/
Apache TajoQ构建在Hadoop上的数据仓库pȝQ发布了0.11.2版。新版本支持?/span>KerberosQ修复了ORC表对Hive的支持等?/span>
http://tajo.apache.org/releases/0.11.2/announcement.html
LinkedIn 开源了 Dr. ElephantQ里面的工具能诊?/span>Hadoop?/span>Sparkd的性能问题。基?/span>metrics?/span>YARN资源理器收集已完成d数据Q?/span>Dr. Elephant评估后生成诊断报表,内容包括数据错位?/span>GC开销{?/span>LinkedIn宣称借助它能解决80%的问题?/span>
中国
?/span>