Hadoop周刊 第 172 期
啟明星辰平臺(tái)和大數(shù)據(jù)總體組編譯
2016年5月22日
本周主要關(guān)注流式計(jì)算—— Twitter和Cloudera介紹了他們新的流式計(jì)算框架,有文章介紹了Apache Flink的流式SQL,DataTorrent介紹了Apache Apex容錯(cuò)機(jī)制,還有Concord這樣新的流式計(jì)算框架,另外還有Apache Kafka的0.10版。其他新聞方面,Apache孵化器有新動(dòng)向——Apache TinkerPop和Apache Zeppelin孵化成為頂級(jí)項(xiàng)目,Tephra進(jìn)入孵化器。除了上述內(nèi)容,Apache Spark、Apache HBase、Apache Drill、Apache Ambari等也有新文章。
技術(shù)新聞
DataTorrent博客撰文介紹了Apache Apex在讀寫數(shù)據(jù)文件時(shí)的容錯(cuò)機(jī)制。Apex是專門處理流式數(shù)據(jù)的,流式計(jì)算有一些微妙但重要的細(xì)節(jié)需要考慮。例如使用HDFS輸出時(shí),HDFS的租約機(jī)制會(huì)引發(fā)問題。
https://www.datatorrent.com/blog/fault-tolerant-file-processing/
Databricks博客介紹了Spark 2.0中Tungsten代碼生成引擎帶來的性能提升。博文舉例說明了由于虛擬函數(shù)的管理,更好地利用CPU寄存器和循環(huán)展開,所以代碼生成引擎能更快的生成代碼。除了Databricks的博文外,Morning Paper還談到以上技術(shù)其實(shí)是受到VLDB論文的啟發(fā)。
https://databricks.com/blog/2016/05/23/apache-spark-as-a-compiler-joining-a-billion-rows-per-second-on-a-laptop.html
https://blog.acolyer.org/2016/05/23/efficiently-compiling-efficient-query-plans-for-modern-hardware/
StreamScope是微軟流式處理系統(tǒng),是Morning Paper本周撰寫的另一個(gè)流式計(jì)算文章。介紹了該系統(tǒng)的特征——吞吐量/集群大小、編程模型(SQL)、時(shí)間模型、語(yǔ)義學(xué)/保證,以及微軟產(chǎn)品中的應(yīng)用。
https://blog.acolyer.org/2016/05/24/streamscope-continuous-reliable-distributed-processing-of-big-data-streams/
Apache博客撰文介紹了HubSpot團(tuán)隊(duì)對(duì)Apache HBase的G1GC調(diào)優(yōu)方面的經(jīng)驗(yàn)。本文回顧HubSpot如何嘗試和保障穩(wěn)定性、如何保障99%的性能、如何縮短花在垃圾回收上的時(shí)間。該團(tuán)隊(duì)使用很多技巧,很好地決絕了錯(cuò)綜復(fù)雜的GC算法。本文最后,還一步步示范了HBase的G1GC調(diào)優(yōu)。
https://blogs.apache.org/hbase/entry/tuning_g1gc_for_your_hbase
LinkedIn撰文闡述了調(diào)試Kafka偏移量管理問題的諸多困難。本文聚焦了兩個(gè)所謂"offset rewind"事件的癥狀,如何在監(jiān)控過程中檢測(cè)到這類事件,以及導(dǎo)致這兩個(gè)事件的根本原因(及解決方案)。
https://engineering.linkedin.com/blog/2016/05/kafkaesque-days-at-linkedin--part-1
Databricks博客發(fā)布了使用Apache Spark進(jìn)行基因變異分析系列文章的第三部分也是最后一篇。本文從準(zhǔn)備(把文件轉(zhuǎn)換到Parquet并加載進(jìn)Spark RRD)到如何加載基因型數(shù)據(jù)再到運(yùn)行kmeans聚類算法基于基因型特征預(yù)測(cè)地理種群。
https://databricks.com/blog/2016/05/24/predicting-geographic-population-using-genome-variants-and-k-means.html
許多批處理大數(shù)據(jù)生態(tài)系統(tǒng)已從自定義API回到SQL上,所以如果流式處理框架也發(fā)生了同樣的變化,一定很有趣。本文,Apache Flink團(tuán)隊(duì)介紹他們計(jì)劃支持流式SQL。Flink已經(jīng)有了Table API,他們利用Apache Calcite提供了對(duì)SQL的支持。對(duì)于windowing,他們計(jì)劃用Calcite的流式SQL擴(kuò)展。最初對(duì)SQL的支持將在1.1.0版中體現(xiàn),在1.2.0版加強(qiáng)。
http://flink.apache.org/news/2016/05/24/stream-sql.html
本文介紹了Apache Drill的XML插件。盡管還沒有和Drill集成在一起,但它相當(dāng)容易被編譯成jar和配置對(duì)XML的支持。
https://www.mapr.com/blog/how-use-xml-plugin-apache-drill
Hortonworks博客簡(jiǎn)略介紹了Ambari監(jiān)控度量系統(tǒng)的架構(gòu),最近加入了Grafana作為其前端儀表盤。該系統(tǒng)使用Apache Phoenix和Apache HBase作為存儲(chǔ)支撐,所以是可以橫向擴(kuò)展的。
http://hortonworks.com/blog/hood-ambari-metrics-grafana/
這篇教程介紹了怎樣在Amazon EMR上使用Spark SQL與Hue、Apache Zeppelin配合運(yùn)行SQL查詢存儲(chǔ)在S3中跨制表符分割的數(shù)據(jù)。本文最后展示了如何從Spark向DynamoDB存儲(chǔ)數(shù)據(jù)。
http://blogs.aws.amazon.com/bigdata/post/Tx2D93GZRHU3TES/Using-Spark-SQL-for-ETL
Heroku團(tuán)隊(duì)分享了他們使用最新版Apache Kafka的體驗(yàn)——才引入的timestamp字段(8字節(jié))會(huì)導(dǎo)致一些反直覺的性能變化。
https://engineering.heroku.com/blogs/2016-05-27-apache-kafka-010-evaluating-performance-in-distributed-systems/
其他新聞
O'Reilly數(shù)據(jù)播客秀就Spark 2.0中結(jié)構(gòu)化流式計(jì)算方面的問題采訪了來自Databricks的Michael Armbrust。網(wǎng)站上的一篇文章選擇引用了其中的話題—— Spark SQL、結(jié)構(gòu)化流式計(jì)算的目標(biāo)、端到端管道的保證、對(duì)在線處理運(yùn)用Spark機(jī)器學(xué)習(xí)算法。
https://www.oreilly.com/ideas/structured-streaming-comes-to-apache-spark-2-0
本周兩個(gè)大數(shù)據(jù)項(xiàng)目從Apache孵化器孵化完成——Apache TinkerPop和Apache Zeppelin。TinkerPop是圖計(jì)算框架,Zeppelin是面向數(shù)據(jù)分析基于web的notebook。
https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces91
https://blogs.apache.org/foundation/entry/the_apache_software_foundation_announces92
Tephra,HBase的事務(wù)引擎進(jìn)入了Apache孵化器。Tephra最初由Cask的團(tuán)隊(duì)創(chuàng)建,目前僅和Apache Phoenix進(jìn)行了集成。
http://blog.cask.co/2016/05/tephra-a-transaction-engine-for-hbase-moves-to-apache-incubation/
TechRepublic撰文介紹了Concord.io,一個(gè)由C++開發(fā)的流式處理框架。旨在填補(bǔ)高性能流式計(jì)算市場(chǎng)的空缺。
http://www.techrepublic.com/article/could-concord-topple-apache-spark-from-its-big-data-throne/
產(chǎn)品發(fā)布
Apache Avro本周發(fā)布了1.8.1版。修復(fù)了超過20個(gè)bug和一些其它進(jìn)步。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAO4re1nYMm79WQ2LUeODWjHmJ9EiYOF=mty6p2aiq-S_4R95iQ@mail.gmail.com%3E
Confluent發(fā)布了基于librdkafka開發(fā)的Kafka Python客戶端。
https://pypi.python.org/pypi/confluent-kafka/0.9.1.1
伴隨著新的Kafka 流式計(jì)算方式,Apache Kafka 0.10版發(fā)布了。新版本支持了機(jī)架感知和消息中的timestamp,提升了SASL和Kafka Connect等。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAPuboUuRyCRxDp5CLjv2yVM77SpYFF+HdnBeiiyeumYTJNpY4g@mail.gmail.com%3E
Confluent發(fā)布了基于Apache Kafka 0.10的Confluent Platform 3.0版。除了Kafka的核心特性,Confluent Platform還有一個(gè)商業(yè)組件為Kafka Connect提供配置工具和端到端流監(jiān)控。
http://www.confluent.io/blog/announcing-apache-kafka-0.10-and-confluent-platform-3.0
Apache Kylin,大數(shù)據(jù)OLAP引擎,發(fā)布了1.5.2版。作為一次補(bǔ)丁級(jí)的發(fā)布,1.5.2有不少新特性/提升/bug修復(fù),包括支持CDH 5.7和MapR。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCA+LQBaTDxb4wVYVvtOC22gMbJ0p9cvhAWzEY_x2n1oNGvEDPSQ@mail.gmail.com%3E
Twitter開源了他們的流式處理系統(tǒng)Heron。Heron是Twitter用于替換Apache Storm的產(chǎn)品,發(fā)力點(diǎn)在性能、調(diào)試以及開發(fā)人員生產(chǎn)率。
https://blog.twitter.com/2016/open-sourcing-twitter-heron
Envelope是來自于Cloudera Labs的新項(xiàng)目,它提供了基于配置文件的流式ETL處理過程。構(gòu)建在Spark streaming之上,Envelope最近正在研發(fā)面向Kafka和Kudu的連接器。
http://blog.cloudera.com/blog/2016/05/new-in-cloudera-labs-envelope-for-apache-spark-streaming/
活動(dòng)
中國(guó)
Spark Meetup 4 (杭州) – 周日, 6月5日
http://www.meetup.com/Hangzhou-Apache-Spark-Meetup/events/231071384/
Powered by: BlogJava Copyright © Rosen