Hadoop周刊
第 165 期 2016年4月10日
啟明星辰——平臺和大數據整體組編譯
本周,包括LinkedIn 和Airbnb新開源項目在內的數個產品進行了重大版本發布。本期技術部分與流式處理有關——Spark、Flink、Kafka等等;新聞部分是關于Spark Summit 和HbaseCon的會議議程。
技術
Zalando發表了他們是如何選擇Apache Flink作為流式處理框架的文章。該文章闡述了對評價標準進行驗證后得出的結論,闡明了選擇Apache Flink的主因—在高吞吐量的情況下依然能保持低延遲,真正的流式處理,開發人員支持。
https://tech.zalando.com/blog/apache-showdown-flink-vs.-spark/
Cloudera博客刊登了來自Wargaming.net的文章,通過本文可了解到他們如何通過Kafka、HBase、Drools、Spark構建實時處理基礎設施的。另外,在數據流程方面,他們介紹了如何對HBase的檢索和序列化、HBase和Spark之間的數據本地化以及Spark計算方面的優化措施。
http://blog.cloudera.com/blog/2016/04/inside-wargamings-data-driven-real-time-rules-engine/
InfoQ發布了大規模流式處理—SMACK(Spark、Mesos、Akka、Cassandra以及 Kafka)棧的介紹視頻。討論了為什么SMACK棧在處理同樣問題的時候比Lambda架構更簡單。
http://www.infoq.com/presentations/stream-analytics-scalability
Confluent“日志壓縮”系列博文又有更新,介紹了Kafka項目三月份發生的事情。有不少令人關注的開發內容,包括機架感知、Kerberos支持、基于時間索引方面的進展。以及不少你(我也是)沒有時間持續關注的最新研發成果。
Apache Flink 1.0引入了新的復雜事件處理(CEP)庫。啰嗦幾句,CEP提供了一種檢測事件模式的方法。本文借助傳感器從數據中心服務器上收集數據,運用一種可能的異常檢測用例,詮釋了Flink的CEP模式API 。
http://flink.apache.org/news/2016/04/06/cep-monitoring.html
Genome Analysis Toolkit (GATK)最近宣布,下一個版本(當前是alpha)將支持Apache Spark。本文簡要介紹了工具箱并展示了怎樣通過Spark來檢測重復DNA片段的。
InfoWorld綜述了Spark2.0關于結構化流式處理方面的計劃。微批處理將依然延續,還有些新特性,例如無限數據幀(Infinite DataFrames)、一流的重復查詢支持。
AWS大數據博客發布了一篇通過存儲在AWS Key Management Service (KMS)中的加密密鑰加載數據到S3和Redshift的文章。除了描述所需步驟,本文還介紹了如何在AWS S3中通過KMS密鑰加密數據。
Confluent博客介紹了如何使用Kafka Connect 和 Kafka Streams 編寫非凡的“hello world”程序。更確切地說,范例程序從IRC拉維基百科數據,并解析消息、進行多方面的統計計算。本文還用了若干程序展示了整個實現過程。
http://www.confluent.io/blog/hello-world-kafka-connect-kafka-streams
本文從Postgres 向 Cassandra轉換簡單的模式(schemas),并描述了主要的差異—復制、數據類型(Cassandra不支持JSON)、主鍵、最終以一致性。
http://neovintage.org/2016/04/07/data-modeling-in-cassandra-from-a-postgres-perspective/
新聞
ESG博客報導了最近Strata+Hadoop World大會的情況。并有些重點關注,例如Spark的良好勢頭、機器學習、云服務。
http://blog.esg-global.com/riding-high-at-stratahadoop-world
InformationWeek也報導了Strata大會,關注了MapR和Pivotal的關燈片、人工智能等。
Spark Summit 2016議程敲定,將于6月6-8日在舊金山舉行。會議將有兩天展開五個方向的討論。
https://databricks.com/blog/2016/04/04/agenda-announced-for-sparksummit-2016-in-san-francisco.html
福布斯采訪了Cloudera CEO Tom Reilly,他討論了公司的機遇、競爭性市場、上市計劃等。
Datanami撰文將正在崛起的Apache Kafka作為流式處理的支柱。文章還采訪了Confluent聯合創始人兼CTO Neha Narkhede,坊間她表示最近將推出Kafka Connect 和 Kafka Streams。
http://www.datanami.com/2016/04/06/real-time-rise-apache-kafka/
HBaseCon將于5月24日在舊金山召開,最近議程才正式宣布。在三個方向上,將有20個以上的議題要討論。
http://blog.cloudera.com/blog/2016/04/hbasecon-2016-speaker-lineup-announced/
發布
Apache HBase 0.98.18 和1.1.4最近都發布了。1.1.4上有包括九個或正確性在內的若干修復。HBase 0.98.18羞答答的僅解決了50個問題(bug、改善兩個新特性)。
http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCANZa%3DGu-mAxKEtfoRjctHcE0KD7z52oE010Fgsf6AMmW2tDZLA%40mail.gmail.com%3E
http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCA%2BRK%3D_CtZ1L07nS6Og2ekfVwet0qTE7jw-bmyD2pp5UPweUehQ%40mail.gmail.com%3E
Apache Lens發布了2.5.0-beta,作為統一分析接口,它已經支持Hadoop生態系統的執行引擎數據存儲了。本次發布解決了87票,主要是bug修復和實現新功能。
Airbnb 開源了 Caravel,數據探索系統(數據可視化平臺)。Caravel支持多種在商業產品上才能看到的特性,能夠連接到任意只要支持SQL方言的系統。尤其它支持面向Druid的實時分析。
https://medium.com/airbnb-engineering/caravel-airbnb-s-data-exploration-platform-15a72aa610e5
MapR 宣布支持Apache Drill 1.6作為他們的分布式系統。比較有亮點的發布有MapR-DB新存儲插件、新SQL窗口函數支持以及端對端安全。在網頁介紹部分,有些使用MapR-DB API加載數據并通過Drill查詢的例子。
Apache Flink發布了修復bug后的1.0.x。這次發布解決了23個問題,推薦所有1.0.0的用戶升級。
http://flink.apache.org/news/2016/04/06/release-1.0.1.html
Cloudera Enterprise 5.7發布附帶了Spark、HBase、Impala、Kafka等組件版本的升級。本次發布的亮點包括從Cloudera Labs 新鮮推薦的Hive-on-Spark、HBase-Spark、Impala性能重要提升,支持SSD 上HBase WAL。
http://blog.cloudera.com/blog/2016/04/cloudera-enterprise-5-7-is-released/
Apache Tajo,構建在Hadoop上的數據倉庫系統,發布了0.11.2版。新版本支持了Kerberos,修復了ORC表對Hive的支持等。
http://tajo.apache.org/releases/0.11.2/announcement.html
LinkedIn 開源了 Dr. Elephant,里面的工具能診斷Hadoop和Spark任務的性能問題。基于metrics從YARN資源管理器收集已完成任務數據,Dr. Elephant評估后生成診斷報表,內容包括數據錯位、GC開銷等。LinkedIn宣稱借助它能解決80%的問題。
活動
中國
無