Hadoop周刊

第 165 期 2016年4月10日

啟明星辰——平臺和大數據整體組編譯

本周，包括LinkedIn 和Airbnb新開源項目在內的數個產品進行了重大版本發布。本期技術部分與流式處理有關——Spark、Flink、Kafka等等；新聞部分是關于Spark Summit 和HbaseCon的會議議程。

技術

Zalando發表了他們是如何選擇Apache Flink作為流式處理框架的文章。該文章闡述了對評價標準進行驗證后得出的結論，闡明了選擇Apache Flink的主因—在高吞吐量的情況下依然能保持低延遲，真正的流式處理，開發人員支持。

https://tech.zalando.com/blog/apache-showdown-flink-vs.-spark/

Cloudera博客刊登了來自Wargaming.net的文章，通過本文可了解到他們如何通過Kafka、HBase、Drools、Spark構建實時處理基礎設施的。另外，在數據流程方面，他們介紹了如何對HBase的檢索和序列化、HBase和Spark之間的數據本地化以及Spark計算方面的優化措施。

http://blog.cloudera.com/blog/2016/04/inside-wargamings-data-driven-real-time-rules-engine/

InfoQ發布了大規模流式處理—SMACK（Spark、Mesos、Akka、Cassandra以及 Kafka）棧的介紹視頻。討論了為什么SMACK棧在處理同樣問題的時候比Lambda架構更簡單。

http://www.infoq.com/presentations/stream-analytics-scalability

Confluent“日志壓縮”系列博文又有更新，介紹了Kafka項目三月份發生的事情。有不少令人關注的開發內容，包括機架感知、Kerberos支持、基于時間索引方面的進展。以及不少你（我也是）沒有時間持續關注的最新研發成果。

http://www.confluent.io/blog/log-compaction-highlights-in-the-kafka-and-stream-processing-community-april-2016

Apache Flink 1.0引入了新的復雜事件處理（CEP）庫。啰嗦幾句，CEP提供了一種檢測事件模式的方法。本文借助傳感器從數據中心服務器上收集數據，運用一種可能的異常檢測用例，詮釋了Flink的CEP模式API 。

http://flink.apache.org/news/2016/04/06/cep-monitoring.html

Genome Analysis Toolkit （GATK）最近宣布，下一個版本（當前是alpha）將支持Apache Spark。本文簡要介紹了工具箱并展示了怎樣通過Spark來檢測重復DNA片段的。

http://blog.cloudera.com/blog/2016/04/genome-analysis-toolkit-now-using-apache-spark-for-data-processing/

InfoWorld綜述了Spark2.0關于結構化流式處理方面的計劃。微批處理將依然延續，還有些新特性，例如無限數據幀（Infinite DataFrames）、一流的重復查詢支持。

http://www.infoworld.com/article/3052924/analytics/what-sparks-structured-streaming-really-means.html

AWS大數據博客發布了一篇通過存儲在AWS Key Management Service （KMS）中的加密密鑰加載數據到S3和Redshift的文章。除了描述所需步驟，本文還介紹了如何在AWS S3中通過KMS密鑰加密數據。

http://blogs.aws.amazon.com/bigdata/post/Tx2Q3ZBOZO9DHVQ/Encrypt-Your-Amazon-Redshift-Loads-with-Amazon-S3-and-AWS-KMS

Confluent博客介紹了如何使用Kafka Connect 和 Kafka Streams 編寫非凡的“hello world”程序。更確切地說，范例程序從IRC拉維基百科數據，并解析消息、進行多方面的統計計算。本文還用了若干程序展示了整個實現過程。

http://www.confluent.io/blog/hello-world-kafka-connect-kafka-streams

本文從Postgres 向 Cassandra轉換簡單的模式（schemas），并描述了主要的差異—復制、數據類型（Cassandra不支持JSON）、主鍵、最終以一致性。

http://neovintage.org/2016/04/07/data-modeling-in-cassandra-from-a-postgres-perspective/

新聞

ESG博客報導了最近Strata+Hadoop World大會的情況。并有些重點關注，例如Spark的良好勢頭、機器學習、云服務。

http://blog.esg-global.com/riding-high-at-stratahadoop-world

InformationWeek也報導了Strata大會，關注了MapR和Pivotal的關燈片、人工智能等。

http://www.informationweek.com/big-data/ai-public-data-sets-real-time-strata-+-hadoop-keynote-sampling/d/d-id/1324943?

Spark Summit 2016議程敲定，將于6月6-8日在舊金山舉行。會議將有兩天展開五個方向的討論。

https://databricks.com/blog/2016/04/04/agenda-announced-for-sparksummit-2016-in-san-francisco.html

福布斯采訪了Cloudera CEO Tom Reilly，他討論了公司的機遇、競爭性市場、上市計劃等。

http://www.forbes.com/sites/roberthof/2016/04/06/ceo-tom-reilly-makes-the-case-for-cloudera-and-its-ipo/

Datanami撰文將正在崛起的Apache Kafka作為流式處理的支柱。文章還采訪了Confluent聯合創始人兼CTO Neha Narkhede，坊間她表示最近將推出Kafka Connect 和 Kafka Streams。

http://www.datanami.com/2016/04/06/real-time-rise-apache-kafka/

HBaseCon將于5月24日在舊金山召開，最近議程才正式宣布。在三個方向上，將有20個以上的議題要討論。

http://blog.cloudera.com/blog/2016/04/hbasecon-2016-speaker-lineup-announced/

發布

Apache HBase 0.98.18 和1.1.4最近都發布了。1.1.4上有包括九個或正確性在內的若干修復。HBase 0.98.18羞答答的僅解決了50個問題（bug、改善兩個新特性）。

http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCANZa%3DGu-mAxKEtfoRjctHcE0KD7z52oE010Fgsf6AMmW2tDZLA%40mail.gmail.com%3E
http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCA%2BRK%3D_CtZ1L07nS6Og2ekfVwet0qTE7jw-bmyD2pp5UPweUehQ%40mail.gmail.com%3E

Apache Lens發布了2.5.0-beta，作為統一分析接口，它已經支持Hadoop生態系統的執行引擎數據存儲了。本次發布解決了87票，主要是bug修復和實現新功能。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAL3kmZj60kpopRPpOVEs9o7oTg7YuaC_=c8zncBeMyUESrZsmQ@mail.gmail.com%3E

Airbnb 開源了 Caravel，數據探索系統（數據可視化平臺）。Caravel支持多種在商業產品上才能看到的特性，能夠連接到任意只要支持SQL方言的系統。尤其它支持面向Druid的實時分析。

https://medium.com/airbnb-engineering/caravel-airbnb-s-data-exploration-platform-15a72aa610e5

MapR 宣布支持Apache Drill 1.6作為他們的分布式系統。比較有亮點的發布有MapR-DB新存儲插件、新SQL窗口函數支持以及端對端安全。在網頁介紹部分，有些使用MapR-DB API加載數據并通過Drill查詢的例子。

https://www.mapr.com/blog/apache-drill-16-mapr-converged-platform-gearing-new-generation-stack-json-enabled-big-data

Apache Flink發布了修復bug后的1.0.x。這次發布解決了23個問題，推薦所有1.0.0的用戶升級。

http://flink.apache.org/news/2016/04/06/release-1.0.1.html

Cloudera Enterprise 5.7發布附帶了Spark、HBase、Impala、Kafka等組件版本的升級。本次發布的亮點包括從Cloudera Labs 新鮮推薦的Hive-on-Spark、HBase-Spark、Impala性能重要提升，支持SSD 上HBase WAL。

http://blog.cloudera.com/blog/2016/04/cloudera-enterprise-5-7-is-released/

Apache Tajo，構建在Hadoop上的數據倉庫系統，發布了0.11.2版。新版本支持了Kerberos，修復了ORC表對Hive的支持等。

http://tajo.apache.org/releases/0.11.2/announcement.html

LinkedIn 開源了 Dr. Elephant，里面的工具能診斷Hadoop和Spark任務的性能問題。基于metrics從YARN資源管理器收集已完成任務數據，Dr. Elephant評估后生成診斷報表，內容包括數據錯位、GC開銷等。LinkedIn宣稱借助它能解決80%的問題。

https://engineering.linkedin.com/blog/2016/04/dr-elephant-open-source-self-serve-performance-tuning-hadoop-spark

活動

中國

無

posted on 2016-04-14 18:02 Rosen 閱讀(730) 評論(0) 編輯收藏所屬分類: 大數據

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理
相關文章: Hadoop周刊—第 167 期 Hadoop周刊—第 166 期 Hadoop周刊—第 165 期

成都心情

公告

隨筆分類(91)

隨筆檔案(99)

文章分類(2)

友情鏈接

積分與排名

最新評論

閱讀排行榜

評論排行榜

技術

新聞

發布

活動