Hadoop周刊
第 165 期 2016年4月10日
啟明星辰——平臺和大數(shù)據(jù)整體組編譯
本周,包括LinkedIn 和Airbnb新開源項目在內(nèi)的數(shù)個產(chǎn)品進(jìn)行了重大版本發(fā)布。本期技術(shù)部分與流式處理有關(guān)——Spark、Flink、Kafka等等;新聞部分是關(guān)于Spark Summit 和HbaseCon的會議議程。
Zalando發(fā)表了他們是如何選擇Apache Flink作為流式處理框架的文章。該文章闡述了對評價標(biāo)準(zhǔn)進(jìn)行驗證后得出的結(jié)論,闡明了選擇Apache Flink的主因—在高吞吐量的情況下依然能保持低延遲,真正的流式處理,開發(fā)人員支持。
https://tech.zalando.com/blog/apache-showdown-flink-vs.-spark/
Cloudera博客刊登了來自Wargaming.net的文章,通過本文可了解到他們?nèi)绾瓮ㄟ^Kafka、HBase、Drools、Spark構(gòu)建實時處理基礎(chǔ)設(shè)施的。另外,在數(shù)據(jù)流程方面,他們介紹了如何對HBase的檢索和序列化、HBase和Spark之間的數(shù)據(jù)本地化以及Spark計算方面的優(yōu)化措施。
http://blog.cloudera.com/blog/2016/04/inside-wargamings-data-driven-real-time-rules-engine/
InfoQ發(fā)布了大規(guī)模流式處理—SMACK(Spark、Mesos、Akka、Cassandra以及 Kafka)棧的介紹視頻。討論了為什么SMACK棧在處理同樣問題的時候比Lambda架構(gòu)更簡單。
http://www.infoq.com/presentations/stream-analytics-scalability
Confluent“日志壓縮”系列博文又有更新,介紹了Kafka項目三月份發(fā)生的事情。有不少令人關(guān)注的開發(fā)內(nèi)容,包括機(jī)架感知、Kerberos支持、基于時間索引方面的進(jìn)展。以及不少你(我也是)沒有時間持續(xù)關(guān)注的最新研發(fā)成果。
http://www.confluent.io/blog/log-compaction-highlights-in-the-kafka-and-stream-processing-community-april-2016
Apache Flink 1.0引入了新的復(fù)雜事件處理(CEP)庫。啰嗦幾句,CEP提供了一種檢測事件模式的方法。本文借助傳感器從數(shù)據(jù)中心服務(wù)器上收集數(shù)據(jù),運(yùn)用一種可能的異常檢測用例,詮釋了Flink的CEP模式API 。
http://flink.apache.org/news/2016/04/06/cep-monitoring.html
Genome Analysis Toolkit (GATK)最近宣布,下一個版本(當(dāng)前是alpha)將支持Apache Spark。本文簡要介紹了工具箱并展示了怎樣通過Spark來檢測重復(fù)DNA片段的。
http://blog.cloudera.com/blog/2016/04/genome-analysis-toolkit-now-using-apache-spark-for-data-processing/
InfoWorld綜述了Spark2.0關(guān)于結(jié)構(gòu)化流式處理方面的計劃。微批處理將依然延續(xù),還有些新特性,例如無限數(shù)據(jù)幀(Infinite DataFrames)、一流的重復(fù)查詢支持。
http://www.infoworld.com/article/3052924/analytics/what-sparks-structured-streaming-really-means.html
AWS大數(shù)據(jù)博客發(fā)布了一篇通過存儲在AWS Key Management Service (KMS)中的加密密鑰加載數(shù)據(jù)到S3和Redshift的文章。除了描述所需步驟,本文還介紹了如何在AWS S3中通過KMS密鑰加密數(shù)據(jù)。
http://blogs.aws.amazon.com/bigdata/post/Tx2Q3ZBOZO9DHVQ/Encrypt-Your-Amazon-Redshift-Loads-with-Amazon-S3-and-AWS-KMS
Confluent博客介紹了如何使用Kafka Connect 和 Kafka Streams 編寫非凡的“hello world”程序。更確切地說,范例程序從IRC拉維基百科數(shù)據(jù),并解析消息、進(jìn)行多方面的統(tǒng)計計算。本文還用了若干程序展示了整個實現(xiàn)過程。
http://www.confluent.io/blog/hello-world-kafka-connect-kafka-streams
本文從Postgres 向 Cassandra轉(zhuǎn)換簡單的模式(schemas),并描述了主要的差異—復(fù)制、數(shù)據(jù)類型(Cassandra不支持JSON)、主鍵、最終以一致性。
http://neovintage.org/2016/04/07/data-modeling-in-cassandra-from-a-postgres-perspective/
ESG博客報導(dǎo)了最近Strata+Hadoop World大會的情況。并有些重點關(guān)注,例如Spark的良好勢頭、機(jī)器學(xué)習(xí)、云服務(wù)。
http://blog.esg-global.com/riding-high-at-stratahadoop-world
InformationWeek也報導(dǎo)了Strata大會,關(guān)注了MapR和Pivotal的關(guān)燈片、人工智能等。
http://www.informationweek.com/big-data/ai-public-data-sets-real-time-strata-+-hadoop-keynote-sampling/d/d-id/1324943?
Spark Summit 2016議程敲定,將于6月6-8日在舊金山舉行。會議將有兩天展開五個方向的討論。
https://databricks.com/blog/2016/04/04/agenda-announced-for-sparksummit-2016-in-san-francisco.html
福布斯采訪了Cloudera CEO Tom Reilly,他討論了公司的機(jī)遇、競爭性市場、上市計劃等。
http://www.forbes.com/sites/roberthof/2016/04/06/ceo-tom-reilly-makes-the-case-for-cloudera-and-its-ipo/
Datanami撰文將正在崛起的Apache Kafka作為流式處理的支柱。文章還采訪了Confluent聯(lián)合創(chuàng)始人兼CTO Neha Narkhede,坊間她表示最近將推出Kafka Connect 和 Kafka Streams。
http://www.datanami.com/2016/04/06/real-time-rise-apache-kafka/
HBaseCon將于5月24日在舊金山召開,最近議程才正式宣布。在三個方向上,將有20個以上的議題要討論。
http://blog.cloudera.com/blog/2016/04/hbasecon-2016-speaker-lineup-announced/
Apache HBase 0.98.18 和1.1.4最近都發(fā)布了。1.1.4上有包括九個或正確性在內(nèi)的若干修復(fù)。HBase 0.98.18羞答答的僅解決了50個問題(bug、改善兩個新特性)。
http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCANZa%3DGu-mAxKEtfoRjctHcE0KD7z52oE010Fgsf6AMmW2tDZLA%40mail.gmail.com%3E http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCA%2BRK%3D_CtZ1L07nS6Og2ekfVwet0qTE7jw-bmyD2pp5UPweUehQ%40mail.gmail.com%3E
Apache Lens發(fā)布了2.5.0-beta,作為統(tǒng)一分析接口,它已經(jīng)支持Hadoop生態(tài)系統(tǒng)的執(zhí)行引擎數(shù)據(jù)存儲了。本次發(fā)布解決了87票,主要是bug修復(fù)和實現(xiàn)新功能。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAL3kmZj60kpopRPpOVEs9o7oTg7YuaC_=c8zncBeMyUESrZsmQ@mail.gmail.com%3E
Airbnb 開源了 Caravel,數(shù)據(jù)探索系統(tǒng)(數(shù)據(jù)可視化平臺)。Caravel支持多種在商業(yè)產(chǎn)品上才能看到的特性,能夠連接到任意只要支持SQL方言的系統(tǒng)。尤其它支持面向Druid的實時分析。
https://medium.com/airbnb-engineering/caravel-airbnb-s-data-exploration-platform-15a72aa610e5
MapR 宣布支持Apache Drill 1.6作為他們的分布式系統(tǒng)。比較有亮點的發(fā)布有MapR-DB新存儲插件、新SQL窗口函數(shù)支持以及端對端安全。在網(wǎng)頁介紹部分,有些使用MapR-DB API加載數(shù)據(jù)并通過Drill查詢的例子。
https://www.mapr.com/blog/apache-drill-16-mapr-converged-platform-gearing-new-generation-stack-json-enabled-big-data
Apache Flink發(fā)布了修復(fù)bug后的1.0.x。這次發(fā)布解決了23個問題,推薦所有1.0.0的用戶升級。
http://flink.apache.org/news/2016/04/06/release-1.0.1.html
Cloudera Enterprise 5.7發(fā)布附帶了Spark、HBase、Impala、Kafka等組件版本的升級。本次發(fā)布的亮點包括從Cloudera Labs 新鮮推薦的Hive-on-Spark、HBase-Spark、Impala性能重要提升,支持SSD 上HBase WAL。
http://blog.cloudera.com/blog/2016/04/cloudera-enterprise-5-7-is-released/
Apache Tajo,構(gòu)建在Hadoop上的數(shù)據(jù)倉庫系統(tǒng),發(fā)布了0.11.2版。新版本支持了Kerberos,修復(fù)了ORC表對Hive的支持等。
http://tajo.apache.org/releases/0.11.2/announcement.html
LinkedIn 開源了 Dr. Elephant,里面的工具能診斷Hadoop和Spark任務(wù)的性能問題?;?/span>metrics從YARN資源管理器收集已完成任務(wù)數(shù)據(jù),Dr. Elephant評估后生成診斷報表,內(nèi)容包括數(shù)據(jù)錯位、GC開銷等。LinkedIn宣稱借助它能解決80%的問題。
https://engineering.linkedin.com/blog/2016/04/dr-elephant-open-source-self-serve-performance-tuning-hadoop-spark
中國
無
Powered by: BlogJava Copyright © Rosen