Hadoop周刊 第 169 期
啟明星辰平臺和大數據整體組編譯
2016年5月8日
本周內容短小精練。主題覆蓋Apache Beam、MapR季度業績、最近的Kafka峰會,以及來自Cloudera新開源的分布式單元測試框架。
技術新聞
Elastic分析了宕機事件的根源。錯誤配置ZooKeeper內存設置會引起過度的GC,這將從根本上導致ZooKeeper集群丟失。文章介紹了一些緩解策略,用來防止未來類似問題的發生。
https://www.elastic.co/blog/elastic-cloud-outage-april-2016
Cask博客簡明扼要的歸納了最近Big Data Applications Meetup的花絮。首先出場的是Pachyderm,它基于Docker容器提供“數據Git”語義。第二個出場的是TubeMogul大數據平臺,TubeMogul構建于Hadoop、Hive、Spark、Presto之上。
http://blog.cask.co/2016/05/pachyderm-and-tubemogul-share-their-big-data-application-platforms-and-experience/
Google、dataArtisans同時撰文介紹了Apache Beam(前生是Google Dataflow SDK)。Google的文章解釋了為何開源和開發Beam的動機,dataArtisans的文章介紹他們對Beam模型的支持以及怎樣考慮Flink和Beam API之間的關系。
https://cloud.google.com/blog/big-data/2016/05/why-apache-beam-a-google-perspective
http://data-artisans.com/why-apache-beam/
IBM Hadoop dev博客有個關于安裝Python、Scala和為Jupyter notebook嵌入R內核的操作說明。同時,也說明了怎樣連接Spark和通過SSL暴露notebook。
https://developer.ibm.com/hadoop/blog/2016/05/04/install-jupyter-notebook-spark/
本文介紹了Mongo Hadoop的連接函數是如何竄起Spark和MongoDB的。
https://x.ai/using-the-mongo-hadoop-connector-as-a-translation-layer-to-spark/
Qubole博客撰文比較了用于大數據分析的流行編程語言—Python、R和Scala。
http://www.qubole.com/blog/big-data/programming-language/
其他新聞
MapR宣布本季度他們授權下單創紀錄的增長了99%,以及146%的美元凈增長率。
https://www.mapr.com/company/press-releases/mapr-achieves-another-record-quarter-99-software-subscription-license-growth
本文描述了最近Google Cloud Dataflow和Apache Spark在Google Compute Engine上的基準測試表現。Dataflow勝過Spark2-5.7倍(一直以來,最好是在自己的環境下評估工作負載,而不是一味的信任基準測試)。本文還解釋了一種“冷戰”,通過它使每個使用大數據工具的人獲益。
http://www.datanami.com/2016/05/02/dataflow-tops-spark-benchmark-test/
Confluent博客回顧了最近召開的Kafka峰會,包括編程挑戰預選賽,主題演講,分組會議等等。
http://www.confluent.io/blog/log-compaction-kafka-summit-edition-may-2016
福布斯介紹了美國運通在過去5年間采用大數據技術的歷程。本文中,美國運通分享了一些技巧和學到的經驗教訓,例如采用新技術的困難(得到組織高層的認同是多么的重要),以及雇傭和留住工程師的挑戰等等。
http://www.forbes.com/sites/ciocentral/2016/04/27/inside-american-express-big-data-journey/
產品發布
Cask發布了Cask Data Application Platform (CDAP)3.4版本。新版本增加了Cask Tracker,新的數據集成/審計/搜索系統,升級了Cask Hydrator的UI,增強了對Spark的支持等等。
http://blog.cask.co/2016/05/announcing-cdap-release-3-4-introducing-tracker-next-gen-hydrator-enhanced-spark-support-and-much-more/
Cloudera開源了“dist_tes”,并行執行單元測試的新工具。通過該工具,對Hadoop和Kudu項目進行單元測試,可以在數分鐘而不是數小時內完成。該工具綁定了C++和Java,并在網站上演示了這些特性。
http://blog.cloudera.com/blog/2016/05/quality-assurance-at-cloudera-distributed-unit-testing/
Google宣布Google BigQuery和Drive可集成在一起,把輸出保存到Google sheets。
http://techcrunch.com/2016/05/06/google-connects-bigquery-to-google-drive-and-sheets/
活動
中國
無