Hadoop周刊 第 169 期
啟明星辰平臺和大數(shù)據(jù)整體組編譯
2016年5月8日
本周內(nèi)容短小精練。主題覆蓋Apache Beam、MapR季度業(yè)績、最近的Kafka峰會,以及來自Cloudera新開源的分布式單元測試框架。
技術(shù)新聞
Elastic分析了宕機(jī)事件的根源。錯(cuò)誤配置ZooKeeper內(nèi)存設(shè)置會引起過度的GC,這將從根本上導(dǎo)致ZooKeeper集群丟失。文章介紹了一些緩解策略,用來防止未來類似問題的發(fā)生。
https://www.elastic.co/blog/elastic-cloud-outage-april-2016
Cask博客簡明扼要的歸納了最近Big Data Applications Meetup的花絮。首先出場的是Pachyderm,它基于Docker容器提供“數(shù)據(jù)Git”語義。第二個(gè)出場的是TubeMogul大數(shù)據(jù)平臺,TubeMogul構(gòu)建于Hadoop、Hive、Spark、Presto之上。
http://blog.cask.co/2016/05/pachyderm-and-tubemogul-share-their-big-data-application-platforms-and-experience/
Google、dataArtisans同時(shí)撰文介紹了Apache Beam(前生是Google Dataflow SDK)。Google的文章解釋了為何開源和開發(fā)Beam的動機(jī),dataArtisans的文章介紹他們對Beam模型的支持以及怎樣考慮Flink和Beam API之間的關(guān)系。
https://cloud.google.com/blog/big-data/2016/05/why-apache-beam-a-google-perspective
http://data-artisans.com/why-apache-beam/
IBM Hadoop dev博客有個(gè)關(guān)于安裝Python、Scala和為Jupyter notebook嵌入R內(nèi)核的操作說明。同時(shí),也說明了怎樣連接Spark和通過SSL暴露notebook。
https://developer.ibm.com/hadoop/blog/2016/05/04/install-jupyter-notebook-spark/
本文介紹了Mongo Hadoop的連接函數(shù)是如何竄起Spark和MongoDB的。
https://x.ai/using-the-mongo-hadoop-connector-as-a-translation-layer-to-spark/
Qubole博客撰文比較了用于大數(shù)據(jù)分析的流行編程語言—Python、R和Scala。
http://www.qubole.com/blog/big-data/programming-language/
其他新聞
MapR宣布本季度他們授權(quán)下單創(chuàng)紀(jì)錄的增長了99%,以及146%的美元凈增長率。
https://www.mapr.com/company/press-releases/mapr-achieves-another-record-quarter-99-software-subscription-license-growth
本文描述了最近Google Cloud Dataflow和Apache Spark在Google Compute Engine上的基準(zhǔn)測試表現(xiàn)。Dataflow勝過Spark2-5.7倍(一直以來,最好是在自己的環(huán)境下評估工作負(fù)載,而不是一味的信任基準(zhǔn)測試)。本文還解釋了一種“冷戰(zhàn)”,通過它使每個(gè)使用大數(shù)據(jù)工具的人獲益。
http://www.datanami.com/2016/05/02/dataflow-tops-spark-benchmark-test/
Confluent博客回顧了最近召開的Kafka峰會,包括編程挑戰(zhàn)預(yù)選賽,主題演講,分組會議等等。
http://www.confluent.io/blog/log-compaction-kafka-summit-edition-may-2016
福布斯介紹了美國運(yùn)通在過去5年間采用大數(shù)據(jù)技術(shù)的歷程。本文中,美國運(yùn)通分享了一些技巧和學(xué)到的經(jīng)驗(yàn)教訓(xùn),例如采用新技術(shù)的困難(得到組織高層的認(rèn)同是多么的重要),以及雇傭和留住工程師的挑戰(zhàn)等等。
http://www.forbes.com/sites/ciocentral/2016/04/27/inside-american-express-big-data-journey/
產(chǎn)品發(fā)布
Cask發(fā)布了Cask Data Application Platform (CDAP)3.4版本。新版本增加了Cask Tracker,新的數(shù)據(jù)集成/審計(jì)/搜索系統(tǒng),升級了Cask Hydrator的UI,增強(qiáng)了對Spark的支持等等。
http://blog.cask.co/2016/05/announcing-cdap-release-3-4-introducing-tracker-next-gen-hydrator-enhanced-spark-support-and-much-more/
Cloudera開源了“dist_tes”,并行執(zhí)行單元測試的新工具。通過該工具,對Hadoop和Kudu項(xiàng)目進(jìn)行單元測試,可以在數(shù)分鐘而不是數(shù)小時(shí)內(nèi)完成。該工具綁定了C++和Java,并在網(wǎng)站上演示了這些特性。
http://blog.cloudera.com/blog/2016/05/quality-assurance-at-cloudera-distributed-unit-testing/
Google宣布Google BigQuery和Drive可集成在一起,把輸出保存到Google sheets。
http://techcrunch.com/2016/05/06/google-connects-bigquery-to-google-drive-and-sheets/
活動
中國
無
Powered by: BlogJava Copyright © Rosen