Hadoop周刊 第 174 期
啟明星辰平臺和大數據總體組編譯
2016年6月12日
Spark峰會本周在舊金山召開,正如所料,本期周刊有大量關于Apache Spark的新聞、公告和版本發布。除Spark外,本期還有Kafka、Cask、Ambari方面的文章。在產品發布部分,有一年來Apache Pig首次版本更新,還一個為分布式系統設計的簡潔新工具Runway,最后是新版Apache Kudu(孵化中)。
技術新聞
Debezium是一個相對較新的項目,用于數據庫和Apache Kafka topic行級改變數據捕獲。當面支持MySQL、Zookeeper、Kafka,這是一篇在Docker、Kubernetes容器上配置Zookeeper, Kafka, MySQL的教程。
http://debezium.io/blog/2016/05/31/Debezium-on-Kubernetes/
有些人對Apache Kafka項目宣布采用另一種流式處理引擎感到驚訝,這就是Kafka Streams。Kafka Streams與其它系統存在顯著的關鍵差異。本文很好的示范了這些不同點——abstraction、部署模型、支持基于狀態的計算。
https://softwaremill.com/kafka-streams-how-does-it-fit-stream-landscape/
每個使用MapReduce、Spark或類似系統的人都會陷入難以調試、數據特征bug這些問題中。BigDebug是UCLA(加州大學洛杉磯分校)的研究項目/論文,旨在讓開發人員通過工具發現單機問題:傳入參數導致的崩潰,跟蹤、斷點、觀察點、延遲報警等。該工具支持Apache Spark 1.2.1上。
https://blog.acolyer.org/2016/06/07/bigdebug-debugging-primitives-for-interactive-big-data-processing-in-spark/
Cask撰文介紹了在開源Cask Data Application Platform (CDAP)中運行Spark的文章。運行在CDAP的Spark程序通過訪問Apache Tephra(孵化中)實現細粒度事務支持。這樣,就能很容易利用快照隔離實現從一個表復制到另一個表的一致性。CDAP中的Spark也能訪問Cask Tracker,Cask Tracker提供數據血緣信息(什么時候創建、使用等)。根據應用的不同,CDAP工具還能發揮更大價值。
http://blog.cask.co/2016/06/cdap-spark-prototype-to-production/
IBM Hadoop Dev博客撰寫了從cURL調用Ambari REST API的教程。還示范了在vanilla和啟用了kerberos的集群上建立會話,并為接下來的請求復用會話。
https://developer.ibm.com/hadoop/2016/06/07/ambari-rest-calls-for-kerberos-enabled-clusters/
Google云平臺博客撰文介紹了如何調試運行在Google Dataflow上的Apache Beam(孵化中)任務。為了調試性能瓶頸,Dataflow有一些有用的統計數據和UI來幫助使用者深入每一個步驟。
https://cloud.google.com/blog/big-data/2016/06/understanding-timing-in-cloud-dataflow-pipelines
其他新聞
Transaction Processing Performance Council(TPC)發布了TPCx-BB基準測試,該基準測試為大數據系統設計。除了衡量SQL外,還可以對機器學習集群和分類問題進行測試。
http://www.datanami.com/2016/06/01/big-data-benchmark-gauges-hadoop-platforms/
倫敦Strata + Hadoop世界大會兩周前已召開。演講者的專題報告和幻燈片已發布到會議網站上。
http://conferences.oreilly.com/strata/hadoop-big-data-eu/public/schedule/proceedings
Splice Machine,Hadoop上的RDBMS構建者,宣布開源他們的軟件。當前,他們正在尋找貢獻者/導師/豪杰來提升開源后的效果。Splice Machine有不少有趣的特性,例如ACID事務,二級索引,引用完整性。
http://www.splicemachine.com/were_going_open_source/
Altiscale博客編輯了許多關于客戶服務、情感分析、氣候變化、智慧城市、bias等方面的大數據應用案例文章。還收集了一些大數據懷疑論者的文章。
https://www.altiscale.com/blog/big-data-news-health-and-public-safety-sentiment-analysis-fixing-education-2/
Spark峰會本周在舊金山召開。會議組織者Databricks概述了兩天內的熱點內容,鏈接了許多的演講和專題報告。
https://databricks.com/blog/2016/06/08/another-record-setting-spark-summit.html
大數據即服務(BDaaS)公司Qubole,撰文介紹了他們的客戶如何接受使用Spark。接受速度之快——一半多的客戶現在開始用Spark。Qubole也支持Presto,他們也看到了類似的增長。
https://www.qubole.com/blog/big-data/spark-usage/
Twitter向Apache孵化器提交了他們的復制日志服務DistributedLog。
https://wiki.apache.org/incubator/DistributedLogProposal
Big Data Day LA于6月9日在西洛杉磯學院召開。這次活動是免費的(如果預先注冊的話),演講者來自于Confluent、Databricks、Yahoo、Netflix等。
http://www.bigdatadayla.com/
產品發布
Apache Spark發布了Spark 2.0預覽版。發布聲明中說道API和功能都尚未最終敲定。
https://spark.apache.org/news/spark-2.0.0-preview.html
JustOne構建并開源了Kafka-to-PostgreSQL連接器。本文介紹了該連接器的性能,詳細描述了如何把消息轉換為行,還描述了如何設定配置等。
http://www.confluent.io/blog/kafka-connect-sink-for-postgresql-from-justone-database
Salesforce開源了Runway,這是一個建模、仿真以及可視化分布式系統。在runway.system上有一個在線演示環境,演示了“too many bananas”模型,電梯系統和Raft一致性系統。
https://medium.com/salesforce-open-source/runway-intro-dc0d9578e248
Bloomberg最近開源了Presto Accumulo,面向Apache Accumulo的Presto連接器。在聲明中,鏈接了11頁的論文,比較了基于的Presto查詢和基于Accumulo Java API查詢的基準測試結果。
http://www.bloomberg.com/company/announcements/open-source-at-bloomberg-reducing-application-development-time-via-presto-accumulo/
微軟Azure發布了基于Apache Spark 1.6.1 穩定版的Azure HDInsight。本次發布支持了面向Spark的Project Livy REST任務服務支持,集成了Azure數據湖存儲(基于角色的訪問控制),集成了IntelliJ,支持了Jupyter筆記本等。
https://azure.microsoft.com/en-us/blog/apache-spark-for-azure-hdinsight-now-generally-available/
LinkedIn開源了Photon ML,他們的大規?;貧w分析庫。Photon構建在Spark之上并在LinkedIn的YARN上運行(過去基于MapReduce,似乎因為要提升性能才遷移)。
https://engineering.linkedin.com/blog/2016/06/open-sourcing-photon-ml
Hortonworks發布了Spark-HBase連接器的技術預覽版。預覽版原生支持Avro,支持運行安全集群,原生支持Spark Datasource API,并優化了分區修剪,列修剪,謂詞下推。
http://hortonworks.com/blog/spark-hbase-dataframe-based-hbase-connector/
Databricks發布了Apache Spark平臺的第一階段安全特性。本階段對集群ACL、SAML 2.0進行了支持,端對端的審計日志。
https://databricks.com/blog/2016/06/08/achieving-end-to-end-security-for-apache-spark-with-databricks.html
Apache ORC 1.1.0版發布了。本次發布完成了從基于Apache Hive的代碼到基于Java的代碼遷移,修正了C++時間戳處理程序,增加了Hadoop MapReduce連接器。
http://orc.apache.org/news/2016/06/10/ORC-1.1.0/
Apache Kudu發布了0.9.0版。增加了UPSERT命令,新的Spark數據源不會依賴MapReduce API,提升了Tablet Server寫性能。
http://getkudu.io/2016/06/10/apache-kudu-0-9-0-released.html
Google云服務平臺團隊發布了支持Spark 2.0預覽版的Google Cloud Dataproc。
https://cloud.google.com/blog/big-data/2016/06/google-cloud-dataproc-the-fast-easy-and-safe-way-to-try-spark-20-preview
Dory(Bruce的繼承者)Kafka producer的守護進程,現在支持從UNIX domain sockets或本地TCP接收數據了。
http://mail-archives.apache.org/mod_mbox/kafka-users/201606.mbox/%3C1465683894.608424023@apps.rackspace.com%3E
Apache Pig 0.16.0版,一年來首次發布。堅定了對Tez的支持。
http://pig.apache.org/releases.html#8+June%2C+2016%3A+release+0.16.0+available
活動
中國
Spark Meetup (上海) – 周六, 6月18日
Powered by: BlogJava Copyright © Rosen