久久激情亚洲精品无码?V,亚洲午夜福利在线视频,国产av无码专区亚洲av果冻传媒

Hadoop周刊第 174 期

啟明星辰平臺和大數據總體組編譯

2016年6月12日

Spark峰會本周在舊金山召開，正如所料，本期周刊有大量關于Apache Spark的新聞、公告和版本發布。除Spark外，本期還有Kafka、Cask、Ambari方面的文章。在產品發布部分，有一年來Apache Pig首次版本更新，還一個為分布式系統設計的簡潔新工具Runway，最后是新版Apache Kudu（孵化中）。

技術新聞

Debezium是一個相對較新的項目，用于數據庫和Apache Kafka topic行級改變數據捕獲。當面支持MySQL、Zookeeper、Kafka，這是一篇在Docker、Kubernetes容器上配置Zookeeper, Kafka, MySQL的教程。

http://debezium.io/blog/2016/05/31/Debezium-on-Kubernetes/

有些人對Apache Kafka項目宣布采用另一種流式處理引擎感到驚訝，這就是Kafka Streams。Kafka Streams與其它系統存在顯著的關鍵差異。本文很好的示范了這些不同點——abstraction、部署模型、支持基于狀態的計算。

https://softwaremill.com/kafka-streams-how-does-it-fit-stream-landscape/

每個使用MapReduce、Spark或類似系統的人都會陷入難以調試、數據特征bug這些問題中。BigDebug是UCLA（加州大學洛杉磯分校）的研究項目/論文，旨在讓開發人員通過工具發現單機問題：傳入參數導致的崩潰，跟蹤、斷點、觀察點、延遲報警等。該工具支持Apache Spark 1.2.1上。

https://blog.acolyer.org/2016/06/07/bigdebug-debugging-primitives-for-interactive-big-data-processing-in-spark/

Cask撰文介紹了在開源Cask Data Application Platform (CDAP)中運行Spark的文章。運行在CDAP的Spark程序通過訪問Apache Tephra（孵化中）實現細粒度事務支持。這樣，就能很容易利用快照隔離實現從一個表復制到另一個表的一致性。CDAP中的Spark也能訪問Cask Tracker，Cask Tracker提供數據血緣信息（什么時候創建、使用等）。根據應用的不同，CDAP工具還能發揮更大價值。

http://blog.cask.co/2016/06/cdap-spark-prototype-to-production/

IBM Hadoop Dev博客撰寫了從cURL調用Ambari REST API的教程。還示范了在vanilla和啟用了kerberos的集群上建立會話，并為接下來的請求復用會話。

https://developer.ibm.com/hadoop/2016/06/07/ambari-rest-calls-for-kerberos-enabled-clusters/

Google云平臺博客撰文介紹了如何調試運行在Google Dataflow上的Apache Beam（孵化中）任務。為了調試性能瓶頸，Dataflow有一些有用的統計數據和UI來幫助使用者深入每一個步驟。

https://cloud.google.com/blog/big-data/2016/06/understanding-timing-in-cloud-dataflow-pipelines

其他新聞

Transaction Processing Performance Council(TPC)發布了TPCx-BB基準測試，該基準測試為大數據系統設計。除了衡量SQL外，還可以對機器學習集群和分類問題進行測試。

http://www.datanami.com/2016/06/01/big-data-benchmark-gauges-hadoop-platforms/

倫敦Strata + Hadoop世界大會兩周前已召開。演講者的專題報告和幻燈片已發布到會議網站上。

http://conferences.oreilly.com/strata/hadoop-big-data-eu/public/schedule/proceedings

Splice Machine，Hadoop上的RDBMS構建者，宣布開源他們的軟件。當前，他們正在尋找貢獻者/導師/豪杰來提升開源后的效果。Splice Machine有不少有趣的特性，例如ACID事務，二級索引，引用完整性。

http://www.splicemachine.com/were_going_open_source/

Altiscale博客編輯了許多關于客戶服務、情感分析、氣候變化、智慧城市、bias等方面的大數據應用案例文章。還收集了一些大數據懷疑論者的文章。

https://www.altiscale.com/blog/big-data-news-health-and-public-safety-sentiment-analysis-fixing-education-2/

Spark峰會本周在舊金山召開。會議組織者Databricks概述了兩天內的熱點內容，鏈接了許多的演講和專題報告。

https://databricks.com/blog/2016/06/08/another-record-setting-spark-summit.html

大數據即服務（BDaaS）公司Qubole，撰文介紹了他們的客戶如何接受使用Spark。接受速度之快——一半多的客戶現在開始用Spark。Qubole也支持Presto，他們也看到了類似的增長。

https://www.qubole.com/blog/big-data/spark-usage/

Twitter向Apache孵化器提交了他們的復制日志服務DistributedLog。

https://wiki.apache.org/incubator/DistributedLogProposal

Big Data Day LA于6月9日在西洛杉磯學院召開。這次活動是免費的（如果預先注冊的話），演講者來自于Confluent、Databricks、Yahoo、Netflix等。

http://www.bigdatadayla.com/

產品發布

Apache Spark發布了Spark 2.0預覽版。發布聲明中說道API和功能都尚未最終敲定。

https://spark.apache.org/news/spark-2.0.0-preview.html

JustOne構建并開源了Kafka-to-PostgreSQL連接器。本文介紹了該連接器的性能，詳細描述了如何把消息轉換為行，還描述了如何設定配置等。

http://www.confluent.io/blog/kafka-connect-sink-for-postgresql-from-justone-database

Salesforce開源了Runway，這是一個建模、仿真以及可視化分布式系統。在runway.system上有一個在線演示環境，演示了“too many bananas”模型，電梯系統和Raft一致性系統。

https://medium.com/salesforce-open-source/runway-intro-dc0d9578e248

Bloomberg最近開源了Presto Accumulo，面向Apache Accumulo的Presto連接器。在聲明中，鏈接了11頁的論文，比較了基于的Presto查詢和基于Accumulo Java API查詢的基準測試結果。

http://www.bloomberg.com/company/announcements/open-source-at-bloomberg-reducing-application-development-time-via-presto-accumulo/

微軟Azure發布了基于Apache Spark 1.6.1 穩定版的Azure HDInsight。本次發布支持了面向Spark的Project Livy REST任務服務支持，集成了Azure數據湖存儲（基于角色的訪問控制），集成了IntelliJ，支持了Jupyter筆記本等。

https://azure.microsoft.com/en-us/blog/apache-spark-for-azure-hdinsight-now-generally-available/

LinkedIn開源了Photon ML，他們的大規?；貧w分析庫。Photon構建在Spark之上并在LinkedIn的YARN上運行（過去基于MapReduce，似乎因為要提升性能才遷移）。

https://engineering.linkedin.com/blog/2016/06/open-sourcing-photon-ml

Hortonworks發布了Spark-HBase連接器的技術預覽版。預覽版原生支持Avro，支持運行安全集群，原生支持Spark Datasource API，并優化了分區修剪，列修剪，謂詞下推。

http://hortonworks.com/blog/spark-hbase-dataframe-based-hbase-connector/

Databricks發布了Apache Spark平臺的第一階段安全特性。本階段對集群ACL、SAML 2.0進行了支持，端對端的審計日志。

https://databricks.com/blog/2016/06/08/achieving-end-to-end-security-for-apache-spark-with-databricks.html

Apache ORC 1.1.0版發布了。本次發布完成了從基于Apache Hive的代碼到基于Java的代碼遷移，修正了C++時間戳處理程序，增加了Hadoop MapReduce連接器。

http://orc.apache.org/news/2016/06/10/ORC-1.1.0/

Apache Kudu發布了0.9.0版。增加了UPSERT命令，新的Spark數據源不會依賴MapReduce API，提升了Tablet Server寫性能。

http://getkudu.io/2016/06/10/apache-kudu-0-9-0-released.html

Google云服務平臺團隊發布了支持Spark 2.0預覽版的Google Cloud Dataproc。

https://cloud.google.com/blog/big-data/2016/06/google-cloud-dataproc-the-fast-easy-and-safe-way-to-try-spark-20-preview

Dory（Bruce的繼承者）Kafka producer的守護進程，現在支持從UNIX domain sockets或本地TCP接收數據了。

http://mail-archives.apache.org/mod_mbox/kafka-users/201606.mbox/%3C1465683894.608424023@apps.rackspace.com%3E

Apache Pig 0.16.0版，一年來首次發布。堅定了對Tez的支持。

http://pig.apache.org/releases.html#8+June%2C+2016%3A+release+0.16.0+available

活動

中國

Spark Meetup (上海) – 周六, 6月18日

posted on 2016-06-28 17:39 Rosen 閱讀(738) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發表評論。




網站導航: 博客園 IT新聞 Chat2DB C++博客博問管理

成都心情

公告

隨筆分類(91)

隨筆檔案(99)

文章分類(2)

友情鏈接

積分與排名

最新評論

閱讀排行榜

評論排行榜