Hadoop周刊 第 166 期
2016年4月17日
啟明星辰——平臺和大數據整體組編譯
Hortonworks在本周Hadoop歐洲峰會上有若干爆料,貫穿了本期整個內容。伴隨著驕人的新特性,Apache Storm發布了1.0.0版。在技術新聞方面,有不少基于Kafka構建大規模服務和分布式系統測試的文章。如果你錯過了Hadoop峰會,那么不用擔心,演講視頻已經放到了網上。
技術新聞
Smyte撰文介紹了他們基于事件數據流實時檢測垃圾郵件和詐騙信息的基礎設施。最初的事件處理系統構建在Kafka、Redis、Secor以及S3上,為了滿足規模不斷擴張和廉價的要求,他們把系統遷移到基于磁盤的方案上,使用Redis協議與RocksDB交互,使用Kafka進行復制。
https://medium.com/the-smyte-blog/counting-with-domain-specific-databases-73c660472da
本文把rsyslog、Kafka、AWS 與ELK棧(ElasticSearch、Logstash、Kibana)結合,處理諸如反壓、規模以及維護方面的問題。本文覆蓋了rsyslog集成Kafka以及schema方面的技巧,也介紹了如何運行Kafka、Zookeeper以及AWS中大規模自動分組。
https://www.bashton.com/blog/2016/elk-on-ark/
Hortonworks撰文介紹了Apache Atlas以及Apache Range將要引入的數據管理特性。這些特性是:分類訪問控制、數據有效期策略、位置特性策略、禁止數據集組合、跨組件家族(例如從Kafka到Storm再到Hive的數據跟蹤)。
http://hortonworks.com/blog/the-next-generation-of-hadoop-based-security-data-governance/
Apache HAWQ (孵化中)是一個基于Greenplum在HDFS上提供數據查詢的SQL引擎。本文討論了其典型設計以及新版本的諸多改進。包括它與Spark和MapReduce的區別,還有些Hadoop挑戰經典MPP設計的內容,以及HAWQ的新設計怎樣結合MPP和批處理技術進而使其兩者兼顧。
https://blog.pivotal.io/big-data-pivotal/products/apache-hawq-next-step-in-massively-parallel-processing
Cloudera博客撰文介紹了對Hadoop分布式系統進行故障注入、組網的測試工具AgenTEST。它能注入網絡故障(例如丟包),資源滿載(例如CPU、IO、磁盤空間)等等。當測試網絡分區時,可以評估環形組網、橋接組網等等。
http://blog.cloudera.com/blog/2016/04/quality-assurance-at-cloudera-fault-injection-and-elastic-partitioning/
Hortonworks博客展望了將包含新版本Spark和Zeppelin的HDP 2.4.2。Spark2.0預覽版和Zeppelin新特性都將包含在內。
http://hortonworks.com/blog/apache-spark-apache-zeppelin-whats-coming-in-hdp-2-4-2/
Cask撰文介紹了在Hbase region compaction這樣罕見事件發生的前后,他們是怎樣通過長時間測試以評估分布式系統正確性的。
http://blog.cask.co/2016/04/long-running-tests-in-cdap/
本文介紹了如何結合SparkR與亞馬遜EMR進行地理空間分析的。通過SparkR的Hive集成組件,可以立刻基于S3上的數據映射Hive外部表。從這開始,數據就能直接加載到內存中使用R語言分析,很容易實現高質量的數據可視化。
http://blogs.aws.amazon.com/bigdata/post/Tx1MECZ47VAV84F/Exploring-Geospatial-Intelligence-using-SparkR-on-Amazon-EMR
MapR編寫了使用Pig和Hive分析職業棒球大聯盟球隊水平的教程。Pig用于數據初加工,Hive提供基于SQL的數據查詢環境。借助Hive ODBC驅動和Hive服務器,使得微軟Excel也能用于獲取和分析數據。
https://www.mapr.com/blog/using-hive-and-pig-baseball-statistics
SignalFX通過27節點的Kafka集群每天處理700多億條消息。只有基于他們積累的大規模Kafka使用經驗才能有如此高的量,因此他們共享了不少調試Kafka的技巧,定位告警(例如日志刷新延遲增加),以及Kafka橫向擴展。
http://www.confluent.io/blog/how-we-monitor-and-run-kafka-at-scale-signalfx
dataArtisan's博客為了度量Flink在數據流效率、低延遲、正確性上的能力,專門寫了這篇文章。為了證明效率,在高吞吐量的環境下運行了最新的Yahoo!流式基準測試程序。在正確性方面,文章突出了Flink事件判別和處理事件(星球大戰電影年表做類比)方面的優勢。最后,文章描述了Flink未來版本基于內存的查詢任務。
http://data-artisans.com/counting-in-streams-a-hierarchy-of-needs/
本教程介紹了怎樣把TCP Socket中的文本數據流轉換為Spark流式數據源。
https://medium.com/@anicolaspp/spark-custom-streaming-sources-e7d52da72e80
本文介紹了在構建Hadoop的時候怎樣防止AWS證書意外提交到補丁或git資源庫。除Hadoop本身外,本文還建議使用“git-secrets”工具防止意外提交訪問/安全密鑰。如果你用的是Hadoop S3,還推薦了新補丁供評估。
http://steveloughran.blogspot.co.uk/2016/04/testing-against-s3-and-object-stores.html
Big Data & Brews采訪了MapR的Ted Dunning和Jacques Nadeau。Apache Arrow也在本次采訪范圍內。
https://www.youtube.com/watch?v=l3mDDKjDjMk
https://www.youtube.com/watch?v=Xo9CO0a0VJI
其他新聞
DataEngConf最近在舊金山召開。本文總結了Uber、Stripe、Microsoft、Instacart、Jawbone的發言內容。也介紹了會議主題“數據科學在現實世界中是一個產品和工程學科”。
https://medium.com/@eugmandel/software-engineering-invades-data-science-notes-from-dataengconf-4a3c066b081f#.g2h0duo44
Hortonworks在上周都柏林舉行的Hadoop歐洲峰會上大放異彩。ZDNet報導了這些亮點,其中包括與Pivotal(已轉售給HDP)的擴展合作,與Syncosrt的轉售協議,以及Atlas、Ranger、Zeppelin、Metron的技術預覽。報導還介紹了Hortonworks、Cloudera、MapR產品的不同之處。
http://www.zdnet.com/article/hortonworks-announces-new-alliances-and-releases-hadoop-comes-to-fork-in-road/
Flink 2016峰會將在九月于德國柏林舉行。討論議題征集將于六月末結束。
http://flink.apache.org/news/2016/04/14/flink-forward-announce.html
YouTube上發布了Hadoop都柏林峰會演講視頻。正如預期的那樣,這些演講內容涵蓋Hadoop生態系統的各個部分。
https://www.youtube.com/channel/UCAPa-K_rhylDZAUHVxqqsRA/videos?flow=list&live_view=500&view=0&sort=dd
產品發布
Metascope是一個配合Schedoscope在Hadoop集群中進行元數據管理的新工具。通過web界面,利用數據沿襲它能洞察大量的數據。也提供檢索、內嵌文檔、REST API等等功能。
https://github.com/ottogroup/metascope
Apache HBase 1.2.1于本周發布,在1.2.0的基礎上解決了27個問題。發布聲明中重點介紹了四個高優先級的問題。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAN5cbe7-T5uAYvGRbxw2dfvdbwe5s0nx3vKU8Nt2fzXbKPoQTg@mail.gmail.com%3E
Apache Mahout機器學習庫發布了0.12.0版。該版本的“Samsara”數學環境開始支持Apache Flink了,并且是平臺無關的。發布聲明中分享了與Flink集成、已知問題、項目演進計劃相關的內容。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAOtpBjj5An876PStdn5kMeaF+up-B72WTmCk9j21EXdP=JOCUA@mail.gmail.com%3E
Apache Storm 1.0.0本周發布了。亮點包括性能提升(普遍提升3倍以上)、新的分布式緩存API、nimbus的高可用性、自動反壓、動態worker性能分析等等。
http://storm.apache.org/2016/04/12/storm100-released.html
Apache Kudu(孵化中)本周發布了0.8.0版。本次發布添加了Apache Flume sink、部分功能提升、修復了一批bug。
http://getkudu.io/releases/0.8.0/docs/release_notes.html
Cloudbreak本周發布了1.2版,它為云環境提供Hadoop集群Docker。新特性包括支持OpenStack以及為自定義服務器提供配置腳本。
http://hortonworks.com/blog/announcing-cloudbreak-1-2/
Cloudera發布了Cloudera Enterprise 5.4.10,內置了Flume、Hadoop、HBase、Hive、Impala等組件。
http://community.cloudera.com/t5/Community-News-Release/ANNOUNCE-Cloudera-Enterprise-5-4-10-Released/m-p/39790#U39790
Presto Accumulo是個新項目,為Accumulo讀寫數據提供了Presto連接器。
https://github.com/bloomberg/presto-accumulo
活動
中國
無
Powered by: BlogJava Copyright © Rosen