Hadoop周刊 第 173 期
啟明星辰平臺和大數(shù)據(jù)總體組編譯
2016年6月5日
本周,Spark、NiFi、Netflix Meson、Storm方面只有少量內(nèi)容。Spark峰會本周在舊金山召開,所以呢,下周肯定有不少內(nèi)容。
技術(shù)新聞
Databricks博客介紹了Apache Spark 2.0的新特性——跨語言支持存儲和加載機器學習模型。模型通過簡單的API被存儲和加載,模型的元數(shù)據(jù)與參數(shù)保存為JSON風格,模型的數(shù)據(jù)保存為Parquet風格。
https://databricks.com/blog/2016/05/31/apache-spark-2-0-preview-machine-learning-model-persistence.html
https://databricks.com/blog/2016/05/31/apache-spark-2-0-preview-machine-learning-model-persistence.html
Meson是Netflix用于執(zhí)行機器學習工作流的框架。它是Apache Hive、Spark、Mesos這些大數(shù)據(jù)技術(shù)之間的粘合劑。工作流使用DSL進行編寫,Meson還提供了更加先進的流水線可視化UI。Netflix目前沒開源Meson,但他們有這方面的計劃。
http://techblog.netflix.com/2016/05/meson_31.html
IBM Hadoop Dev博客簡要介紹和示范了HDFS歸檔存儲能力。
https://developer.ibm.com/hadoop/2016/06/01/use-hdfs-archival-storage/
Apache Storm 1.0有了令人驚訝的新特性。本文關(guān)注了幾個調(diào)試能力方面的增強:動態(tài)日志級別、統(tǒng)一日志搜索、事件抽樣、集成jstack/heap dumps/java飛行記錄器分析worker。
http://hortonworks.com/blog/whats-new-apache-storm-1-0-part-1-enhanced-debugging/
Cloudera博客撰文介紹了如何使用Apache Spark來探索性分析存儲在CSV文件中的NBA歷史統(tǒng)計數(shù)據(jù)。分析過程混合使用了Scala和SQL。
http://blog.cloudera.com/blog/2016/06/how-to-analyze-fantasy-sports-using-apache-spark-and-sql/
Apache NiFi作為一種通用工具受到了很多的關(guān)注。它為“基于流程的處理”而生,可能對很多人并不意味著什么,但NiFi支持標準的ETL,流式處理等。許多NiFi例子都示范了如何從Twitter firehose把數(shù)據(jù)移動到HDFS中,但本文聚焦在NiFi另外的特性上——示范了一些簡單的從HTTP拉數(shù)據(jù)的過程。
http://hortonworks.com/blog/apache-nifi-not-scratch/
Amazon Redshift構(gòu)建于PostgreSQL引擎上,所以你可以利用PostgreSQL的擴展功能讓Redshift集群連接PostgresSQL實例。這樣一來,諸如跨數(shù)據(jù)庫連接、將Redshift的結(jié)果轉(zhuǎn)換為JSON、在Postgres中創(chuàng)建Redshift數(shù)據(jù)視圖、
數(shù)據(jù)庫之間復制數(shù)據(jù)等有趣的應(yīng)用都能實現(xiàn)。
http://blogs.aws.amazon.com/bigdata/post/Tx1GQ6WLEWVJ1OX/JOIN-Amazon-Redshift-AND-Amazon-RDS-PostgreSQL-WITH-dblink
其他發(fā)布
FeatherCast發(fā)布了超過100個ApacheCon北美峰會的相關(guān)錄音。
http://feathercast.apache.org/tag/apacheconna2016/
InfoWorld介紹了Heron,Twitter才開源的Apache Storm兼容項目。本文介紹了兩個項目在架構(gòu)上的不同。主要指出了Heron起步于幾個月前(Storm已發(fā)布),就是說Storm在特性上比Heron更有優(yōu)勢。
http://www.infoworld.com/article/3078134/analytics/had-it-with-apache-storm-heron-swoops-to-the-rescue.html
Databricks在edX上開了一門新課程,“Apache Spark入門”。課程從6月15日開始,一直持續(xù)兩周。
launch-first-of-five-free-big-data-courses-on-apache-spark.html
產(chǎn)品發(fā)布
Amazon EMR發(fā)布了4.7.0版。本次發(fā)布支持了Apache Tez和Apache Phoenix,并內(nèi)置了新版本的Apache HBase、Apache Mahout、Presto。另外,AWS大數(shù)據(jù)博客還指導了Phoenix如何上手。
http://aws.amazon.com/blogs/aws/amazon-emr-4-7-0-apache-tez-phoenix-updates-to-existing-apps/
Apache Hive本周發(fā)布了2.0.1版。從二月發(fā)布2.0.0以來,首次小版本發(fā)布。本次修復了60個bug。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CD37344A3.77A64%25sershe@apache.org%3E
活動
中國
無