Hadoop周刊 第 171 期
啟明星辰平臺和大數(shù)據(jù)總體組編譯
2016年5月22日
本周,包括LinkedIn新開源項目在內(nèi)的幾個項目都有版本發(fā)布。在技術(shù)新聞和其他新聞方面,多篇文章回顧了Apache: Big Data North America會議,另外有一組跨越多個不同數(shù)據(jù)系統(tǒng)分析紐約出租車數(shù)據(jù)的系列文章。
技術(shù)新聞
Databricks博客分析了Apache Spark中兩種逼近算法。之一,“approxCountDistict”是用來評估不同值的數(shù)量;之二,“approxQuantile”用于生成逼近百分比。本文介紹了算法和可視化精度不同的殘差。
https://databricks.com/blog/2016/05/19/approximate-algorithms-in-apache-spark-hyperloglog-and-quantiles.html
本教程描述了如何使用Apache Hadoop HDFS、Apache Solr、Hue存儲、索引、查詢DICOM格式的醫(yī)學(xué)影像。文章貫穿了加載和獲取數(shù)據(jù)的整個步驟。
http://blog.cloudera.com/blog/2016/05/how-to-process-and-index-medical-images-with-apache-hadoop-and-apache-solr/
MapR Streams是一個API兼容Apache Kafka的系統(tǒng)。本文在宏觀上比較了MapR Streams和Kafka的異同。同時闡明了Kafka Streams怎樣和MapR Streams扯上關(guān)系的。
https://www.mapr.com/blog/apache-kafka-and-mapr-streams-terms-techniques-and-new-designs
本文在我看來是最清晰介紹Paxos的文章之一,Paxos為分布式系統(tǒng)構(gòu)建了一致性協(xié)議。本文用繪圖計算機(jī)和分布式拍賣示范了這個協(xié)議。
http://ifeanyi.co/posts/understanding-consensus/
基于Apache: Big Data North America會議上的一篇演講。Datanami窺探了即將發(fā)布的Apache Hadoop 3的新特性。包括,shell腳本重寫、任務(wù)集本地優(yōu)化、內(nèi)存大小自動伸縮能力、支持HDFS erasure codings。本文著重在erasure codings上,文章密切關(guān)注了erasure codings在存儲效率方面的提升(3x磁盤消耗降低到1.5x)。
http://www.datanami.com/2016/05/18/hadoop-3-poised-boost-storage-capacity-resilience-erasure-coding/
這篇演講來自于PyData柏林會議,描述了Apache Arrow和Feather文件格式,探究了數(shù)據(jù)在跨語言/框架互操作性的工作機(jī)制。
http://www.slideshare.net/wesm/python-data-ecosystem-thoughts-on-building-for-the-future
發(fā)布了兩個來自于不同會議與Apache Kafka有關(guān)的演講視頻。第一個討論了Kafka的安全特性,第二個探索了Kafka如何跨系統(tǒng)共享數(shù)據(jù)。
https://www.oreilly.com/learning/securing-apache-kafka
https://www.infoq.com/presentations/event-streams-kafka
這篇博客集成了數(shù)篇利用Amazon Redshift、Google BigQuery、Postgres、Presto數(shù)據(jù)系統(tǒng)加載/查詢紐約出租車數(shù)據(jù)的文章。除了原始基準(zhǔn)測試,還詳細(xì)介紹了如何處理故障、優(yōu)化、比較替代方案(AWS的S3與HDFS比)。
http://tech.marksblogg.com/all-billion-nyc-taxi-rides-redshift.html
O'Reilly撰文介紹了通過Kafka、Flink、Elasticsearch、Kibana怎樣實現(xiàn)kappa架構(gòu)。文章概述了lambda和kappa架構(gòu),介紹了主要的架構(gòu)組件,以及怎樣設(shè)置使用貝葉斯模型發(fā)現(xiàn)新奇事物。
http://www.oreilly.com/ideas/applying-the-kappa-architecture-in-the-telco-industry
其他新聞
本文列舉了最近在Apache: Big Data North America會議上提到的幾個大數(shù)據(jù)生態(tài)系統(tǒng)項目。有不少是我們沒納入視線的內(nèi)容。
http://www.datanami.com/2016/05/11/open-source-tour-de-force-apache-big-data-2016/
Pivotal博客有一篇關(guān)于大數(shù)據(jù)和敏捷開發(fā)有趣的文章。大數(shù)據(jù)系統(tǒng)往往停留在非敏捷的世界,例如在裝載數(shù)據(jù)前需求要收集到位,模型要定義好。本文認(rèn)為,沒有在云環(huán)境中經(jīng)過長期驗證的話,要對這種方式進(jìn)行約束(有限的能力和性能、豎井式數(shù)據(jù)等)。
https://blog.pivotal.io/big-data-pivotal/features/when-it-comes-to-big-data-cloud-and-agility-go-hand-in-hand
Databricks發(fā)布了他們記錄的網(wǎng)絡(luò)會議視頻“Apache Spark MLlib: From Quick Start to Scikit-Learn”。除了視頻內(nèi)容,他們還在會議中解答了八個常見問題。
https://databricks.com/blog/2016/05/18/spark-mllib-from-quick-start-to-scikit-learn.html
Hortonworks博客回顧了Apache Storm的歷史。2011年開源,2013年進(jìn)入Apache孵化器,2014年成為頂級項目,今年初發(fā)布了1.0版。本文論述了每個里程碑的主要技術(shù)進(jìn)步。
http://hortonworks.com/blog/brief-history-apache-storm/
HBaseCon本周在舊金山召開。這次會議,Apple、Yahoo、Facebook都有演講材料。
http://hbasecon.com
MapR發(fā)圖慶祝了過去一年中Apache Drill取得的成績。一年中發(fā)布了7個版本,完成了多個里程碑。
https://www.mapr.com/blog/happy-anniversary-apache-drill-what-difference-year-makes
Datanami發(fā)布了在Apache: Big Data North America會議上,ASF總監(jiān)Jim Jagielski和ODPi項目總監(jiān)John Mertic的問答錄,如大家所料,主要話題還是ASF和ODPi的關(guān)系。
http://www.datanami.com/2016/05/20/apache-foundation-keeps-eyes-wide-open-odpi/
產(chǎn)品發(fā)布
LinkedIn開源了Ambry,他們的ObjectStore分布式系統(tǒng)。Ambry代碼已提交到github,這篇博文介紹了Ambry的服務(wù)承諾,設(shè)計目標(biāo),體系架構(gòu)和接口。
https://engineering.linkedin.com/blog/2016/05/introducing-and-open-sourcing-ambry---linkedins-new-distributed-
由apache HAWQ(孵化中)驅(qū)動的Pivotal HDB 本周發(fā)布了2.0版,HDB為Hadoop提供了分析數(shù)據(jù)庫。
https://blog.pivotal.io/big-data-pivotal/products/fail-fast-and-ask-more-questions-of-your-data-with-hdb-2-0
Apache Mahout本周發(fā)布了0.12.1版,Mahout是一個機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘系統(tǒng)。本次發(fā)布旨在推進(jìn)Flink與Mahout的集成。
http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAOtpBjhshagyLN3Qnt0xRnc7YbnMVJjTS4piVXL7LiS2pQguXw@mail.gmail.com%3E
Apache Tajo發(fā)布了0.11.3版。Tajo是Hadoop的數(shù)據(jù)倉庫。本次發(fā)布修正了5個bug。
http://tajo.apache.org/releases/0.11.3/announcement.html
MongoDB為Apache Spark發(fā)布了新的MongoDB Connector。除了對應(yīng)Spark的Hadoop InputFormat shim外,該Connector還有其他特性。最后,還解釋了MongoDB一些關(guān)鍵特性。
https://www.mongodb.com/blog/post/mongodb-connector-for-apache-spark-announcing-early-access-program-and-new-spark-training
http://rosslawley.co.uk/introducing-a-new=mongodb-spark-connector/
SyncSort發(fā)布了DMX-h v9,支持Kafka以及新的智能執(zhí)行框架。
http://insidebigdata.com/2016/05/20/syncsorts-latest-innovations-simplify-integration-of-streaming-data-in-spark-kafka-and-hadoop-for-real-time-analytics/
活動
中國
無
Powered by: BlogJava Copyright © Rosen