亚洲欧美日韩综合久久久,亚洲国模精品一区,亚洲熟妇无码乱子AV电影

Hadoop周刊第 171 期

啟明星辰平臺和大數(shù)據(jù)總體組編譯

2016年5月22日

本周，包括LinkedIn新開源項目在內(nèi)的幾個項目都有版本發(fā)布。在技術(shù)新聞和其他新聞方面，多篇文章回顧了Apache: Big Data North America會議，另外有一組跨越多個不同數(shù)據(jù)系統(tǒng)分析紐約出租車數(shù)據(jù)的系列文章。

技術(shù)新聞

Databricks博客分析了Apache Spark中兩種逼近算法。之一，“approxCountDistict”是用來評估不同值的數(shù)量；之二，“approxQuantile”用于生成逼近百分比。本文介紹了算法和可視化精度不同的殘差。

https://databricks.com/blog/2016/05/19/approximate-algorithms-in-apache-spark-hyperloglog-and-quantiles.html

本教程描述了如何使用Apache Hadoop HDFS、Apache Solr、Hue存儲、索引、查詢DICOM格式的醫(yī)學(xué)影像。文章貫穿了加載和獲取數(shù)據(jù)的整個步驟。

http://blog.cloudera.com/blog/2016/05/how-to-process-and-index-medical-images-with-apache-hadoop-and-apache-solr/

MapR Streams是一個API兼容Apache Kafka的系統(tǒng)。本文在宏觀上比較了MapR Streams和Kafka的異同。同時闡明了Kafka Streams怎樣和MapR Streams扯上關(guān)系的。

https://www.mapr.com/blog/apache-kafka-and-mapr-streams-terms-techniques-and-new-designs

本文在我看來是最清晰介紹Paxos的文章之一，Paxos為分布式系統(tǒng)構(gòu)建了一致性協(xié)議。本文用繪圖計算機(jī)和分布式拍賣示范了這個協(xié)議。

http://ifeanyi.co/posts/understanding-consensus/

基于Apache: Big Data North America會議上的一篇演講。Datanami窺探了即將發(fā)布的Apache Hadoop 3的新特性。包括，shell腳本重寫、任務(wù)集本地優(yōu)化、內(nèi)存大小自動伸縮能力、支持HDFS erasure codings。本文著重在erasure codings上，文章密切關(guān)注了erasure codings在存儲效率方面的提升（3x磁盤消耗降低到1.5x）。

http://www.datanami.com/2016/05/18/hadoop-3-poised-boost-storage-capacity-resilience-erasure-coding/

這篇演講來自于PyData柏林會議，描述了Apache Arrow和Feather文件格式，探究了數(shù)據(jù)在跨語言/框架互操作性的工作機(jī)制。

http://www.slideshare.net/wesm/python-data-ecosystem-thoughts-on-building-for-the-future

發(fā)布了兩個來自于不同會議與Apache Kafka有關(guān)的演講視頻。第一個討論了Kafka的安全特性，第二個探索了Kafka如何跨系統(tǒng)共享數(shù)據(jù)。

https://www.oreilly.com/learning/securing-apache-kafka

https://www.infoq.com/presentations/event-streams-kafka

這篇博客集成了數(shù)篇利用Amazon Redshift、Google BigQuery、Postgres、Presto數(shù)據(jù)系統(tǒng)加載/查詢紐約出租車數(shù)據(jù)的文章。除了原始基準(zhǔn)測試，還詳細(xì)介紹了如何處理故障、優(yōu)化、比較替代方案（AWS的S3與HDFS比）。

http://tech.marksblogg.com/all-billion-nyc-taxi-rides-redshift.html

O'Reilly撰文介紹了通過Kafka、Flink、Elasticsearch、Kibana怎樣實現(xiàn)kappa架構(gòu)。文章概述了lambda和kappa架構(gòu)，介紹了主要的架構(gòu)組件，以及怎樣設(shè)置使用貝葉斯模型發(fā)現(xiàn)新奇事物。

http://www.oreilly.com/ideas/applying-the-kappa-architecture-in-the-telco-industry

其他新聞

本文列舉了最近在Apache: Big Data North America會議上提到的幾個大數(shù)據(jù)生態(tài)系統(tǒng)項目。有不少是我們沒納入視線的內(nèi)容。

http://www.datanami.com/2016/05/11/open-source-tour-de-force-apache-big-data-2016/

Pivotal博客有一篇關(guān)于大數(shù)據(jù)和敏捷開發(fā)有趣的文章。大數(shù)據(jù)系統(tǒng)往往停留在非敏捷的世界，例如在裝載數(shù)據(jù)前需求要收集到位，模型要定義好。本文認(rèn)為，沒有在云環(huán)境中經(jīng)過長期驗證的話，要對這種方式進(jìn)行約束（有限的能力和性能、豎井式數(shù)據(jù)等）。

https://blog.pivotal.io/big-data-pivotal/features/when-it-comes-to-big-data-cloud-and-agility-go-hand-in-hand

Databricks發(fā)布了他們記錄的網(wǎng)絡(luò)會議視頻“Apache Spark MLlib: From Quick Start to Scikit-Learn”。除了視頻內(nèi)容，他們還在會議中解答了八個常見問題。

https://databricks.com/blog/2016/05/18/spark-mllib-from-quick-start-to-scikit-learn.html

Hortonworks博客回顧了Apache Storm的歷史。2011年開源，2013年進(jìn)入Apache孵化器，2014年成為頂級項目，今年初發(fā)布了1.0版。本文論述了每個里程碑的主要技術(shù)進(jìn)步。

http://hortonworks.com/blog/brief-history-apache-storm/

HBaseCon本周在舊金山召開。這次會議，Apple、Yahoo、Facebook都有演講材料。

http://hbasecon.com

MapR發(fā)圖慶祝了過去一年中Apache Drill取得的成績。一年中發(fā)布了7個版本，完成了多個里程碑。

https://www.mapr.com/blog/happy-anniversary-apache-drill-what-difference-year-makes

Datanami發(fā)布了在Apache: Big Data North America會議上，ASF總監(jiān)Jim Jagielski和ODPi項目總監(jiān)John Mertic的問答錄，如大家所料，主要話題還是ASF和ODPi的關(guān)系。

http://www.datanami.com/2016/05/20/apache-foundation-keeps-eyes-wide-open-odpi/

產(chǎn)品發(fā)布

LinkedIn開源了Ambry，他們的ObjectStore分布式系統(tǒng)。Ambry代碼已提交到github，這篇博文介紹了Ambry的服務(wù)承諾，設(shè)計目標(biāo)，體系架構(gòu)和接口。

https://engineering.linkedin.com/blog/2016/05/introducing-and-open-sourcing-ambry---linkedins-new-distributed-

由apache HAWQ（孵化中）驅(qū)動的Pivotal HDB 本周發(fā)布了2.0版，HDB為Hadoop提供了分析數(shù)據(jù)庫。

https://blog.pivotal.io/big-data-pivotal/products/fail-fast-and-ask-more-questions-of-your-data-with-hdb-2-0

Apache Mahout本周發(fā)布了0.12.1版，Mahout是一個機(jī)器學(xué)習(xí)和數(shù)據(jù)挖掘系統(tǒng)。本次發(fā)布旨在推進(jìn)Flink與Mahout的集成。

http://mail-archives.us.apache.org/mod_mbox/www-announce/201605.mbox/%3CCAOtpBjhshagyLN3Qnt0xRnc7YbnMVJjTS4piVXL7LiS2pQguXw@mail.gmail.com%3E

Apache Tajo發(fā)布了0.11.3版。Tajo是Hadoop的數(shù)據(jù)倉庫。本次發(fā)布修正了5個bug。

http://tajo.apache.org/releases/0.11.3/announcement.html

MongoDB為Apache Spark發(fā)布了新的MongoDB Connector。除了對應(yīng)Spark的Hadoop InputFormat shim外，該Connector還有其他特性。最后，還解釋了MongoDB一些關(guān)鍵特性。

https://www.mongodb.com/blog/post/mongodb-connector-for-apache-spark-announcing-early-access-program-and-new-spark-training

http://rosslawley.co.uk/introducing-a-new=mongodb-spark-connector/

SyncSort發(fā)布了DMX-h v9，支持Kafka以及新的智能執(zhí)行框架。

http://insidebigdata.com/2016/05/20/syncsorts-latest-innovations-simplify-integration-of-streaming-data-in-spark-kafka-and-hadoop-for-real-time-analytics/

活動

中國

無

posted on 2016-06-08 16:42 Rosen 閱讀(673) 評論(0) 編輯收藏

新用戶注冊刷新評論列表


只有注冊用戶登錄后才能發(fā)表評論。




網(wǎng)站導(dǎo)航: 博客園 IT新聞 Chat2DB C++博客博問

成都心情

公告

隨筆分類(91)

隨筆檔案(99)

文章分類(2)

友情鏈接

積分與排名

最新評論

閱讀排行榜

評論排行榜