99久久亚洲精品无码毛片,亚洲熟妇成人精品一区,亚洲一区二区三区在线观看精品中文

Rosen — Thu, 21 Apr 2016 07:07:00 GMT

Hadoop周刊 �W?/span> 166 �?/span>

2016�q?/span>4�?/span>17�?/span>

启明星辰——�q�_��和大数据整体�l�编�?nbsp;

Hortonworks在本�?/span>Hadoop�Ƨ洲��C��上有若干爆料�Q�诏�I�了本期整个内容。伴随着骄�h的新�Ҏ��，Apache Storm发布�?/span>1.0.0版。在技术新��L��面，有不��基�?/span>Kafka构徏大规模服务和分布式系�l�测试的文章。如果你错过�?/span>Hadoop��C��Q�那么不用担心，演讲视频已经攑ֈ�了网上�?/span>

技术新�?/span>

Smyte撰文介绍了他们基于事件数据流实时��垃��N��件和诈骗信息的基��设施。最初的事�g处理�pȝ��构徏�?/span>Kafka�?/span>Redis�?/span>Secor以及S3上，��Z��满��规模不断扩张和廉��L��要求�Q�他们把�pȝ��q�移到基于磁盘的�Ҏ��上，使用Redis协议�?/span>RocksDB交互�Q��?/span>Kafka�q�行复制�?/span>

https://medium.com/the-smyte-blog/counting-with-domain-specific-databases-73c660472da

本文�?/span>rsyslog�?/span>Kafka�?/span>AWS �?/span>ELK栈（ElasticSearch�?/span>Logstash�?/span>Kibana�Q�结合，处理诸如反压、规模以及维护方面的问题。本文覆盖了rsyslog集成Kafka以及schema斚w��的技巧，也介�l�了如何�q�行Kafka�?/span>Zookeeper以及AWS中大规模自动分组�?/span>

https://www.bashton.com/blog/2016/elk-on-ark/

Hortonworks撰文介绍�?/span>Apache Atlas以及Apache Range��要引入的数据管理特性。这些特性是�Q�分�c�访问控制、数据有效期�{�略、位�|�特性策略、禁止数据集�l�合、跨�l��g家族�Q�例如从Kafka�?/span>Storm再到Hive的数据跟�t�）�?/span>

http://hortonworks.com/blog/the-next-generation-of-hadoop-based-security-data-governance/

Apache HAWQ �Q�孵化中�Q�是一个基�?/span>Greenplum�?/span>HDFS上提供数据查询的SQL引擎。本文讨��Z��其典型设计以及新版本的诸多改�q�。包括它�?/span>Spark�?/span>MapReduce的区别，�q�有�?/span>Hadoop挑战�l�典MPP设计的内容，以及HAWQ的新设计怎样�l�合MPP和批处理技术进而��其两者兼��?/span>

https://blog.pivotal.io/big-data-pivotal/products/apache-hawq-next-step-in-massively-parallel-processing

Cloudera博客撰文介绍了对Hadoop分布式系�l�进行故障注入、组�|�的��试工具AgenTEST。它能注入网�l�故障（例如丢包�Q�，资源满蝲�Q�例�?/span>CPU�?/span>IO、磁盘空��_��{�等。当��试�|�络分区�Ӟ��可以评估环�Ş�l�网、桥接组�|�等�{��?/span>

http://blog.cloudera.com/blog/2016/04/quality-assurance-at-cloudera-fault-injection-and-elastic-partitioning/

Hortonworks博客展望了将包含新版�?/span>Spark�?/span>Zeppelin�?/span>HDP 2.4.2�?/span>Spark2.0预览版和Zeppelin新特性都��包含在内�?/span>

http://hortonworks.com/blog/apache-spark-apache-zeppelin-whats-coming-in-hdp-2-4-2/

Cask撰文介绍了在Hbase region compaction�q�样�|�见事�g发生的前后，他们是怎样通过长时间测试以评估分布式系�l�正��性的�?/span>

http://blog.cask.co/2016/04/long-running-tests-in-cdap/

本文介绍了如何结�?/span>SparkR与亚马�?/span>EMR�q�行地理�I�间分析的。通过SparkR�?/span>Hive集成�l��g�Q�可以立��d��?/span>S3上的数据映射Hive外部表。从�q�开始，数据��p��直接加蝲到内存中使用R语言分析�Q�很�Ҏ��实现高质量的数据可视化�?/span>

http://blogs.aws.amazon.com/bigdata/post/Tx1MECZ47VAV84F/Exploring-Geospatial-Intelligence-using-SparkR-on-Amazon-EMR

MapR�~�写了��?/span>Pig�?/span>Hive分析职业��球大联盟球队水�q�的教程�?/span>Pig用于数据初加工，Hive提供��Z��SQL的数据查询环境。借助Hive ODBC驱动�?/span>Hive服务器，使得微��YExcel也能用于获取和分析数据�?/span>

https://www.mapr.com/blog/using-hive-and-pig-baseball-statistics

SignalFX通过27节点�?/span>Kafka集群每天处理700多亿条消息。只有基于他们积累的大规�?/span>Kafka使用�l�验才能有如此高的量�Q�因此他们共享了不少调试Kafka的技巧，定位告警�Q�例如日志刷新�g�q�增加）�Q�以�?/span>Kafka横向扩展�?/span>

http://www.confluent.io/blog/how-we-monitor-and-run-kafka-at-scale-signalfx

dataArtisan's博客��Z��度量Flink在数据流效率、低延迟、正��性上的能力，专门写了�q�篇文章。�ؓ了证明效率，在高吞吐量的环境下运行了最新的Yahoo!��式基准��试�E�序。在正确性方面，文章�H�出�?/span>Flink事�g判别和处理事�Ӟ��星球大战电媄�q�表做类比）斚w��的优�ѝ��最后，文章描述�?/span>Flink未来版本��Z��内存的查询�Q务�?/span>

http://data-artisans.com/counting-in-streams-a-hierarchy-of-needs/

本教�E�介�l�了怎样�?/span>TCP Socket中的文本数据��{换�ؓSpark��式数据源�?/span>

https://medium.com/@anicolaspp/spark-custom-streaming-sources-e7d52da72e80

本文介绍了在构徏Hadoop的时候怎样防止AWS证书意外提交到补丁或git资源库。除Hadoop本��n外，本文�q�徏议��?/span>“git-secrets”工具防止意外提交讉K��/安全密钥。如果你用的�?/span>Hadoop S3�Q�还推荐了新补丁供评估�?/span>

http://steveloughran.blogspot.co.uk/2016/04/testing-against-s3-and-object-stores.html

Big Data & Brews采访�?/span>MapR�?/span>Ted Dunning�?/span>Jacques Nadeau�?/span>Apache Arrow也在本次采访范围内�?/span>

https://www.youtube.com/watch?v=l3mDDKjDjMk

https://www.youtube.com/watch?v=Xo9CO0a0VJI

其他新闻

DataEngConf最�q�在旧金山召开。本文�ȝ��?/span>Uber�?/span>Stripe�?/span>Microsoft�?/span>Instacart�?/span>Jawbone的发�a�内容。也介绍了会议主�?/span>“数据�U�学在现实世界中是一个��品和工程学科”�?/span>

https://medium.com/@eugmandel/software-engineering-invades-data-science-notes-from-dataengconf-4a3c066b081f#.g2h0duo44

Hortonworks在上周都柏林举行�?/span>Hadoop�Ƨ洲��C��上大攑ּ�彩�?/span>ZDNet报导了这些亮点，其中包括�?/span>Pivotal�Q�已转售�l?/span>HDP�Q�的扩展合作�Q�与Syncosrt的�{售协议，以及Atlas�?/span>Ranger�?/span>Zeppelin�?/span>Metron的技术预览。报��D��介绍�?/span>Hortonworks�?/span>Cloudera�?/span>MapR产品的不同之处�?/span>

http://www.zdnet.com/article/hortonworks-announces-new-alliances-and-releases-hadoop-comes-to-fork-in-road/

Flink 2016��C��在九月于�d国柏林�D行。讨��题征集将于六月末�l�束�?/span>

http://flink.apache.org/news/2016/04/14/flink-forward-announce.html

YouTube上发布了Hadoop都柏林峰会演讲视频。正如预期的那样�Q�这些演讲内�Ҏ��?/span>Hadoop生态系�l�的各个部分�?/span>

https://www.youtube.com/channel/UCAPa-K_rhylDZAUHVxqqsRA/videos?flow=list&live_view=500&view=0&sort=dd

产品发布

Metascope是一个配�?/span>Schedoscope�?/span>Hadoop集群中进行元数据��理的新工具。通过web界面�Q�利用数据沿袭它能洞察大量的数据。也提供��索、内嵌文档�?/span>REST API�{�等功能�?/span>

https://github.com/ottogroup/metascope

Apache HBase 1.2.1于本周发布，�?/span>1.2.0的基��上解决了27个问题。发布声明中重点介绍了四个高优先�U�的问题�?/span>

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAN5cbe7-T5uAYvGRbxw2dfvdbwe5s0nx3vKU8Nt2fzXbKPoQTg@mail.gmail.com%3E

Apache Mahout机器学习库发布了0.12.0版。该版本�?/span>“Samsara”数学环境开始支�?/span>Apache Flink了，�q�且是��^台无关的。发布声明中分��n了与Flink集成、已知问题、项目演�q�计划相关的内容�?/span>

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAOtpBjj5An876PStdn5kMeaF+up-B72WTmCk9j21EXdP=JOCUA@mail.gmail.com%3E

Apache Storm 1.0.0本周发布了。亮点包括性能提升�Q�普遍提�?/span>3倍以上）、新的分布式�~�存API�?/span>nimbus的高可用性、自动反压、动�?/span>worker性能分析�{�等�?/span>

http://storm.apache.org/2016/04/12/storm100-released.html

Apache Kudu�Q�孵化中�Q�本周发布了0.8.0版。本�ơ发布添加了Apache Flume sink、部分功能提升、修复了一�?/span>bug�?/span>

http://getkudu.io/releases/0.8.0/docs/release_notes.html

Cloudbreak本周发布�?/span>1.2版，它�ؓ云环境提�?/span>Hadoop集群Docker。新�Ҏ��包括支�?/span>OpenStack以及��定义服务器提供配�|�脚本�?/span>

http://hortonworks.com/blog/announcing-cloudbreak-1-2/

Cloudera发布�?/span>Cloudera Enterprise 5.4.10�Q�内�|�了Flume�?/span>Hadoop�?/span>HBase�?/span>Hive�?/span>Impala�{�组件�?/span>

http://community.cloudera.com/t5/Community-News-Release/ANNOUNCE-Cloudera-Enterprise-5-4-10-Released/m-p/39790#U39790

Presto Accumulo是个新项目，�?/span>Accumulo��d��数据提供�?/span>Presto�q�接器�?/span>

https://github.com/bloomberg/presto-accumulo

�z�d��

中国

�?/span>

Rosen 2016-04-21 15:07 发表评论

Rosen — Thu, 14 Apr 2016 10:02:00 GMT

Hadoop周刊

�W?165 �?2016�q?�?0�?

启明星辰——�q�_��和大数据整体�l�编�?/strong>

本周�Q�包�?/span>LinkedIn �?/span>Airbnb新开源项目在内的��C��产品�q�行了重大版本发布。本期技术部分与��式处理有关——Spark�?/span>Flink�?/span>Kafka�{�等�Q�新闻部分是关于Spark Summit �?/span>HbaseCon的会议议�E��?/span>

技�?/span>

Zalando发表了他们是如何选择Apache Flink作�ؓ��式处理框架的文章。该文章阐述了对评�h标准�q�行验证后得出的�l�论�Q�阐明了选择Apache Flink的主�?/span>—在高吞吐量的情况下依然能保持低�g�q�，真正的流式处理，开发�h员支持�?/span>

https://tech.zalando.com/blog/apache-showdown-flink-vs.-spark/

Cloudera博客刊登了来�?/span>Wargaming.net的文章，通过本文可了解到他们如何通过Kafka�?/span>HBase�?/span>Drools�?/span>Spark构徏实时处理基础设施的。另外，在数据流�E�方面，他们介绍了如何对HBase的检索和序列化�?/span>HBase�?/span>Spark之间的数据本地化以及Spark计算斚w��的优化措施�?/span>

http://blog.cloudera.com/blog/2016/04/inside-wargamings-data-driven-real-time-rules-engine/

InfoQ发布了大规模��式处理—SMACK�Q?/span>Spark�?/span>Mesos�?/span>Akka�?/span>Cassandra以及 Kafka�Q�栈的介�l�视频。讨��Z��Z��?/span>SMACK栈在处理同样问题的时候比Lambda架构更简单�?/span>

http://www.infoq.com/presentations/stream-analytics-scalability

Confluent“日志压羃”�p�d��博文又有更新�Q�介�l�了Kafka��目三月份发生的事情。有不少令�h��x��的开发内容，包括机架感知�?/span>Kerberos支持、基于时间烦引方面的�q�展。以及不��你�Q�我也是�Q�没有时间持�l�关注的最新研发成果�?/span>

http://www.confluent.io/blog/log-compaction-highlights-in-the-kafka-and-stream-processing-community-april-2016

Apache Flink 1.0引入了新的复杂事件处理（CEP�Q�库。啰嗦几句，CEP提供了一�U�检��事件模式的�Ҏ��。本文借助传感器从数据中心服务器上攉��数据�Q�运用一�U�可能的异常��用例，诠释�?/span>Flink�?/span>CEP模式API �?/span>

http://flink.apache.org/news/2016/04/06/cep-monitoring.html

Genome Analysis Toolkit �Q?/span>GATK�Q�最�q�宣布，下一个版本（当前�?/span>alpha�Q�将支持Apache Spark。本文简要介�l�了工具��ƈ展示了怎样通过Spark来检��重�?/span>DNA片段的�?/span>

http://blog.cloudera.com/blog/2016/04/genome-analysis-toolkit-now-using-apache-spark-for-data-processing/

InfoWorld�l�D��?/span>Spark2.0关于�l�构化流式处理方面的计划。微批处理将依然延箋�Q�还有些新特性，例如无限数据帧（Infinite DataFrames�Q�、一��的重复查询支持�?/span>

http://www.infoworld.com/article/3052924/analytics/what-sparks-structured-streaming-really-means.html

AWS大数据博客发布了一��通过存储�?/span>AWS Key Management Service �Q?/span>KMS�Q�中的加密密钥加载数据到S3�?/span>Redshift的文章。除了描�q�所需步骤�Q�本文还介绍了如何在AWS S3中通过KMS密钥加密数据�?/span>

http://blogs.aws.amazon.com/bigdata/post/Tx2Q3ZBOZO9DHVQ/Encrypt-Your-Amazon-Redshift-Loads-with-Amazon-S3-and-AWS-KMS

Confluent博客介绍了如何��?/span>Kafka Connect �?/span> Kafka Streams �~�写非凡�?/span>“hello world”�E�序。更��切地说�Q�范例程序从IRC拉维基百�U�数据，�q�解析消息、进行多斚w��的统计计��。本文还用了若干�E�序展示了整个实现过�E��?/span>

http://www.confluent.io/blog/hello-world-kafka-connect-kafka-streams

本文�?/span>Postgres �?/span> Cassandra转换��单的模式�Q?/span>schemas�Q�，�q�描�q�C��主要的差�?/span>—复制、数据类型（Cassandra不支�?/span>JSON�Q�、主键、最�l�以一致性�?/span>

http://neovintage.org/2016/04/07/data-modeling-in-cassandra-from-a-postgres-perspective/

新闻

ESG博客报导了最�q?/span>Strata+Hadoop World大会的情��c��ƈ有些重点��x��Q�例�?/span>Spark的良好势头、机器学习、云服务�?/span>

http://blog.esg-global.com/riding-high-at-stratahadoop-world

InformationWeek也报��g��Strata大会�Q�关注了MapR�?/span>Pivotal的关灯片、�h工智能等�?/span>

http://www.informationweek.com/big-data/ai-public-data-sets-real-time-strata-+-hadoop-keynote-sampling/d/d-id/1324943?

Spark Summit 2016议程敲定�Q�将�?/span>6�?/span>6-8日在旧金�׃�D行。会议将有两天展开五个方向的讨论�?/span>

https://databricks.com/blog/2016/04/04/agenda-announced-for-sparksummit-2016-in-san-francisco.html

��布斯采访了Cloudera CEO Tom Reilly�Q�他讨论了公司的机遇、竞争性市场、上市计划等�?/span>

http://www.forbes.com/sites/roberthof/2016/04/06/ceo-tom-reilly-makes-the-case-for-cloudera-and-its-ipo/

Datanami撰文��正在崛��L��Apache Kafka作�ؓ��式处理的支柱。文章还采访�?/span>Confluent联合创始人兼CTO Neha Narkhede�Q�坊间她表示最�q�将推出Kafka Connect �?/span> Kafka Streams�?/span>

http://www.datanami.com/2016/04/06/real-time-rise-apache-kafka/

HBaseCon��于5�?/span>24日在旧金山召开�Q�最�q�议�E�才正式宣布。在三个方向上，��有20个以上的议题要讨论�?/span>

http://blog.cloudera.com/blog/2016/04/hbasecon-2016-speaker-lineup-announced/

发布

Apache HBase 0.98.18 �?/span>1.1.4最�q�都发布了�?/span>1.1.4上有包括九个或正��性在内的若干修复�?/span>HBase 0.98.18��答�{�的仅解决了50个问题（bug、改善两个新�Ҏ��）�?/span>

http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCANZa%3DGu-mAxKEtfoRjctHcE0KD7z52oE010Fgsf6AMmW2tDZLA%40mail.gmail.com%3E
http://mail-archives.apache.org/mod_mbox/hbase-user/201603.mbox/%3CCA%2BRK%3D_CtZ1L07nS6Og2ekfVwet0qTE7jw-bmyD2pp5UPweUehQ%40mail.gmail.com%3E

Apache Lens发布�?/span>2.5.0-beta�Q�作为统一分析接口�Q�它已经支持Hadoop生态系�l�的执行引擎数据存储了。本�ơ发布解决了87��，主要�?/span>bug修复和实现新功能�?/span>

http://mail-archives.us.apache.org/mod_mbox/www-announce/201604.mbox/%3CCAL3kmZj60kpopRPpOVEs9o7oTg7YuaC_=c8zncBeMyUESrZsmQ@mail.gmail.com%3E

Airbnb 开源了 Caravel�Q�数据探索系�l�（数据可视化��^収ͼ��?/span>Caravel支持多种在商业��品上才能看到的特性，能够�q�接��C�Q意只要支�?/span>SQL方言的系�l�。尤其它支持面向Druid的实时分析�?/span>

https://medium.com/airbnb-engineering/caravel-airbnb-s-data-exploration-platform-15a72aa610e5

MapR 宣布支持Apache Drill 1.6作�ؓ他们的分布式�pȝ��。比较有亮点的发布有MapR-DB新存储插件、新SQL�H�口函数支持以及端对端安全。在�|�页介绍部分�Q�有些��?/span>MapR-DB API�?/span>�?/span>数据�q��?/span>�q?/span>Drill查询的例子�?/span>

https://www.mapr.com/blog/apache-drill-16-mapr-converged-platform-gearing-new-generation-stack-json-enabled-big-data

Apache Flink发布了修�?/span>bug后的1.0.x。这�ơ发布解决了23个问题，推荐所�?/span>1.0.0的用户升�U��?/span>

http://flink.apache.org/news/2016/04/06/release-1.0.1.html

Cloudera Enterprise 5.7发布附带�?/span>Spark�?/span>HBase�?/span>Impala�?/span>Kafka�{�组件版本的升��。本�ơ发布的亮点包括�?/span>Cloudera Labs 新鲜推荐�?/span>Hive-on-Spark�?/span>HBase-Spark�?/span>Impala性能重要提升�Q�支�?/span>SSD �?/span>HBase WAL�?/span>

http://blog.cloudera.com/blog/2016/04/cloudera-enterprise-5-7-is-released/

Apache Tajo�Q�构建在Hadoop上的数据仓库�pȝ��Q�发布了0.11.2版。新版本支持�?/span>Kerberos�Q�修复了ORC表对Hive的支持等�?/span>

http://tajo.apache.org/releases/0.11.2/announcement.html

LinkedIn 开源了 Dr. Elephant�Q�里面的工具能诊�?/span>Hadoop�?/span>Spark��d��的性能问题。基�?/span>metrics�?/span>YARN资源��理器收集已完成��d��数据�Q?/span>Dr. Elephant评估后生成诊断报表，内容包括数据错位�?/span>GC开销�{��?/span>LinkedIn宣称借助它能解决80%的问题�?/span>

https://engineering.linkedin.com/blog/2016/04/dr-elephant-open-source-self-serve-performance-tuning-hadoop-spark

�z�d��

中国

�?/span>

Rosen 2016-04-14 18:02 发表评论