位置:首页 > 分类聚合

一文读懂大数据:Hadoop,大数据技术、案例及相关应用

你想了解大数据,却对生涩的术语毫不知情?你想了解大数据的市场和应用,却又没有好的案例和解说?别担心,这本来自Wikibon社区的小书想要帮你。 是的,这是一本小书而不是一篇文章,因为它详实细致的让你从一个完全   查看详细

Voidbox- Docker on Hadoop 一个YARN上基于Docker的计算框架 杨华辉,董西成,梁宇明 1. Voidbox设计动机 YARN是Hadoop 2.0中的分布式资源管理系统,能够对集群中的各类计算框架(比如MapReduce和Spark等)进行统一的管理和调度,同时使用轻

Hadoop 2.4.0版本于2014年4月7日发布,相比于hadoop 2.3.0,有了很多重大改进,主要包括: (1)HDFS支持ACL ACL权限控制机制是对HDFS现有的基于Linux文件访问权限控制机制的补充,该方式更加灵活,能够解决之前HDFS无法解决的特定情

- 这是我在数盟上分享的一个topic,介绍了hadoop yarn的产生背景、基本架构、运行在yarn上的计算框架(包括MapReduce、Tez、Storm、Spark等)和发展趋势,该PPT可看做hadoop 2.o新书《Hadoop技术内幕:深入解析YARN架构设计与实现原理》的

本文分别从HDFS和YARN两方面介绍Hadoop 2.0的最新进展。 至今Hadoop 2.0的稳定版本2.2.0已经发布3个月左右,在这三个月中,HDFS和YARN/MRv2均有重大进展,本文简要对其进行介绍。注意,本文介绍的这些功能和特性,有的正在开发中,

– 《Hadoop技术内幕:深入解析YARN架构设计与实现原理》一书中,“第6章 资源调度器”最后的问题讨论。大家可在此讨论这几个问题。 (1)   问题1:Capacity Scheduler和Fair Scheduler对每个队列的资源使用有最小量和最大量的

– 《Hadoop技术内幕:深入解析YARN架构设计与实现原理》一书中,“第5章 ResourceManager剖析”最后的问题讨论。大家可在此讨论这几个问题。 (1)   截止本书结稿时,ResourceManager HA仍然没有实现,应该如何解决ResourceManager

  目前Hadoop发行版非常多,有华为发行版、Intel发行版、Cloudera发行版(CDH)等,所有这些发行版均是基于Apache Hadoop衍生出来的,之所以有这么多的版本,完全是由Apache Hadoop的开源协议决定的:任何人可以对其进行修改,并

关于Hadoop YARN的论文《Apache Hadoop YARN: Yet Another Resource Negotiator》已经发表在了SoCC’13上,这篇论文全面解析了YARN的产生背景、基本架构以及实际生产环境使用情况,而本文将尝试解析这篇论文。 在第一代Hadoop中,MapReduce最初只

Hadoop 2.0的第一个稳定版本2.2.0于2013年10月15如发布了,这个版本是 继1.0.0版本后,又一个具有里程碑意义的版本,这意味着Hadoop进入2.0时代。本文尝试解析Hadoop 2.2.0中包含的新特性。 下图是Apache Hadoop官网发布的2.2.0中涉及到的