当前位置：Gxlcms > mysql > Hadoop集群(CDH4)实践之(0)前言

Hadoop集群(CDH4)实践之(0)前言

时间：2021-07-01 10:21:17 帮助过：38人阅读

目录结构 Hadoop集群(CDH4)实践之 (0) 前言 Hadoop集群(CDH4)实践之 (1) Hadoop(HDFS)搭建 Hadoop集群(CDH4)实践之 (2) HBaseZookeeper搭建 Hadoop集群(CDH4)实践之 (3) Hive搭建 Hadoop集群(CHD4)实践之 (4) Oozie搭建 Hadoop集群(CHD4)实践之 (5) Sqoop安

目录结构
Hadoop集群(CDH4)实践之 (0) 前言
Hadoop集群(CDH4)实践之 (1) Hadoop(HDFS)搭建
Hadoop集群(CDH4)实践之 (2) HBase&Zookeeper搭建
Hadoop集群(CDH4)实践之 (3) Hive搭建
Hadoop集群(CHD4)实践之 (4) Oozie搭建
Hadoop集群(CHD4)实践之 (5) Sqoop安装

本文内容
Hadoop集群(CDH4)实践之 (0) 前言

下面进入正文
在我初学Hadoop的期间，我写过一个系列的Hadoop入门文章，第一篇就是《Hadoop集群实践之 (0) 完整架构设计》
在之前的系列文章中，我对Hadoop的一些入门概念也进行了讲解，主要是针对我曾经所遇到过的一些疑惑。
同时，在之前的系列文章中，我还列出了一些小的操作Demo来加深对各个工具的理解。

那么为什么这次又要写这个系列的文章呢，看起来内容感觉都是重复的。
其实，主要是由于以下原因：
1. 之前的文章是基于Ubuntu 10.10 系统，也同样适用于新版的Ubuntu，但是采用CentOS作为生产环境的情况更多；
同时由于Ubuntu有一些改动与开源社区的步伐不太一致，因此目前有唱衰Ubuntu的趋势。
2. CentOS随着EPEL等扩展库的规范和快速发展，目前已经具备了和Ubuntu同等规模的丰富的软件库，通过YUM安装和部署软件也非常的方便；
3. 之前的文章是基于CDH3的，而目前Hadoop的发展，CDH4已经成为了主流，同时具备CDH3所不具备的一些功能，我觉得最有用的功能有以下：
a) NameNode HA，与secondary namenode不同，CDH4提供了一种HA的方式，可以确保双节点NameNode；
b) TaskTracker 提供了容错机制，可以确保并行计算过程中，不会因为某一个节点出错而导致整个并行计算的失败；

因此，基于以上原因，本文是在CentOS 6.4 x86_64的系统上，基于CDH4的环境下完成的。
不过，目前还没有完成Namenode HA 和 TaskTracker容错的测试，相关内容暂时还无法看到。
同时，本文采用了非YARN方式，而是与CDH3相同的MRv1计算框架，为了确保公司之前线上环境所开发的代码能够准确无误的运行。

下面，就让我们开始整个实战演练过程：
Hadoop集群(CDH4)实践之 (1) Hadoop(HDFS)搭建
Hadoop集群(CDH4)实践之 (2) HBase&Zookeeper搭建
Hadoop集群(CDH4)实践之 (3) Hive搭建
Hadoop集群(CHD4)实践之 (4) Oozie搭建
Hadoop集群(CHD4)实践之 (5) Sqoop安装

Hadoop集群(CDH4)实践之(0)前言

人气教程排行