hadoop集群安装
微课PPT大纲:1.2.2 Hadoop集群安装部署(实操)
PPT 1:Hadoop集群安装部署 - 引言
- 内容:
- 介绍本节实操目标:在三台虚拟机(master、slave1、slave2)上搭建Hadoop分布式集群,包括配置Hadoop、启动NameNode和DataNode。
- 概述Hadoop集群的核心组件:HDFS(分布式文件系统)和YARN(资源管理框架)。
- 强调本节内容是后续Hive环境构建的关键基础。
PPT 2:Hadoop安装前的准备
- 内容:
- 步骤1:下载Hadoop安装包
从Apache官网下载稳定版Hadoop安装包(建议版本为Hadoop 3.x)。 -
步骤2:将Hadoop安装包分发到3台虚拟机
使用scp命令将安装包从master分发到slave1和slave2:bash scp hadoop-3.x.x.tar.gz user@slave1:/opt scp hadoop-3.x.x.tar.gz user@slave2:/opt- 步骤3:解压Hadoop安装包
在每台虚拟机中解压安装包:bash tar -xzvf hadoop-3.x.x.tar.gz -C /opt
PPT 3:配置Hadoop环境变量
- 内容:
-
在每台虚拟机的
~/.bashrc文件中添加Hadoop环境变量: ```bash export HADOOP_HOME=/opt/hadoop-3.x.x export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoopexport HDFS_NAMENODE_USER="root" export HDFS_DATANODE_USER="root" export HDFS_SECONDARYNAMENODE_USER="root" export YARN_RESOURCEMANAGER_USER="root" export YARN_NODEMANAGER_USER="root"
- 加载环境变量:bash source ~/.bashrc- 验证Hadoop命令是否生效:bash hadoop version ```
PPT 4:Hadoop集群配置 - 核心配置文件 全部节点都要配置
- 内容:
-
修改以下Hadoop核心配置文件,确保集群能正常运行:
[root@master etc]# cd /opt/hadoop-3.3.4/etc/hadoop/- core-site.xml(配置NameNode地址):
xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> </configuration>2. hdfs-site.xml(配置HDFS存储目录):xml <configuration> <property> <name>dfs.namenode.name.dir</name> <value>/opt/hadoop_data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/opt/hadoop_data/datanode</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> </configuration>3. yarn-site.xml(配置YARN资源管理):xml <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration>4. mapred-site.xml(配置MapReduce框架):xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>
少了步骤 需要在 /opt/hadoop-3.3.4/etc/hadoop/workers 文件添加节点
[root@master hadoop]# pwd
/opt/hadoop-3.3.4/etc/hadoop
[root@master hadoop]# cat workers
master
slave1
slave2
[root@master hadoop]#
PPT 5:格式化HDFS并启动集群
- 内容:
- 格式化NameNode(在master虚拟机执行):
bash hdfs namenode -format - 启动Hadoop集群(在master执行):
bash stop-dfs.sh stop-yarn.sh start-dfs.sh start-yarn.sh - 验证HDFS和YARN是否成功启动:
- HDFS Web界面:http://master:9870
- YARN Web界面:http://master:8088
PPT 6:配置集群的SSH免密登录
- 内容:
- 确保master虚拟机可以通过SSH免密登录到slave1和slave2。
-
如果尚未完成免密登录配置,参考以下步骤:
- 在master上生成SSH密钥:
bash ssh-keygen -t rsa -P "" - 分发公钥到slave1和slave2:
bash ssh-copy-id user@slave1 ssh-copy-id user@slave2 ssh-copy-id user@master
- 在master上生成SSH密钥:
-
验证免密登录:
bash ssh user@slave1 ssh user@slave2
PPT 7:验证Hadoop集群的运行
- 内容:
- 使用
jps命令检查各节点的Hadoop服务是否正常运行:- master应显示:
- NameNode
- ResourceManager
- slave1和slave2应显示:
- DataNode
- NodeManager
- 上传文件到HDFS测试:
bash hdfs dfs -mkdir /test hdfs dfs -put /opt/hadoop-3.x.x/README.txt /test hdfs dfs -ls /test - 确认文件上传成功。
PPT 8:总结:Hadoop集群安装部署
- 内容:
- 本节实操成功完成了Hadoop集群的安装与部署,包含HDFS与YARN的配置。
- 验证了Hadoop集群的运行状态,并通过上传文件到HDFS测试了集群的基本功能。
- 本次配置为后续的Hive安装和环境测试打下了坚实基础。
- 下一节课将进行MySQL安装部署,为Hive元数据存储环境搭建做好准备。