跳转至

hadoop集群安装

微课PPT大纲:1.2.2 Hadoop集群安装部署(实操)

PPT 1:Hadoop集群安装部署 - 引言

  • 内容
  • 介绍本节实操目标:在三台虚拟机(master、slave1、slave2)上搭建Hadoop分布式集群,包括配置Hadoop、启动NameNode和DataNode。
  • 概述Hadoop集群的核心组件:HDFS(分布式文件系统)和YARN(资源管理框架)。
  • 强调本节内容是后续Hive环境构建的关键基础。

PPT 2:Hadoop安装前的准备

  • 内容
  • 步骤1:下载Hadoop安装包
    从Apache官网下载稳定版Hadoop安装包(建议版本为Hadoop 3.x)。
  • 步骤2:将Hadoop安装包分发到3台虚拟机
    使用scp命令将安装包从master分发到slave1和slave2:

    bash scp hadoop-3.x.x.tar.gz user@slave1:/opt scp hadoop-3.x.x.tar.gz user@slave2:/opt - 步骤3:解压Hadoop安装包
    在每台虚拟机中解压安装包:

    bash tar -xzvf hadoop-3.x.x.tar.gz -C /opt


PPT 3:配置Hadoop环境变量

  • 内容
  • 在每台虚拟机的~/.bashrc文件中添加Hadoop环境变量: ```bash export HADOOP_HOME=/opt/hadoop-3.x.x export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

    export HDFS_NAMENODE_USER="root" export HDFS_DATANODE_USER="root" export HDFS_SECONDARYNAMENODE_USER="root" export YARN_RESOURCEMANAGER_USER="root" export YARN_NODEMANAGER_USER="root" - 加载环境变量:bash source ~/.bashrc

    - 验证Hadoop命令是否生效:bash hadoop version ```


PPT 4:Hadoop集群配置 - 核心配置文件 全部节点都要配置

  • 内容
  • 修改以下Hadoop核心配置文件,确保集群能正常运行:

    [root@master etc]# cd /opt/hadoop-3.3.4/etc/hadoop/

    1. core-site.xml(配置NameNode地址):

    xml <configuration> <property> <name>fs.defaultFS</name> <value>hdfs://master:9000</value> </property> </configuration> 2. hdfs-site.xml(配置HDFS存储目录): xml <configuration> <property> <name>dfs.namenode.name.dir</name> <value>/opt/hadoop_data/namenode</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>/opt/hadoop_data/datanode</value> </property> <property> <name>dfs.replication</name> <value>2</value> </property> </configuration> 3. yarn-site.xml(配置YARN资源管理): xml <configuration> <property> <name>yarn.resourcemanager.hostname</name> <value>master</value> </property> <property> <name>yarn.nodemanager.aux-services</name> <value>mapreduce_shuffle</value> </property> </configuration> 4. mapred-site.xml(配置MapReduce框架): xml <configuration> <property> <name>mapreduce.framework.name</name> <value>yarn</value> </property> </configuration>

少了步骤  需要在 /opt/hadoop-3.3.4/etc/hadoop/workers 文件添加节点
[root@master hadoop]# pwd
/opt/hadoop-3.3.4/etc/hadoop
[root@master hadoop]# cat workers 
master
slave1
slave2
[root@master hadoop]# 

PPT 5:格式化HDFS并启动集群

  • 内容
  • 格式化NameNode(在master虚拟机执行): bash hdfs namenode -format
  • 启动Hadoop集群(在master执行): bash stop-dfs.sh stop-yarn.sh start-dfs.sh start-yarn.sh
  • 验证HDFS和YARN是否成功启动:

PPT 6:配置集群的SSH免密登录

  • 内容
  • 确保master虚拟机可以通过SSH免密登录到slave1和slave2。
  • 如果尚未完成免密登录配置,参考以下步骤:

    • 在master上生成SSH密钥: bash ssh-keygen -t rsa -P ""
    • 分发公钥到slave1和slave2: bash ssh-copy-id user@slave1 ssh-copy-id user@slave2 ssh-copy-id user@master
  • 验证免密登录: bash ssh user@slave1 ssh user@slave2


PPT 7:验证Hadoop集群的运行

  • 内容
  • 使用jps命令检查各节点的Hadoop服务是否正常运行:
    • master应显示:
    • NameNode
    • ResourceManager
    • slave1slave2应显示:
    • DataNode
    • NodeManager
  • 上传文件到HDFS测试: bash hdfs dfs -mkdir /test hdfs dfs -put /opt/hadoop-3.x.x/README.txt /test hdfs dfs -ls /test
  • 确认文件上传成功。

PPT 8:总结:Hadoop集群安装部署

  • 内容
  • 本节实操成功完成了Hadoop集群的安装与部署,包含HDFS与YARN的配置。
  • 验证了Hadoop集群的运行状态,并通过上传文件到HDFS测试了集群的基本功能。
  • 本次配置为后续的Hive安装和环境测试打下了坚实基础。
  • 下一节课将进行MySQL安装部署,为Hive元数据存储环境搭建做好准备。