详解Hadoop 运行环境搭建过程

站长资源 2024/12/28 佚名

53 1538 53

富贵资源网 Design By www.hznty.com

一，集群搭建步骤

1.先在一台虚拟机配置jdk，hadoop
2.克隆
3.修改网络等相关配置
当我们使用虚拟机时，可能自然而然的会想上面的步骤一样先搭建一台虚拟机，做好相关配置，然后进行克隆，继而修改一些网络配置来搭建集群，但是在生产过程中是买好的服务器，不存在克隆这一说，所以在此采用的步骤是：
1.建立一台虚拟机(仅带jdk安装包)
2.克隆
3.修改网络等相关配置
4.配置第一个hadoop节点，编写集群分发脚本使其他虚拟机完成配置

二，具体搭建过程

这里使用三台虚拟机来完成集群搭建，hadoop001，hadoop002,hadoop003，把安装包放在/opt/software，建立虚拟机和克隆就不说了，注意一点，在个人用不能使用sudo命令在/opt建立文件，可以先使用root，然后通过chown scq:scq module/ software/ -R把拥有着赋给个人用户即可

修改网络等配置修改sudoer文件复制代码代码如下:su rootll /etc/sudoerschmod u+w /etc/sudoersvim /etc/sudoers

#当用户执行sudo时，系统会主动寻找/etc/sudoers文件，判断该用户是否有执行sudo的权限修改mac地址，修改ip复制代码 代码如下:sudo vim /etc/udev/rules.d/70-persistent-net.rules

把eth0删除，把eth1改为eth0，同时复制ATTR{address}的值

sudo vim /etc/sysconfig/network-scripts/ifcfg-eth0

把ATTR{address}粘到HWADDR

然后更改IP，ip可以通过图形化界面和命令行两种方式进行更改
这里需要重启一下(可以等所有配置完成后再重启)，如果我们只是修改ip，可以通过sudo /etc/rc.d/init.d/network restart 进行网络重启即可，但是修改网卡配置通过这个命令会报错网上说eth0 里仍然记录着旧的MAC地址，但我更新了sudo /etc/sysconfig/network-scripts/ifcfg-eth0仍然不行

BOOTPROTO=static 静态IPBOOTPROTO=dhcp 动态IPBOOTPROTO=none 无（图形化界面修改时BOOTPROTO值为none）

修改主机名

主机名是什么：在命令行中敲入hostname或者命令行每一行中 @后面的内容

sudo vim /etc/sysconfig/network

重启生效，不重启生效的方式不常见，可以自行百度。

修改hosts文件

sudo vim /etc/hosts[/code]关闭防火墙[code]centos6/etc/init.d/iptables status/etc/init.d/iptables start/etc/init.d/iptables stopchkconfig iptables offcentos7systemctl start firewalldfirewall-cmd --statesystemctl stop firewalldsystemctl disable firewalldsystemctl list-unit-files|grep firewalld

注：

1.每次开机时修改一下/etc/resolv.conf文件设置网关

安装hadoop，形成hadoop集群安装单个hadoop

①解压，配置环境变量

②配置文件

对于本地模式，因为本地模式直接运行jvm上，所以不需要对配置文件做配置
对于伪分布式与完全分布式的常见相关配置集中在以下文件中

HDFShadoop-env.shcore-site.xml ---> nameNode节点 + hadoop 运行时产生文件的存储目录hdfs-site.xml 副本数 + SecondaryNameNode地址Yarnyarn-env.sh yarn-site.xml reducer 获取数据的方式 + 指定 YARN 的 ResourceManager 的地址 + 日志信息上传到 HDFS 系统上MapReducemapred-env.sh mapred-site.xml 指定 mr 运行在 yarn 上 + 历史服务器 对于xxx-env.sh 就是考虑JAVA_HOME。hadoop-env.sh添加JAVA_HOME,yarn可以辨别JAVA_HOME,mapreduce-env.sh可以不用配置,当然也可以全部都配置

常见的具体配置

<property><name>fs.defaultFS</name><value>hdfs://hadoop001:9000</value>
</property><property><name>hadoop.tmp.dir</name><value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>伪分布式 副本1，无SecondaryNameNode节点<property><name>dfs.replication</name><value>3</value></property><property><name>dfs.namenode.secondary.http-address</name>
<value>hadoop004:50090</value></property><!-- reducer 获取数据的方式 --><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property><!-- 指定 YARN 的 ResourceManager 的地址 --><property><name>yarn.resourcemanager.hostname</name><value>hadoop001</value></property>
<!-- 日志聚集功能使能 --><property><name>yarn.log-aggregation-enable</name><value>true</value></property><!-- 日志保留时间设置 7 天 --><property><name>yarn.log-aggregation.retain-seconds</name><value>604800</value></property><!-- 指定 mr 运行在 yarn 上 --><property><name>mapreduce.framework.name</name><value>yarn</value></property>
<!-- 配置历史服务器--><property><name>mapreduce.jobhistory.address</name><value>hadoop001:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>hadoop001:19888</value>
</property>

编写集群分发脚本

1） scp:secure copy 安全拷贝

（a）将 hadoop001 中/opt/module 目录下的软件拷贝到 hadoop002 上。

[scq@hadoop001 /]$ scp -r /opt/module/* scq@hadoop002:/opt/module

（b）将 hadoop001 服务器上的/opt/module 目录下的软件拷贝到 hadoop003 上。

scq@hadoop003 opt]$ scp -r scq@hadoop101:/opt/module/* hadoop003:/opt/module

（c）在 hadoop003 上操作将 hadoop001 中/opt/module 目录下的软件拷贝到hadoop004 上。

[scq@hadoop003 opt]$ scp -r scq@hadoop001:/opt/module/* scq@hadoop004:/opt/modul

注意一点：

1.用户@主机名:地址，在该主机中，这个用户必须读地址有读权限

2.路径后面记得带*号

2）rsync 远程同步工具

主要用于备份和镜像。具有速度快、避免复制相同内容和支持符号链接的优点。
rsync 和 scp 区别：用 rsync 做文件的复制要比 scp 的速度快， rsync 只对差异文件做更新。 scp 是把所有文件都复制过去。

（1）查看 rsync 使用说明

man rsync | more

（2）基本语法

rsync -rvl $pdir/$fname $user@hadoop$host:$pdir

命令命令参数要拷贝的文件路径/名称目的用户@主机:目的路径

（3）选项说明

选项功能
-r 递归
-v 显示复制过程
-l 拷贝符号连接

（4）案例实操

把本机/opt/software 目录同步到 hadoop002 服务器的 root 用户下的/opt/目录

[scq@hadoop001 opt]$ rsync -rvl /opt/software/* hadoop102:/opt/software/

3）rsync 远程同步工具

脚本需求分析：循环复制文件到所有节点的相同目录下。
（1）原始拷贝：

rsync -rvl /opt/module root@hadoop103:/opt/

（2）期望脚本：

xsync 要同步的文件名称
（3）在/home/atguigu/bin 这个目录下存放的脚本， atguigu 用户可以在系统任何地方直接执行。

#!/bin/bash#1 获取输入参数个数，如果没有参数，直接退出pcount=$#if((pcount==0)); then echo no args;exit;fi#2 获取文件名称p1=$1fname=`basename $p1`echo fname=$fname#3 获取上级目录到绝对路径pdir=`cd -P $(dirname $p1); pwd`echo pdir=$pdir#4 获取当前用户名称user=`whoami`#5 循环for((host=2; host<4; host++)); doecho --------------------- hadoop00$host ----------------rsync -rvl $pdir/$fname $user@hadoop00$host:$pdirdone

注1 对于dirname，记住一下几个场景

输入：dirname // 结果为 /（斜杠）。

输入：dirname /a/b/ 结果为：/a。输入：dirname a 结果为 . （点）。

输入：dirname a/b 结果为路径名 a

.即当前目录，所以脚本中的代码我们使用绝对路径和相对路径都是可行的

注

2.脚本中并没有使用*，这个应该也不难理解

分发Hadoop，完成集群搭建

[scq@hadoop001 bin]$ ./xsync /opt/module/hadoop-2.7.2

总结

以上所述是小编给大家介绍的Hadoop 运行环境搭建过程,希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对网站的支持！
如果你觉得本文对你有帮助，欢迎转载，烦请注明出处，谢谢！

hadoop,运行环境,Hadoop,搭建

富贵资源网 Design By www.hznty.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站资源来自互联网收集,仅供用于学习和交流,请遵循相关法律法规,本站一切资源不代表本站立场,如有侵权、后门、不妥请联系本站删除！

富贵资源网 Design By www.hznty.com

评论“详解Hadoop 运行环境搭建过程”

暂无评论...

www.hznty.com 富贵资源网

20,135影音资源

44,641技术资源

2,817软件资源

435,032站长资源

详解Hadoop 运行环境搭建过程

大数据就业的三大方向和最热门十大岗位【推荐】

hadoop二次排序的原理和实现方法

评论“详解Hadoop 运行环境搭建过程”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

友情链接

详解Hadoop 运行环境搭建过程

大数据就业的三大方向和最热门十大岗位【推荐】

hadoop二次排序的原理和实现方法

评论“详解Hadoop 运行环境搭建过程”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存