本站所有文章均为原创,如对您有帮助,恳请帮忙点击任何一处广告

大数据基础(2)Hadoop的安装与基本配置

发布:TangLu2019-5-13 16:52分类: 大数据 标签: hadoop 大数据 mapreduce hdfs hive

一、下载Hadoop

在Apache官方网站可以下载Hadoop的二进制安装包,无需编译安装,如:

wget http://mirrors.tuna.tsinghua.edu.cn/apache/hadoop/common/hadoop-2.9.2/hadoop-2.9.2.tar.gz


二、解压安装包并拷贝到合适的路径,如:

tar zxf hadoop-2.9.2.tar.gz 
mv hadoop-2.9.2 /usr/local/

三、为Hadoop配置环境变量,需要注意的是$HADOOP_HOME下的bin和sbin都需要添加

vi /etc/proflie
JAVA_HOME=/usr/local/jdk1.8.0
HADOOP_HOME=/usr/local/hadoop-2.9.2
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
source /etc/profile

四、还需在Hadoop环境配置文件中做以下配置,否则可能会遇到JAVA_HOME is not set and could not be found的错误

vi /usr/local/hadoop-2.9.2/etc/hadoop/hadoop-env.sh
export JAVA_HOME=/usr/local/jdk1.8.0

五、使用hadoop version命令验证环境变量

hadoop1.png


六、Hadoop主要配置文件有4个,都在$HADOOP_HOME/etc/hadoop下:

1、core-site.xml(配置通用属性)

2、hdfs-site.xml(配置HDFS)

3、mapred-site.xml(配置MapReduce)

4、yarn-site.xml(配置yarn)


七、Hadoop的3种工作模式:

1、本地独立模式:无需守护进程,该模式适合在开发阶段进行调试,使用1台机器可模拟。由于Hadoop安装后的默认属性都是为独立模式所设置的,所以可以直接运行start-all.sh脚本启动Hadoop要关闭服务的话就是运行stop-all.sh在启动前需要配置好ssh密钥登录


hadoop2.png

/usr/local/hadoop-2.9.2/sbin/start-all.sh
服务启动后可以查看一下hadoop文件系统,命令格式和Linux差不多,由于这里是独立本机模式,所以看到的文件也都是本机的文件了
hadoop fs -ls


2、伪分布模式:使用1台机器可模拟。以守护进程方式运行在本地机器上,模拟小规模集群

#编辑core-site.xml,增加以下内容
<configuration>
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost/</value>
    </property>
</configuration>

#编辑hdfs-site.xml,增加以下内容
<configuration>
    <property>
        <name>dfs.replication</name>
        <value>1</value>  #集群模式下这里是3,由于是模拟环境,只有1台机器
    </property>
</configuration>

#编辑mapred-site.xml,增加以下内容
cp mapred-site.xml.template mapred-site.xml
<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>


#编辑yarn-site.xml,增加以下内容
<configuration>
    <property>
        <name>yarn.resourcemanager</name>
        <value>localhost</value>
    </property>

    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
</configuration>

配置完成后使用start-all.sh启动服务,通过jps可以看到相比本地模式多了SecondaryNameNode、DataNode,通过浏览器访问50075端口可以查看hadoop的状态,


3、全分布模式:至少需要3台机器,1个NameNode,2个DataNode。

温馨提示如有转载或引用以上内容之必要,敬请将本文链接作为出处标注,谢谢合作!
et_highlighter51
版权所有:《Linux运维技术学习站点
文章标题:《大数据基础(2)Hadoop的安装与基本配置
除非注明,文章均为 《Linux运维技术学习站点》 原创
转载请注明本文短网址:http://www.linuxe.cn/post-490.html  [生成短网址]

已有 0/846 人参与

发表评论:

欢迎分享Linux运维技术学习站点

欢迎使用手机扫描访问本站,还可以关注微信哦~