hadoop环境搭建 精选 原创 长跑者1号 2018-05-28 17:26:58 博主文章分类:自动化运维,云计算,大数据 ©著作权 文章标签 hadoop 简介 单节点 搭建 文章分类 Hadoop 大数据 ©著作权归作者所有:来自51CTO博客作者长跑者1号的原创作品,请联系作者获取转载授权,否则将追究法律责任 一 hadoop 简介 1 Hadoop 整体框架 Hadoop 由HDFS 、MapReduce、HBASE、hive 和zookeeper 等成员组成,其中最 基础最重要的元素是底层用于存储集群中所有存储节点文件的文件系统HDFS 来 执行MapReduce 程序的MapReduce 引擎 1 pig 是一个基于Hadoop 的大规模数据分析平台,pig 为复杂的海量数据并行计 算提供了一个简单的操作和编程接口 2 hive 是基于Hadoop 的一个工具,提供完整的SQL 查询,可以将sql 语句转换 为MapReduce (映射)任务进行执行 3 zookeeper:高效的,可扩展的协调系统,存储和协调关键共享状态 4 HBASE 是一个开源的,基于列存储模型的分布式数据库 5 hdfs 是一个分布式文件系统,具有高容错的特点,适合于那些超大数据集的应 用程序, 6 MapReduce 是一种编程模式,用于大规模数据集的并行计算 2 hadoop 集群部署结构 3 hadoop 核心设计 1 HDFS 是一个高度容错性的分布式文件系统,可以被广泛的部署于廉价的PC 上,他以流式访问模式访问应用程序的数据,这样可以提高系统的数据吞吐量,因而非常适合用于具有超大数据集的应用程序中 HDFS 架构采用主从架构,一个HDFS 集群应该包含一个namenode 节点和多个datanode 节点,name node 负责整个HDFS 文件系统中的文件元数据的保管和管理,集群中通常只有一台机器上运行namenode,datanode 节点保存文件中的数据,集群中的机器分别运行一个datenode 实例,在HDFS 中,namenode 节点称为名称节点,DataNode 称为数据节点,DataNode 通过心跳机制与namenode 节点进行定时通信Namenode 相当于mfs 中的master serverDatanode 相当于mfs 中的chunk server 2 HDFS 的读写方式 写入 文件写入:如上图 1 客户端向nameode (master server ) 发起文件写入请求 2 namenode 根据文件大小和文件块配置情况,返回给客户端DataNode 信息 (chunkserver) 3 client 将文件划分成多个文件块,根据DataNode 的地址信息,按顺序写入每个 DataNode 中 读取 步骤: 1 向namenode 发送读取请求 2 namenode 返回文件位置列表 3 client 根据列表读取文件信息 2 MapReduce 是一种编程模型,用于大规模数据集并行计算,map(映射)和reduce(化简),采用分布方式,(分封制),先把任务分发到集群节点上,并行计算,然后将结果合并,多结点计算,涉及的任务调度,负载均衡,容错,都有MapReduce 完成 用户提交任务给job tracer ,job tracer 把对应的用户程序中的map 个reduce 操作映射到tasktracee 节点中,输入模块负责把输入数据数据分成小数据块,然后把它们传递给map 节点,map 节点得到每一个key/value 对,然后产生一个或多个key/value 对,然后写入文件,reduce 节点获取临时文件中的数据,对带有相同key 的数据进行迭代计算,后将最终结果写入文件 Hadoop 的核心是MapReduce,而MapReduce 的核心又在于map 和reduce 函数。它们是交给用户实现的,这两个函数定义了任务本身。 map 函数:接受一个键值对(key-value pair)(例如上图中的Splitting 结果),产生一组中间键值对(例如上图中Mapping 后的结果)。Map/Reduce 框架会将map 函数产生的中间键值对里键相同的值传递给一个reduce 函数。 reduce 函数:接受一个键,以及相关的一组值(例如上图中Shuffling 后的结果),将这组值进行合并产生一组规模更小的值(通常只有一个或零个值)(例如上图中Reduce 后的结果) 但是,Map/Reduce 并不是万能的,适用于Map/Reduce 计算有先提条件: (1)待处理的数据集可以分解成许多小的数据集; (2)而且每一个小数据集都可以完全并行地进行处理; 若不满足以上两条中的任意一条,则不适合适用Map/Reduce 模式。 二 环境搭建 软件下载位置 链接:https://pan.baidu.com/s/1lBQ0jZC6MGj9zfV-dEiguw 密码:13xi 1 配置hadoop 用户 2 下载并解压相关软件 3 修改环境变量,使得hadoop运行在Java平台之上 4 修改java环境变量,使其可以查看到hadoop进程开启状态 5 查看 二 单节点部署 1 创建文件夹,并将数据导入用于测试单节点, 并使用Hadoop内部方法完成基本配置。其中output是自动创建的,无需手工创建 2 查看其统计结果 三 伪节点部署 1 配置文件系统管理相关 2 配置文件保存的份数 3 配置hadoop密码并设置ssh免密认证 4 配置datanode节点 5 namenode节点格式化 返回值为0,表示格式化成功 6 启动服务并查看进程状态 测试显示结果 7 测试 创建目录上传 查看 上传文件至服务端 查看 使用命令查看结果 删除并查看其显示结果 8 高级配置:mapred配置 9 启动服务并查看 10 查看是否成功 四 分布式配置 1 停止之前的伪节点配置 2 在超级用户下安装服务用以共享存储 3 启动服务 4 配置共享存储 5 刷新看是否成功 6 客户端启动服务并挂载挂载 7 查看配置 8 配置datanode节点 9 配置备份存储数量 10 格式化namenode节点 11 设置免密 12 启动服务并查看 13 datanode节点查看服务 14 查看datanode节点是否存在并正常挂载 五 在线添加节点 1 安装并配置基础环境 2 启动服务并挂载 3 配置datanode节点 4 配置免密认证 5 启动服务并查看其进程 6 查看其是否加入存储系统中 六 节点数据迁移 1 创建数据目录并上传数据 2 查看是否上传成功 3 查看其各个节点存储状态 4 配置下线 配置下线用户为server3 5 生效配置文件 6 查看serever3状态,如果为normal 则表示迁移完成,否则未完成 7 查看其他节点存储,发现存储已经增加,则表明数据迁移完成 8 关闭datanode节点,下线成功 9 开启其他节点的nodemanager服务 七 高可用 简介: 在典型的HA集群中,通常有两台不同的机器充当NN(namenode),在任何时间,只有一台机器处于active状态,另一台机器则处于standby状态,active NN负责集群中所有客户端的操作,而standby NN主要用于备用,主要维持足够的状态,如果有必要,可以提供快速的故障恢复 为了让standby NN状态和 active NN 保持同步,及元数据保持一致,他会都会和journalnodes 守护进程通信,当active NN 执行任何有关命名空间的修改,他都需要持久化到一半以上的journalnodes 上(通过edits log 持久化存储),而standby NN负责观察edits log 的变化,他能够从JNS 中读取edits 信息,并更新其内部的名称空间,一旦active NN 出现故障,standby NN 会将保证从JNS中读取了全部edits,然后切换成active 状态,standby NN读取全部的edits 可确保发生故障转移之前,是和active NN拥有完全同步的命名空间状态 为了提供快速的故障恢复,standby NN也需要保存集群中各个文件块的存储位置,为了实现这个,集群中的所有Datanode 将配置好的active NN和standby NN的位置,并向他们发送快文件所在的位置及心跳。 为了部署HA 集群,你需要准备以下事项: (1)、NameNode machines:运行Active NN 和Standby NN 的机器需要相同的硬件配置; (2)、JournalNode machines:也就是运行JN 的机器。JN 守护进程相对来说比较轻量,所以这些守护进程可以可其他守护线程(比如NN,YARN ResourceManager)运行在同一台机器上。在一个集群中,最少要运行3 个JN 守护进程,这将使得系统有一定的容错能力。当然,你也可以运行3 个以上的JN,但是为了增加系统的容错能力,你应该运行奇数个JN(3、5、7 等),当运行N 个JN,系统将最多容忍(N-1)/2 个JN 崩溃。在HA 集群中,Standby NN 也执行namespace 状态的checkpoints,所以不必要运行Secondary NN、CheckpointNode 和BackupNode;事实上,运行这些守护进程是错误的。 1 DHFS 高可用 1 关闭之前的服务 2 查看各节点配置 3 配置服务 4 删除原有配置 5 清空原有配置,以防影响 6 配置安装服务zookeeper zookeeper 至少为三台,总结点数为奇数个 7 启动服务 8 查看那个是leader 9 在leader 上启动服务并查看相关配置 10 配置集群相关配置 1 配置指定hdfs的namenode 为master(名称随意)指定zookeeper 集群主机地址(server2,server3,server4的IP地址) 2 编辑hdfs-site.xml文件 A 指定hdfs的nameservices 为master B 定义namenode节点(server1 server5 ) C 指定namenode 元数据在journalNode上的存放位置 D指定journalnode在本地磁盘存放数据的位置 E 开启namenode 失败自动切换,及自动切换实现方式,隔离机制方式以及使用sshfence 隔离机制需要ssh免密以及隔离机制超时时间等参数 11 配置server5进行挂载 12 启动日志服务器server2 server3 server4 13 格式化namenode 14 将生成的数据发送到另一个高可用节点 15 配置免密认证 16 启动zkfc服务 17 查看服务 18 验证高可用,关闭服务 2 高可用之 YARN 1 指定yarn的框架为mapreduce 2 配置可以在nodemanager上运行mapreduce程序 3 激活RM高可用 4 指定RM的集群ID 5 定义RM节点 6激活RM 自动恢复 7 配置RM状态信息存储方式,有memstore和ZKstore 8 配置为zookeeper 存储时,指定ziikeeper集群的地址 9启动yarn 服务并查看 10 另一个节点需要手工启动服务 11 查看集群状态 12 测试 断开主节点查看情况 则切换到server5上 查看server5 状态 启动server1 查看server1状态 3 服务的关闭方式 赞 收藏 评论 分享 举报 上一篇:saltstack 自动化运维 下一篇:mfs 提问和评论都可以,用心的回复会被更多人看到 评论 发布评论 全部评论 () 最热 最新 相关文章 【Pyside2】环境搭建 (Pyside 开发环境搭建)安装Pyside2:<font color=#999AAA >pip install --index-url=http://download.qt.io/snapshots/ci/pyside/5.11/latest/ pyside2 --trusted-host download.qt.io<hr style=" border:so 后端 React环境搭建与项目运行 React环境搭建与项目运行 环境搭建 React HarmonyOS应用开发-搭建开发环境 本文介绍如何搭建 HarmonyOS 应用的开发环境,介绍下载安装 DevEco Studio 开发工具和 SDK 的详细流程。华为鸿蒙 DevEco Studio 是面向全场景的一站式集成开发环境,面向全场景多设备,提供一站式的分布式应用开发平台,支持分布式多端开发、分布式多端调测、多端模拟仿真,提供全方位的质量与安全保障。 HarmonyOS DevEco 鸿蒙 华为 ArcTS 搭建Hadoop环境 1.安装JDK1.1在Linux系统中,执行以下命令,下载JDK1.8安装包。wget https://download.java.net/openjdk/jdk8u41/ri/openjdk-8u41-b04-linux-x64-14_jan_2020.tar.gz1.2执行以下命令,解压下载的JDK1.8安装包。tar -zxvf openjdk-8u41-b04-linux-x64-14_j hadoop Hadoop java hadoop环境搭建 hadoop环境搭建教程 windows 文章目录一、下载安装所需的资源二、配置1、将下载的hadoop文件解压2、配置环境变量在path中加入 %HADOOP_HOME%\bin3、文件配置3.1、D:\hadoop\hadoop-3.0.2\etc\hadoop”下的core-site.xml文件3.2、D:\hadoop\hadoop-3.0.2\etc\hadoop”目录下的mapred-site.xml3.3、D:\hadoo hadoop环境搭建 hadoop安装 hadoop xml hdfs es hadoop环境搭建 hadoop环境搭建过程 文章目录前言一、虚拟机安装二、安装JDK和Hadoop1.基本信息配置2.安装JDK和Hadoop三、安装Zookeeper集群四、Hadoop集群的高可用配置五、Hadoop集群的正常启动顺序总结 前言Hadoop开发环境搭建为了防止以后每次搭建的时候查看太多教程而导致时间无端消耗,本次重装环境自行进行过程记录。一、虚拟机安装基于VMware平台安装centos8,主要就是下载镜像安装打开就行 hadoop 大数据 hdfs Hadoop client环境搭建 hadoop 如何搭建hadoop环境 Hadoop基础环境搭建(转载尚硅谷)说明个人学习记录基于虚拟机搭建,需要提前准备虚拟机环境搭建版本:hadoop-3.1.3搭建HDFS和yarn提前准备Hadoop安装包:hadoop-3.1.3.tar.gzHadoop下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-3.1.3/提前准备JDK安装包:jdk-8u212-l client环境搭建 hadoop hadoop hdfs xml Hadoop hadoop环境怎么搭建 hadoop环境搭建图 文章目录1.事前准备2.主机互联(namenode和datanode都做)2.1 创建虚拟机2.2 配置网络2.2.1寻找空闲IP地址2.2.2配置ifcfg-eno167777362.2.3 pc端ssh登录linux2.3 实现相互免密登录(namenode和datanode都做)2.3.1修改主机名及主机配置文件2.3.1生成公钥实现免密登录3.配置java jdk(namenode和da hadoop环境怎么搭建 hadoop 大数据 linux 小白 Hadoop环境搭建好测试 hadoop实验环境搭建 Hadoop学习环境搭建Apache Hadoop3.1.1虚拟机环境搭建工具准备安装虚拟机Hadoop安装和配置配置Hadoop001、Hadoop002、Hadoop003互相访问配置Hadoop启动Hadoop Apache Hadoop3.1.1虚拟机环境搭建最近想学习一下大数据相关的知识,都说Hadoop是目前学习大数据必不可少的,所以那就先从Hadoop开始吧。第一步就是搭建一个Ha Hadoop环境搭建好测试 Hadoop Hadoop3.1.1 大数据 hadoop 怎么搭建hadoop环境 如何搭建hadoop实验环境 Hadoop运行环境搭建目录Hadoop运行环境搭建3.1 虚拟机环境准备3.2 在102安装JDK3.3 在102安装Hadoop3.4 Hadoop目录结构3.1 虚拟机环境准备1)准备三台虚拟机,虚拟机配置要求如下:(1)单台虚拟机:内存4G,硬盘50G,安装必要环境sudo yum install -y epel-releasesudo yum install -y psmisc nc 怎么搭建hadoop环境 大数据 hadoop Hadoop 重启 hadoop 环境搭建和使用 hadoop环境搭建过程 hadoop集群环境的搭建 集群信息如下: 主机名 Hadoop角色 Hadoop jps命令结果 Hadoop用户 Hadoop安装目录 master Master slaves NameNode DataNode JobTracker TaskTracker SecondaryNameNode 创建相同的用户的组名:hadoop。 安装hadoop-0.20.2时使用hadoop用 hadoop 环境搭建和使用 hadoop hadoop集群 Hadoop java 2020 hadoop 环境搭建 hadoop环境搭建与安装 Hadoop集群搭建布局设计1.下载Hadoop1)同样方式解压到app文件夹下 tar -zxvf hadoop-2.7.5.tar.gz -C app/2)创建文件目录为了便于管理,给Master的hdfs的NameNode、DataNode及临时文件,在用户目录下创建目录:/root/app/hadoopdata/hdfs/name/root/app/hadoopdata/hdfs/data 2020 hadoop 环境搭建 hadoop hdfs xml Hadoop环境搭建Hive环境 hadoop环境搭建实验报告 一、实验要求根据课本上的Hadoop的章节的内容,熟悉从系统下载、安装、命令使用,到MapReduce的简单编程实验。二、实验内容2.1 部署方式Hadoop主要有两种安装方式,即传统解压包方式和Linux标准方式。安装Hadoop的同时,还要明确工作环境的构建模式。Hadoop部署环境分为单机模式、伪分布模式和分布式模式三种。2.2 部署步骤(简述)步骤1:制定部署规划;步骤2:部署前工作;步骤 Hadoop环境搭建Hive环境 大数据 hadoop linux 云计算 如何搭建hadoop环境 hadoop平台搭建 Hadoop 平台搭建完整步骤环境准备也可以用VMware.创建三台虚拟机 hd-master、hd-node1、hd-node2 三台虚拟机服务器中的主机名(hostname)分别更改为master、node1、node2。创建好虚拟机之后(1) 我们为了能够更加方便来识别主机,我们使用主机名而不是使用IP地址,以免多处配置带来更多的麻烦。把hd-master、hd-node1、hd-node2 如何搭建hadoop环境 java 后端 hadoop xml hadoop ubuntu搭建 ubuntu hadoop环境搭建 1. Ubuntu中vmwa tool没有安装好,没办法进行文件复制。可以安装xftp来进行文件传输。(1) 更新apt: sudo apt-get update。 (2) 安装ssh: sudo apt-get install openssh-server。 (3) 输入ssh localhost登陆本机,需要输入账户密码。 (4) 在windows上安装xftp (5) 利用ifconfig查 hadoop ubuntu搭建 hadoop 主机名 bash hadoop开发环境搭建教程 hadoop 环境 hdfs有三种版本:单机版 伪分布式版 全分布式版1.单机版的安装:首先将安装包拖入sftp工具中,解压:tar -zxvf hadoop-2.7.1.tar.gz -C /usr/local配置环境变量:vi /etc/profileexport HADOOP_HOME=/usr/local/hadoop-2.7.1 export PATH=$PATH:$ hadoop开发环境搭建教程 hadoop hdfs mapreduce hadoop的idea环境搭建 hadoop环境搭建实验总结 搭建Hadoop集群 一、实验目的与要求学习和掌握Hadoop的相关应用,首先必须得学会搭建Hadoop集群。本次实验将针对Hadoop集群的搭建内容进行演练。学会虚拟机的安装和克隆,Linux系统的网络配置和SSH配置,Hadoop集群的搭建和配置,Hadoop集群测试,熟悉Hadoop集群基本的操作。要求:1、认真理解集群搭建过程,通过实践成功搭建Hadoop集群。2、结合实践内容和 hadoop的idea环境搭建 hadoop hdfs linux Hadoop hadoop环境搭建与安装 hadoop环境搭建实验总结 上面的四五两期讲述了如何将Hadoop部署在一台机器上,以及如何部署在多台机器上。由于本人之前的博客都是直接看视频,然后把视频中讲的要点记录下来,然后发在这里与大家分享,并未亲自进行实验,因此心里一直以为憾事。所以在继续进行下面的课程之前,我先按照前面的博客搭建了一下Hadoop的实验环境。并且将一些要点记录下来:一. 在一台机器上安装Hadoop实验环境针对在一台机器上搭建Hadoop的实验环境 hadoop环境搭建与安装 hadoop hdfs virtualbox ssh 头哥Hadoop开发环境搭建 hadoop环境搭建教程 Hadoop安装与配置1.现有工具及文件①Xmanager Enterprise 5(其中的Xftp可用于实现不同IP地址间文件的互传,也可以实现Linux文件目录的可视化)②hadoop-2.7.7.tar.gz③云服务器(配置Linux操作系统)④已配置好JDK1.82.解压Hadoop安装包到根目录文件 在根目录创建名为hadoop的文件夹mkdir /hadoop hadoop Hadoop hdfs Hadoop环境搭建1 hadoop环境搭建视频教程 本文针对hadoop集群的搭建过程给予一个详细的介绍。参考视频教程:https://www.bilibili.com/video/BV1tz4y127hX?p=1&share_medium=android&share_plat=android&share_session_id=10b66dfa-105f-4f89-9658-87945ddf0f89&share_so Hadoop环境搭建1 hadoop xml mapreduce