hdfs

centos7搭建hadoop2.10高可用(HA)

centos7搭建hadoop2.10高可用(HA)

本篇介绍在centos7中搭建hadoop2.10高可用集群,首先准备6台机器:2台nn(namenode);4台dn(datanode);3台jns(journalnodes) IP hostname 进程 192.168.30.141 s141 nn1(namenod »

在这里插入图片描述

HDFS

Hadoop分布式文件系统被设计成适合运行在通用硬件上的分布式文件系统。但同时,它和其他的分布式文件系统的区别也是很明显的。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。HDFS在最开始是作为Apache Nutch搜索引擎项目的基础架构而开发的。HDFS... »

在这里插入图片描述

Hadoop概述及CentOS安装和使用

Hadoop--入门Hadoop概述及CentOS安装和使用一. Hadoop概述1.HDFS2.MapReduce二.准备工作1.安装虚拟机软件 Vmware Workstation Pro2.安装Linux操作系统下载CentOS镜像文件安装CentOSCentOS配置Hadoop概述及CentOS安装和使用一. Hadoop概述Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层... »

hdfs节点可用空间扩容

由于数据的日益增长,hdfs可用空间变小导致后面数据无法存入hdfs,而hdfs的数据目录又与卷组的空间大小息息相关,本文章将分两个场景去实现扩容,适用于集群搭建时扩容,注意集群应处于关闭状态,来干来干。 场景一: 添加了硬盘后df、vgdisplay均未查看到所增加的可用空间。 场景二: /home所在卷组空闲空间过大。 一.分区追加到卷组实现扩容 实现场景一: 添加了硬盘后df、vgdispl... »

HDFS性能压测工具浅析

HDFS性能压测工具浅析

由于存在单点结构,因此Namenode机器的性能必须远超Datanode机器,因为其负载了所有RPC访问请求,每个RPC请求引起的查询、IO、audit等动作都会消耗系统资源,Namenode的性能将会极大影响HDFS文件系统的整体性能。自从诞生HDFS开始,相关的性能压测工具出现了,其中一些堪称经典之作更是检验HDFS性能的必用神器。通过控制teragen的map数和block size,我们得... »

如何区别于测试数据仓库

但是考虑到为了验证庞大的数据集,甚至抽样测试在大数据验证的情况下是有挑战的。大数据测试人员必须从抓痕学习大数据电子系统组件。为了竞争,在短期来看,这个组织应该投资于测试团队的大数据具体的培训需求,而在长期来看,应该投资于发展自动化解决方案来验证大数据。 »

HADOOP测试常见问题和测试方法

本文主要介绍项目测试过程中一些常见的现象以及问题的说明和一些常见的测试方法一、测试常见问题1、reduce输出文件,上传文件,下载文件等操作的目的文件的删除。而当在shell命令行直接输入hadoop命令时,系统默认是使用HADOOP_HOME下的hadoop客户端。当HADOOP_HOME环境变量被别的用户修改后,会连接到别的hadoop平台,当然找不到所要的目录:)。 »

在这里插入图片描述

Hadoop学习笔记(二)Hadoop 分布式文件系统 HDFS:1.HDFS基础

HDFS客户端操作(开发重点) 1. HDFS客户端环境准备 1.1、请参考文章: Windows10下搭建eclipse开发hadoop的开发环境 其中的第一至四步骤。 1.2、请参考文章: maven的安装、路径配置、修改库文件路径和eclipse中的配置,解决Eclipse使用Maven下载慢的问题 1.3、创建一个maven工程HDFS 1.4、 导入相应的依赖坐标加日志添加 junit ... »

在这里插入图片描述

Spark概述与环境搭建(yarn|Standlone)

概述 Spark是一个快如闪电的统一分析引擎(计算框架)用于大规模数据集的处理。Spark在做数据的批处理计算,计算性能大约是Hadoop MapReduce的10~100倍,因为Spark使用比较先进的基于 DAG 任务调度,可以将一个任务拆分成若干个阶段,然后将这些阶段分批次交给 集群计算节点 处理。 MapReduce VS Spark MapReduce作为第一代大数据处理框架,在设计初期... »

查看liunx 下查看磁盘空间的几个命令

执行命令 df -h ,查看当前占用情况[ops@djl-data3 data]$ df -h Filesystem Size Used Avail Use% Mounted on/dev/vda3 36G 7.6G 28G 22% /devtmpfs 7.8G 0 7.8G 0% /devtmp »

大数据技术原理

大数据技术原理

水槽提供了分布式,可靠,高效的服务,用于收集,汇总大数据,并将单台计算机的大量数据转移到HDFS。Spark生态圈Spark特点Spark是伯克利大学AMPLab压法的一套开源的数据处理软件栈,也是当前领域内最活跃,最热门,最高效的大数据通用计算平台。 »

“高频面经”之大数据研发篇

“高频面经”之大数据研发篇

以下试题为作者日常整理的通用高频面经,包含题目,答案与参考文章,欢迎纠正与补充。 »

在这里插入图片描述

HDFS详解②

HDFS 文章目录HDFS4 HDFS的数据流4.1 HDFS写数据流程4.1.1 剖析文件写入4.1.2 网络拓扑-节点距离计算4.1.3 机架感知(副本存储节点选择)4.2 HDFS读数据流程5 NameNode和SecondaryNameNode(面试开发重点)5.1 NN和2NN工作机制1. 第一阶段:NameNode启动2. 第二阶段:Secondary NameNode工作5.2 Fs... »

HDFS常用Shell命令

本篇文章只是简单阐述一下HDFS中常用命令, 在实际开发中可使用 bin/hadoop fs查看命令详情使用HDFS基本语法: bin/hadoop fsOR bin/hdfs dfs注:为帮助快速理解并使用本文中使用T表示target基本命令1.启动hadoop集群HDFS相关组件: sbin/start-dfs.sh YARN相关组件: sbin/sta »

在这里插入图片描述

【kettle抽取Orecle/Mysql数据至HDFS】诸如‘\u0001’等特殊分隔符表示法

’等特殊分隔符表示法前言设计问题分析解决办法后记前言由于需要设计一个每天多批次的定时作业,由于单端逻辑不能抽取出目标数据,其中涉及了跨库问题,因此需要从mysql、Oracle数据库中将数据同步至一个统一的环境中,那么由于数据量大(百亿级),关联数据要从各个业务部门自有的数据库导入,kettle无疑成了最好的选择。 »

在这里插入图片描述

30_多易教育之《yiee数据运营系统》附录:扩展知识点汇总总结篇

目录 一、Sqoop教程         1、概述         2、工作机制         3、安装                1)、前提概述                2)、软件下载                3)、安装步骤         4、Sqoop的基本命令                1)、基本操作                2)、Sqoop的数据导入impor... »

在这里插入图片描述

Hadoop +API之idea+maven搭建HDFS开发环境

大功告成,到此为止,开发环境的搭建已经完成,接下来就是hdfs api的书写工作,请看下一博客内容作者:biws »

Hadoop学习笔记

命令 HADOOP 执行MapReduce前删除输出文件 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar *** 输入文件目录 输出文件目录 *** 本地运行案例 bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.... »

在这里插入图片描述

HDFS的写入数据过程详解 + Java代码实现

HDFS的写入数据过程细节上比较复杂,我们先来看一看具体代码是怎样实现写入数据过程的,然后再根据代码进行分析: import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.... »

大数据-HDFS(六)

大数据-HDFS(六)

大数据-HDFS(六)NameNode与SecondaryNameNode解析NameNode 主要负责集群当中的元数据信息管理,而且元数据信息需要经常被随机访问,所以元数据信息必须支持快速检索,那么如何保证 NameNode 快速检索呢?直接带回 NameNode 是否检查结果。fsimage是namenode中关于元数据的镜像,一般称为检查点。 »

在这里插入图片描述

windows上传文件到虚拟机的hdfs上

org.apache.hadoop.security.AccessControlException: Permission denied: user=ASUS, access=WRITE, inode 今天在windows连接虚拟机的hdfs,通过IDEA上传文件到虚拟机的hdfs上,出现了权限不足问题,原因是以windows的用户上传文件,所以出错,原代码如下: package cn.edu.l... »

在这里插入图片描述

11.spark学习之旅之hive(五)

Hive也是 针对某一列进行桶的组织。 »

Ambari修改DataNode存储目录

操作背景:HDFS DataNode定义的存储目录不正确或HDFS的存储规划变化时,需要修改DataNode的存储目录,以保障HDFS的正常工作,假定我们现在对应的HDFS数据盘位置为:/hadoop/hdfs/data; 预将数据目录迁移至/data/hadoop/hdfs/data目录底下;目前操作系统受影响情况:1) 更改DataNode存储目录需要停 »

07hadoop的安装&hdfs集群的配置与测试——好程序

07hadoop的安装&hdfs集群的配置与测试——好程序

hadoop单机安装与测试1Local ModeLinux的文件系统就是hadoop的存储系统运行在单个的jvm环境,它使用linux的文件系统,适用于开发、测试、调试环境运行案例2Pseudo-Distributed Mode做自己搭一下(最后)熟悉hdfs shellhdfs dfs -help3Fully-Distributed Mode设置hadoop的运行环境 env是运行环境 h... »

hdfs snapshot 快照的使用场景应用与操作命令的介绍

hdfs snapshot 快照的应用与操作命令的介绍一:HDFSSnapShot的介绍Hadoop从2.1.0版开始提供了HDFS SnapShot的功能。一个snapshot(快照)是一个全部文件系统、或者某个目录在某一时刻的镜像。snaphottable目录能够容纳65,536个同步快照。然后,路径/foo/.snapshot/s0/bar指的是/ foo / bar的快照副本。从旧版本的H... »

Page 1 of 7123»