hadoop

在这里插入图片描述

Hadoop 启动WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using

搭建hadoop 环境时遇到启动异常告警问题 “WARN util.NativeCodeLoader: Unable to load native-hadoop library for your platform… using builtin-java classes where applicable” 上来不多说,百度收集些相关文档比可参考文章: Hadoop之—— WARN util.Nati... »

基于 Hadoop 数据仓库的搭建

基于 Hadoop 数据仓库的搭建

基于 Hadoop 数据仓库的搭建为什么需要数据仓库?数据仓库特点面向主题 是企业系统信息中的数据综合、归类并进行分析的一个抽象,对应企业中某一个宏观分析领域所涉及的分析对象。数据集成 数据仓库的数据是从原有分散的数据库中的数据抽取而来的。 »

在这里插入图片描述

CentOS 7+Hadoop-2.7.2的hadoop环境搭建(一)快速创建第一台虚拟机和环境准备

Hadoop环境搭建(一)虚拟机快速创建和环境准备搭建所使用的环境和软件:创建虚拟机(VM)完成虚拟机创建配置后给VM安装操作系统如果时间不对,设置时区和时间同步将一台虚拟机ip修改为静态ip,和修改主机名字用Xshell连接关闭防火墙配置自己的用户具有root权限安装JDK安装hadoop 搭建所使用的环境和软件: VMware15 CentOS 7 64位 Xshell Xftp hadoop... »

说明

大数据 – 第二课 : CentOS最小安装版 & 确定Spark、Hadoop、Java版本

一般命令模式下,按i或s进入编辑模式,按ESC进入一般命令模式。在相应目录下,执行sudo vi ifcfg-ens33,进入编辑页面,按i键,进入编辑模式,修改“ONBOOT=no”改成“ONBOOT=yes”,然后按ESC进入一般命令模式,再按冒号,进入底行命令模式,输入wq,回车退出,重启虚机:sudo reboot“ONBOOT=no”启动时不激活,改成yes后,就变成启动时激活重启后用p... »

hadoop集群中常用shell脚本收集

前言 感谢我关注的朋友,我亦无他,收集整理的大部分脚本。 群发脚本XSync(xsync) #!/bin/bash #1 获取参数,如果不够直接退出 pcount=$# if ((pcount==0)); then echo 没有输入需要传递的文件或文件夹!!; exit; fi #2 获取文件名称 p1=$1 fname=`basename $p1` echo fname=$fname #3 获... »

Hadoop2.7.2 编译64位源码(小白都能看的懂!!!全网最详细!!!)

一、环境准备1.CentOS配置最好是用新克隆的虚拟机 ,虚拟机内存设置大一点(我设置的4G),配置网络,主机名,关闭防火墙,关闭selinux注意:采用root角色编译,减少文件夹权限出现问题2.jar包准备(hadoop源码、JDK8、maven、ant 、protobuf)(1)hadoop-2.7.2-src.tar.gz(2)jdk-8u144-l »

Linux下部署Hadoop伪分布模式

  Hadoop版本为1.2.1   Linux使用Fedora19并使用hadoop账号安装   第一步:配置ssh本地登录证书(虽然为伪分布模式,Hadoop依然会使用SSH进行通信)   [hadoop@promote ~]$ which ssh /usr/bin/ssh [hadoop@promote ~]$ which ssh-keygen /usr/bin/ssh-keyge... »

CentOS 6.2及新操作系统部署Hadoop的注意事项

  近新采购的一批机器,由于intel cpu体系架构的改变,新机器的系统需要升级,选择了CentOS 6.2系统。   1  在新机器上将MR业务开启后,导致整个集群都反应很慢,运行的job几乎都被卡住;通过ganglia监控发现,机器的system cpu超过30%,机器几乎是满负载的情况。   原因分析:   RHEL 6.2和6.3系统中包含了一个新特性,被称为“tr... »

JAVA线程池管理及分布式HADOOP调度框架搭建

JAVA线程池管理及分布式HADOOP调度框架搭建

  平时的开发中线程是个少不了的东西,比如tomcat里的servlet是线程,没有线程我们如何提供多用户访问呢?不过很多刚开始接触线程的开发攻城师却在这个上面吃了不少苦头。怎么做一套简便的线程开发模式框架让大家从单线程开发快速转入多线程开发,这确实是个比较难搞的工程。   那具体什么是线程呢?首先看看进程是什么,进程是系统中执行的一个程序,这个程序可以使用内存、处理器、文件系统等相关资源。例如 ... »

Hadoop平台中SQL优化的四个思路

Hadoop平台中SQL优化的四个思路

  要正确的优化SQL,必须能快速定位性能瓶颈点,或者说快速找到SQL主要的开销所在。慢的设备通常是瓶颈点的成因,如文件下载时的瓶颈点可能是网络速度,本地文件复制时的瓶颈点可能在于硬盘性能。   为了快速找到SQL的性能瓶颈点,首先需要读者对各种设备的性能数据有一些基本的认识,如千兆网络带宽是1000Mbps,硬盘转速为每分钟7200/10000转等。   下图数据给出了一些当前主流的计算机性能指... »

使用MRUnit实现MapReduce程序的单元测试

Hadoop的MapReduce程序的测试,一直比较麻烦。What’s MRUnit:MRUnit是由Couldera公司开发的专门针对Hadoop中编写MapReduce单元测试的框架,基本原理是JUnit4和EasyMock。MR是Map和Reduce的缩写。MRUnit框架非常精简,其核心的单元测试依赖于JUnit。而且MRUnit实现了一套Mock对象来控制OutputColl... »

DIY Hadoop大数据环境的5大陷阱

  虽然Hadoop可以运行在廉价的商品计算机硬件,且用户很容易添加节点,但是它有一些细节是很昂贵的,尤其是你在生产环境中运行Hadoop。   甲骨文公司大数据产品经理Jean-Pierre Dijck称:“IT部门认为‘我已经有服务器,我还可以买到便宜的服务器,我也有人员,所以我们不用花多少钱可以构建自己的Hadoop集群’,这当然是一件好事,但是IT部门在... »

基于hadoop的单元测试mock技术分享

  引子   前一段时间,公直给大家培训Toast工具的使用,以及分享了单元测试的心得。其间提到的单元测试中经常用到的mock技术。这两天我尝试Mock技术在hadoop上的使用做个例子,分享一下我的理解,希望能给开发和测试同学带来一些帮助。   为什么单元测试需要使用mock?我们先看看一个有意思的定义,根据《测试驱动开发的艺术》一书中的定义,在以下情况中一个测试不是单元测试:   1、访问了数... »

HDFS性能压测工具浅析

HDFS性能压测工具浅析

由于存在单点结构,因此Namenode机器的性能必须远超Datanode机器,因为其负载了所有RPC访问请求,每个RPC请求引起的查询、IO、audit等动作都会消耗系统资源,Namenode的性能将会极大影响HDFS文件系统的整体性能。自从诞生HDFS开始,相关的性能压测工具出现了,其中一些堪称经典之作更是检验HDFS性能的必用神器。通过控制teragen的map数和block size,我们得... »

分布式测试执行框架的建立方式

分布式测试执行框架的建立方式

1.2 分布式平台的选择本方案采用hadoop来作为分布式平台。所以从单机到分布式主要是Case执行集合的一个拆分。我们将分布式测试执行过程封装到一个hadoop job里。每个tasktracker的map任务输入是切分后的case列表,通过这种方式将整个测试执行部分分发到每个tasktracker上。2、测试框架允许case并行。2、从分布式测试执行过渡到云测试服务。 »

实时流处理系统的用例

实时流处理系统的用例

  本文阐述了为什么比起Hadoop之类的知名技术,类似Apache Storm这样的系统更加有用。   让我们以经典的笔记本品牌实时情感分析(SENTIMENT ANALYSIS)为例,在进行观点分析时,处理流程应当如下图所示:   · 从类似Twitter、Facebook、电子商务网站之类的不同来源收集数据。   · 以一些“高吞吐量”这样... »

HADOOP测试常见问题和测试方法

本文主要介绍项目测试过程中一些常见的现象以及问题的说明和一些常见的测试方法一、测试常见问题1、reduce输出文件,上传文件,下载文件等操作的目的文件的删除。而当在shell命令行直接输入hadoop命令时,系统默认是使用HADOOP_HOME下的hadoop客户端。当HADOOP_HOME环境变量被别的用户修改后,会连接到别的hadoop平台,当然找不到所要的目录:)。 »

Hadoop集群参数配置原则

执行merge sort的时候,每次同时打开多少个spill文件由该参数决定。mapred.child.java.opts设置JVM堆的大可用内存,需从应用程序角度进行配置。Intel内部测试表明,相比未压缩,使用LZO压缩的 TeraSort作业运行时间减少60%,且明显快于Zlib压缩。reduce task相关配置Reduce shuffle阶段copier线程数。 »

国内Hadoop相关的开源项目

  1、BC-Hadoop:中国移动Hadoop工具链打包   https://github.com/cmri/bc-hadoop2.0   孵化阶段,将成为一个通用的开源Hadoop平台   2、BC-BSP:中国移动图计算平台   https://github.com/cmri/BC-BSP  孵化阶段,将成为通用的开源BSP平台   3、小米Minos:部署和管理Hadoop生态链工具   ... »

配置单节点伪分布式Hadoop

  一.所需软件   jdk和ubuntu都是32位的。   二.安装JDK   1.建jdk文件夹   <span style="font-family: 楷体; font-size: 18pt;">cd usr   sudo mkdir javajdk   </span>   2.移动mv或者复制cp安装包   <span style=&quo... »

hadoop与mysql数据库的那点事(1)

  转眼间已经接触了hadoop两周了,从之前的极力排斥到如今的有点喜欢,刚开始被搭建hadoop开发环境搞得几乎要放弃,如今学会了编写小程序,每天都在成长一点挺好的,好好努力,为自己的装备库再填一件武器挺好的,学习在于坚持不懈,加油!!!   马上要过年了,在后的上班时间内完成了hadoop如何去连接mysql数据库,自己感到很满足,下面把自己编写的源码贡献给大家,希望能够帮到你们,如存在优化的... »

Linux中的MyEclipse配置Hadoop

Linux中的MyEclipse配置Hadoop

  一.所需软件   注意:安装MyEclipse后,我再已安装软件里找不到MyEclipse,所以我在root权限下用命令行启动MyEclipse,貌似避免了很多权限问题。   <span style="font-family: 楷体; font-size: 18pt;">sudo su   输入密码   cd usr/myeclipse   ./myeclips... »

分布式测试执行

分布式测试执行

所以简单说,单机和分布式的区别是case输入集合有变“而已,其他单机的测试执行过程基本不变。我们将分布式测试执行过程封装到一个hadoop job里。每个tasktracker的map任务输入是切分后的case列表,通过这种方式将整个测试执行部分分发到每个tasktracker上。2、从分布式测试执行过渡到云测试服务。 »

Java 读取Hadoop文件系统文件

Java 读取Hadoop文件系统文件

  放一个hello的文件到Hadoop 文件系统 根目录:   [root@hadoop local]# touch hello   [root@hadoop local]# vi hello   [root@hadoop local]# hadoop fs -put hello /   代码:   package hadoop.jack.javacallhadoop; import&... »

Hadoop单元测试方法?使用和增强MRUnit

  前言   hadoop的mapreduce提交到集群环境中出问题的定位是比较麻烦的,有时需要一遍遍的修改代码和打出日志来排查一个很小的问题,如果数据量大的话调试起来相当耗时间。因此有必要使用良好的单元测试手段来尽早的消除明显的bug(当然仅有单元测试是不够的,毕竟跟集群的运行环境还是不一样的)。   然而做mapreduce的单元测试会有一些障碍,比如Map和Reduce一些参数对象是在运行时... »

Page 1 of 13123»