大数据

大数据的产生和作用(详细分析)

人类社会数据量第三次大的飞跃最终导致了大数据的产生,今天我们正处于这个阶段。具体来讲,大数据将有以下作用。1)对大数据的处理分析正成为新一代信息技术融合应用的结点。在软件与服务领域,大数据将引发数据快速处理分析技术、数据挖掘技术和软件产品的发展。4)大数据时代,科学研究的方法手段将发生重大改变。 »

Hadoop版本演进图

Hadoop大数据处理框架简介

Hadoop 是一个处理、存储和分析海量的分布式、非结构化数据的开源框架。Hadoop 是一个基础框架,允许用简单的编程模型在计算机集群上对大型数据集进行分布式处理。Hadoop 生态圈Hadoop 是一个由 Apache 基金会开发的大数据分布式系统基础架构。Hadoop 也是一个大规模并行处理框架,拥有超级计算能力,定位于推动企业级应用的执行。4)Hive一个建立在 Hadoop 上的数据仓库... »

 MapReduce 的工作流程

Hadoop MapReduce工作流程

MapReduce 就是将输入进行分片,交给不同的 Map 任务进行处理,然后由 Reduce 任务合并成最终的解。MapReduce 的实际处理过程可以分解为 Input、Map、Sort、Combine、Partition、Reduce、Output 等阶段,具体的工作流程如图 1 所示。用户不能够显式地从一个结点向另一个结点发送消息,所有的信息交换都是通过 MapReduce 框架实现的。 »

分类算法的评估阶段

数据挖掘之分类和预测简介

分类和预测是两种使用数据进行预测的方式,可用来确定未来的结果。而分析给贷款人的贷款量就是数据挖掘中的预测任务。采用数据挖掘中的分类技术,可以将客户分成不同的类别。训练阶段可以看成为学习一个映射函数的过程,对于一个给定元组 x, 可以通过该映射函数预测其类别标记。该映射函数就是通过训练数据集,所得到的模型,如图 1 所示。 »

数据驱动的产品迭代流程

大数据时代的10个重大变化(长篇神文)

大数据时代的到来改变了人们的生活方式、思维模式和研究范式,我们可以总结出 10 个重大变化,如图 1 所示。例如,在大数据时代,天文学家的研究方式发生了新的变化,其主要研究任务变为从海量数据库中发现所需的物体或现象的照片,而不再需要亲自进行太空拍照。大数据时代的到来,让“数据即资产”成为最核心的产业趋势。大数据资产的价值的衡量尺度主要有以下 3 个方面的标准。 »

Hadoop HDFS分布式文件系统简介

HDFS 是 Hadoop 的一个分布式文件系统,是 Hadoop 应用程序使用的主要分布式存储。HDFS 被设计成适合运行在通用硬件上的分布式文件系统。HDFS 总的设计思想是分而治之,即将大文件和大批量文件分布式存放在大量独立的服务器上,以便采取分而治之的方式对海量数据进行运算分析。NameNode 管理文件系统的元数据,DataNode 存储实际的数据。客户端通过同 NameNode 和 D... »

Reduce端排序及输出结果

MapReduce实例分析:单词计数

单词计数是最简单也是最能体现 MapReduce 思想的程序之一,可以称为 MapReduce 版“Hello World”。设计思路首先,检查单词计数是否可以使用 MapReduce 进行处理。因此,可以采用 MapReduce 来实现单词计数的统计任务。最后,确定 MapReduce 程序的执行过程。Map 函数的输出以单词作为 key,1 作为 value,即 表示该单词出现了 1 次。在... »

预测是否购买电脑的决策树

决策树和朴素贝叶斯算法简介

本节主要介绍数据挖掘中常见的分类方法决策树和朴素贝叶斯算法。决策树算法决策树分类法是一个简单且广泛使用的分类技术。决策树是一个树状预测模型,它是由结点和有向边组成的层次结构。Spark MLlib 的决策树算法是由 DecisionTree 类实现的,该类支持二元或多标签分类,并且还支持预测。 »

大数据处理的基本流程:数据抽取与集成+数据分析+数据解释

具体来讲,大数据处理的基本流程可以分为数据抽取与集成、数据分析和数据解释等步骤。数据抽取与集成大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。数据分析数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。解释大数据分析结果时,可以考虑从以下两个方面提升数据解释能力。 »

HDFS 文件多副本存储示意

HDFS基本原理和设计理念

本节将对 HDFS 的基本原理进行讲解。HDFS 的基本架构如图 1 所示。HDFS 的设计理念简单来讲,HDFS 的设计理念是,可以运行在普通机器上,以流式数据方式存储文件,一次写入、多次查询,具体有以下几点。HDFS 的局限HDFS 的设计理念是为了满足特定的大数据应用场景,所以 HDFS 具有一定的局限性,不能适用于所有的应用场景,HDFS 的局限主要有以下几点。 »

Hadoop MapReduce 的 Shuffle 阶段

MapReduce执行流程和Shuffle过程

本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。Hadoop MapReduce作业执行流程整个 Hadoop MapReduce 的作业执行流程如图 1 所示,共分为 10 步。HadoopMapReduce 的 Shuffle 阶段Hadoop MapReduce 的 Shuffle 阶段是指从 M... »

逻辑回归函数的意义示意

回归分析预测技术简介

回归分析的基本概念是用一群变量预测另一个变量的方法。1)依据相关关系中自变量的个数不同进行分类,回归方法可分为一元回归分析法和多元回归分析法。1)一元线性回归回归分析的目的是找到一个联系输入变量和输出变量的最优模型。线性回归模型的解释性很强,模型的权值向量十分直观地表达了样本中每一个属性在预测中的重要度。 »

“人立方”展示人物关系图

大数据开发涉及到的关键技术有哪些?

大数据价值的完整体现需要多种技术的协同。大数据存储及管理技术重点研究复杂结构化、半结构化和非结构化大数据管理与处理技术,解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。大数据分析及挖掘技术大数据处理的核心就是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。 »

HDFS复制策略

HDFS架构和实现机制简介

本节将对 HDFS 的整体架构和基本实现机制进行简单介绍。图 1HDFS整体架构HDFS 会对外暴露一个文件系统命名空间,并允许用户数据以文件的形式进行存储。3)ClientHDFS 的 Client 会分别访问 NameNode 和 DataNode 以获取文件的元信息及内容。HDFS 是用 Java 语言实现的,任何支持 Java 语言的机器都可以运行 NameNode 或者 DataNode... »

MapReduce编程实例:单词计数

本节介绍如何编写基本的 MapReduce 程序实现数据分析。在前面《MapReduce实例分析:单词计数》教程中已经介绍了用 MapReduce 实现单词计数的基本思路和具体执行过程。Map 函数的功能为完成文本分割工作,Map 函数的输出也是 形式,其中,key 是单词,value 为该单词出现的次数。表 4 单词计数 Reduce端Shuffle阶段输出结果Reduce 端Shuffle ... »

聚类方法对比示意

什么是聚类分析?聚类分析方法的类别

聚类分析方法的类别目前存在大量的聚类算法,算法的选择取决于数据的类型、聚类的目的和具体应用。与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的簇,而基于密度的聚类算法可以发现任意形状的簇。图 4基于网格的聚类算法示意基于网格的聚类方法的主要优点是处理速度快,其处理时间独立于数据对象数,而仅依赖于量化空间中的每一维的单元数。 »

数据源与数据类型的关系

大数据采集技术概述

所以,大数据采集技术面临着许多技术挑战,一方面需要保证数据采集的可靠性和高效性,同时还要避免重复数据。所以,大数据采集与传统数据采集有很大的区别。根据数据源的不同,大数据采集方法也不相同。随着大数据时代的到来,Redis、MongoDB 和 HBase 等 NoSQL 数据库也常用于数据的采集。企业通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡和分片,来完成大数据采集工作。 »

HDFS 写入流程

HDFS读取和写入数据简介

HDFS 的文件访问机制为流式访问机制,即通过 API 打开文件的某个数据块之后,可以顺序读取或者写入某个文件。由于 HDFS 中存在多个角色,且对应的应用场景主要为一次写入、多次读取的场景,因此其读和写的方式有较大不同。图 1HDFS 读取流程在读取数据的过程中,如果客户端在与数据结点通信时出现错误,则尝试连接包含此数据块的下一个数据结点。 »

Hadoop 与 Spark 执行流程对比

Spark是什么?Spark和Hadoop的区别

Spark 是借鉴了 Hadoop MapReduce 技术发展而来的,继承了其分布式并行计算的优点并改进了 MapReduce 明显的缺陷。3)Spark 比 Hadoop 更加通用。4)Spark 基于 DAG 的任务调度执行机制比 Hadoop MapReduce 的迭代执行机制更优越。也就是说,Spark 只使用了百分之十的计算资源,就获得了 Hadoop 3 倍的速度。尽管与 Hadoo... »

k-means聚类算法简介

k-means聚类算法简介

k-means 算法的处理流程如下。k-means 算法使用距离来描述两个数据对象之间的相似度。k-means 算法是当准则函数达到最优或者达到最大的迭代次数时即可终止。k-means 算法不保证能返回全局最优的聚类结果,所以在目标数据集上多次跑 k-means 算法,有助于返回最佳聚类结果。epsilon表示 k-means 算法迭代收敛的阈值。 »

Flume的基本概念

通过系统日志采集大数据

许多公司的平台每天都会产生大量的日志,并且一般为流式数据,如搜索引擎的 pv 和查询等。处理这些日志需要特定的日志系统,这些系统需要具有以下特征。 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦。 支持近实时的在线分析系统和分布式并发的离线分析系统。 具有高可扩展性,也就是说,当数据量增加时,可以通过增加结点进行水平扩展。 目前使用最广泛的、用于系统日志采集的海量数据采集工具有 Hadoop... »

HDFS文件界面

HDFS两种操作方式:命令行和Java API

HDFS 文件操作有两种方式:一种是命令行方式,Hadoop 提供了一套与 Linux 文件命令类似的命令行工具;另一种是 Java API,即利用 Hadoop 的 Java 库,采用编程的方式操作 HDFS 的文件。本节将介绍 Linux 操作系统中关于 HDFS 文件操作的常用命令行,并将介绍利用 Hadoop 提供的 Java API 进行基本的文件操作,以及利用 Web 界面查看和管理 ... »

DAG阶级划分

Spark RDD是什么?

Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。 RDD 的基本概念 RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在... »

直接密度可达和密度可达示意

DBSCAN聚类算法简介

图 1DBSCAN算法数据点类型示意进一步来讲,DBSCAN 算法还涉及以下一些概念。这些核心点的 Eps 邻域里所有的样本的集合组成一个 DBSCAN 聚类簇。DBSCAN 算法的计算复杂的度为 O,n 为数据对象的数目。 »

PageRank算法示例

通过网络爬虫采集大数据

网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。在互联网时代,网络爬虫主要是为搜索引擎提供最全面和最新的数据。在大数据时代,网络爬虫更是从互联网上采集数据的有利工具。网络爬虫系统以这些种子集合作为初始 URL,开始数据的抓取。为提高工作效率,通用网络爬虫会采取一定的爬行策略。 »

Page 1 of 3123