大数据

大数据处理的基本流程:数据抽取与集成+数据分析+数据解释

具体来讲,大数据处理的基本流程可以分为数据抽取与集成、数据分析和数据解释等步骤。数据抽取与集成大数据的一个重要特点就是多样性,这就意味着数据来源极其广泛,数据类型极为繁杂。数据分析数据分析是整个大数据处理流程的核心,大数据的价值产生于分析过程。解释大数据分析结果时,可以考虑从以下两个方面提升数据解释能力。 »

HDFS 文件多副本存储示意

HDFS基本原理和设计理念

本节将对 HDFS 的基本原理进行讲解。HDFS 的基本架构如图 1 所示。HDFS 的设计理念简单来讲,HDFS 的设计理念是,可以运行在普通机器上,以流式数据方式存储文件,一次写入、多次查询,具体有以下几点。HDFS 的局限HDFS 的设计理念是为了满足特定的大数据应用场景,所以 HDFS 具有一定的局限性,不能适用于所有的应用场景,HDFS 的局限主要有以下几点。 »

Hadoop MapReduce 的 Shuffle 阶段

MapReduce执行流程和Shuffle过程

本节将对 Hadoop MapReduce 的工作机制进行介绍,主要从 MapReduce 的作业执行流程和 Shuffle 过程方面进行阐述。Hadoop MapReduce作业执行流程整个 Hadoop MapReduce 的作业执行流程如图 1 所示,共分为 10 步。HadoopMapReduce 的 Shuffle 阶段Hadoop MapReduce 的 Shuffle 阶段是指从 M... »

逻辑回归函数的意义示意

回归分析预测技术简介

回归分析的基本概念是用一群变量预测另一个变量的方法。1)依据相关关系中自变量的个数不同进行分类,回归方法可分为一元回归分析法和多元回归分析法。1)一元线性回归回归分析的目的是找到一个联系输入变量和输出变量的最优模型。线性回归模型的解释性很强,模型的权值向量十分直观地表达了样本中每一个属性在预测中的重要度。 »

“人立方”展示人物关系图

大数据开发涉及到的关键技术有哪些?

大数据价值的完整体现需要多种技术的协同。大数据存储及管理技术重点研究复杂结构化、半结构化和非结构化大数据管理与处理技术,解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。大数据分析及挖掘技术大数据处理的核心就是对大数据进行分析,只有通过分析才能获取很多智能的、深入的、有价值的信息。 »

HDFS复制策略

HDFS架构和实现机制简介

本节将对 HDFS 的整体架构和基本实现机制进行简单介绍。图 1HDFS整体架构HDFS 会对外暴露一个文件系统命名空间,并允许用户数据以文件的形式进行存储。3)ClientHDFS 的 Client 会分别访问 NameNode 和 DataNode 以获取文件的元信息及内容。HDFS 是用 Java 语言实现的,任何支持 Java 语言的机器都可以运行 NameNode 或者 DataNode... »

MapReduce编程实例:单词计数

本节介绍如何编写基本的 MapReduce 程序实现数据分析。在前面《MapReduce实例分析:单词计数》教程中已经介绍了用 MapReduce 实现单词计数的基本思路和具体执行过程。Map 函数的功能为完成文本分割工作,Map 函数的输出也是 形式,其中,key 是单词,value 为该单词出现的次数。表 4 单词计数 Reduce端Shuffle阶段输出结果Reduce 端Shuffle ... »

聚类方法对比示意

什么是聚类分析?聚类分析方法的类别

聚类分析方法的类别目前存在大量的聚类算法,算法的选择取决于数据的类型、聚类的目的和具体应用。与基于距离的聚类算法不同的是,基于距离的聚类算法的聚类结果是球状的簇,而基于密度的聚类算法可以发现任意形状的簇。图 4基于网格的聚类算法示意基于网格的聚类方法的主要优点是处理速度快,其处理时间独立于数据对象数,而仅依赖于量化空间中的每一维的单元数。 »

数据源与数据类型的关系

大数据采集技术概述

所以,大数据采集技术面临着许多技术挑战,一方面需要保证数据采集的可靠性和高效性,同时还要避免重复数据。所以,大数据采集与传统数据采集有很大的区别。根据数据源的不同,大数据采集方法也不相同。随着大数据时代的到来,Redis、MongoDB 和 HBase 等 NoSQL 数据库也常用于数据的采集。企业通过在采集端部署大量数据库,并在这些数据库之间进行负载均衡和分片,来完成大数据采集工作。 »

HDFS 写入流程

HDFS读取和写入数据简介

HDFS 的文件访问机制为流式访问机制,即通过 API 打开文件的某个数据块之后,可以顺序读取或者写入某个文件。由于 HDFS 中存在多个角色,且对应的应用场景主要为一次写入、多次读取的场景,因此其读和写的方式有较大不同。图 1HDFS 读取流程在读取数据的过程中,如果客户端在与数据结点通信时出现错误,则尝试连接包含此数据块的下一个数据结点。 »

Hadoop 与 Spark 执行流程对比

Spark是什么?Spark和Hadoop的区别

Spark 是借鉴了 Hadoop MapReduce 技术发展而来的,继承了其分布式并行计算的优点并改进了 MapReduce 明显的缺陷。3)Spark 比 Hadoop 更加通用。4)Spark 基于 DAG 的任务调度执行机制比 Hadoop MapReduce 的迭代执行机制更优越。也就是说,Spark 只使用了百分之十的计算资源,就获得了 Hadoop 3 倍的速度。尽管与 Hadoo... »

k-means聚类算法简介

k-means聚类算法简介

k-means 算法的处理流程如下。k-means 算法使用距离来描述两个数据对象之间的相似度。k-means 算法是当准则函数达到最优或者达到最大的迭代次数时即可终止。k-means 算法不保证能返回全局最优的聚类结果,所以在目标数据集上多次跑 k-means 算法,有助于返回最佳聚类结果。epsilon表示 k-means 算法迭代收敛的阈值。 »

Flume的基本概念

通过系统日志采集大数据

许多公司的平台每天都会产生大量的日志,并且一般为流式数据,如搜索引擎的 pv 和查询等。处理这些日志需要特定的日志系统,这些系统需要具有以下特征。 构建应用系统和分析系统的桥梁,并将它们之间的关联解耦。 支持近实时的在线分析系统和分布式并发的离线分析系统。 具有高可扩展性,也就是说,当数据量增加时,可以通过增加结点进行水平扩展。 目前使用最广泛的、用于系统日志采集的海量数据采集工具有 Hadoop... »

HDFS文件界面

HDFS两种操作方式:命令行和Java API

HDFS 文件操作有两种方式:一种是命令行方式,Hadoop 提供了一套与 Linux 文件命令类似的命令行工具;另一种是 Java API,即利用 Hadoop 的 Java 库,采用编程的方式操作 HDFS 的文件。本节将介绍 Linux 操作系统中关于 HDFS 文件操作的常用命令行,并将介绍利用 Hadoop 提供的 Java API 进行基本的文件操作,以及利用 Web 界面查看和管理 ... »

DAG阶级划分

Spark RDD是什么?

Spark 的核心是建立在统一的抽象弹性分布式数据集(Resiliennt Distributed Datasets,RDD)之上的,这使得 Spark 的各个组件可以无缝地进行集成,能够在同一个应用程序中完成大数据处理。本节将对 RDD 的基本概念及与 RDD 相关的概念做基本介绍。 RDD 的基本概念 RDD 是 Spark 提供的最重要的抽象概念,它是一种有容错机制的特殊数据集合,可以分布在... »

直接密度可达和密度可达示意

DBSCAN聚类算法简介

图 1DBSCAN算法数据点类型示意进一步来讲,DBSCAN 算法还涉及以下一些概念。这些核心点的 Eps 邻域里所有的样本的集合组成一个 DBSCAN 聚类簇。DBSCAN 算法的计算复杂的度为 O,n 为数据对象的数目。 »

PageRank算法示例

通过网络爬虫采集大数据

网络数据采集是指通过网络爬虫或网站公开 API 等方式从网站上获取数据信息。在互联网时代,网络爬虫主要是为搜索引擎提供最全面和最新的数据。在大数据时代,网络爬虫更是从互联网上采集数据的有利工具。网络爬虫系统以这些种子集合作为初始 URL,开始数据的抓取。为提高工作效率,通用网络爬虫会采取一定的爬行策略。 »

NoSQL非关系型数据库简介

NoSQL 凭借易扩展、大数据量和高性能及灵活的数据模型在数据库领域获得了广泛的应用。NoSQL 是一种不同于关系型数据库的数据库管理系统设计方式,是对非关系型数据库的统称。NoSQL 在大数据存取上具备关系型数据库无法比拟的性能优势。而 NoSQL 数据库具有非常高的读写性能,尤其在大数据量下,能够同样保持高性能,这主要得益于 NoSQL 数据库的无关系性。相比较而言,大多数 NoSQL 数据库... »

Spark运行基本流程图

Spark总体架构和运行流程

本节将首先介绍 Spark 的运行架构和基本术语,然后介绍 Spark 运行的基本流程,最后介绍 RDD 的核心理念和运行原理。SparkContext 负责和 Cluster Manager 通信,进行资源申请、任务分配和监控等。Spark 运行流程Spark 运行基本流程如图 2 所示,具体步骤如下。运行完毕后写入数据,SparkContext 向 ClusterManager 注销并释放所有... »

数据挖掘之关联规则分析简介

关联分析是指从大量数据中发现项集之间有趣的关联和相关联系。关联分析的一个典型例子是购物篮分析。在大数据时代,关联分析是最常见的数据挖掘任务之一。 概述 关联分析是一种简单、实用的分析技术,是指发现存在于大量数据集中的关联性或相关性,从而描述一个事物中某些属性同时岀现的规律和模式。 关联分析可从大量数据中发现事物、特征或者数据之间的,频繁出现的相互依赖关系和关联关系。这些关联并不总是事先知道的,而是... »

Scrapy架构

Scrapy网络爬虫简介

Scrapy 是一个为了爬取网站数据、提取结构性数据而编写的应用框架,可以应用在包括数据挖掘、信息处理或存储历史数据等一系列的程序中。 1. Scrapy 架构 Scrapy 的整体架构由 Scrapy 引擎(ScrapyEngine)、调度器(Scheduler)、下载器(Downloader)、爬虫(Spiders)和数据项管道(itemPipeline)5 个组件组成。图 1 展示了各个组件... »

图形数据库模型示意

NoSQL数据库类型简介

近些年来,NoSQL 数据库的发展势头很快。据统计,目前已经产生了 50 到 150 个 NoSQL 数据库系统。文档数据库是 NoSQL 数据库类型中出现得最自然的类型,因为它们是按照日常文档的存储来设计的,并且允许对这些数据进行复杂的查询和计算。图形数据库是 NoSQL 数据库类型中最复杂的一个,旨在以高效的方式存储实体之间的关系。 »

Spark生态圈

Spark生态圈简介

Spark 生态圈是加州大学伯克利分校的 AMP 实验室打造的,是一个力图在算法、机器、人之间通过大规模集成来展现大数据应用的平台。图 1Spark 生态圈1. Spark Core本节已经介绍了 Spark Core 的基本情况,下面来总结 Spark 的内核架构。Spark MLlib 降低了机器学习的门槛,开发人员只要具备一定的理论知识就能进行机器学习的工作。本教程将在后面对 Spark M... »

FP-Tree的挖掘示意2

Apriori算法和FP-Tree算法简介

本节主要描述了基于 Apriori 算法的关联分析方法。为了克服 Apriori 算法在复杂度和效率方面的缺陷,本节还进一步的介绍了基于 FP-Tree 的频繁模式挖掘方法。Apriori关联分析算法Apriori 算法是挖掘产生关联规则所需频繁项集的基本算法,也是最著名的关联分析算法之一。Apriori 算法简单来说主要有以下几个步骤。Apriori 算法是个逐层算法,它使用“产生——测试”策略... »

数据质量问题分类

大数据预处理架构和方法简介

本节在介绍大数据预处理基本概念的基础上对数据预处理的方法进行讲解。大数据预处理整体架构大数据预处理将数据划分为结构化数据和半结构化/非结构化数据,分别采用传统 ETL 工具和分布式并行处理框架来实现。图 1 大数据预处理总体架构结构化数据可以存储在传统的关系型数据库中。关系型数据库在处理事务、及时响应、保证数据的一致性方面有天然的优势。 »

Page 1 of 3123