大数据

基于聚类分析方法的异常数据监测

大数据预处理之数据清洗

数据清洗过程包括遗漏数据处理,噪声数据处理,以及不一致数据处理。不一致数据处理现实世界的数据库常岀现数据记录内容不一致的问题,其中的一些数据可以利用它们与外部的关联,手工解决这种问题。 »

HBase的物理视图

HBase列式数据模型简介

用户可以对 HBase 保留的版本数量进行设置。本节将对与 HBase 数据模型相关的基本概念进行统一介绍。,1. 表HBase采用表来组织数据,表由许多行和列组成,列划分为多个列族。HBase 中的列族是一些列的集合。这正是 HBase 与关系型数据库的重要区别之一。也就是说,这个 HBase 表会按照 contents、anchor 和 mime 3 个列族分别存放。 »

Spark Streaming 原理示意

Spark Streaming简介

Spark Streaming 是 Spark 核心 API 的一个扩展,可以实现高吞吐量的、具备容错机制的实时流数据的处理。Spark Streaming 支持从多种数据源获取数据,包括 Kafka、Flume、Twitter、ZeroMQ、Kinesis 以及 TCP Sockets。Spark Streaming 处理的数据流如图 1 所示。图 2Spark Streaming 原理示意Sp... »

豆瓣的推荐机制:基于用户品味的推荐

基于大数据的个性化推荐系统

基于大数据的推荐系统通过分析用户的历史记录了解用户的喜好,从而主动为用户推荐其感兴趣的信息,满足用户的个性化推荐需求。基于人口统计学的推荐:根据系统用户的基本信息发现用户的相关程度。基于内容的推荐:根据推荐物品或内容的元数据,发现物品或者内容的相关性。 »

大数据预处理之数据集成

数据处理常常涉及数据集成操作,即将来自多个数据源的数据,如数据库、数据立方、普通文件等,结合在一起并形成一个统一数据集合,以便为数据处理工作的顺利完成提供完整的数据基础。数据库与数据仓库通常包含元数据,这些元数据可以帮助避免在模式集成时发生错误。此外,属性命名的不一致也会导致集成后的数据集出现数据冗余问题。r 的绝对值越大,说明属性 A、B 的负关联关系越紧密。 »

学生成绩表

HBase Shell常用命令和基本操作(附带实例)

HBase 为用户提供了一个非常方便的命令行使用方式——HBase Shell。HBase Shell 提供了大多数的 HBase 命令,通过 HBase Shell,用户可以方便地创建、删除及修改表,还可以向表中添加数据,列出表中的相关信息等。本节介绍一些常用的命令和具体操作,并讲解如何使用命令行实现一个“学生成绩表”。 »

Spark Streaming 与 Storm 吞吐量比较

Spark Streaming的系统架构

传统流处理采用的是一次处理一条记录的方式,而 Spark Streaming 采用的是将流数据进行离散化处理,使之能够进行秒级以下的微型批处理。图 3 显示了 Spark Streaming 的整个计算流程。图 3Spark Streaming计算流程动态负载均衡Spark 系统将数据划分为小批量,允许对资源进行细粒度分配。图 5Spark Streaming中RDD的血缘关系图在结点故障的案例中... »

血糖浓度预测模型

大数据预测(大数据核心应用)

大数据预测是大数据最核心的应用,它将传统意义的预测拓展到“现测”。利用大数据预测可能的灾难,利用大数据分析癌症可能的引发原因并找出治疗方法,都是未来能够惠及人类的事业。1)天气预报天气预报是典型的大数据预测应用领域。这意味着未来的体育赛事会被大数据预测所掌控。 »

大数据预处理之数据转换

数据转换就是将数据进行转换或归并,从而构成一个适合数据处理的描述形式。数据转换包含以下处理内容。2)合计处理对数据进行总结或合计操作。这一操作常用于构造数据立方或对数据进行多粒度的分析。4)规格化处理将有关属性数据按比例投射到特定的小范围之中。 »

HBase的系统架构

HBase主要运行机制(物理存储和逻辑架构)

本节将对 HBase 的主要运行机制进行简单介绍。HBase 的物理存储HBase 表中的所有行都是按照行键的字典序排列的。图 4HBase的Region存储模式HBase 的逻辑架构在分布式的生产环境中,HBase 需要运行在 HDFS 之上,以 HDFS 作为其基础的存储设施。HBase 的集群主要由 Master、Region Server 和 Zookeeper 组成,具体模块如图 5 所... »

DStream中的数据操作流程

Spark Streaming编程模型

本节将介绍 Spark Streaming 的编程模型,包括 DStream 的操作流程和使用方法。 DStream 的操作流程 DStream 作为 Spark Streaming 的基础抽象,它代表持续性的数据流。这些数据流既可以通过外部输入源来获取,也可以通过现有的 DStream 的 Transformation 操作来获得。 在内部实现上,DStream 由一组时间序列上连续的 RDD ... »

大数据的其他应用领域

在宏观层面,大数据使经济决策部门可以更敏锐地把握经济走向,制定并实施科学的经济政策;而在微观层面,大数据可以提高企业经营决策水平和效率,推动创新,给企业、行业领域带来价值。大数据技术与企业管理的核心因素高度契合。两者在这一特征上具有高度契合性,甚至可以称大数据就是企业管理的又一种工具。企业需要能够把握市场机遇、迅速实现大数据商业模式的创新。 »

分层采样方法示意

大数据预处理之数据消减

数据消减技术的主要目的就是从原有巨大数据集中获得一个精简的数据集,并使这一精简数据集保持原有数据集的完整性。在最低层次所建立的数据立方称为基立方,而最高抽象层次对应的数据立方称为顶立方。该方法还可以将多于两维的数据通过处理降为两维数据。数据块消减数据块消减方法主要包括参数与非参数两种基本方法。 »

HBase常用Java API

本节介绍与 HBase 数据存储管理相关的 Java API(基于 HBase 版本 1.2.3)。 HBase 的常用Java API HBase 主要包括 5 大类操作:HBase 的配置、HBase 表的管理、列族的管理、列的管理、数据操作等。 1)org.apache.hadoop.hbase.HBaseConfiguration HBaseConfiguration 类用于管理 HBas... »

DStream的批处理间隔示意

Spark DStream相关操作

例如,每批次的数据流与另一数据集的连接功能不能直接暴露在 DStream API 中,但可以轻松地使用 transform 方法来做到这一点,这使得 DStream 的功能非常强大。 »

中国大数据IT应用行业投资结构

大数据可以应用在哪些行业?

不同行业的大数据应用进程的速度,与行业的信息化水平、行业与消费者的距离、行业的数据拥有程度有着密切的关系。不同部门的信息化程度和数据化程度差异较大,例如,交通行业目前已经有了不少大数据应用案例,但有些行业还处在数据采集和积累阶段。政府将会是未来整个大数据产业快速发展的关键,通过政府及公用数据开放可以使政府数据在线化走得更快,从而激发大数据应用的大发展。 »

Page 3 of 3123