数据处理

在这里插入图片描述

Hadoop概述及CentOS安装和使用

Hadoop--入门Hadoop概述及CentOS安装和使用一. Hadoop概述1.HDFS2.MapReduce二.准备工作1.安装虚拟机软件 Vmware Workstation Pro2.安装Linux操作系统下载CentOS镜像文件安装CentOSCentOS配置Hadoop概述及CentOS安装和使用一. Hadoop概述Hadoop是一个分布式系统基础架构,用户可以在不了解分布式底层... »

在这里插入图片描述

Linux系统安装单机版Spark

背景最近要开发智能推荐引擎,后期系统需要搭载在Spark集群上,前期要开发相关脚本,需要一个测试环境,所以向公司申请了一台主机,平台是Linux,操作系统CentOS,背景交代完毕,现在需要在单机Linux主机上部署Spark。下载完成后上传到Linux服务器software文件夹下,然后解压压缩包。显示 Jps、Master、Worker三项,启动成功,并且不再需要密码验证。 »

QT多线程采集摄像头数据处理显示(QVideoProbe+QCamera+QThread)

QT多线程采集摄像头数据处理显示(QVideoProbe+QCamera+QThread)

一、环境介绍 操作系统介绍:ubuntu 18.04 、windows、Android QT版本:  5.12.6 摄像头:  USB摄像头、虚拟机挂载本机自带摄像头 二、功能介绍 在子线程里通过QVideoProbe捕获摄像头一帧数据,处理之后(加时间水印),再通过信号/槽机制发送给主线程,在UI界面显示。 子线程方式采用moveToThread方式实现,因为需要用到QVideoProbe的槽函... »

YOLO3 数据处理与数据加载 Keras源码分析

YOLO3 数据处理与数据加载 Keras源码分析

YOLO3 Keras 源码:https://github.com/qqwweee/keras-yolo3 前言 本文从主要是从源码层面对 YOLO3 的数据处理相关内容进行分析与讲解。通常,一个功能的实现需要多个函数配合,所以我将每个功能的实现函数分为两部分,基础函数 和 实现函数 : 基础函数:被实现函数所依赖,是实现函数的一部分 实现函数:通过调用基础函数实现功能 源码内容比较多,通过目录索... »

高中低的三个值的分布

数据处理第一步:清洗和提炼

数据清洗的概念和方法总结 部分代码练习 1.数据清洗的概念和方法总结 2.部分代码练习 其中包含: 2.1识别和处理缺失值 2.2数据标准化 2.3数据归一化 2.4查看数据分布的分箱和指标变量 数据清洗的目的:将数据转化为一种方便分析的格式 首先导入数据 !pip install pandas==0.25.0 import pandas as pd#添加库 df = pd.read_csv("地... »

在这里插入图片描述

基于城市车辆设备维修遗传算法解全局最优解数据处理

这个遗传算法解全局最优解主要是解决城市车辆维修费用采用哪种方式维修花费最少。  以def开头的四个函数是数据处理的主要部分 1 获取方程组的左边部分(矩阵计算) 2 构造方程组右边部分 3 各个参数值求和部分 4 可视化评估最小值部分  算法函数调用部分 这五个模块就够了(sympy与scipy主要用来解非线性方程组) import numpy import scipy from scipy.... »

在这里插入图片描述

实验室20200314数据处理任务总结

如果你想获取数据集和代码,请点这里。 任务描述 基本要求 把样本文件中的数据按下面的样例格式写入输出文件。需要注意的是,输入文件中所有的暂无数据均按暂无写入输出文件,所有的None均按NULL写入输出文件。样本文件中共240条数据。 输入文件样例 样本文件ori_data的数据样例如下: Tue Mar 19 16:23:02 2019,杭州租房网 > 萧山租房 > 钱江世纪城租房 &... »

学习笔记(34):第一章:数据科学原理与数据处理-数据分析好帮手Jupyternotebook 03…

utm_source=blogtoedujupyter中常用的魔法命令:%load:加载本地的py文件%run:运行本地的py文件%timeit:计算程序运行的平均时间%time:计算程序运行的实际时间%%html:写入HTML文件%%js:写入js文件%%writefile:把jupyter中写的代码保存到本地文件夹,默认是同级目录注意:python中的列表生成式要比for循环高效很多,千次运算... »

在这里插入图片描述

Tensorflow2.0泰坦尼克数据集的python分析以及离散化数据处理(含数据集下载地址)

泰坦尼克数据集下载 训练集 测试集 导入需要的库 import matplotlib.pyplot as plt %matplotlib inline import numpy as np import pandas as pd 加载数据集 train_file = './data/titanic/train.csv' eval_file = './data/titanic/eval.csv' t... »

在这里插入图片描述

机器学习“傻瓜式”理解(4)KNN算法(数据处理以及超参数)

数据处理以及超参数的理解 首先我们需要了解到,我们在进行机器学习的过程中寻求的不是让训练处的在现有的数据集上达到最佳,而是我们需要让其在真实环境中达到最佳的效果。在上一节中我们将全部的数据集全部用于训练模型中,对于我们所训练出的模型无法知道其具体的准确度便投入真实环境使用,这样的做法极具风险性,而且我们也不推荐。 解决方案:机器学习最常用的解决方案便是实现测试集和训练集的相互分离(此方法仍具有局限... »

Python3的os.popen()与subprocess使用(关于数据处理)

个人笔记,大佬勿喷 关于介绍,网上一堆,可自行百度 这里记录一下popen()接受命令返回值及处理,我想要的值是docker的ID $ docker ps -q 2d3586a30e7e 03f1ca1331c7 但是使用python调用的时候没法直接得到这个结果,所以想要获取这个数据  #导入os这个模块 In [8]: import os #使用popen接受docker ps -q这个命令的... »

iOS数据处理之SQLite数据库

iOS数据处理之SQLite数据库

  1. 数据库管理系统   1> SQL语言概述   SQL: SQL是Structured Query Language(结构化查询语言)的缩写。SQL是专为数据库而建立的操作命令集, 是一种功能齐全的数据库语言。   2> 常见的数据库   MySQL: MySQL是一个精巧的SQL数据库管理系统, 而且是开源的数据管理系统。MySQL 主要目标是快速、健壮和易用。 由于它的强大... »

Hadoop集群参数配置原则

执行merge sort的时候,每次同时打开多少个spill文件由该参数决定。mapred.child.java.opts设置JVM堆的大可用内存,需从应用程序角度进行配置。Intel内部测试表明,相比未压缩,使用LZO压缩的 TeraSort作业运行时间减少60%,且明显快于Zlib压缩。reduce task相关配置Reduce shuffle阶段copier线程数。 »

C#中关于Send WebRequest 方法和数据处理

  很久不更新博客了,这次大概说一下C#中的Send WebRequest,众所周知,.NET网络编程在测试中是非常常见的,具体来说,比如我们如果测试一个API,通过Send WebRequest的方式来进行API层面的功能测试,然后用Selenium完成前端的验证,这种模式应该说是比较方便而通用的,具体以其中常见的HTTP request为例,当我们需要传输数据时,需要   1)地址:Addre... »

如何保证可测试性:应用设计分层技术

如何保证可测试性:应用设计分层技术

如果从设计上按分层思想将代码划分:把数据获取放入一层,把数据处理放入另一层。改造后的代码可以只针对主要逻辑进行测试,测试针对性明显加强,同时这个增加成绩的功能可以通用,以后新增类似功能的时候 ,只需要对sql语句进行测试,功能的case还可以复用。 »

HADOOP测试常见问题和测试方法

本文主要介绍项目测试过程中一些常见的现象以及问题的说明和一些常见的测试方法一、测试常见问题1、reduce输出文件,上传文件,下载文件等操作的目的文件的删除。而当在shell命令行直接输入hadoop命令时,系统默认是使用HADOOP_HOME下的hadoop客户端。当HADOOP_HOME环境变量被别的用户修改后,会连接到别的hadoop平台,当然找不到所要的目录:)。 »

在这里插入图片描述

30_多易教育之《yiee数据运营系统》附录:扩展知识点汇总总结篇

目录 一、Sqoop教程         1、概述         2、工作机制         3、安装                1)、前提概述                2)、软件下载                3)、安装步骤         4、Sqoop的基本命令                1)、基本操作                2)、Sqoop的数据导入impor... »

在这里插入图片描述

【大数据入门笔记系列】第三节 Hdfs读、写数据处理流程

写数据处理流程假设有一台NameNode和4台DataNode(非HA),我们的文件上传客户端可以在任何地方,前提是客户端能够与NameNode、DataNode连接。路径“/test/9F83F0668/”存在,该路径下不存在文件“9F83F0668.mp4”符合文件上传条件。 »

大数据技术原理

大数据技术原理

水槽提供了分布式,可靠,高效的服务,用于收集,汇总大数据,并将单台计算机的大量数据转移到HDFS。Spark生态圈Spark特点Spark是伯克利大学AMPLab压法的一套开源的数据处理软件栈,也是当前领域内最活跃,最热门,最高效的大数据通用计算平台。 »

Spark学习笔记—Spark计算模型

Spark通过partitionBy运算符对原始RDD进行数据再分配从而创建一个新的RDD。通过RDD之间的依赖关系形成了Spark的调度顺序。.调用SparkContext的parallelize,将Drive上的数据集并行话,转化为分布式的RDD。二.Spark算子分类及功能算子是RDD中定义的函数,可以对RDD中的数据进行转换和操作。mapPartitions获取到每个分区的迭代器,通过迭代... »

《hadoop权威指南(第四版)》(第一章)学习笔记

《hadoop权威指南(第四版)》(第一章)学习笔记

数据本地化特性 是Hadoop数据处理的核心,并因此而获得良好的性能。意识到网络带宽是数据中心环境最珍贵的资源之后,Hadoop通过显式网络拓扑结构来保留网络带宽。注意,这种排列方式并没有降低Hadoop对计算密集型数据进行分析的能力。Apache Hadoop发展简史Hadoop是Apache Lucene创始人道格.卡丁创建的,Lucene 是一个应用广泛的文本搜索系统库。Hadoop 起源于... »

大数据面试知识图谱

大数据面试知识图谱

作者:大数据技术与架构 By 大数据技术与架构 场景描述:大数据开发岗位技能树,学习和复习总纲。 关键词:面试 大数据 大纲 正所谓,无招胜有招。 愿读到这篇文章的技术人早日明白并且脱离技术本身,早登彼岸。 一切技术最终只是雕虫小技。   大纲 本系列主题是大数据开发面试指南,旨在为大家提供一个大数据学习的基本路线,完善数据开发的技术栈,以及我们面试一个大数据开发岗位的时候,哪些东西是重点考察的,... »

【大数据入门笔记系列】第一节 大数据常用组件

第一节 大数据常用组件大数据释义大数据组件跳转大数据释义近些年来,坊间一直流传着这样的言论:“大数据时代,人人都在裸奔”。适用于大数据的技术有哪些? »

CDH 安装 大数据组件 报错

使用CDH来安装大数据组件的时候,当安装到YARN、Hbase、Spark的时候报错,主要原因是YARN、Hbase、Spark在HDFS里面没有权限去创建文件 Spark SecurityManager: authentication disabled; ui acls disabled; users with view permissions : Set(spark); groups with... »

大数据学习笔记:Hadoop 2.x的版本架构模型介绍

大数据学习笔记:Hadoop 2.x的版本架构模型介绍

大数据学习笔记:Hadoop 2.x的版本架构模型介绍第一种:NameNode与ResourceManager单节点架构模型文件系统核心模块:NameNode:集群当中的主节点,主要用于管理集群当中的各种元数据secondaryNameNode:主要能用于hadoop当中元数据信息的辅助管理DataNode:集群当中的从节点,主要用于存储集群当中的各种数据数 »

Page 1 of 8123»