数据挖掘

K折交叉验证图

20200401零基础入门数据挖掘 – 二手车交易价格预测笔记(4)

线性性:X1每变动一个单位,Y相应变动a1个单位,与X1的绝对数值大小无关。自相关性经常发生于时间序列数据集上,后项会受到前项的影响。自变量之间应相互独立。误差项(ε)应呈正态分布。如果训练数据集相对较小,则增大k值。 »

在这里插入图片描述

数据挖掘学习记录三

数据挖掘的学习和细节思考 (自己学习记录使用) 本次学习是在二手车价格数据的分析的基础上,根据他人的文章进行研究学习。通过细分步骤和深究每一步的意义,对于数据挖掘有一个更好的认识。 参考链接为:Datawhale 零基础入门数据挖掘-Task4 建模调参 0、模型学习 线性回归模型 决策树模型 GBDT模型 XGBoost模型 LightGBM模型 1、数据读取 1.1调整数据类型,减少数据在内存... »

在这里插入图片描述

零基础入门数据挖掘-二手车交易价格预测(Day3建模调参)

目录减少数据在内存中占用的空间线性回归 & 五折交叉验证 & 模拟真实业务情况简单建模五折交叉验证事实上,五折交叉验证在某些与时间相关的数据集上反而反映了不真实的情况绘制学习率曲线与验证曲线嵌入式特征选择 – 大部分情况下都是用嵌入式做特征选择# 我们看下三种模型的效果对比:线性回归; 加入了L1的Lasso回归; 加入了L2的岭回归 减少数据在内存中占用的空间 def... »

在这里插入图片描述

零基础数据挖掘入门系列(五) – 模型建立与调参

思维导图:零基础入门数据挖掘的学习路径 1. 写在前面 零基础入门数据挖掘是记录自己在Datawhale举办的数据挖掘专题学习中的所学和所想, 该系列笔记使用理论结合实践的方式,整理数据挖掘相关知识,提升在实际场景中的数据分析、数据清洗,特征工程、建模调参和模型融合等技能。所以这个系列笔记共五篇重点内容, 也分别从上面五方面进行整理学习, 既是希望能对知识从实战的角度串联回忆,加强动手能力的锻炼,... »

在这里插入图片描述

【数据挖掘】(三) 特征工程

1. 特征工程概述 数据和特征决定了机器学习的上限,而模型和算法只是去尽可能地逼近这个上限。由此可见,特征工程在机器学习中占有相当重要的地位。 特征工程:找到与问题有关的任何信息并把它们转换成特征矩阵的数值 2 特征工程在本案例中的应用 2.1 异常值处理 在数据预处理时,是否对异常值进行剔除,需要视具体情况而定,因为有些异常值中也有可能蕴含有用的信息。 异常值处理方法 方法描述 删除含有异常值的... »

在这里插入图片描述

Datawhale从零开始数据挖掘第三次打卡

Task3特征工程 Review 在上一阶段的学习,我们分析了数据,下面大概总结一下在特征工程中要用到的结论: seller和offertype对预测基本没用,需要删掉 特征v_1和v_6基本线性相关,保留一个就可以 数字特征为 [‘power’, ‘kilometer’, ‘v_0’, ‘v_1’, ‘v_2’, ‘v_3’, ‘v_4’, ‘v_5’, ‘v_6’, ‘v_7’, ‘v_8’,... »

在这里插入图片描述

数据挖掘TASK4_建模调参

建模与调参 学习目标 掌握机器学习模型的建模与调参过程 内容介绍 线性回归模型: 线性回归对于特征的要求; 处理长尾分布; 理解线性回归模型; 模型性能验证: 评价函数与目标函数; 交叉验证方法; 留一验证方法; 针对时间序列问题的验证; 绘制学习率曲线; 绘制验证曲线; 嵌入式特征选择: Lasso回归; Ridge回归; 决策树; 模型对比: 常用线性模型; 常用非线性模型; 模型调参: 贪心... »

零基础入门数据挖掘-Task3 特征工程

零基础入门数据挖掘-Task3 特征工程

目录 1. 学习内容 2. 导入相关模块和数据 3. 判别异常值 3.1 什么是异常值 3.2 常见的异常值判别方法 3.2.1 简单统计分析 3.2.2 3σ原则 3.2.3 箱型图 3.3 异常值处理方法 3.4 异常值处理实现(箱型图+删除异常值) 4. 构造新特征并保存数据到文件 4.1 供树模型使用 4.1.1 合并训练集和测试集 4.1.2 新建“使用时间”特征 4.1.3 新建“城市... »

在这里插入图片描述

数据挖掘实战–二手车交易价格预测(二)数据探索性分析(EDA)

包的安装: 采用Anaconda 3进行代码的编译,Anaconda 3里基础的数据分析包都已经准备好,我们需要安装的就是sklearn,lightgbm和xgboost包。 Anaconda可以支持我们采取多种方式安装所需要的包。可以采用pip,conda和从PYPI下载相关包等方式。这里采用的是pip方式。 pip install scikit-learn pip install lightg... »

最佳拟合

20200322零基础入门数据挖掘 – 二手车交易价格预测笔记(2)

二、EDA-数据探索性分析 前面的步骤就不做赘述了,我在下载好资料后,在jupyter notebook里将数据导入,随后进行课程内容的一系列指导操作,熟悉数据集,包括: 2.1 载入各种数据科学以及可视化库: 数据科学库 pandas、numpy、scipy; 可视化库 matplotlib、seabon; 其他; 2.2 载入数据: 载入训练集和测试集; 简略观察数据**(head()+sha... »

在这里插入图片描述

DataWhale数据挖掘学习–Task 2 数据分析

EDA数据分析2.1 数据加载2.2 查看数据概况2.3 检测缺失值、异常值、重复值2.3.1 缺失值判断2.3.2 缺失值可视化missingno矩阵查看缺失值missingno条形图查看缺失值2.3.3异常值检测倾斜值检测2.4 查看预测值分布查看skewness和kurtosis查看具体频数2.5 数据特征分析2.5.1数字特征分析相关性分析查看几个特征的 偏度和峰值每个数字特征得分布可视化... »

在这里插入图片描述

Datawhale从零开始数据挖掘第二次打卡

Task2数据分析 参考资料 数据处理之二——数据探索性分析(EDA) 数据科学学习手札62 数据探索性分析(EDA) EDA (Exploratory Data Analysis),也就是对数据进行探索性的分析,从而为之后的数据预处理和特征工程提供必要的结论。 拿到数据之后,我们必须要明确以下几件事: 数据是如何产生的,又是如何储存的 数据是原始数据,还是经过人工处理的 数据有哪些业务背景组成的... »

Datawhale 数据挖掘入门:数据分析 笔记

TASK2:数据分析 摘自 AI蜗牛车 在Datawhale 数据挖掘入门:数据分析部分的讲义 赛题:零基础入门数据挖掘 – 二手车交易价格预测 地址:https://tianchi.aliyun.com/competition/entrance/231784/introduction?spm=5176.12281957.1004.1.38b02448ausjSX 1 主要的内容 载入... »

python数据挖掘预测Boston房价

第5章 LinearR/PLR/SVR/KNN/DTR/RFR(测算房价)python数据挖掘预测Boston房价以上为两个博客,本文都是从中整理而来第一个数据集,包名如下:housing.csv 0.00632 18.00 2.310 0 0.5380 6.5750 65.20 4.0900 1 296.0 15.30 396.90 »

在这里插入图片描述

掌握了这个之后,数据挖掘竞赛稳拿top10:利用Sklearn库进行特征工程处理

完整的数据挖掘打比赛模板:https://vicky.blog.csdn.net/article/details/104983889 文章目录一、什么是特征工程?特征工程主要分为三部分数据预处理特征选择降维二、数据预处理2.1 无量纲化2.1.1 标准化(也叫Z-score standardization)(对列向量处理)2.1.2 区间缩放(对列向量处理)2.1.3 归一化(对行向量处理)2.3... »

在这里插入图片描述

大数据挖掘分析与应用——列表和元组

列表和元组 内容描述:序列常用方法、列表、元组,列表的常用方法以及元组的常用方法。 一、序列概述 1、概念:(1)索引:从0开始,最后是-1,数据类型为整型(int) (2)元素:列表和元组的元素可以是不同数据类型,可重复。 2、 序列是Python中最基本的数据结构。序列中的每个元素都分配一个数字-它的位置,或索引,第一个索引是0,第二个索引是1,依此类推。 3、Python中常见的序列有列表、... »

数据挖掘课设—-适合练练手

数据挖掘课设—-适合练练手

本组成员利用id3和c4.5对数据进行分析和处理,在获取相关数据方面,本组将数据写入excel文件中,并将其命名为data,然后进度读取和分析处理。 数据预处理是分别利用c4.5和id3 实验数据: 收入 身高 长相 体型 是否见面 一般 高 丑 胖 否 高 一般 帅 瘦 是 一般 一般 一般 一般 否 高 高 丑 一般 是 一般 高 帅 胖 是 下面是对决策树的实验代码: 首先调用matplot... »

在这里插入图片描述

大数据挖掘分析与应用前四讲笔记

大数据挖掘分析与应用前四讲笔记 一、第一讲环境部署 1。大数据的定义 大数据指无法在可承受的时间范围内用常规软件工具进行捕捉管理和处理的数据集合,是需要新处理模式才能具有更强的决策力。 2.数据挖掘的定义 数据挖掘是收集数据,分析使之成为信息,在大量数据中寻找潜在规律。 3.数据分析 适当方法对大量数据分析,提取有用信息形成结论对数据加以研究和概括总结的过程。 4.python语言特征 面向对象的... »

在这里插入图片描述

《大数据挖掘、分析与应用》个人总结(第三周作业)

目录一、环境部署1.工具下载1.1下载Python 3.81.2 下载Vscode2.完成python与vscode的安装二、基本知识1.变量及其命名规则1.1 变量的定义1.2 变量的命名规则2.语句3.缩进与注释3.1缩进3.2注释4.输入与输出4.1输入4.2输出三、条件语句与循环语句1.数据类型2.运算符3.条件语句4.循环语句四、程序练习1.数字猜谜2.数字求和3.斐波那契数列 一、环境... »

引用于菜鸟教程:https://www.runoob.com/python/python-operators.html

大数据挖掘、分析与应用

第一讲 基础知识 大数据指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量高增长率和多样化的信息资产。 数据挖掘(DataMining)是有组织有目的地收集数据,通过分析数据使之成为信息,从而在大量数据中寻找潜在规律以形成规则或知识的技术。 数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,提取有用信息... »

大数据挖掘分析与应用笔记

第一讲、环境部署 1.Python是一种面向对象的解释型计算机程序设计语言 2.语言特征:编译性语言、解释性语言(python平台兼容性)、动态语言、静态语言、强数据类型(仅能强制转换类型安全的语言)、弱数据类型(一个变量可赋予不同数据类型的值) 3.python环境部署:网址www.python.org 选择的最低版本不小于3.5 配置完成python3环境后,配置IDE的工具,推荐vscode... »

大数据挖掘分析与应用

大数据挖掘分析与应用1-4讲总结笔记 内容描述:python语言特征及环境部署;基本知识:变量、语句、缩进、注释;输入与输出语句;编辑文件化及执行;条件语句与循环语句以及数字猜谜等四讲内容。 第一讲、环境部署 1.Python是一门动态解释性的强数据类型的编程语言。 2.语言特征: (1)编译性语言:C、C++需编译,运行速度较快 (2)解释性语言:python平台兼容性 (3)动态语言:pyth... »

在这里插入图片描述

《大数据挖掘、分析与应用》第三周作业(个人总结)

目录一、环境部署1.工具下载(1)下载Python 3.8(2)下载Vscode2.python与vscode的安装二、基本知识1.变量及其命名规则2.语句3.缩进与注释4.输入与输出三、条件语句与循环语句1.数据类型2.运算符3.条件语句4.循环语句四、程序练习1.数字猜谜2.数字求和3.斐波那契数列 一、环境部署 1.工具下载 (1)下载Python 3.8    ①打开浏览器输入网址http... »

在这里插入图片描述

数据分析数据挖掘(五)

数据从 数据分析数据挖掘(三) 去找 一、探索变量的关系 1.事件相互独立的条件: P(AB)=P(A)P(B)则称为事件A和B相互独立,简称A与B独立。 P(A)P(B)>0,若A与B独立的充分必要条件是P(A|B)=P(A),P(B|A)=P(B)。事件A的发生与B相互无关。 2.导入库导入数据: import pandas as pd import numpy as np import... »

在这里插入图片描述

Python数据挖掘之数据预处理

目录Python主要数据预处理函数1、interpolate2、unique3、isnull / notnull4、andom5、PCA Python主要数据预处理函数 在数据挖掘中,海量的原始数据中存在着大量不完整(有缺失值)、不一致、有异常的数据,严重影响到数据挖掘建模的执行效率,甚至可能导致挖掘结果的偏差,所以进行数据清洗就显得尤为重要,数据清洗完成后接着进行或者同时进行数据集成、转换、规约... »

Page 1 of 3123