机器学习实战

机器学习实战之朴素贝叶斯(二)文本分类

机器学习实战之朴素贝叶斯(二)文本分类

朴素贝叶斯(二)文本分类朴素贝叶斯的一般流程用python进行文本分类准备数据:从文本中构建词向量训练算法:从词向量计算概率测试算法:朴素贝叶斯分类函数文档词袋模型 朴素贝叶斯的一般流程 (1)收集数据:任何方法 (2)准备数据:数值型、布尔型 (3)分析数据:特征多,用直方图效果好 (4)训练算法:计算不同的独立特征的多条件概率 (5)测试算法:计算错误率 (6)使用算法:一般应用于文档分类,也... »

机器学习实战第三章决策树

这是以本人的笔记的形式写的,各个函数逐个来写,至于存放在那个模块大家可以看书,这里不再详细讲解。可能存在错误,有不对的的地方希望评论给予改正。多谢大家嘻嘻 »

机器学习实战一:knn算法 约会网站

机器学习实战一:knn算法 约会网站

1、sklearn库 import numpy as np import pandas as pd from sklearn.model_selection import train_test_split from sklearn.neighbors import KNeighborsClassifier df = pd.read_table('D:\datingTestSet2.txt',hea... »

《机器学习实战(一)》——K-近邻算法

《机器学习实战(一)》——K-近邻算法

K-近邻算法前言K-近邻算法介绍K-近邻算法思想样本间距离(相似程度)计算example1_改进约会网站配对效果example2_数字识别小结 前言 前一段时间一直在学习《机器学习实战》和《统计学习方法》这两本书,第一本基本上看完了,收获很多,但是还是觉得有很多囫囵吞枣的地方,决定通过写博客的方式,对自己的学习/复习再做一个记录。计划一周更新一篇博客。废话不多说,现在开始。 K-近邻算法介绍 K-... »

《机器学习实战》python3学习笔记——决策树

《机器学习实战》python3学习笔记——决策树

决策树理论部分前言1.1 信息熵1.1.1 代码实现1.2 信息增益1.2.1 代码实现1.3 创建决策树2.1 决策树的可视化3.1 测试和存储决策树存储及读取4 课本隐形眼镜实战代码参考文献 前言 决策树(decsision tree)是一类常见的机器学习算法。以周志华老师《机器学习》中西瓜数据集为例,我们希望从给定训练集中学得一个模型用于对测试集分类。本文将详细解读书中代码,并使用sklea... »

机器学习基础概念:查准率、查全率、ROC、混淆矩阵、F1-Score 机器学习实战:分类器

机器学习基础概念:查准率、查全率、ROC、混淆矩阵、F1-Score 机器学习实战:分类器

我们可以根据学习器的预测结果对样例进行排序,排在前面的是学习器认为“最可能”是正例的样本,排在最后的是学习器认为“最不可能”是正例的样本,按此顺序逐个将样本作为正例进行预测,则每次都可以计算出当前的查全率、查准率。 »

机器学习实战:TensorFlow构建线性回归模型

机器学习实战:TensorFlow构建线性回归模型

在本章中,开始使用简单模型:线性回归来探索 TensorFlow 编程。基于这个例子,我将介绍一些代码基础知识,以及,如何调用学习过程中的各种重要组件,如函数函数或算法梯度下降。 变量之间的关系模型 线性回归是一种用于衡量变量之间关系的统计技术。它的有趣之处在于实现它的算法在概念上不复杂,并且还可以适应各种各样的情况。由于这些原因,我发现用线性回归的例子开始深入研究 TensorFlow 很有意思... »

在这里插入图片描述

机器学习实战笔记4——主成分分析

任务安排 1、机器学习导论       8、稀疏表示 2、KNN及其实现       9、核方法 3、K-means聚类      10、高斯混合模型 4、主成分分析          11、嵌入学习 5、线性判别分析      12、强化学习 6、贝叶斯方法          13、PageRank 7、逻辑回归              14、深度学习 主成分分析(PCA) Ⅰ算法背景:维数灾... »

在这里插入图片描述

『ML』利用K-Means聚类算法对未标注数据分组——《机器学习实战》学习笔记(Ch10)

本节用Python实现K-Means算法,对未标注的数据进行聚类。主要参考《机器学习实战》—— Peter Harrington著。 导航K-Means简介代码实现(一)数据集读入(二)距离计算(三)构建随机质心(四)数据聚类(五)完整代码改进:采用二分法(一)简介(二)代码最后 K-Means简介 这里参考了大三专业课老师的PPT,现在回过头来看,老师当初讲得特别透彻,可惜没好好听,老师dbq ... »

机器学习实战–k近邻算法改进约会网站的配对效果

机器学习实战–k近邻算法改进约会网站的配对效果

声明         本文参考了《机器学习实战》书中代码,结合该书讲解,并加之自己的理解和阐述 问题描述         朋友海伦一直使用在线约会网站寻找适合自己的约会对象。尽管约会网站会推荐不同的人选,但她并不是喜欢每一个人。经过一番总结,她发现曾交往过三种类型的人: 不喜欢的人 魅力一般的人  极具魅力的人         为了让软件更好的给海伦推荐人选,海伦收集很多约会数据,她把这些数据存放... »

【机器学习实战】利用KNN和其他分类器对手写数字进行识别

【机器学习实战】利用KNN和其他分类器对手写数字进行识别

一、在sklearn中创建KNN分类器 KNeighborsClassifier(n_neighbors=5, weights=’uniform’, algorithm=’auto’, leaf_size=30) 看一下这几个参数: 1. n_neighbors:即 KNN 中的 K 值,代表的是邻居的数量。如果K 值比较小,会造成过拟合;如果 K ... »

机器学习实战——树回归(代码错误汇总)

机器学习实战——树回归在学习机器学习实战这本书过程中,代码实现部分往往有一些小的错误。下面进行一些总结,方便交流学习!解决办法:在map方法外加上一个list()如下fltLine = list2.TypeError: unhashable type: ‘matrix’报错代码for splitVal in set:主要原因:dataSet是矩阵,将其转换成列表即可。 »

机器学习实战:基于逻辑回归模型的信用卡欺诈检测

某银行为提升信用卡反欺诈检测能力,提供了脱敏后的一份个人交易记录。考虑数据本身的隐私性,数据提供之初已经进行了类似PCA的处理,并得到了若干数据特征。在不需要做额外特征提取工作的情况下,本项目意在通过逻辑回归模型的调优,得到较为准确可靠的反欺诈检测方法,分析过程中使用到了Python Pandas, Numpy, Matplotlib, Seaborn以及机器学习库Scikit-Learn等。 数... »

在这里插入图片描述

机器学习实战:逻辑回归+梯度下降

使用梯度下降的方法进行逻辑回归实战: 问题说明: 这里将建立一个逻辑回归模型来预测一个学生是否被大学录取。 假设你是一个大学的管理员,你想根据两次考试的结果来决定每个申请人的录取机会,你有以前的申请人的历史数据。可以用历史数据作为逻辑回归的训练集。对于每一个样本,有两次考试的申请人的成绩和录取决定。建立一个分类模型,根据考试成绩估计入学概率。 数据链接: 链接:https://pan.baidu.... »

在这里插入图片描述

机器学习实战_K近邻算法 ——手写数字预测(sklearn api)

一、序 机器学习实战_K近邻算法 ——手写数字预测 调用的是自己编写的分类器classify0,主要是为了学习理论原理;在实际是项目中通常调用工具包的api接口,比如sklearn,这也体现了python的一个便利性,不用总是自己造轮子。虽然python提供了很多机器学习的工具包,但是也是在我们了解和熟悉算法的基本实现原理。 二、sklearn中KNeighborsClassifier的介绍 cl... »

《机器学习实战》kNN学习笔记(一)

概述 k-近邻算法采用测量不同特征值之间的距离方法进行分类 优缺点 优点:精度高、对异常值不敏感、唔数据输入假定 缺点:计算复杂度高、空间复杂度高。 适用数据范围:数值型和标称型 标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类) 数值型:数值型目标变量则可以从无限的数值集... »

在这里插入图片描述

跟着Leo机器学习实战:Kmeans聚类

跟着Leo机器学习实战:Kmeans聚类 Kmeans聚类 优点:容易实现 缺点:容易陷入局部最小值,在大规模数据收敛很慢。 适用数据类型:数值型数据 伪代码 加载数据 from numpy import * def loadDataSet(fileName): #加载数据 dataMat = [] #assume last column is target value fr = open(fil... »

跟着Leo机器学习实战:Logistic回归

跟着Leo机器学习实战:Logistic回归

跟着Leo机器学习实战:Logistic回归 github https://github.com/LeoLeos/MachineLearningLeo/tree/master/logRegres Logistic回归 优点:计算代价不高,易于理解和实现 缺点:容易缺拟合,分类精度不高 适合数据类型:数值型和标称型数据 sigmoid函数以及目标 Logistic回归梯度上升优化算法训练参数 fro... »

在这里插入图片描述

跟着Leo机器学习实战–基于概率论的分类方法:朴素贝叶斯

跟着Leo机器学习实战–基于概率论的分类方法:朴素贝叶斯 github https://github.com/LeoLeos/MachineLearningLeo/tree/master/bayes 核心思想 如果我们用p1(x,y)表示数据(x,y)属于类别1的概率,用p2(x,y)表示数据(x,y)属于类别2的概率,那么判别规则如下: 若p1(x,y)>p2(x,y),则判给类别1 若p... »

在这里插入图片描述

机器学习实战 Logistic回归

Logistic回归 ​        我的微信公众号: s406205391; 欢迎大家一起学习,一起进步!!!         假设现在有一些数据点,我们用一条直线对这些点进行拟合(该线称为最佳拟合直线),这个拟合过程就称作回归。利用Logistic回归进行分类的主要思想是:根据现有数据对分类界线建立回归公式,以此进行分类。训练分类器时的做法就是寻找最佳拟合参数,使用的是最优化算法。 Logi... »

机器学习实战(六)模型评价标准

机器学习实战(六)模型评价标准

机器学习实践中分类器常用的评价指标就是auc,不想搞懂,简单用的话,记住一句话就行auc取值范围[0.5,1],越大表示越好,小于0.5的把结果取反就行。使用AUC值作为评价标准是因为很多时候ROC曲线并不能清晰的说明哪个分类器的效果更好,而作为一个数值,对应AUC更大的分类器效果更好。为什么使用ROC曲线既然已经这么多评价标准,为什么还要使用ROC和AUC呢? »