
机器学习
-
原创
《从机器学习谈起》读书摘要
本文是对《从机器学习谈起》一文的读书摘要,这片文章很详细的介绍了机器学习,很适合入门新手读(我就是) 1. 什么是机器学习 机器学习是一种让计算机利用数据而不是指令来进行各种工作的方法 机器学习方法是计算机利用已有的数据(经验),得出了某种模型,并利用此模型预测未来的一种方法 2. 机器学习的定义 从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法...2018-06-26 18:11:19 阅读数 160 评论数 0 -
原创
机器学习:模型选择与调优交叉验证和网格搜索
1、交叉验证cross validation 为了让被评估的模型更加准确可信 将训练数据分为训练集和验证集,分几等份就是几折验证 2、网格搜索grid search 超参数:很多参数需要手动指定 每组超参数都采用交叉验证来进行评估 代码示例 from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selectio...2019-01-20 15:22:35 阅读数 117 评论数 0 -
原创
机器学习:信息熵决策树预测泰坦尼克数据
决策树 思想:程序设计中分支结构if-then结构 信息熵 信息的单位:比特 H=−(P1logP1+P2logP2+...+PnlogPn)H = -(P1logP1 + P2logP2 + ... + PnlogPn)H=−(P1logP1+P2logP2+...+PnlogPn) 信息和消除不确定性相联系 信息熵越大,不确定性越大,获取信息付出的代价越大 信息熵公式 H(X)=−∑x∈XP(...2019-01-20 19:30:49 阅读数 93 评论数 0 -
原创
机器学习:随机森林预测泰坦尼克数据
随机森林 1、集成学习方法 集成学习通过建立几个模型组合来解决单一预测问题 工作原理:生成多个分类器/模型,各自独立地学习和做出预测 这些预测最后结合成单预测,因此优于任何一个单分类做出的预测 2、随机森林 包含多个决策树的分类器,并且其输出的类别是由个别树输出的类别的众数而定 3、随机森林算法 单个树建立 (1)随机在N个样本中选择一个样本,重复N次,样本有可能重复 (2)随机在M个特征中选出m...2019-01-20 23:39:06 阅读数 179 评论数 0 -
原创
机器学习:欠拟合过拟合岭回归预测波士顿房价
欠拟合过拟合 欠拟合: -训练集表现不好,而且训练集以外的数据也表现不好 -原因: -数据特征太少 -交叉验证:训练集结果表现不行 -解决:增加数据特征 过拟合: -训练集表现很好,但在训练集以外的数据集表现不好 -原因: -数据特征过多 -测试集表现不行 -解决: -...2019-01-25 22:39:43 阅读数 331 评论数 0 -
原创
机器学习:逻辑回归预测癌症数据
逻辑回归公式 hθ(x)=g(θTx)=11+e−θTxh_\theta(x) = g(\theta^Tx)=\frac{1}{1+e^{-\theta^Tx}}hθ(x)=g(θTx)=1+e−θTx1 g(z)=11+e−zg(z) = \frac{1}{1+e^{-z}}g(z)=1+e−z1 sigmoid函数g(z) 过点:(0, 0.5) 映射区间:(负无穷, 正无穷) -&gt...2019-01-25 23:40:40 阅读数 390 评论数 0 -
原创
机器学习:K-近邻算法对鸢尾花数据进行分类预测
代码示例 # -*- coding: utf-8 -*- from sklearn.neighbors import KNeighborsClassifier from sklearn.model_selection import train_test_split from sklearn.datasets import load_iris import matplotlib.pyplot as...2019-01-16 00:06:06 阅读数 494 评论数 0 -
原创
机器学习: k-means聚类对数据进行预分类
k-means聚类 非监督学习 把数据划分为k个类别 -知道类别个数 -不知道类别个数 超参数 k = 3 步骤: 1、随机在数据中抽取3个样本,当做3个类别的中心点(k1, k2, k3) 2、计算其余的点分别到这三个中心点的距离, 每一个样本有3个距离(a, b, c) 从中选出举例最近的一个点作为自己的标记,行成3个族群 3、分别计算这3个族群的平均值,把3个平均值与之前的3个旧中心点进行比...2019-01-26 22:41:25 阅读数 491 评论数 0 -
原创
机器学习:基本算法分类体系结构和文章汇总
机器学习 Machine Learning 特征工程 TensorFlow 神经网络 图像识别 自然语言处理 机器学习定义 从数据中自动分析获得规律(模型),并利用规律对未知数据进行预测 算法是核心,数据和计算是基础 掌握算法思想,使用库或框架解决问题 数据类型 离散型数据 计数数据,数据都是整数,不能再细分 连续型数据 某个范围内取任意一数,非整数 机器学习算法分类 监督学习 特征值 + 目标值...2019-01-26 22:45:35 阅读数 212 评论数 0 -
原创
机器学习:分类模型的评估精确率Presicion和召回率Recall
estimator.score() 准确率:预测结果正确的百分比 混淆矩阵 预测结果Predicted Condition 正确标记 True Condition 预测结果 正例 假例 真实 正例 真正例TP 伪反例FN 结果 假例 伪正例FP 真反例TN T True F False P Positive N Negative 精确率 Presicion 预测结果为正...2019-01-20 15:16:52 阅读数 88 评论数 0 -
原创
机器学习:Sklearn算法选择路径图
Sklearn算法选择路径图 英文版 中文版2019-01-24 23:36:25 阅读数 238 评论数 0 -
原创
机器学习:sklearn数据集简介
算法分类 监督学习 特征值 + 目标值 -分类 目标值是离散数据 -回归 目标值是连续数据 无监督学习 只有特征值 -聚类 数据集 数据 -训练集 80% 70% 75% -测试集 20% 30% 25% 数据拆分: sklearn.model_selection.train_test_split sklearn数据集 sklearn.datasets -小规模数据...2019-01-13 22:52:12 阅读数 115 评论数 0 -
原创
机器学习:指数函数和对数函数简单区别
区别 指数函数 对数函数 英文 exponential logarithm 函数 y=a^x (a>0,且a≠1) y=logax(a>0,且a≠1) 定义域 实数集R (0,+∞) 值域 (0,+∞) 实数集R 定点 (0,1) (1,0) 特殊对数 1、 常用对数:lg(b...2018-07-25 12:51:11 阅读数 1077 评论数 0 -
原创
机器学习:SVM(Support Vector Machine)支持向量机简介
SVM(Support Vector Machine): 支持向量机 有监督学习模型 应用:模式识别、分类以及回归分析 SVM的主要思想: 它是针对线性可分情况进行分析,对于线性不可分的情况,通过使用非线性映射算法将低维输入空间线性不可分的样本转化为高维特征空间使其线性可分,从而使得高维特征空间采用线性算法对样本的非线性特征进行线性分析成为可能。 它基于结构风险最小化理论之上在特征空间...2018-07-25 13:01:59 阅读数 67 评论数 0 -
原创
数学:简单理解指数、对数、乘方、开方
定义 指数: y=axy=ax y = a^x 对数 y=logaxy=logax y = \log_a x 举例 假设 a=2a=2 a=2 乘法: 1×2×2×2=81×2×2×2=8 1 \times 2 \times 2 \times 2 = 8 除法: 8÷2÷2÷2=18÷2÷2÷2=1 8 \div 2 \div 2 \div 2 = 1 除法...2018-08-24 13:19:10 阅读数 1437 评论数 0 -
原创
机器学习:特征工程字典特征和文本特征抽取
1、数据集 mysql 性能瓶颈,读取速度 pandas 读取工具 numpy释放GIL cpython 协程 sklearn 2、数据集结构 特征值 + 目标值 3、机器学习 重复值 不需要进行去重 缺失值 特殊处理 4、特征工程定义 将原始数据转换为更好代表预测模型的潜在问题的特征的过程,从而提高对未知数据的预测准确性 5、词汇 classification 分类 regression 回归 ...2019-01-11 23:53:44 阅读数 173 评论数 0 -
原创
机器学习:数据特征预处理归一化和标准化
1、归一化 将原始数据映射到一个区间[0,1] 特征同等重要:归一化处理 目的:使得某一个特征对最终结果不对造成更大的影响 缺点:对于异常点处理不好,容易影响最大值最小值,鲁棒性较差(稳定性),只适合精确小数据场景 代码示例 # -*- coding: utf-8 -*- from sklearn.preprocessing import MinMaxScaler # 归一化处理,将数据映射到...2019-01-12 21:52:36 阅读数 136 评论数 0 -
原创
机器学习:数据特征预处理缺失值处理
缺失值处理 删除:如果行或列数据缺失值达到一定比例,建议放弃整行或列 插补:填补列的平均值,中位数 numpy数组中的缺失值 nan/NaN 属于float类型 代码示例 from sklearn.preprocessing import Imputer import numpy as np # 缺失值处理 data = [ [1, 1, 3], [np.nan, 4, 6], ...2019-01-13 18:47:46 阅读数 303 评论数 0 -
原创
机器学习:线性回归梯度下降预测波士顿房价
线性回归 分类: 目标值离散 回归: 目标值连续 线性回归:寻找一种能预测的趋势 线性关系: -二维:直线关系 -三维:平面 线性关系定义 y=kx+by = kx + by=kx+b 参数b,偏置项,为了对于单个特征的情况更加通用 参数k,权重 f(x)=w1x1+w2x2+...+wdxd+bf(x) = w_1x_1 + w_2x_2 +...+ w_dx_d + bf(...2019-01-23 23:27:00 阅读数 184 评论数 0 -
原创
机器学习:数据降维特征选择和主成分分析PCA
数组维度 数据维度:特征数量 1、特征选择 主要方法: Filter 过滤式 (方差variance) Embedded 嵌入式(正则化,决策时) Wrapper 包裹式 神经网络 代码示例 from sklearn.feature_selection import VarianceThreshold # 特征选择-删除低方差的特征 data = [ [0, 2, 0, 3], ...2019-01-13 21:21:26 阅读数 215 评论数 0 -
原创
机器学习:朴素贝叶斯算法对新闻分类
概率基础 概率定义:一件事情发生的可能性 1、联合概率 包含多个条件,且所有条件同时成立的概率 记作:P(A,B)=P(A)P(B)P(A, B) = P(A)P(B)P(A,B)=P(A)P(B) 2、条件概率 事件A在另一个事件B已经发生的条件下发生的概率 记作:P(A∣B)P(A|B)P(A∣B) 特性:P(A1,A2∣B)=P(A1∣B)P(A2∣B)P(A1, A2|B) = P(A1|...2019-01-17 00:05:53 阅读数 127 评论数 0