寻找表示数据最优方法的过程称为特征工程(featureengineering),这是数据科学家和机器学习实践者试图解决实际问题的主要任务之一
用正确的方式表示我们的数据比我们选择精确的参数对监督模型性能的影响更大
将要介绍预处理、缩放技术以及降维。我们还将学习表示类别变量、文本特征以及图像。
 一学就会的常见预处理技术。
 中心缩放及多维缩放。
 类别变量的表示。
 使用PCA之类的技术对数据降维。
 文本特征的表示。
 学习图像编码的最佳方法。
一个机器学习系统的学习效果都主要取决于训练数据的质量
 标签
 训练数据->特征提取 -> 机器学习算法 -> result
特征标准化(standardizing)
 :是指将数据按比例缩放到零均值和单位方差的过程.
 我们可以手动标准化我们的数据,每个数据点减去所有数据的均值(μ)再除以数据的方差(σ);即对于每个特征x,我们可以计算(x–μ)/σ.标准化
矩阵标准化
 目的:通过标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据
 原因:
 1)方便处理数据,通过标准化处理,可以使得不同的特征具有相同的Scale。这样,在使用梯度下降法学习参数的时候,不同特征对参数的影响程度就一样了
 2)加快收敛速度。大部分数据矩阵归一化后收敛速度会加快.
 3)提升精度,防止梯度爆炸.
特征的归一化处理
 与标准化类似,归一化(normalization)是将单个样本缩放到一个单位范数的过程
 L1范数(或者曼哈顿距离)和L2范数(或者欧氏距离)
 在scikit-learn中,我们的数据矩阵X可以使用normalize函数进行归一化,L1范数由norm关键字指定:
缺失数据的处理 NAN = not a number
 大多数机器学习算法不能处理Not a Number(NAN)值(Python中的nan)
 用一些恰当的填充值替换所有nan值。这就是缺失值的估算
理解维度
考虑一个数据集,我们刚好从中提取两个特征。这些特征可以是在x和y两个位置上的像素灰度值,但是也可能比这个更复杂。如果我们沿着这两个特征轴绘制数据集,数据可能位于某个多元高斯分布内
到此这篇数据的特征工程(数据特征常用的表达方式)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/kjbd-gc/14963.html