当前位置:网站首页 > 数据工程 > 正文

数据的特征工程(数据特征常用的表达方式)



寻找表示数据最优方法的过程称为特征工程(featureengineering),这是数据科学家和机器学习实践者试图解决实际问题的主要任务之一

用正确的方式表示我们的数据比我们选择精确的参数对监督模型性能的影响更大

将要介绍预处理、缩放技术以及降维。我们还将学习表示类别变量、文本特征以及图像。
一学就会的常见预处理技术。
中心缩放及多维缩放。
类别变量的表示。
使用PCA之类的技术对数据降维。
文本特征的表示。
学习图像编码的最佳方法。





一个机器学习系统的学习效果都主要取决于训练数据的质量
标签
训练数据->特征提取 -> 机器学习算法 -> result

 
  
 
  
 
  

特征标准化(standardizing)
:是指将数据按比例缩放到零均值和单位方差的过程.
我们可以手动标准化我们的数据,每个数据点减去所有数据的均值(μ)再除以数据的方差(σ);即对于每个特征x,我们可以计算(x–μ)/σ.标准化

矩阵标准化
目的:通过标准化处理,得到均值为0,标准差为1的服从标准正态分布的数据
原因:
1)方便处理数据,通过标准化处理,可以使得不同的特征具有相同的Scale。这样,在使用梯度下降法学习参数的时候,不同特征对参数的影响程度就一样了
2)加快收敛速度。大部分数据矩阵归一化后收敛速度会加快.
3)提升精度,防止梯度爆炸.




 
  
 
  

特征的归一化处理
与标准化类似,归一化(normalization)是将单个样本缩放到一个单位范数的过程
L1范数(或者曼哈顿距离)和L2范数(或者欧氏距离)
在scikit-learn中,我们的数据矩阵X可以使用normalize函数进行归一化,L1范数由norm关键字指定:


 
  
 
  
 
  
 
  
 
  
 
  
 
  
 
  

缺失数据的处理 NAN = not a number
大多数机器学习算法不能处理Not a Number(NAN)值(Python中的nan)
用一些恰当的填充值替换所有nan值。这就是缺失值的估算

 
  
 
  
 
  

理解维度

 
  

考虑一个数据集,我们刚好从中提取两个特征。这些特征可以是在x和y两个位置上的像素灰度值,但是也可能比这个更复杂。如果我们沿着这两个特征轴绘制数据集,数据可能位于某个多元高斯分布内

 
  
到此这篇数据的特征工程(数据特征常用的表达方式)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就! 
  

                            

版权声明


相关文章:

  • exe文件反编译为vb工程(vb exe文件反编译软件)2025-10-24 18:45:09
  • 数据特征工程如何写简历(数据特征工程如何写简历范文)2025-10-24 18:45:09
  • exe文件反编译为vb工程(.exe文件反编译)2025-10-24 18:45:09
  • 特征工程实例(特征工程实例怎么写)2025-10-24 18:45:09
  • 数据特征工程如何写简历(数据特征工程如何写简历模板)2025-10-24 18:45:09
  • 特征工程主要包括哪些内容和特点(特征工程主要包括哪些内容和特点呢)2025-10-24 18:45:09
  • 数据特征工程的含义(数据特征分析包含哪些内容)2025-10-24 18:45:09
  • 大数据课程工程师培训(大数据工程师培训内容)2025-10-24 18:45:09
  • 数据特征工程是什么(数据特征怎么描述)2025-10-24 18:45:09
  • 特征工程(特征工程的目的)2025-10-24 18:45:09
  • 全屏图片