? 说起特征工程,都说是机器学习建模中最为重要而且费时的一项工作,而且它涉及的知识点会非常地多,经验老道的老司机自然是轻车熟路了,但对于刚刚入门的新手司机,学习到的知识点都是东一点西一点的,不够系统化,本篇文章是在阅读了一本评分极高的特征工程书籍 ? 《特征工程入门与实践》后的一篇笔记文,记录下相对比较系统的知识点以及可运行复现的代码,希望对各位同行有所帮助哈。
图:强力推荐这本书
? 目录
大家可以先看下思维导图:
? 01 特征理解
在拿到数据的时候,我们第一步需要做的是理解它,一般我们可以从下面几个角度入手:
(注:本节用到了两个数据集,分别是Salary_Ranges_by_Job_Classification 和 GlobalLandTemperaturesByCity)
1. 区分结构化数据与非结构化数据
如一些以表格形式进行存储的数据,都是结构化数据;而非结构化数据就是一堆数据,类似于文本、报文、日志之类的。
2. 区分定量和定性数据
定量数据:指的是一些数值,用于衡量某件东西的数量; 定性数据:指的是一些类别,用于描述某件东西的性质。
其实区分了定量和定性数据,还可以继续细分下去,分为定类(nominal)、定序(ordinal)、定距(interval)、定比数据(ratio),下面我们分别对这4类数据进行举例说明,加深大家对它们的印象。
1)定类(nominal)
也就是分类,比如:血型(A/B/O/AB型)、性别(男/女)、货币(人民币/美元/日元),而且值得注意的是这些分类之间没有大小可比性。一般画图的话就只能看下分布占比,可以用条形图、饼图来表示。
2)定序(ordinal)
定序相比于定类,也就是多了一个“可排序”的属性,也就是说虽然它们是类别变量,但是它们的变量值之间是存在“大小”之分的。比如:期末绩点(A、B、C、D、E、F)、问卷答案(非常满意、满意、一般、不满意)。可视化方面,和定类一样,不过就是多了一个 箱体图 可以用(因为定序变量可以有中位数)。
3)定距(interval)
定距的话,就是变量值之间可以做加减法计算,也就是可以引入均值、方差之类的名词了,而且能够画的图也多了,包括先前的那些,还包括了直方图。
4)定比(ratio)
定比相比于定距更加严格,不仅仅有定距的所有属性,同时,有一个 绝对零点 的概念,可以做加减乘除运算,比如说某个商品的价格是另一个的2倍。值得注意的是,温度一般不归入定比,而是定距,没有说20度是10度的两倍这种说法。
最后把上面的内容总结一下:
3. 关键代码汇集
以下的代码只是核心片段,完整代码可在公众号(SAMshare)后台输入关键字 特征工程 获取。
1)常见简易画图
2)检查缺失情况
3)变量类别转换
? 02 特征增强
这一步其实就是数据清洗了,虽然上一步中也有涉及到部分清洗工作(比如清除空值、日期转换之类的),但却是分散的,这节重点讲讲数据清洗的一些技巧和实践代码,供大家在实际项目中去使用。
Step1: 进行EDA(Exploratory Data Analysis),思路如下:
(1)首先看看目标占比情况(针对二分类问题,也就是0和1的占比情况),直接 就可以解决,看看样本是否失衡。
(2)接着看看有没有空值,直接统计 的个数,不过需要注意的是,可能统计出来没有缺失,并不是因为真的没有缺失,而且缺失被人用某个特殊值填充了,一般会用 -9、blank、unknown、0之类的,需要注意⚠️识别,后面需要对缺失进行合理填充。
(2.1)怎么识别缺失值呢?一般可以通过 获取基本的描述性统计,根据均值、标准差、极大极小值等指标,结合变量含义来判断。
(3)再接着看不同类别之间的特征值分布情况,可通过画直方图(数值型变量)和计算变量值占比分布(类别变量)来观察。
(4)观察不同变量之间的相关性情况,可以通过绘制 相关矩阵的热力图 来观察大体情况。
Step2: 处理数据缺失问题
缺失处理的办法有好多种,但最为常用的作者讲到有两种:填充和删除。
而在处理缺失前,我们在上面的小节中识别出来了部分被人工填充的缺失,
需要还原一下:
1) 删除含有缺失值的行
这里的话比较简单,就是使用 来处理即可,同时我们还可以检查下我们到底删除了多少数据量: 就可以统计出来了。当然,删除之后,我们还需要看看数据的分布,对比目标占比、特征分布与先前的是否存在明显差异,如果是的话,建议不要使用这种办法。
2) 缺失值合理填充
缺失填充,这里介绍的有均值填充、-9填充、中位数填充。这里会比较简单,我们可以通常都是通过 sklearn的 Pipeline以及 Imputer来实现,下面是一个简单的完整
Demo:
Step3: 标准化和归一化
经过上面的处理,模型的精度可以达到0.73177,但我们可以继续优化吗?那是肯定的。
我们可以先看看所有特征的分布(特征少的时候可以这么看):
从上图中我们可以看出一个问题,那就是每个特征之间的量纲都是不一样的,这对于knn这种基于距离的模型来说是“致命”的bug,因此我们需要进行标准化和归一化处理。
我们重点关注3种方法:
1)Z分数标准化
最为常用的标准化技术,利用了统计学中的z分数思想,也就是将数据转换为均值为0,标准差为1的分布,其在python中的调用方法:
2)min-max标准化
min-max标准化和z-score类似,其公式为:(X - Xmin)/(Xmax - Xmin)
在python中的调用方法:
3)行归一化
行归一化针对的是每一行数据,不同于上面的两种方法(针对列),对行进行处理是为了保证每行的向量长度一样(也就是单位范围,unit norm),有L1、L2范数。
在python中的调用方法:
? 03 特征构建
如果我们对变量进行处理之后,效果仍不是非常理想,就需要进行特征构建了,也就是衍生新变量。
而在这之前,我们需要了解我们的数据集,先前两节中我们了解到了可以通过 和 来查看,同时结合数据等级(定类、定序、定距、定比)来理解变量。
? 基础操作
本小节中我们使用一个自定义数据集。
首先我们需要对分类变量进行填充操作,类别变量一般用众数或者特殊值来填充,回顾之前的内容,我们也还是采取Pipeline的方式来进行,因此可以事先基于基类来对填充的方法进行封装,然后直接在Pipeline中进行调用,代码可以参考:
又或者利用 scikit-learn 的 类来实现填充,而这个类有一个 的方法自然就被继承过来用了,包含的有mean、median、most_frequent可供选择。
对上面的两种填充进行流水线封装:
完成了分类变量的填充工作,接下来就需要对分类变量进行编码了(因为大多数的机器学习算法都是无法直接对类别变量进行计算的),一般有两种办法:独热编码以及标签编码。
1)独热编码
独热编码主要是针对定类变量的,也就是不同变量值之间是没有顺序大小关系的,我们一般可以使用 scikit_learn 里面的 来实现的,但我们这里还是使用自定义的方法来加深理解。
2)标签编码
标签编码是针对定序变量的,也就是有顺序大小的类别变量,就好像案例中的变量ordinal_column的值(dislike、somewhat like 和 like 可以分别用0、1、2来表示),同样的可以写个自定义的标签编码器:
3)数值变量分箱操作
以上的内容是对类别变量的一些简单处理操作,也是比较常用的几种,接下来我们就对数值变量进行一些简单处理方法的讲解。
有的时候,虽然变量值是连续的,但是只有转换成类别才有解释的可能,比如年龄,我们需要分成年龄段,这里我们可以使用pandas的 函数来实现。
综上,我们可以对上面自定义的方法一并在Pipeline中进行调用,Pipeline的顺序为:
1)用imputer填充缺失值
2)独热编码city和boolean
3)标签编码ordinal_column
4)分箱处理quantitative_column
代码为:
? 数值变量扩展
这一小节我们使用一个新的数据集(人体胸部加速度数据集),我们先导入数据:
这边只介绍一种多项式生成新特征的办法,调用来实现。
还可以查看下衍生新变量后的相关性情况,颜色越深相关性越大:
在流水线中的实现代码:
? 文本变量处理
文本处理一般在NLP(自然语言处理)领域应用最为广泛,一般都是需要把文本进行向量化,最为常见的方法有 词袋(bag of words)、CountVectorizer、TF-IDF。
1)bag of words
词袋法分成3个步骤,分别是分词(tokenizing)、计数(counting)、归一化(normalizing)。
2)CountVectorizer
将文本转换为矩阵,每列代表一个词语,每行代表一个文档,所以一般出来的矩阵会是非常稀疏的,在 中调用 即可使用。
3)TF-IDF
TF-IDF向量化器由两个部分组成,分别为代表词频的TF部分,以及代表逆文档频率的IDF,这个TF-IDF是一个用于信息检索和聚类的词加权方法,在 中调用 即可。
TF:即Term Frequency,词频,也就是单词在文档中出现的频率。 IDF:即Inverse Document Frequency,逆文档频率,用于衡量单词的重要度,如果单词在多份文档中出现,就会被降低权重。
✅ 04 特征选择
好了,经过了上面的特征衍生操作,我们现在拥有了好多好多的特征(变量)了,全部丢进去模型训练好不好?当然是不行了?,这样子既浪费资源又效果不佳,因此我们需要做一下 特征筛选 ,而特征筛选的方法大致可以分为两大类:基于统计的特征筛选 和 基于模型的特征筛选。
在进行特征选择之前,我们需要搞清楚一个概念:到底什么是更好的?有什么指标可以用来量化呢?
这大致也可以分为两大类:一类是模型指标,比如accuracy、F1-score、R^2等等,还有一类是元指标,也就是指不直接与模型预测性能相关的指标,如:模型拟合/训练所需的时间、拟合后的模型预测新实例所需要的时间、需要持久化(永久保存)的数据大小。
我们可以通过封装一个方法,把上面提及到的指标封装起来,方便后续的调用,代码如下:
通过上面的操作,我们可以创建一个模型性能基准线,用于对比后续优化的效果。接下来介绍一些常用的特征选择方法。
1)基于统计的特征选择
针对于单变量,我们可以采用 皮尔逊相关系数以及假设检验 来选择特征。
(1)皮尔逊相关系数可以通过 corr() 来实现,返回的值在-1到1之间,绝对值越大代表相关性越强;
(2)假设检验也就是p值,作为一种统计检验,在特征选择中,假设测试得原则是:” 特征与响应变量没有关系“(零假设)为真还是假。我们需要对每个变量进行检测,检测其与target有没有显著关系。可以使用 和 来实现。一般P值是介于0-1之间,简而言之,p值越小,拒绝零假设的概率就越大,也就是这个特征与target关系更大。
2)基于模型的特征选择
(1)对于文本特征,里的 有自带的特征筛选的参数,分别是 max_features、min_df、max_df、stop_words,可以通过搜索这些参数来进行特征选择,可以结合 来实现流水线。
(2)针对?树模型,我们可以直接调用不同树模型算法里的 特征重要度 来返回特征重要度,比如 DecisionTreeClassifier里的feature_importances_,(除此之外还有RandomForest、GBDT、XGBoost、ExtraTreesClassifier等等)都可以直接返回每个特征对于本次拟合的重要度,从而我们可以剔除重要度偏低的特征,可以结合 来实现流水线。
(3)使用正则化来筛选变量(针对线性模型)。有两种常用的正则化方法:L1正则化(Lasso)和L2正则化(岭)。
总结一下,有几点做特征选择的方法经验:
(1)如果特征是分类变量,那么可以从SelectKBest开始,用卡方或者基于树的选择器来选择变量;
(2)如果特征是定量变量,可以直接用线性模型和基于相关性的选择器来选择变量;
(3)如果是二分类问题,可以考虑使用 SelectFromModel和SVC;
(4)在进行特征选择前,还是需要做一下EDA。
? 05 特征转换
经过了上面几个环节的“洗礼”,我们来到特征转换的环节,也就是使用源数据集的隐藏结构来创建新的列,常用的办法有2种:PCA和LDA。
✅ PCA:
PCA,即主成分分析(Principal Components Analysis),是比较常见的数据压缩的办法,即将多个相关特征的数据集投影到相关特征较少的坐标系上。也就是说,转换后的特征,在解释性上就走不通了,因为你无法解释这个新变量到底具有什么业务逻辑了。
PCA的原理这里就不展开来讲了,太多的文章把它讲得十分透彻了。这里主要是复现一下PCA在sklearn上的调用方法,一来继续熟悉下Pipeline的使用,二来理解一下PCA的使用方法。
以上是PCA在sklearn上的简单调用和效果展示,另外,作者提出了一个很有意思的问题:
一般而言,对特征进行归一化处理后会对机器学习算法的效果有比较明显的帮助,但为什么在书本的例子却是相反呢?
给出的解释是:在对数据进行缩放后,列与列之间的协方差会更加一致,而且每个主成分解释的方差会变得分散,而不是集中在某一个主成分上。所以,在实际操作的时候,都要对缩放的未缩放的数据进行性能测试才是最稳妥的哦。
✅ LDA:
LDA,即线性判别分析(Linear Discriminant Analysis),它是一个有监督的算法(哦对了, PCA是无监督的),一般是用于分类流水线的预处理步骤。与PCA类似,LDA也是提取出一个新的坐标轴,将原始的高维数据投影到低维空间去,而区别在于LDA不会去专注数据之间的方差大小,而是直接优化低维空间,以获得最佳的类别可分性。
? 06 特征学习
来到最后一章了,这章的主题是“以AI促AI”。看起来还蛮抽象的,反正我是觉得有点奇怪,特征学习算法是非参数方法,也就是不依赖数据结构而构建出来的新算法。
? 数据的参数假设
参数假设指的是算法对数据形状的基本假设。比如上一章的PCA,我们是假设:
原始数据的形状可以被(特征值)分解,并且可以用单个线性变换(矩阵计算)表示。
而特征学习算法,就是要去除这个“假设”来解决问题,因为这算法不会依赖数据的形状,而是依赖于随机学习(Stochastic Learning),指的是这些算法并不是每次输出相同的结果,而是一次次按轮(epoch)去检查数据点以找到要提取的最佳特征,并且可以拟合出一个最优的解决方法。
而在特征学习领域,有两种方法是比较常用的,也是下面来讲解的内容:受限玻尔兹曼机(RBM)和词嵌入。
? 受限玻尔兹曼机(RBM)
RBM是一种简单的深度学习架构,是一组无监督的特征学习算法,根据数据的概率模型学习一定数量的新特征,往往使用RBM之后去用线性模型(线性回归、逻辑回归、感知机等)的效果极佳。
从概念上说,RBM是一个浅层(2层)的神经网络,属于深度信念网络(DBN,deep belief network)算法的一种。它也是一种无监督算法,可以学习到的 特征数量只受限于计算能力,它可能学习到比原始要少或者多的特征,具体要学习的特征数量取决于要解决的问题。
“受限”的说法是因为它只允许层与层之间的连接(层间连接),而不允许同一层内的节点连接(层内连接)。
在这里需要理解一下“重建”(Reconstruction),也就是这个操作,使得在不涉及更深层网络的情况下,可见层(输入层)和隐含层之间可以存在数次的前向和反向传播。
在重建阶段,RBM会反转网络,可见层变成了隐含层,隐含层变成了可见层,用相同的权重将激活变量a反向传递到可见层,但是偏差不一样,然后用前向传导的激活变量重建原始输入向量。RBM就是用这种方法来进行“自我评估”的,通过将激活信息进行反向传导并获取原始输入的近似值,该网络可以调整权重,让近似值更加接近原始输入。
在训练开始时,由于权重是随机初始化的(一般做法),近似值与真实值的差异可能会极大的,接下来就会通过反向传播的方法来调整权重,最小化原始输入与近似值的距离,一直重复这个过程,直到近似值尽可能接近原始输入。(这个过程发生的次数叫 迭代次数 )
大致的原理就是上面的说法了,更加详细的解释可以自行百度哦。下面我们来讲讲RBM在机器学习管道中的应用,我们还是使用MNIST数据集,这个数据集在之前讲Keras的时候(传送门)也用到了,就是一堆数字的像素点数据,然后用来识别数字。
? 词嵌入
在NLP领域应用极为广泛了,它可以将字符串(单词或短语)投影到n维特征集中,以便理解上下文和措辞的细节,我们可以使用sklearn中的 和 来将这些字符串进行转为向量,但这只是一些单词特征的集合而已,为了理解这些特征,我们更加要关注一个叫 的包。
常用的词嵌入方法有两种:Word2vec和GloVe。
Word2vec:Google发明的一种基于深度学习的算法。Word2vec也是一个浅层的神经网络,含有输入层、隐含层和输出层,其中输入层和输出层的节点个数一样。
GloVe:来自斯坦福大学的算法,通过一系列矩阵统计进行学习。
词嵌入的应用很多,比如信息检索,意思是当我们输入关键词时,搜索引擎可以回忆并准确返回和关键词匹配的文章或者新闻。
The End
到此这篇特征工程定义是什么(特征工程是啥)的文章就介绍到这了,更多相关内容请继续浏览下面的相关推荐文章,希望大家都能在编程的领域有一番成就!版权声明:
本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若内容造成侵权、违法违规、事实不符,请将相关资料发送至xkadmin@xkablog.com进行投诉反馈,一经查实,立即处理!
转载请注明出处,原文链接:https://www.xkablog.com/kjbd-gc/11837.html