数据建模：机器学习之如何进行特征工程（上）_糖甜甜甜74的博客 ...

1 特征选择

当数据预处理完成后，我们需要选择有意义的特征输入机器学习的算法和模型进行训练。通常来说，从两个方面考虑来选择特征：

特征是否发散：如果一个特征不发散，例如方差接近于0，也就是说样本在这个特征上基本上没有差异，这个特征对于样本的区分并没有什么用。

特征与目标的相关性：这点比较显见，与目标相关性高的特征，应当优选选择。除方差法外，本文介绍的其他方法均从相关性考虑。

根据特征选择的形式又可以将特征选择方法分为3种：

Filter：过滤法，按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。

Wrapper：包装法，根据目标函数（通常是预测效果评分），每次选择若干特征，或者排除若干特征。

Embedded：嵌入法，先使用某些机器学习的算法和模型进行训练，得到各个特征的权值系数，根据系数从大到小选择特征。类似于Filter方法，但是是通过训练来确定特征的优劣。

我们使用sklearn中的feature_selection库来进行特征选择。

1.1 Filter

1.1.1 方差选择法

使用方差选择法，先要计算各个特征的方差，然后根据阈值，选择方差大于阈值的特征。使用feature_selection库的VarianceThreshold类来选择特征的代码如下：

from sklearn.feature_selection import VarianceThreshold
#方差选择法，返回值为特征选择后的数据
#参数threshold为方差的阈值
VarianceThreshold(threshold=3).fit_transform(iris.data)
  单变量特征选择的原理是分别单独的计算每个变量的某个统计指标，根据该指标来判断哪些指标重要，剔除那些不重要的指标。 
  对于分类问题(y离散)，可采用：卡方检验，f_classif, *mutual_info_classif，互信息对于回归问题(y连续)，可采用：皮尔森相关系数，f_regression, *mutual_info_regression，最大信息系数 
 1.1.2 相关系数法 
 使用相关系数法，先要计算各个特征对目标值的相关系数以及相关系数的P值。Pearson相关系数的一个明显缺陷是，作为特征排序机制，他只对线性关系敏感。如果关系是非线性的，即便两个变量具有一一对应的关系，Pearson相关性也可能会接近0。用feature_selection库的SelectKBest类结合相关系数来选择特征的代码如下：
 
 from sklearn.feature_selection import SelectKBest
from scipy.stats import pearsonr
#选择K个最好的特征，返回选择特征后的数据
#第一个参数为计算评估特征是否好的函数，该函数输入特征矩阵和目标向量，输出二元组（评分，P值）的数组，数组第i项为第i个特征的评分和P值。在此定义为计算相关系数
#参数k为选择的特征个数
SelectKBest(lambda X, Y: array(map(lambda x:pearsonr(x, Y), X.T)).T,k=2).fit_transform(iris.data, iris.target)
 1.1.3 卡方检验 
 卡方检验的样本量要求：卡方分布本身是连续型分布，但是在分类资料的统计分析中，显然频数只能以整数形式出现，因此计算出的统计量是非连续的。只有当样本量比较充足时，才可以忽略两者问的差异，否则将可能导致较大的偏差具体而言，一般认为对于卡方检验中的每一个单元格，要求其最小期望频数均大于1，且至少有4／5的单元格期望频数大于5，此时使用卡方分布计算出的概率值才是准确的。如果数据不符合要求，可以采用确切概率法进行概率的计算。经典的卡方检验是检验定性自变量对定性因变量的相关性。用feature_selection库的SelectKBest类结合卡方检验来选择特征的代码如下：
 
 from sklearn.feature_selection import SelectKBest
from sklearn.feature_selection import chi2
#选择K个最好的特征，返回选择特征后的数据
SelectKBest(chi2, k=2).fit_transform(iris.data, iris.target)
 1.1.4 互信息法 
 互信息指的是两个随机变量之间的关联程度，即给定一个随机变量后，另一个随机变量不确定性的削弱程度，因而互信息取值最小为0，意味着给定一个随机变量对确定一另一个随机变量没有关系，最大取值为随机变量的熵，意味着给定一个随机变量，能完全消除另一个随机变量的不确定性。为了处理定量数据，最大信息系数法被提出，使用feature_selection库的SelectKBest类结合最大信息系数法来选择特征的代码如下：
 
 from sklearn.feature_selection import SelectKBest
from minepy import MINE
#由于MINE的设计不是函数式的，定义mic方法将其为函数式的，返回一个二元组，二元组的第2项设置成固定的P值0.5
def mic(x, y):
    m = MINE()
    m.compute_score(x, y)
    return (m.mic(), 0.5)
#选择K个最好的特征，返回特征选择后的数据
SelectKBest(lambda X, Y: array(map(lambda x:mic(x, Y), X.T)).T, k=2).fit_transform(iris.data, iris.target)
 互信息直接用于特征选择其实不是太方便：1、它不属于度量方式，也没有办法归一化，在不同数据及上的结果无法做比较；2、对于连续变量的计算不是很方便（X和Y都是集合，x，y都是离散的取值），通常变量需要先离散化，而互信息的结果对离散化的方式很敏感。最大信息系数克服了这两个问题。它首先寻找一种最优的离散化方式，然后把互信息取值转换成一种度量方式，取值区间在[0，1]。minepy 提供了MIC功能。 
 1.2 Wrapper 
 Wrapper方法寻找所有特征子集中能使后续学习算法达到较高性能的子集，在特征选择阶段，wrapper可以看做：搜索方法+学习算法。通俗理解就是Wrapper方法将特征集的选择视为一个搜索问题，会先准备若干种特征的组合方案，然后评估，相互比较。评估所使用的标准通常是模型的准确率。 
 1.2.1 递归特征消除法 
 递归消除特征法使用一个基模型来进行多轮训练，每轮训练后，移除若干权值系数的特征，再基于新的特征集进行下一轮训练。 
 sklearn官方解释：对特征含有权重的预测模型(例如，线性模型对应参数coefficients)，RFE通过递归减少考察的特征集规模来选择特征。首先，预测模型在原始特征上训练，每个特征指定一个权重。之后，那些拥有最小绝对值权重的特征被踢出特征集。如此往复递归，直至剩余的特征数量达到所需的特征数量。 
 RFECV 通过交叉验证的方式执行RFE，以此来选择最佳数量的特征：对于一个数量为d的feature的集合，他的所有的子集的个数是2的d次方减1(包含空集)。指定一个外部的学习算法，比如SVM之类的。通过该算法计算所有子集的validation error。选择error最小的那个子集作为所挑选的特征。
 
 from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
#递归特征消除法，返回特征选择后的数据
#参数estimator为基模型
#参数n_features_to_select为选择的特征个数
RFE(estimator=LogisticRegression(), n_features_to_select=2).fit_transform(iris.data, iris.target)
 使用LogisticRegression作为基模型主要是能直接得到特征的权重。 
 1.3 Embedded 
 1.3.1 基于惩罚项的特征选择法 
 使用带惩罚项的基模型，除了筛选出特征外，同时也进行了降维。使用feature_selection库的SelectFromModel类结合带L1惩罚项的逻辑回归模型，来选择特征的代码如下：
 
 from sklearn.feature_selection import SelectFromModel
from sklearn.linear_model import LogisticRegression
#带L1惩罚项的逻辑回归作为基模型的特征选择
SelectFromModel(LogisticRegression(penalty="l1", C=0.1)).fit_transform(iris.data, iris.target)
 通过L1正则项来选择特征：L1正则方法具有稀疏解的特性，因此天然具备特征选择的特性，但是要注意，L1没有选到的特征不代表不重要，原因是两个具有高相关性的特征可能只保留了一个，如果要确定哪个特征重要应再通过L2正则方法交叉检验； 
 关于正则化能起到特征选择和防止过拟合的作用公式推导：http://blog.csdn.net/u012162613/article/details/44261657 
 关于正则化的的解释可参考：https://www.zhihu.com/question/20924039 
 1.3.2 基于树模型的特征选择法 
 树模型中GBDT也可用来作为基模型进行特征选择，使用feature_selection库的SelectFromModel类结合GBDT模型，来选择特征的代码如下：
 
 from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import GradientBoostingClassifier
#GBDT作为基模型的特征选择
SelectFromModel(GradientBoostingClassifier()).fit_transform(iris.data, iris.target)
 - end - 
 【数据分析】Python与Tableau相结合，全面搞定传统线下连锁店数据分析 
 【分析心得】为什么数据分析师，比其他岗位幸福？ 
 【数据分析】老板问为啥数据涨跌异常，我该怎么一顿瞎分析？ 
 点赞、分享、在看，一键三连 ↓↓↓ 
                                    什么是好？好的特征代表了灵活性、更简单的模型和更好的结果，不相关的特征则会影响模型的泛化性。因此特征选择和特征工程并非是互相排斥的，而是相辅相成的。有效的特征工程能够帮助我们提炼数据的代表。接着问题就来了，什么才是好的代表？代表的好坏取决于里面所包含信息的好坏。熵（Entropy，熵值越高，数据中所包含的信息越多），方差（Variance，方差越大，数据中所包含的信息越多），更好的分离映射（Pro...
                                    1、特征选择介绍
（1）特征选择的定义
对当前学习任务有价值的属性称为是“相关特征”，没有价值的属性称为是“无关特征”，从给定的特征集中选择出相关特征子集的过程，就称为是“特征选择”。
　　其中还有一种特征称为是“冗余特征”，这些特征指的是可以从其他特征中推演出来的特征。
（2）特征选择的重要性
特征选择是一个“数据预处理”过程，它的重要性体现在两个方面：
　　1）减轻维度灾难问题。
　　2）去除...
数据建模指的是对现实世界各类数据的抽象组织，建立一个适合的模型对数据进行处理。
在数据分析与挖掘中，我们通常需要根据一些数据建立起特定的模型，然后处理。模型的建立需要依赖于算法，一般，常见的算法有分类（有明确类别）、聚类（无明确类别）、关联、回归等。
2.python数据分类实现过程
数据分类主要处理现实生活中的分类问题，一般处理思路如下：
（1）首先明确需...
                                    Python作为一款面向对象、跨平台并且开源的计算机语言，是机器学习实践的首选工具。入门Python机器学习应从了解并掌握Python的Numpy、Pandas、Matplotlib包开始。学习Python和完成机器学习实践的有效途径是：以特定的机器学习应用场景和数据作为出发点，沿着由浅入深的数据分析脉络，以逐个解决数据分析实际问题为目标，逐步展开对Python的学习和机器学习的实践。
                                    特征选择和特征提取都属于降维，就是试图去减少特征数据集中的属性(或者称为特征)的数目，但是两者所采用的方式方法却不同。特征提取的方法主要是通过属性间的关系，如组合不同的属性得到新的属性，这样就改变了原来的特征空间。特征选择的方法是从原始特征数据集中选择出子集，是一种包含的关系，没有更改原始的特征空间。特征提取和特征选择都是从原始特征中找出最有效（同类样本的不变性、不同样本的鉴别性、对噪声的鲁棒性）的特征。...
摘要： 本手册为云栖大会Workshop《云数据·大计算：快速搭建互联网在线运营分析平台》的《数据处理：数据建模与加工》篇而准备。主要阐述在使用DataWorks/MaxCompute过程中如何直读TableStore中的日志数据并进行加工、用户画像，学员可以根据本实验手册，去学习如何创建外部表、编写SQL。
实验背景介绍
了解更多2017云栖
                                    在进行特征选择之前，一般会先进行数据无量纲化处理，这样，表征不同属性（单位不同）的各特征之间才有可比性，如2cm 与 0.2kg 你怎么比？无量纲处理方法很多，使用不同的方法，对最终的机器学习模型会产生不同的影响。通常采用的方法就是归一化，Normalization之类的方法。
from sklearn.datasets import load_iris  
#导入IRIS数据集  
iris =...
                                    作者CSDN：进击的西西弗斯
本文链接：https://blog.csdn.net/qq_42216093/article/details/116994199
版权声明：本文为作者原创文章，转载需征得作者同意
如今机器学习炙手可热，而对于数据分析师或是从事数据相关的工作者而言，Python是一种最常用的机器学习实现方式。本文将从实践的角度出发，以经典的泰坦尼克号幸存者数据集为例，以sklearn为主要工具，全面细致地讲解Python机器学习建模的标准化流程。
1. 特征工程
特征工程，就是将原..
                                    前言这两年我们观察到越来越多的算法工程师重视数据的特征工程，AI业界大佬吴恩达教授在2021年提出了从model-centric AI切换到data-centric AI的论调，我个人认为data-centric AI的三个核心就是特征工程，样本工程和数据集质量（本系列文章将围绕这三个核心来介绍），即使使用深度学习，对结构化数据建模，特征工程仍然是重中之重，而对于结构化数...