快好知 kuaihz

scikit-learn学习版的5大新功能

scikit-learn的5大新功能

鸣叫

分享4

 

Python的主要功能机器学习库的最新版本包括许多新功能和错误修复。你可以从Scikit-learn官方0.22 发行要点中找到有关这些更改的完整说明。

通过pip完成安装更新:

   pipinstall --upgrade scikit-learn

或conda:

   condainstall scikit-learn

最新的Scikit-learn中有5个新功能值得你注意。

1.新的绘图API

新的绘图API可用,无需重新计算即可正常工作。支持的图包括一些相关图,混淆矩阵和ROC曲线。下面是Scikit-learn用户指南中的示例,对API进行了演示:

from sklearn.model_selection import train_test_split

from sklearn.svm import SVC

from sklearn.metrics import plot_roc_curve

from sklearn.datasets import load_wine

 

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

svc = SVC(random_state=42)

1/6

svc.fit(X_train, y_train)

 

svc_disp = plot_roc_curve(svc, X_test, y_test)

请注意,绘制是通过最后一行代码完成的。

2.堆叠概括

Scikit-learn已经集成了用于减少估计量偏差的整体学习技术。StackingClassifier和StackingRegressor是启用估算器堆叠的模块,并使用final_estimator这些堆叠的估算器预测作为其输入。请参阅用户指南中的示例,使用以下定义为的回归估计量estimators和梯度增强回归最终估计量:

from sklearn.linear_model import RidgeCV, LassoCV

from sklearn.svm import SVR

from sklearn.ensemble import GradientBoostingRegressor

from sklearn.ensemble import StackingRegressor

2/6

from sklearn.datasets import load_boston

from sklearn.model_selection import train_test_split

 

estimators = [("ridge", RidgeCV()),

              ("lasso", LassoCV(random_state=42)),

              ("svr", SVR(C=1, gamma=1e-6))]

 

reg = StackingRegressor(

        estimators=estimators,

        final_estimator=GradientBoostingRegressor(random_state=42))

 

X, y = load_boston(return_X_y=True)

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

 

reg.fit(X_train, y_train)

 

   StackingRegressor(...)

3.任何估计器特征的重要性

现在,任何适合的Scikit-learn估计器都可以使用基于置换的重要性特征。从用户指南中描述如何计算功能的排列重要性:

特征排列重要性计算方式如下:首先,在X定义的数据集上评估通过评分定义的基线度量。接着,对验证集中的要素列进行置换,并再次评估度量。排列重要性定义为基线度量和来自特征列度量之间的差异。

3/6

发行说明中的完整示例:

from sklearn.ensemble import RandomForestClassifier

from sklearn.inspection import permutation_importance

 

X, y = make_classification(random_state=0, n_features=5, n_informative=3)

 

rf = RandomForestClassifier(random_state=0).fit(X, y)

result = permutation_importance(rf, X, y, n_repeats=10, random_state=0, n_jobs=-1)

 

fig, ax = plt.subplots()

sorted_idx = result.importances_mean.argsort()

ax.boxplot(result.importances[sorted_idx].T, vert=False, labels=range(X.shape[1]))

ax.set_title("Permutation Importance of each feature")

ax.set_ylabel("Features")

fig.tight_layout()

plt.show()

4/6

4.梯度提升缺失价值支持

梯度提升分类器和回归器现在都已经具备了处理缺失值的能力,从而消除了手动插补的需要。以下是遗漏的方式:

在训练过程中,树木种植者会根据潜在的收益,在每个分割点上了解缺失值的样本应归子级左还是右子级。进行预测时,因此将具有缺失值的样本分配给左或右的子级。如果在训练过程中没有遇到给定特征的缺失值,则将具有缺失值的样本映射到样本最多的那一方。

以下示例演示:

from sklearn.experimental import enable_hist_gradient_boosting 

# noqa

from sklearn.ensemble import HistGradientBoostingClassifier

import numpy as np

 

X = np.array([0, 1, 2, np.nan]).reshape(-1, 1)

5/6

本站资源来自互联网,仅供学习,如有侵权,请通知删除,敬请谅解!
搜索建议:大新  大新词条  scikit-learn  scikit-learn词条  功能  功能词条  学习  学习词条  
综合

 视频监控系统安装全过程

视频监控组成前端设备-传输设备-终端设备-存储、控制、显示1. 前端设备监控项目的发展历程:从模拟到数字再到智能;模拟系统:主要设备时视频切换矩阵;数字系统:主...(展开)