当前位置：网站首页>XGBoost, lightGBM, CatBoost——尝试站在巨人的肩膀上

XGBoost, lightGBM, CatBoost——尝试站在巨人的肩膀上

2022-06-26 02:50:00 【不让人放心】

前言

最近在打科大讯飞的电信客户流失预测挑战赛，赛题为很典型的二分类问题，使用AUC作为评估指标。从官方给的baseline上面学到了好多东西，这里写个总结。

baseline：https://mp.weixin.qq.com/s/nLgaGMJByOqRVWnm1UfB3g
比赛：https://challenge.xfyun.cn/topic/info?type=telecom-customer&ch=ds22-dw-zs01

baseline提供了一种训练策略（KFold），三个Boosting算法（XGBoost, lightGBM，CatBoost），本文主要围绕它们展开。

KFold

k-fold cross-validation，k折交叉验证，初始采样分割成k个子样本，一个单独的子样本被保留作为验证模型的数据，其他k-1个样本用来训练，重复k次，保证每个子样本验证一次，平均k次的结果或者使用其它结合方式，最终得到一个单一的估测值。取k=5，一张图表示：
k-fold cross-validation
baseline相当于把这个思路写了一遍，实际上熟悉网格搜索(Grid Search)的同学，在使用sklearn的包时，会注意到**GridSearchCV()**类里面有一个参数cv，这个参数实际上就是在指定交叉验证的折数。采用这种交叉验证的方法，会将所有的数据都参与到训练和预测中，从而有效的避免过学习以及欠学习状态的发生,最后得到的结果也会比较具有说服性。baseline中还有引用StratifiedKFold(虽然并没有使用)，该方法是KFold的增强版本，与KFold最大的差异在于StratifiedKFold方法是根据标签y中不同类别占比来进行数据拆分的，能保证分出来的每个折的目标变量具有与整个数据集中相同的比率，比较适用于不平衡的数据集。这次比赛官方给的数据集，训练数据一共150000条，其中正样本75042，几乎是1:1的，非常均衡。
除了k-fold，还有Hold-Out Method(分两组,一组做训练,一组做验证)、Double Cross-Validation(2-fold Cross Validation)、Leave P Out Cross Validation(使用原本样本中的P项来当做验证数据，而剩余的则留下来当做训练数据，重复上述过程)、Shuffle Split(选择一部分数据做训练集，选择一部分做验证集，训练集+验证机的占比之和<=100%)

Boosting

常见的集成学习框架有三种：Bagging，Boosting 和 Stacking。XGBoost、LightGBM和CatBoost都是基于 Boosting 框架的主流集成算法，这哥仨的资料在网上一搜一大把，这里就不赘述了。
XGBoost、LightGBM在使用上它们的语法非常相似，以LightGBM为例：

#lightgbm模型构建和训练
import lightgbm as lgb	
d_train = lgb.Dataset(x_train, label=y_train)  #训练数据
params = {
    }	
params['boosting_type'] = 'gbdt'	
params['objective'] = 'binary'	
params['metric'] = 'auc'	
params['learning_rate'] = 0.003	
# 此处省略若干参数
model = lgb.train(params, d_train, 50000)  #lightgbm模型训练
y_pred=clf.predict(x_test)	#模型预测

CatBoost免去了生成Dataset的那一步，使用上确实更接近于sklearn的svm、tree这些常用包：

import catboost
params = {
    }	
params['boosting_type'] = 'Bernoulli'	
params['depth'] =5
params['learning_rate'] = 0.02
# 此处依然省略若干参数
model = catboost.CatBoostRegressor(iterations=20000, **params)
model.fit(x_train, y_train)  # 是不是感觉很熟悉？？
y_pred = model.predict(x_test)

我个人在拿到数据后，尝试了进行one-hot(分类数据)+normlization(数值型数据)，扔到LightGBM里跑，结果AUC不升反降，抱着疑惑，我又进行了一些检索，发现面向机器学习的特征工程，早就有很多的讨论，比如：类别变量，别上来就整one-hot编码，有没有数据标准化（z-score standardization ）后效果变差的例子？。后来发现，LightGBM本身在设计上就有针对类别型变量进行优化，自己所做的工作确实称得上是画蛇添足了。只能说封装的越好的模型，里面值得挖掘的点就越多，无论是做特征工程还是调参，都应该抱有敬意。