当前位置：网站首页>机器学习——逻辑回归

机器学习——逻辑回归

2022-08-05 10:55:00 【Ding Jiaxiong】

机器学习中的一种分类模型，逻辑回归是一种分类算法

解决二分类问题的利器

逻辑回归中，其输入值是什么

如何判断逻辑回归的输出

通过属于某个类别的概率值来判断是否属于某个类别，并且这个类别默认标记为1(正例),另外的一个类别会标记为0(反例)

solver可选参数:{‘liblinear’, ‘sag’, ‘saga’,‘newton-cg’, ‘lbfgs’}
- 默认: ‘liblinear’；用于优化问题的算法
- 对于小数据集来说，“liblinear”是个不错的选择，而“sag”和’saga’对于大型数据集会更快
- 对于多类问题，只有’newton-cg’， ‘sag’， 'saga’和’lbfgs’可以处理多项损失;“liblinear”仅限于“one-versus-rest”分类
penalty：正则化的种类
C：正则化力度

SGDClassifier实现了一个普通的随机梯度下降学习。而使用LogisticRegression实现了SAG小批量梯度下降

癌症分类预测-良／恶性乳腺癌肿瘤预测

TPR与FPR
- TPR = TP / (TP + FN)
  - 所有真实类别为1的样本中，预测类别为1的比例
- FPR = FP / (FP + TN)
  - 所有真实类别为0的样本中，预测类别为1的比例
ROC曲线
- ROC曲线的横轴就是FPRate，纵轴就是TPRate，当二者相等时，表示的意义则是：对于不论真实类别是1还是0的样本，分类器预测为1的概率是相等的，此时AUC为0.5
AUC指标
- AUC的概率意义是随机取一对正负样本，正样本得分大于负样本的概率
- AUC的最小值为0.5，最大值为1，取值越高越好
- AUC=1，完美分类器，采用这个预测模型时，不管设定什么阈值都能得出完美预测。绝大多数预测的场合，不存在完美分类器
- 0.5<AUC<1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值
  - 最终AUC的范围在[0.5,1]之间，越接近1越好
- AUC计算API
  - from sklearn.metrics import roc_auc_score
  - sklearn.metrics.roc_auc_score(y_true, y_score)
    - 计算ROC曲线面积，即AUC值
    - y_true：每个样本的真实类别，必须为0(反例),1(正例)标记
    - y_score：预测得分，可以是正类的估计概率、置信值或者分类器方法的返回值
- 总结
  - AUC只能用来评价二分类
  - AUC非常适合评价样本不平衡中的分类器性能