当前位置：网站首页>Machine Learning - Logistic Regression

Machine Learning - Logistic Regression

2022-08-05 11:05:00 【Ding Jiaxiong】

A classification model in machine learning,逻辑回归是一种分类算法

解决二分类问题的利器

逻辑回归中,其输入值是什么

如何判断逻辑回归的输出

Determine whether it belongs to a certain category by the probability value of belonging to a certain category,并且这个类别默认标记为1(正例),另外的一个类别会标记为0(反例)

solver可选参数:{‘liblinear’, ‘sag’, ‘saga’,‘newton-cg’, ‘lbfgs’}
- 默认: ‘liblinear’;用于优化问题的算法
- 对于小数据集来说,“liblinear”是个不错的选择,而“sag”和’saga’对于大型数据集会更快
- 对于多类问题,只有’newton-cg’, ‘sag’, 'saga’和’lbfgs’可以处理多项损失;“liblinear”仅限于“one-versus-rest”分类
penalty：正则化的种类
C：正则化力度

SGDClassifier实现了一个普通的随机梯度下降学习.而使用LogisticRegression实现了SAG小批量梯度下降

癌症分类预测-良／恶性乳腺癌肿瘤预测

TPR与FPR
- TPR = TP / (TP + FN)
  - 所有真实类别为1的样本中,预测类别为1的比例
- FPR = FP / (FP + TN)
  - 所有真实类别为0的样本中,预测类别为1的比例
ROC曲线
- ROC曲线的横轴就是FPRate,纵轴就是TPRate,当二者相等时,表示的意义则是：对于不论真实类别是1还是0的样本,分类器预测为1的概率是相等的,此时AUC为0.5
AUC指标
- AUC的概率意义是随机取一对正负样本,正样本得分大于负样本的概率
- AUC的最小值为0.5,最大值为1,取值越高越好
- AUC=1,完美分类器,采用这个预测模型时,不管设定什么阈值都能得出完美预测.绝大多数预测的场合,不存在完美分类器
- 0.5<AUC<1,优于随机猜测.这个分类器（模型）妥善设定阈值的话,能有预测价值
  - 最终AUC的范围在[0.5,1]之间,越接近1越好
- AUC计算API
  - from sklearn.metrics import roc_auc_score
  - sklearn.metrics.roc_auc_score(y_true, y_score)
    - 计算ROC曲线面积,即AUC值
    - y_true：每个样本的真实类别,必须为0(反例),1(正例)标记
    - y_score：预测得分,可以是正类的估计概率、置信值或者分类器方法的返回值
- 总结
  - AUC只能用来评价二分类
  - AUC非常适合评价样本不平衡中的分类器性能