当前位置:网站首页>R语言书籍学习03 《深入浅出R语言数据分析》-第八章 逻辑回归模型 第九章 聚类模型

R语言书籍学习03 《深入浅出R语言数据分析》-第八章 逻辑回归模型 第九章 聚类模型

2022-06-11 21:39:00 深竹清风

1 逻辑回归模型

1.1 逻辑回归

逻辑回归模型属于广义的线性模型,在数学上,GLM可以表示为

Y|X=x\sim N(\beta _0 +\beta_1x1 +...+\beta_{p-1}x_{p-1},\sigma ^2)

1.2 构建回归模型

使用glm()构建逻辑回归模型,在逻辑回归模型中,使用default特征作为因变量,其他作为自变量。

modle<-glm(default~., data=default_trn,family="binomial")
#family="gaussian"表示调用glm等同于lm

1.3 逻辑回归预测

使用predict()函数进行预测,指定type="response"。

predict(model_glm,type="response")

1.4 逻辑回归评估

评估分类模型最常见的事情可能是使用交叉表将实际响应值与预测响应值进行比较,可以使用base中的table()函数生成此矩阵。

trn_tab<-table(predicted=trn_pred, actual= default_trn$default)

1.5 总结

逻辑回归模型适用于二分类问题。ROC、KS等方法被用来衡量模型的优劣。

2 聚类模型

2.1 概述

聚类是一种非监督的机器学习模型,用于识别数据中存在的模式。基本思想是计算样本之间的相似性。有K均值聚类、分层聚类、Medoids聚类等方法。

2.2 K均值聚类——确定K值

可以使用Gap统计法、Elbow方法等。详见其他R语言数据分析与挖掘的介绍。

2.3 层次聚类

dist_data<-dist(food[,-1],method="euclidean")
hdata<-hclust(dist_data)
#绘制树形图

2.4 Medoids聚类(PAM)

K均值算法使用均值获得中心点,但均值对异常值敏感。这个问题通过PAM解决,PAM在数据中搜索k个代表性对象或中间体。在找到k个代表性对象后,通过将每个观察数据指定到最近的中间体来构建k个簇。

food_pam<-pam(food[,-1],3)

 

2.5 总结

聚类分析是机器学习中的一种非监督算法,可以用来识别数据中的潜在模式。最常用的是K均值聚类和层次聚类。

 

原网站

版权声明
本文为[深竹清风]所创,转载请带上原文链接,感谢
https://happyroy.blog.csdn.net/article/details/125216303