当前位置:网站首页>Week 7 Latent Variable Models and Expectation Maximization
Week 7 Latent Variable Models and Expectation Maximization
2022-08-04 13:03:00 【金州饿霸】
一、Clustering
1、Clustering Algorithms(聚类算法)
- 基于中心(KMeans)
- 基于密度 (DBSCAN)(Density based)
- 层次聚类(Hierarchical clustering)
- 基于图的聚类(Graph based clustering)
2、软聚类和硬聚类
- 软聚类:数据点可能属于一个或多个集群,且给出属于每个集群的概率
- 硬聚类:数据点只属于一个集群
二、KMeans Algorithm(简单易懂版)
1、KMeans原理
K-Means算法的特点是类别的个数是人为给定的,如果让机器自己去找类别的个数,通过一次次重复这样的选择质心-计算距离后分类-再次选择新质心的流程,直到我们分组之后所有的数据都不会再变化了,也就得到了最终的聚合结果。
- KMeans 对初始值敏感,这意味着具有不同初始聚类中心的 Kmeans 的不同执行可能会导致不同的解决方案
- KMeans 是一种非概率算法,仅支持硬分配,一个数据点只能分配给一个且只有一个集群
2、KMeans过程
- 随机选取k个质心(k值取决于你想聚成几类)
- 计算样本到质心的距离,距离质心距离近的归为一类,分为k类
- 求出分类后的每类的新质心
- 再次计算计算样本到新质心的距离,距离质心距离近的归为一类
- 判断新旧聚类是否相同,如果相同就代表已经聚类成功,如果没有就循环2-4步骤直到相同
3、KMeans算法实例讲解
- 随机选取k个质心(k值取决于你想聚成几类)
假设我想聚3类,那我们随机选取【电影1、电影6、电影9】这3个电影作为质心(初始大佬)
- 计算样本到质心的距离,距离质心距离近的归为一类,分为k类
计算除质心(大佬)外的样本(小弟)的欧式距离,样本(小弟)离哪个质心(大佬)近,该样本就跟哪个质心(大佬)
从上图可以看出:
电影2、电影3(小弟)离电影1(大佬)更近,所以他们3个暂时为A类
电影4、电影5、电影10(小弟)离电影6(大佬)更近,所以他们4个暂时为B类
电影7、电影8(小弟)离电影9(大佬)更近,所以他们3个暂时为C类
- 求出分类后的每类的新质心
上面我们已经分为三类了,我们需要从三类中重新选出大佬(质心)。
A将电影2、电影3和电影1的平均值做A类的大佬,则A类新大佬(质心)为:
电影搞笑镜头电影搞笑镜头电影搞笑尽头=(电影1搞笑镜头+电影2搞笑镜头+电影3搞笑尽头3,
电影亲吻镜头电影亲吻镜头电影亲吻尽头,电影1亲吻镜头+电影2亲吻镜头+电影3亲吻尽头3,
电影打斗镜头电影打斗镜头电影打斗尽头电影1打斗镜头+电影2打斗镜头+电影3打斗尽头3)
=(100,20,20)
同理也可以计算出B类新大佬(质心)为(17.5,98.75,17.5),C类新大佬(20,20,100)
- 再次计算计算样本到新质心的距离,距离质心距离近的归为一类
同样用上面方法计算样本到质心(新大佬)的欧式距离,得
从上图可以看出:
电影1、电影2、电影3(小弟)离A类(新大佬)更近,他们归为一类
电影6、电影4、电影5、电影10(小弟)离B类(新大佬)更近,他们也归为一类
电影9、电影7、电影8(小弟)离C类(新大佬)更近,他们也归为一类
- 判断新旧聚类是否相同
经过这次计算我们发现聚类情况并没有变化,这就说明我们的计算收敛已经结束了,不需要继续进行分组了,最终数据成功按照相似性分成了三组。即电影1,2,3为一类电影4,5,6,10为一类,电影7,8,9为一类,完成聚类。
三、KMeans Algorithm(课件公式推导版)
1、“1-of-K”⽬标函数
2、的最优化和的最优化(包含公式推导)
(1)步骤
- ⾸先,我们为选择⼀些初 始值。
- 然后,在第⼀阶段,我们关于最⼩化J,保持固定。
- 在第⼆阶段,我们关于最⼩ 化J,保持固定。
- 不断重复这个⼆阶段优化直到收敛。
(4)KMeans中执行EM算法的例子
进行四轮EM后数据收敛:
四、Gaussian Mixture Models and Expectation-Maximization
边栏推荐
- "Social Enterprises Conducting Civilian Personnel Training Specifications" group standard on the shelves of Xinhua Bookstore
- "Lonely Walking on the Moon" is a powerful medicine, it can't cure the internal friction of happy twist
- 【UML】信息系统分析与设计知识点总结
- Why is Luo Zhenyu's A-share dream so difficult to fulfill?
- Unity 3D模型展示框架篇之资源打包、加载、热更(Addressable Asset System | 简称AA)
- router---路由守卫
- router---模式
- 抽奖/秒杀/竞价/评分/权威/投票,技术教你用合适的方法做好活动
- 搭建ros交叉编译环境(从x86到nvidia arm)
- 持续交付(四)Jenkins多线程任务执行
猜你喜欢
并发刺客(False Sharing)——并发程序的隐藏杀手
项目里的各种配置,你都了解吗?
Unity 3D模型展示框架篇之资源打包、加载、热更(Addressable Asset System | 简称AA)
封装、继承、多态的联合使用实现不同等级学生分数信息的统计
永磁同步电机FOC驱动代码讲解
漏洞复现 - - - Alibaba Nacos权限认证绕过
Interviewer: How to view files containing abc string in /etc directory?
汉诺塔怎么玩
【VSCode】一文详解vscode下安装vim后无法使用Ctrl+CV复制粘贴 使用Vim插件的配置记录
双目立体视觉笔记(三)三角测量、极线校正
随机推荐
Cool and efficient data visualization big screen, it's really not that difficult to do!丨Geek Planet
小程序对接企业微信客服
leetcode 48. Rotate Image 旋转图像(Medium)
牛客网刷题记录 || 链表
双目立体视觉笔记(二)
The head module of the yolo series
代码越写越乱?那是因为你没用责任链!
用过Apifox这个API接口工具后,确实感觉postman有点鸡肋......
【微信小程序】信息管理与信息系统专业社会实习制作项目--垃圾指纹
k8s上安装mysql
项目里的各种配置,你都了解吗?
router---模式
Ceres库运行,模板内报内存冲突问题。(已解决)
SCA兼容性分析工具(ORACLE/MySQL/DB2--->MogDB/openGauss/PostgreSQL)
“蔚来杯“2022牛客暑期多校训练营4 N
"Lonely Walking on the Moon" is a powerful medicine, it can't cure the internal friction of happy twist
“蔚来杯“2022牛客暑期多校训练营2 G、J、K
LeetCode_299_猜数字游戏
永磁同步电机FOC驱动代码讲解
router---Route guard