当前位置:网站首页>Week 7 Latent Variable Models and Expectation Maximization
Week 7 Latent Variable Models and Expectation Maximization
2022-08-04 13:03:00 【金州饿霸】
一、Clustering
1、Clustering Algorithms(聚类算法)
- 基于中心(KMeans)
- 基于密度 (DBSCAN)(Density based)
- 层次聚类(Hierarchical clustering)
- 基于图的聚类(Graph based clustering)
2、软聚类和硬聚类
- 软聚类:数据点可能属于一个或多个集群,且给出属于每个集群的概率
- 硬聚类:数据点只属于一个集群
二、KMeans Algorithm(简单易懂版)
1、KMeans原理
K-Means算法的特点是类别的个数是人为给定的,如果让机器自己去找类别的个数,通过一次次重复这样的选择质心-计算距离后分类-再次选择新质心的流程,直到我们分组之后所有的数据都不会再变化了,也就得到了最终的聚合结果。
- KMeans 对初始值敏感,这意味着具有不同初始聚类中心的 Kmeans 的不同执行可能会导致不同的解决方案
- KMeans 是一种非概率算法,仅支持硬分配,一个数据点只能分配给一个且只有一个集群
2、KMeans过程
- 随机选取k个质心(k值取决于你想聚成几类)
- 计算样本到质心的距离,距离质心距离近的归为一类,分为k类
- 求出分类后的每类的新质心
- 再次计算计算样本到新质心的距离,距离质心距离近的归为一类
- 判断新旧聚类是否相同,如果相同就代表已经聚类成功,如果没有就循环2-4步骤直到相同
3、KMeans算法实例讲解
- 随机选取k个质心(k值取决于你想聚成几类)
假设我想聚3类,那我们随机选取【电影1、电影6、电影9】这3个电影作为质心(初始大佬)
- 计算样本到质心的距离,距离质心距离近的归为一类,分为k类
计算除质心(大佬)外的样本(小弟)的欧式距离,样本(小弟)离哪个质心(大佬)近,该样本就跟哪个质心(大佬)
从上图可以看出:
电影2、电影3(小弟)离电影1(大佬)更近,所以他们3个暂时为A类
电影4、电影5、电影10(小弟)离电影6(大佬)更近,所以他们4个暂时为B类
电影7、电影8(小弟)离电影9(大佬)更近,所以他们3个暂时为C类
- 求出分类后的每类的新质心
上面我们已经分为三类了,我们需要从三类中重新选出大佬(质心)。
A将电影2、电影3和电影1的平均值做A类的大佬,则A类新大佬(质心)为:
电影搞笑镜头电影搞笑镜头电影搞笑尽头=(电影1搞笑镜头+电影2搞笑镜头+电影3搞笑尽头3,
电影亲吻镜头电影亲吻镜头电影亲吻尽头,电影1亲吻镜头+电影2亲吻镜头+电影3亲吻尽头3,
电影打斗镜头电影打斗镜头电影打斗尽头电影1打斗镜头+电影2打斗镜头+电影3打斗尽头3)
=(100,20,20)
同理也可以计算出B类新大佬(质心)为(17.5,98.75,17.5),C类新大佬(20,20,100)
- 再次计算计算样本到新质心的距离,距离质心距离近的归为一类
同样用上面方法计算样本到质心(新大佬)的欧式距离,得
从上图可以看出:
电影1、电影2、电影3(小弟)离A类(新大佬)更近,他们归为一类
电影6、电影4、电影5、电影10(小弟)离B类(新大佬)更近,他们也归为一类
电影9、电影7、电影8(小弟)离C类(新大佬)更近,他们也归为一类
- 判断新旧聚类是否相同
经过这次计算我们发现聚类情况并没有变化,这就说明我们的计算收敛已经结束了,不需要继续进行分组了,最终数据成功按照相似性分成了三组。即电影1,2,3为一类电影4,5,6,10为一类,电影7,8,9为一类,完成聚类。
三、KMeans Algorithm(课件公式推导版)
1、“1-of-K”⽬标函数














2、
的最优化和
的最优化(包含公式推导)
(1)步骤
- ⾸先,我们为
选择⼀些初 始值。
- 然后,在第⼀阶段,我们关于
最⼩化J,保持
固定。
- 在第⼆阶段,我们关于
最⼩ 化J,保持
固定。
- 不断重复这个⼆阶段优化直到收敛。












(4)KMeans中执行EM算法的例子
进行四轮EM后数据收敛:

四、Gaussian Mixture Models and Expectation-Maximization
边栏推荐
- 论文翻译:2022_Time-Frequency Attention for Monaural Speech Enhancement
- 关于mysql join 的一些说明
- 面试官:如何查看/etc目录下包含abc字符串的文件?
- LeetCode_643_子数组的最大平均数Ⅰ
- 双目立体视觉学习笔记(一)
- 代码越写越乱?那是因为你没用责任链!
- Why is Luo Zhenyu's A-share dream so difficult to fulfill?
- 【WeChat Mini Program】Social Internship Production Project for Information Management and Information System Major--Trash Fingerprint
- String is a reference type
- CLS-PEG-DBCO,胆固醇-聚乙二醇-二苯基环辛炔,可用于改善循环时间
猜你喜欢
持续交付(四)Jenkins多线程任务执行
Interviewer: How to view files containing abc string in /etc directory?
【微信小程序】信息管理与信息系统专业社会实习制作项目--垃圾指纹
未来已来,只是尚未流行
持续交付(三)Jenkinsfile语法使用介绍
redis未授权访问漏洞【vulhub靶场】复现
备份控制文件
[UML] Summary of Information System Analysis and Design Knowledge Points
Programmer Qixi Gift - How to quickly build an exclusive chat room for your girlfriend in 30 minutes
新 Nsight Graph、Nsight Aftermath 版本中的性能提升和增强功能
随机推荐
nVisual二次开发——第二章 nVisual API操作指南Swagger使用
广告电商系统开发
17种正则表达式
c#学习_第二弹
为什么密码云服务平台是云时代的必然之选?
使用SQLServer复制数据库
干货丨数学规划视角下的分货优化解题思路
[UML] Summary of Information System Analysis and Design Knowledge Points
JSX使用
RT-Thread stm32 基础记录
Focus!2022 interview must brush 461 interview questions summary + interview + resume template
MySQL性能指标TPS\QPS\IOPS如何压测?
du命令_set命令选项
Launcher app prediction
Geoffrey Hinton:深度学习的下一个大事件
Chinese valentine's day of young people crazy to make money, earn 140000 a week
“蔚来杯“2022牛客暑期多校训练营5 B、C、F、G、H、K
工具函数---字符串处理
荧光磷脂PEG衍生物之一磷脂-聚乙二醇-荧光素,Fluorescein-PEG-DSPE
Valentine's Day Romantic 3D Photo Wall [with source code]