当前位置：网站首页>「经验」浅谈聚类分析在工作中的应用

「经验」浅谈聚类分析在工作中的应用

2022-06-30 17:00:00 【小火龙说数据】

预计阅读时间：8min

阅读建议：本文讲述了聚类的应用，总结了在实战中的一些经验，希望对你有所帮助。

解决痛点：聚类是什么？在数据分析中有什么价值？用什么方式来做聚类？每种方式的优缺点又是什么？希望你带着这些问题来看本篇文章。

序言

提到「聚类」，大家是否会想到「物以类聚、人以群分」呢，而这也正是聚类的本质含义。在工作中，聚类分析还是比较常见的，你是否遇到过以下这些问题？

用户划分：当产品做到一定量级，希望将用户划分为具有明显特征属性的细分群体，针对特定群体实施策略。
产品组合：随着公司产品的丰富，希望将产品按照价值和变现能力划分为不同的组合，并针对不同组合制定营销策略。
反作弊判断：用户在产品上的操作属于正常行为，而有些人为了谋取利益，采用机器等方式刷取数据，针对这种作弊行为，我们要如何发掘呢？

当遇到类似上述问题时，聚类分析便可施展拳脚。下面，小火龙会从聚类的实战应用为出发点，为大家揭开面纱。

聚类是什么

聚类是按照某种特定的规则（例如：距离远近），将数据集划分成不同的簇，使得相同簇中的个体相似性尽可能大，不同簇之间相似性尽可能小。在数据中的表现是，具有相似特征值的个体聚在一起的可能性大，反之可能性小。

Tips：计算距离的方式有很多种，列举几种常用的

欧氏距离

曼哈顿距离

余弦距离

「聚类」是没有先验知识的「无监督算法」，与其对应的「分类」则是「有监督算法」。有些同学可能会有一些晕，举个例子就很好理解：

分类问题

男性一定有喉结，因此只要有喉结的人，就是男性。其中，喉结就是先验知识，通过这个特征，就可以将人群分类为男性和女性。

聚类问题

对于我们的祖先，并没有男性和女性的区分，但通过特征，可以发现一部分人有喉结、另一部分没有，因此将有喉结的群体命名为男性。

下面介绍一个聚类在工作中的案例，帮助大家增强认知。

聚类的实战应用

在「策略推广」方向上，聚类可将目标群体进行分群，并对潜在人群进行扩充。因此应用方向包括但不限于：市场精准推广、潜在目标群体扩充等。下面，举一个案例：

某车企，在春节前，针对可能的目标群体「一线城市蓝领」下发微信广告推送，帮助提升车企的引流。但在通过用户行为聚类之后，发掘「二线城市白领」同样具备潜在购车的能力。因此，在推广过程中，扩充了目标群体的投放范围，提升引流效果。（具体应用步骤如下图）

常用聚类方式及优缺点

在介绍了聚类作用后，是否有小伙伴想要了解一下，聚类有哪些方式，如何实现，以及每种方式的优缺点，下面小火龙为大家做一个总结。

聚类模型的种类有很多，大致可以按照如下三个方向进行划分：

1. 模型的处理能力：处理不同分布形状的能力；处理异常点的能力；处理大数据量级的能力等。

2. 模型是否需要预设参数：是否需要给出类别数量等。

3. 模型对数据输入的要求：数据输入的顺序对模型是否有影响；模型对于特征的类型是否有要求等。

根据以上分类，聚类模型大体可以划分为以下几类：

介于篇幅原因，小火龙挑取了三种常用的模型进行阐述（图中红色部分）。

1、基于层次的方法 - 层次聚类

1. 模型原理

层次聚类包含两种方式，「凝聚型层次聚类」和「分裂型层次聚类」。凝聚型层次聚类是层次聚类中较常用的方式，其核心原理是，初始假设每个个体都是一类，每一次迭代会合并最相近的点，当所有点都合并成一类或者满足停止条件时，则终止模型迭代，是一种自下而上的方式。与之相对应的分裂型层次聚类，则是以相反自下而上的方式进行迭代，最终输出结果。

2. 模型流程

以「凝聚型层次聚类」为例：

步骤1：每个点作为一类，计算两点之间的距离；

步骤2：将距离最近的点合并到一起，形成新的类，并计算类的质心；

步骤3：重复第1、2步骤，直至满足条件。

3. 模型优缺点

[优点]