当前位置：网站首页>[data mining] task 6: DBSCAN clustering

[data mining] task 6: DBSCAN clustering

2022-07-03 01:34:00 【zstar-_】

requirement

Programming to realize DBSCAN Clustering of the following data

Data acquisition ：https://download.csdn.net/download/qq1198768105/85865302

Import library and global settings

from scipy.io import loadmat
import matplotlib.pyplot as plt
import numpy as np
from sklearn.cluster import DBSCAN
from sklearn import datasets
import pandas as pd

plt.rcParams['font.sans-serif'] = ["SimHei"]
plt.rcParams["axes.unicode_minus"] = False

DBSCAN Description of clustering parameters

eps：ϵ- Distance threshold of neighborhood , The distance from the sample exceeds ϵ The sample point of is not in ϵ- In the neighborhood , The default value is 0.5.

min_samples： The minimum number of points to form a high-density area . As the core point, the neighborhood ( That is, take it as the center of the circle ,eps Is a circle of radius , Including points on the circle ) Minimum number of samples in ( Including the point itself ).

if y=-1, Is the outlier

because DBSCAN The generated category is uncertain , Therefore, define a function to filter out the most appropriate parameters that meet the specified category .

The appropriate criterion is to minimize the number of outliers

def search_best_parameter(N_clusters, X):
    min_outliners = 999
    best_eps = 0
    best_min_samples = 0
    #  Iterating different eps value 
    for eps in np.arange(0.001, 1, 0.05):
        #  Iterating different min_samples value 
        for min_samples in range(2, 10):
            dbscan = DBSCAN(eps=eps, min_samples=min_samples)
            #  Model fitting 
            y = dbscan.fit_predict(X)
            #  Count the number of clusters under each parameter combination （-1 Indicates an outlier ）
            if len(np.argwhere(y == -1)) == 0:
                n_clusters = len(np.unique(y))
            else:
                n_clusters = len(np.unique(y)) - 1
            #  Number of outliers 
            outliners = len([i for i in y if i == -1])
            if outliners < min_outliners and n_clusters == N_clusters:
                min_outliners = outliners
                best_eps = eps
                best_min_samples = min_samples
    return best_eps, best_min_samples

#  Import data 
colors = ['green', 'red', 'blue']
smile = loadmat('data- Density clustering /smile.mat')

smile data

X = smile['smile']
eps, min_samples = search_best_parameter(3, X)
dbscan = DBSCAN(eps=eps, min_samples=min_samples)
y = dbscan.fit_predict(X)

#  Visualization of clustering results 
plt.figure(figsize=(20, 15))
plt.subplot(2, 2, 1)
for i in range(len(smile['smile'])):
    plt.scatter(smile['smile'][i][0], smile['smile'][i][1],
                color=colors[int(smile['smile'][i][2])])
    plt.title(" Raw data ")
plt.subplot(2, 2, 2)
for i in range(len(y)):
    plt.scatter(smile['smile'][i][0], smile['smile'][i][1], color=colors[y[i]])
    plt.title(" After clustering data ")