当前位置：网站首页>Machine learning practice - decision tree-22

Machine learning practice - decision tree-22

2022-07-28 12:53:00 【gemoumou】

Machine learning practice - Decision tree - Leaf classification

Insert picture description here

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

from sklearn.preprocessing import LabelEncoder
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection  import GridSearchCV

train = pd.read_csv('train.csv')

Insert picture description here

train.head()

Insert picture description here

train.shape

Insert picture description here

#  Number of leaf categories 
len(train.species.unique())

Insert picture description here
Data Preparation

#  Convert string categories to numeric form 
lb = LabelEncoder().fit(train.species) 
labels = lb.transform(train.species)    
#  Get rid of 'species', 'id' The column of 
data = train.drop(['species', 'id'], axis=1)  
data.head()

Insert picture description here

#  Sharding data sets 
x_train,x_test,y_train,y_test = train_test_split(data, labels, test_size=0.3, stratify=labels)

Modeling analysis

tree = DecisionTreeClassifier()
tree.fit(x_train, y_train)

Insert picture description here

Model optimization

# max_depth: The maximum depth of the tree 
# min_samples_split: Minimum number of samples required for internal node subdivision 
# min_samples_leaf: Minimum number of leaf nodes 
param_grid = {
    'max_depth': [30,40,50,60,70],
                    'min_samples_split': [2,3,4,5,6],
                    'min_samples_leaf':[1,2,3,4]}
#  The grid search 
model = GridSearchCV(DecisionTreeClassifier(), param_grid, cv=3)
model.fit(x_train, y_train)
print(model.best_estimator_)

Insert picture description here

model.score(x_train, y_train)

Insert picture description here

model.score(x_test, y_test)

Insert picture description here

Decision tree - Animal classification

Insert picture description here

import pandas as pd
import numpy as np
# pip install missingno
import missingno as msno
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection  import GridSearchCV

data = pd.read_csv('zoo.csv')

data.head()

Insert picture description here

#  View data shapes 
data.shape

Insert picture description here

#  View the distribution of data types 
data.dtypes

Insert picture description here

data.describe()

Insert picture description here

#  Check for missing data 
p=msno.bar(data)

Insert picture description here

#  Draw a heat map , The value is the correlation coefficient between the two variables 
plt.figure(figsize=(20,20))  
p=sns.heatmap(data.corr(), annot=True, annot_kws = {
     'fontsize' : 15 },square=True)

Insert picture description here

#  View category distribution 
pd.value_counts(data["class_type"])

Insert picture description here

#  Get training data and tags 
x_data  = data.drop(['animal_name', 'class_type'], axis=1)
y_data = data['class_type']

from sklearn.model_selection import train_test_split
#  Sharding data sets ,stratify=y Represents the ratio of data types in the training set and test set after segmentation to that before segmentation y The proportion is the same 
#  For example, before segmentation y in 0 and 1 The proportion of 1:2, After cutting y_train and y_test in 0 and 1 The proportion is also 1:2
x_train,x_test,y_train,y_test = train_test_split(x_data, y_data, test_size=0.3, stratify=y_data)

tree = DecisionTreeClassifier()
tree.fit(x_train, y_train)

Insert picture description here

tree.score(x_test, y_test)

Insert picture description here
Model optimization

param_grid = {
    'max_depth': [5,10,15,20,25],
                    'min_samples_split': [2,3,4,5,6],
                    'min_samples_leaf':[1,2,3,4]}
model = GridSearchCV(DecisionTreeClassifier(),  param_grid, cv=3, iid=True)
model.fit(x_train, y_train)
print(model.best_estimator_)

Insert picture description here

model.score(x_test, y_test)

Insert picture description here

param_grid = {
    'max_depth': [8,9,10,11,12],
                    'min_samples_split': [2,3,4,5,6],
                    'min_samples_leaf':[1,2,3,4]}
model2 = GridSearchCV(DecisionTreeClassifier(),  param_grid, cv=3, iid=True)
model2.fit(x_train, y_train)
print(model2.best_estimator_)