当前位置：网站首页>Common data processing of machine learning

Common data processing of machine learning

2022-06-21 14:24:00 【Record brother】

One , Custom data samples

from sklearn import datasets
import matplotlib.pyplot as plt


# create customized data,noise  It indicates the degree of discreteness 
X,y=datasets.make_regression(n_samples=100,n_features=1,n_targets=1,noise=10)
plt.scatter(X,y)
plt.show()

Two , Summary of common experimental data

from sklearn.datasets import load_iris
from sklearn.datasets import load_boston
from sklearn.datasets import load_diabetes
from sklearn.datasets import load_digits
from sklearn.datasets import load_linnerud
from sklearn.datasets import load_wine
from sklearn.datasets import load_breast_canner

iris=load_iris()
iris_X=iris.data
iris_Y=iris.target
shape=iris.data.shape

3、 ... and , Common parameters of the model

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn import datasets

iris=load_iris()
iris_X=iris.data
iris_Y=iris.target

X_train,X_test,Y_train,Y_test=train_test_split(iris_X,iris_Y,test_size=0.3)
lr=LinearRegression()
lr.fit(X_train,Y_train)

print lr.coef_   # [-0.1025279  -0.10673591  0.18254043  0.69219621]
print lr.intercept_ # 0.4061787783812755
print lr.get_params()   # {'copy_X': True, 'normalize': False, 'n_jobs': None, 'fit_intercept': True}
print lr.score(iris_X,iris_Y)# 0.9293519985342178

Four , Standardized data

normalization （Normalization）: Change the number into （0,1） Decimal between , It is mainly for the convenience of data processing , Mapping data to 0～1 Within the scope of processing , More convenient and fast , It should fall into the category of digital signal processing . The general method is to minimize - The method of maximum specification ： (x-min(x))/(max(x)-min(x)),

from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn.datasets import make_classification

import matplotlib.pyplot as plt
import numpy as np
from sklearn.svm import SVC

# Normalization

X,y=make_classification(n_samples=300,n_features=2,n_redundant=0,n_informative=2,random_state=22,n_clusters_per_class=1,scale=100)
preprocessing.scale(X)  # its 0.44 if commented,else its 0.51
X_train,X_test,Y_train,Y_test=train_test_split(X,y,test_size=0.3)

clf=SVC()
clf.fit(X_train,Y_train)
print clf.score(X_test,Y_test)

原网站

版权声明
本文为[Record brother]所创，转载请带上原文链接，感谢
https://yzsam.com/2022/02/202202221425206689.html