当前位置:网站首页>线性回归02---波士顿房价预测

线性回归02---波士顿房价预测

2022-08-04 05:28:00 我很好请走开谢谢

写在最前 :

  1. 参考了一位博主的博客进行了学习,讲得很好,很细致。
    传送门点这儿哈

  2. 这个案例是以线性回归为模型预测的,目的为求出一个线性函数,每个特征所占参数,最后并对这个所求的线性函数进行模型评估

一、获取数据

在这里插入图片描述

二、数据分析

2.1描述性统计分析

 # 2.1描述性统计分析
 # describe()是返回这组数据的count ,mean,std,min,max,还有百分位数。 .T是转置
data.describe().T   

在这里插入图片描述
结论: 数据总共有506行,14个变量,而且这14个变量都有506个非空的float64类型的数值,即所有变量没有空值。

2.2 散点图分析

1. 先绘制一个

在这里插入图片描述

2. 把其余的也绘制出来

plt.figure(figsize=(15,10.5)) //图像大小
plot_count = 1
for feature in list(data.columns)[1:13]:   //把剩余13个特征的图循环绘制出来
    plt.subplot(3,4,plot_count)  //表示三行四列,plot_count表示每个散点图的位置
    plt.scatter(data[feature],data['target'])
    plt.xlabel(feature.replace('_',' ').title())
    plt.ylabel('target')
    plot_count += 1
plt.show()

图像:
在这里插入图片描述

三、数据处理

x = data.iloc[:,0:13]   //DataFrame切割,切割前13列(也就是把最后一列target社区)
y = data.iloc[:,13:14]
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2,random_state=5 )

四、特征工程 标准化

transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

五、机器学习 创建模型

在这里插入图片描述

六、模型评估

在这里插入图片描述
在这里插入图片描述

七、全部代码

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LinearRegression #通过正规方程优化
from sklearn.metrics import mean_squared_error
from sklearn.linear_model import SGDRegressor #suiji
from sklearn.linear_model import Ridge   #岭回归
import matplotlib.pyplot as plt
import pandas as pd

# 1.获取数据 
data = pd.read_csv('./data/boshidun.csv')
data

 # 2.1描述性统计分析
 # describe()是返回这组数据的count ,mean,std,min,max,还有百分位数。 .T是转置
data.describe().T   

 # 2.2 散点图分析
def drawing(x,y,xlabel):
    plt.scatter(x,y)
    plt.title('%s - House Prices'% xlabel)
    plt.xlabel(xlabel)
    plt.ylabel('House Prices')
    plt.yticks(range(0,60,5))
    plt.grid()
    plt.show()

# 绘制变量CRIM和因变量的散点图
drawing(data['CRIM'],data['target'],'Urban Per Crime Rate')

plt.figure(figsize=(15,10.5))
plot_count = 1
for feature in list(data.columns)[1:13]:
    plt.subplot(3,4,plot_count)
    plt.scatter(data[feature],data['target'])
    plt.xlabel(feature.replace('_',' ').title())
    plt.ylabel('target')
    plot_count += 1
plt.show()

x = data.iloc[:,0:13]
y = data.iloc[:,13:14]
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size = 0.2,random_state=5 )

transfer = StandardScaler()
x_train = transfer.fit_transform(x_train)
x_test = transfer.transform(x_test)

estimator = LinearRegression()

estimator.fit(x_train, y_train)

# 5.2 打印参数的估计系数
print(estimator.coef_[0])
coeffcients = pd.DataFrame([x.columns, estimator.coef_[0]]).T
coeffcients



# 6.1 获取预测值
y_predict = estimator.predict(x_test)
# 6.2 计算MSE 
mean_squared_error(y_pred=y_predict, y_true=y_test)
print('R-Squared: %.4f'% estimator.score(x_test, y_test))


y_predict = estimator.predict(x_test)
plt.figure()
plt.scatter( y_predict,y_test)
plt.xlabel('Actual Prices')
plt.ylabel('Predicted Prices')
plt.title('Actual Prices vs Predicted Prices')
plt.show()

原网站

版权声明
本文为[我很好请走开谢谢]所创,转载请带上原文链接,感谢
https://lzhgmx.blog.csdn.net/article/details/123345707