当前位置:网站首页>【统计机器学习】线性回归模型
【统计机器学习】线性回归模型
2022-08-03 19:05:00 【鱼与钰遇雨】
相关知识
概率论,是研究随机现象数量规律的数学分支。随机现象是相对于决定性现象而言的,例如太阳东升西落。随机现象是指在基本条件不变的情况下,每一次试验或观察前,不能肯定会出现哪种结果,呈现出偶然性。例如,掷一硬币,可能出现正面或反面。
数理统计是数学的一个分支,分为描述统计和推断统计。它以概率论为基础,研究大量随机现象的统计规律性。描述统计的任务是搜集资料,进行整理、分组,编制次数分配表,绘制次数分配曲线,计算各种特征指标,以描述资料分布的集中趋势、离中趋势和次数分布的偏斜度等。推断统计是在描述统计的基础上,根据样本资料归纳出的规律性,对总体进行推断和预测。
(描述统计——>推断统计)
计算机角度的机器学习和统计角度的机器学习,对一些名称的定义可能会有些不同。
例如
机器学习 | 统计机器学习 |
---|---|
Unsupervised Learning (无监督学习) | Clustering 聚类 |
Supervised Learning 监督学习 | 回归分析 |
Semi-Supervised Learning | … |
Reinforcement Learning | … |
… | … |
变量类型
分类数据:职业、地址、性别
连续数据:年龄、收入
分类数据(但有顺序含义):High school ,BSc,MSc,PhD
Y的变量类型决定了问题,以及用什么方法解决问题
什么时候用统计方法、什么时候用机器学习、什么时候用机器学习呢?
只有特征和样本量都很大(样本量超过200,特征超过20)的时候,我们考虑机器学习的方法。
除此之外,经典的统计方法或者统计学习方法几乎可以解决所有问题。(当然了,机器学习也可以用,但是工程上没有必要)
模型在不同数据量场景下的效果:
线性回归模型实例
心法:定(任务,方法同数据准备阶段,通过数据量和预测任务来判断)、数、模、训、测、上
数:分析(任务)、理解、清晰、构建、选择、提取
模:模型、损失、优化器 (基于数据量和预测类型选择模型。)
训练:迭代、调参、降损失
定(问题定义)
预测房价、很明显的线性回归任务,而且特征数目少于20,首选线性回归。
数(数据准备)
1,2 分析(问题,看Y)和 理解(特征,看X)
#1 问题分析
#(房价预测,回归任务,)
from sklearn import datasets
boston = datasets.load_boston()
print(boston.DESCR)
boston.shape
#分析(分析Y的类型,判断问题类型)
y = boston.target
y = pd.DataFrame(y)
y.describe()
# 理解
house = boston.data
house = pd.DataFrame(house,columns=['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD',
'TAX', 'PTRATIO', 'B', 'LSTAT'])
house.info()# 查看基本的描述统计
house.describe()
Data Set Characteristics:
:Number of Instances: 506
:Number of Attributes: 13 numeric/categorical predictive. Median Value (attribute 14) is usually the target.
:Attribute Information (in order):
- CRIM per capita crime rate by town
- ZN proportion of residential land zoned for lots over 25,000 sq.ft.
- INDUS proportion of non-retail business acres per town
- CHAS Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
- NOX nitric oxides concentration (parts per 10 million)
- RM average number of rooms per dwelling
- AGE proportion of owner-occupied units built prior to 1940
- DIS weighted distances to five Boston employment centres
- RAD index of accessibility to radial highways
- TAX full-value property-tax rate per $10,000
- PTRATIO pupil-teacher ratio by town
- B 1000(Bk - 0.63)^2 where Bk is the proportion of black people by town
- LSTAT % lower status of the population
- MEDV Median value of owner-occupied homes in $1000's
- 首先是分析数据标签,要明白任务的需求。数据挖掘任务主要分为两类:回归与分类。
- 回归指标签值是连续值的任务,例如用到的数据集,要求预测房价信息,房价是一个连续的变量,因此这样的任务属于回归问题(Regression)
- 分类指标签值离散的任务,例如鸢尾花(Iris)数据集,收集三种鸢尾花的萼片长度,宽度等信息,要求根据这些信息预测鸢尾花属于哪种类别,因此标签就是1,2,3,代表三类鸢尾花。这种任务属于分类任务。
通过分析可知,房价标签是连续数据,因此是回归任务。
- 特征X理解
house_data.head()
house_data.info()
house_data.describe()
通过这几张基本统计表,我们可以看:
- 是否有缺失值
- 数据是否和我们理解的不同,例如处于[0-1]的值却>1
- 方差特别小的特征也考虑删除,或者说取值唯一的特征是没有意义的。(举例,如果在一次考试中,大家的数学成绩都是100分,那么是没有办法通过数学成绩来区分每位同学的能力的,也就是说数学这门课没有区分性,不具有分析的意义,可以删掉。)
- 方差太大说明数据不太可能是正态的,因为不够集中。(补充说明:标准差是方差开根号,标准差越大,对于正太分布来说,分布图像越矮胖,因此数据不集中。而标准差越小,对于正太分布来说,图像越矮瘦,数据集中。
- 对于是否有离群值后面我们需要通过箱线图或者散点图等可视化分析后才能得知。
继续,我们绘制所有特征的柱状图如下,来分析各特征的分布情况。进而通过分布观察变量之间的相关性。(这部分可以在scatter plot matrix中一起画出来,我们这里先单独画出来分析,以后就直接用scatter plot matrix就可以了)
https://blog.csdn.net/laffycat/article/details/125883973
http://t.csdn.cn/lGF1A
https://blog.csdn.net/qq_37596349/article/details/105378996
研究思路:
4. 先看首先研究单变量的数据类型、分布情况、是否有离群值等情况,
再研究变量之间的关系:相关性分析、分组统计等
3 特征清洗
缺失值统计和处理
边栏推荐
- 【夜莺监控方案】08-监控msyql集群(prometheuse+n9e+mysqld_exporter)
- 谷歌浏览器安装插件教程步骤,开发用这2个插件工作效率倍增
- Shell编程案例
- 软件测试技术之如何编写测试用例(3)
- 【QT】入门心法
- Big guy, who is free to help me to see what the problem is, I just read MySQL source print, and I just came into contact with flink.
- 货比四家 version tb1.63
- Cobalt Strike (CS) 逆向初探
- 阿里巴巴政委体系-第五章、阿里政委体系建设
- CC2530_ZigBee+华为云IOT:设计一套属于自己的冷链采集系统
猜你喜欢
6000 字+,帮你搞懂互联网架构演变历程!
[笔记]机器学习之前言介绍
Online monitoring of UPS power supply and operating environment in the computer room, the solution is here
微信小程序分享功能
基于DMS的数仓智能运维服务,知多少?
LeetCode 952. 按公因数计算最大组件大小
【HCIP】MPLS实验
online 方式创建索引触发trigger怎么办?
Selenium of reptiles
[Azure Event Hub] Create Event Hub Consume Client + Custom Event Position with Azure AD Authentication
随机推荐
pg_memory_barrier_impl in Postgresql and C's volatile
【QT】入门心法
typescript学习笔记
ADS 2023 Download Link
MySQL超详细安装教程 手把手教你安装MySQL到使用MySQL 最简单的MySQL安装方式,这种方式装,卸载也简单
Postgresql source code (65) analysis of the working principle of the new snapshot system Globalvis
Execute the mysql script file in the docker mysql container and solve the garbled characters
ctfshow php特性
WEB 渗透之SSRF
201712-3 CCF Crontab满分题解
基于DMS的数仓智能运维服务,知多少?
PHP Basic Notes-NO.2
Alibaba senior experts create a learning architecture from scratch, including Alibaba's internal technology stack PPT, PFD actual combat
MySQL如何一劳永逸的永久支持输入中文
PreFixSum前缀和
【C语言学习笔记(五)】while循环与for循环
WEB 渗透之RCE
选出表中的中位数记录[构造左右边界 || 问题转换]
基于移动GIS的环保生态管理系统
docker mysql 容器中执行mysql脚本文件并解决乱码