当前位置:网站首页>决策树原理及代码实现
决策树原理及代码实现
2022-07-29 23:32:00 【樱花的浪漫】
1.树模型
决策树:从根节点开始一步步走到叶子节点(决策)
所有的数据最终都会落到叶子节点,既可以做分类也可以做回归
2.树的组成
根节点:第一个选择点
非叶子节点与分支:中间过程
叶子节点:最终的决策结果
3.决策树的训练与测试
训练阶段:从给定的训练集构造出来一棵树(从跟节点开始选择特征, 如何进行特征切分)
测试阶段:根据构造出来的树模型从根节点一直走到叶子节点
如何切分特征(选择节点)
目标:通过一种衡量标准,来计算通过不同特征进行分支选择后的分类情况,找出来最好的那个当成根节点
衡量标准-熵
熵:熵是表示随机变量不确定性的度量 (解释:物体内部的混乱程度,比如杂货市场里面什么都有那肯定混乱呀,专卖店里面只卖一个牌子的那就稳定多啦)
公式:H(X)=- ∑ pi * logpi, i=1,2, ... , n
比如:
A集合[1,1,1,1,1,1,1,1,2,2] 、B集合[1,2,3,4,5,6,7,8,9,1]
显然A集合的熵值要低,因为A里面只有两种类别,相对稳定一些而B中类别太多了,熵值就会大很多
熵:不确定性越大,得到的熵值也就越大,当p=0或p=1时,H(p)=0,随机变量完全没有不确定性,当p=0.5时,H(p)=1,此时随机变量的不确定性最大

如何决策一个节点的选择呢?
信息增益:表示特征X使得类Y的不确定性减少的程度。(分类后的专一性,希望分类后的结果是同类在一起)
决策树构造实例
数据:14天打球情况
特征:4种环境变化
目标:构造决策树
划分方式:4种

在历史数据中(14天)有9天打球,5天不打球,所以此时的熵应为:
4个特征逐一分析,先从outlook特征开始:
Outlook = sunny时,熵值为0.971
Outlook = overcast时,熵值为0
Outlook = rainy时,熵值为0.971
决策树算法
ID3:信息增益
问题:当数据存在一个ID特征,那么,决策树在id特征的熵为0,就会根据ID进行分支,但是ID特征毫无意义。决策树无法处理矩阵稀疏,种类比较多的id特征
(和熵的衡量标准类似,计算方式不相同)
连续值怎么办?
决策树剪枝策略
为什么要剪枝:决策树过拟合风险很大,理论上可以完全分得开数据

边栏推荐
猜你喜欢

运动步数抽奖小程序开发

高数下|三重积分的计算3|高数叔|手写笔记

【云原生Kubernetes】二进制搭建Kubernetes集群(中)——部署node节点

devops学习(七) sonarqube 代码质检工具

DNA修饰的上转换纳米材料|聚胞苷酸Poly-C DNA修饰的氧化石墨烯|解析说明

MySQL函数(经典收藏)

接口测试的概念、目的、流程、测试方法有哪些?

Brute force recursion to dynamic programming 04 (digital string conversion)

纳米金颗粒修饰核酸产品|碳纳米管载核酸-DNA/RNA材料|解析说明
综合练习——三子棋小游戏
随机推荐
容器化数据库必经之道
[2023 School Recruitment Questions] Summary of knowledge points and hand-tear code in the written test and interview
In 2022, the latest Gansu construction staff (material staff) mock exam questions and answers
SAP ABAP 守护进程的实现方式
devops学习(六)Jenkins 持续部署-版本选择
[leetcode] The sword refers to Offer II 006. The sum of two numbers in a sorted array (binary search, double pointer)
C陷阱与缺陷 第3章 语义“陷阱” 3.10 为函数main提供返回值
C陷阱与缺陷 第4章 链接 4.2 声明与定义
cv.copyMakeBorder(imwrite opencv)
labview怎么做成应用程序(labview程序识别形状)
C陷阱与缺陷 第4章 链接 4.3 命名冲突与static修饰符
全国双非院校考研信息汇总整理 Part.2
【2023校招刷题】常见面试问题总结(七、常见总线协议篇)(随后续面试不断更新....)
jenkins use and maintenance
MySQL active/standby switch
全国双非院校考研信息汇总整理 Part.3
[leetcode] 75. Color classification (medium) (double pointer, in-situ modification)
esp12f + tft display picture problem
WIN2008的IIS上下载文件大小限制之修改
devops学习(七) sonarqube 代码质检工具