当前位置:网站首页>Chapter 4 决策树和随机森林
Chapter 4 决策树和随机森林
2022-07-27 02:19:00 【桑之未落0208】
目录
1 信息熵
1.1 熵
熵可以理解成概率分布的不确定性的期望值。这个值越大,表示该概率分布不确定性越大。它为我们人类提供的“信息”就越小,我们越难利用这个概率分布做出一个正确的判断。即概率越大越确定,熵就越小。
表达式:
1.2 联合熵
(X,Y)所包含的熵
表达式:
1.3 条件熵
(X,Y)所包含的熵,减去X单独发生包含的熵,即在X发生的前提下,Y发生“新”带来的熵。
表达式:
或者
推导:

1.4 相对熵
相对熵又称互熵、交叉熵、鉴别信息、Kullback熵、Kullback-Leible散度等等。
设p(x)、q(x)是X中取值的两个概率分布,则对p对q的相对熵是


ps:相对熵可以度量两个随机变量的“距离”,想要使得相对熵最小,
是固定的,所以要使得
最大。写成样本为
,求其最大值,即为求最大似然估计。
1.5 互信息
两个随机变量X,Y的互信息,定义为X,Y的联合分布和独立分布乘积的相对熵。
也可以看作H(Y)和H(Y|X)的差值。
表达式:
或:
或:
度量联合分布和独立分布乘积的“距离”;若X,Y相互独立,那么互信息就为0。
第二个公式推导:
第三个公式推导:

1.6 Veen图

2 决策树学习算法
2.1 信息增益
当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵和条件熵分别称为经验熵和经验条件熵。
信息增益表示得知特征A的信息而使得类X的信息的不确定性减少的程度。
定义:特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即
.
显然,这是训练数据集D和特征A的互信息。
2.2 ID3、C4.5 、CART
ID3:以信息熵下降速度作为选取测试属性的标准,即在每个节点选取还尚未被用来划分的具有最高信息增益的属性作为划分标准,然后继续这个过程,知道生成的决策树能完美分类训练样例。
C4.5:C4.5算法是ID3算法的一个扩展。使用的是信息增益率。
CART:CART算法也是ID3算法的一个扩展。使用的是Gini系数。
3 信息增益率与Gini系数
3.1 定义

3.2 Gini系数相关讨论
第一定义

第二定义

边栏推荐
- Program to change the priority of the process in LabVIEW
- Banyan data model of Bairong
- Okaleido tiger is about to log in to binance NFT in the second round, which has aroused heated discussion in the community
- mysql底层数据结构
- Characteristics and experimental suggestions of abbkine abfluor 488 cell apoptosis detection kit
- 深圳家具展首日,金可儿展位三大看点全解锁!
- DTS搭载全新自研内核,突破两地三中心架构的关键技术|腾讯云数据库
- Textbox in easyUI inserts content at the cursor position
- 数据库概论 - 数据库的介绍
- 数字孪生实际应用:智慧城市项目建设解决方案
猜你喜欢

flask_ Reqparse parser inheritance in restful

深圳家具展首日,金可儿展位三大看点全解锁!

关于使用hyperbeach出现/bin/sh: 1: packr2: not found的解决方案

DTS搭载全新自研内核,突破两地三中心架构的关键技术|腾讯云数据库

Spark: calculate the average value of the same key in different partitions (entry level - simple implementation)

Realization of regular hexagon map with two-dimensional array of unity

面试题:String类中三种实例化对象的区别

app端接口用例设计方法和测试方法

477-82(236、61、47、74、240、93)

MySQL Chinese failure
随机推荐
在typora中插入图片和视频
Banyan data model of Bairong
Daffodils (day 78)
Mysql database related operations
Principle understanding and application of hash table and consistent hash
如何进行 360 评估
深圳家具展首日,金可儿展位三大看点全解锁!
【无标题】JDBC连接数据库读超时
DNS record type and explanation of related terms
Take you to know what Web3.0 is
数据库概论 - MySQL的简单介绍
基于OpenCV的轮廓检测(2)
Network security / penetration testing tool awvs14.9 download / tutorial / installation tutorial
Meta Quest内容生态总监谈App Lab设计初衷
[untitled] JDBC connection database read timeout
Docker creates MySQL 8.x container and supports Mac and arm architecture chips
redis入门练习
架构基本概念和架构本质
Connman introduction
GetObject call timing of factorybean
