当前位置:网站首页>白话详解决策树模型之使用信息熵构建决策树
白话详解决策树模型之使用信息熵构建决策树
2022-07-26 15:12:00 【白话机器学习】
今天,我们来继续分享决策树的相关内容。通过上一篇文章,我们知道了决策树的基本原理就是根据构建的树结构,从上到下,通过if/else的模式找到一条判决路径并最终获得判决结果的过程。
决策树算法中核心的部分就是如何选择一个合适的特征属性进行划分,从而逐步的构造出我们的树形结构。
根据我们选择特征进行划分的量化评估标准的不同,决策树有多种不同的构造算法,上一篇我们介绍了使用Gini(基尼系数)作为分裂标准来构造决策树,我们称这种决策树算法为CART算法。
今天,我们从信息增益角度来进一步探讨一下构造决策树的其他算法。目前,常用的决策树构造算法如下:

首先,在具体探讨之前,我们还是先了解一些基本概念:
什么是信息熵?
信息熵这一概念由克劳德·香农于1948年提出。信息是一个很抽象的概念,假设我们以一篇文章为例,文章的信息量的多少并不完全取决于这篇文章中文字字数的多少,有时候即使很少的内容也可以蕴含很大的信息量。信息熵的提出就是为了解决对信息的量化评估问题的。
信息熵H(X)的计算公式如下:

边栏推荐
- 数商云:引领化工业态数字升级,看摩贝如何快速打通全场景互融互通
- 企业数字化转型需要深入研究,不能为了转型而转型
- Enterprise digital transformation needs in-depth research, and it cannot be transformed for the sake of transformation
- Use of oscilloscope
- R language wilcox The test function compares whether there is a significant difference in the central position of the population of two nonparametric samples (if the two sample data are paired data, s
- [leetcode] 33. Search rotation sort array
- If food manufacturing enterprises want to realize intelligent and collaborative supplier management, it is enough to choose SRM supplier system
- In the changing era of equipment manufacturing industry, how can SCM supply chain management system enable equipment manufacturing enterprises to transform and upgrade
- 第七章 在 REST 服务中支持 CORS
- R语言使用lm函数构建多元回归模型(Multiple Linear Regression)、并根据模型系数写出回归方程、使用fitted函数计算出模型的拟合的y值(响应值)向量
猜你喜欢

【留点代码】将transformer运用到目标检测上来,通过debug了解模型的模型运算流程

Practical purchasing skills, purchasing methods of five bottleneck materials

【LeetCode】33、 搜索旋转排序数组

C # set different text watermarks for each page of word

Devsecops, speed and security

持续集成(二)Jenkins基本使用介绍

二叉树的创建以及遍历

VS添加作者信息和时间信息的设置

How to write the format of a university thesis?

谷歌尝试为ChromeOS引入密码强度指示器以提升线上安全性
随机推荐
How to translate academic documents?
C # set different text watermarks for each page of word
桌面应用布局图
How do college students apply for utility model patents?
R language Visual scatter diagram, geom using ggrep package_ text_ The rep function avoids overlapping labels between data points (set the min.segment.length parameter to 0 to add line segments to the
The most detailed patent application tutorial, teaching you how to apply for a patent
谷歌尝试为ChromeOS引入密码强度指示器以提升线上安全性
QCF for deep packet inspection论文总结
Prometheus adds email alarm and enterprise wechat robot alarm
Data preprocessing of data mining
Within a week, I developed my own knowledge sharing platform
Soft test (VII) performance test (1) brief introduction
2023餐饮业展,中国餐饮供应链展,江西餐饮食材展2月举办
cs224w(图机器学习)2021冬季课程学习笔记5
If food manufacturing enterprises want to realize intelligent and collaborative supplier management, it is enough to choose SRM supplier system
FOC learning notes - coordinate transformation and simulation verification
Sqldeveloper tools quick start
Qt最基本的布局,创建window界面
Xiaobai, which securities firm is the best and safest to open an account
R语言ggplot2可视化:使用ggplot2可视化散点图、使用ggpubr包的theme_pubclean函数设置可视化图像不包含坐标轴线的主题(theme without axis lines)