当前位置:网站首页>【数据挖掘】期末复习 第三章
【数据挖掘】期末复习 第三章
2022-06-21 05:55:00 【一个很菜的小猪】
第三章 分类
1. 分类的定义
分类是对数据集进行学习并构造一个拥有预测功能的分类模型,用于预测未知样本的类标号,如:根据电子邮件的标题和内容预测该邮件是否为垃圾邮件。分类和回归都有预测的功能,但是:分类预测的输出为离散或标称的属性;回归预测的输出为连续属性值,例如:预测未来某银行客户会流失或不流失,这是分类任务,预测某商场未来一年的总营业额,这是回归任务。
2. 分类的应用领域
目前分类与回归方法已被广泛应用于各行各业,如:在金融领域中,分类器被用于预测股票未来的走向。在医疗诊断中,预测疾病的诊断。在市场营销中,利用历史的销售数据,预测某些商品是否可以销售、预测广告应该投放到哪个区域等。
3. 分类的一般步骤
(1) 将数据集划分为训练集和测试集;
(2) 对训练集进行学习,构建分类模型;(这个模型可以是决策树或分类规则等)
(3) 用分类模型对测试集进行分类;评估该分类模型的分类准确度及其它性能;
(4) 使用分类准确度高的分类模型对类标号未知的未来样本数据进行分类。
4. 分类算法归类
分类方法:
- 基于决策树的分类方法
- 贝叶斯分类方法
- 最近邻分类方法
- 神经网络方法
- 支持向量机等
回归方法:
- 线性回归
- 非线性回归
- 逻辑回归等
5. 决策树分类算法
ID3、C4.5、CART等
6. ID3决策树
ID3 分类算法使用信息增益作为属性的选择标准。其基本思想如下:首先检测所有属性,选择信息增益最大的属性产生决策树结点,由该属性的不同取值建立分支,再对各分支的子集递归调用该方法建立决策树结点的分支,直到所有子集仅包含同一个类别的数据为止。最后得到一棵决策树,它可以用来对新的样本进行分类。
信息熵的定义:
用概率去算
信息增益的定义:
划分前-划分后
7. C4.5算法
特点:
- 能够处理连续型属性数据和离散型属性数据
- 使用信息增益率作为决策树的属性选择标准
分裂信息:

信息增益率:

8. CART算法
Gini系数:

例题:


答案:
边栏推荐
- Microbial ecological sequencing analysis -- CCA analysis
- 【Prometheus】Prometheus联邦的一次优化记录
- Connection refused : no futher information : localhost/127.0.0.1:6379
- Improved Object Categorization and Detection Using Comparative Object Similarity
- 一次Namenode的RPC延迟故障排查引发的深入思考
- lambda-stream
- You have an error in your SQL syntax; check the manual that corresponds to your MYSQL server
- Private board of directors of science and technology innovators · digital intelligence future (issue 4): demonstration of transformation - survivor bias and blind people touching elephants
- Embedded programming complexity
- el-table表格循环升级版
猜你喜欢
随机推荐
MySQL MySQL mysqldump data backup and incremental backup
实现杀菌、除臭、除异味多效集成的UVC杀菌灯
R统计绘图-环境因子相关性+mantel检验组合图(linkET包介绍1)
C common chart components
Improved Object Categorization and Detection Using Comparative Object Similarity
ReturnType
sqli-labs-17
Discussion on the American ess audio DAC decoder chip es9023
sqli-labs25
Laravel
China video booth market status research analysis and development prospect forecast report (2022)
硬件探索——数字钟的设计与制作
Armcm3 authoritative guide notes - the impact of address misalignment in arm programming
numpy.get_include()
sqli-labs26
[Prometheus] an optimization record of Prometheus Federation
Attack and defense world PHP_ rce
Huashao, founder of Kechuang · kuxuan Technology: make products with win-win thinking, connect ecology, and realize large-scale development
DP背包总结
sqli-labs23









