当前位置：网站首页>朴素贝叶斯分类

朴素贝叶斯分类

2022-07-30 02:58:00 【Caaaaaan】

分类概念

分类：找出描述和区别数据类或概念的模型，以便能够使用模型预测类标号未知的对象的类标号
一般过程：
- 学习阶段
  - 建立描述预先定义的数据类或概念集的分类器
  - 训练集提供了每个训练元组的类标号，分类的学习过程也成为监督学习
- 分类阶段
  - 使用定义好的分类器进行分类的过程

概念区分：
分类与预测
分类是预测分类（离散、无序）标号
预测建立连续值函数模型，来预测一个数值
分类与聚类
分类是有监督学习，提供了训练元组的类标号
聚类是无监督学习，不依赖有类标号的训练实例

朴素贝叶斯分类

介绍

一种后验概率：是事先观察不到的一个概率值

$P(h|D)=\frac{P(D|h)P(h)}{P(D)}\\ P(h|D)表示在D的情况下，h的概率是多少$

在这里插入图片描述

定义分类器

$定义：\\ P(h|D)=\frac{P(D|h)P(h)}{P(D)}\\ P(h|D):h的后验概率\\ P(D|h):h的似然概率-从训练集中已知\\ P(h):h的先验概率\\ P(D):D的先验概率\\ D:待测试数据\\ h:假设类别\\$

在这里插入图片描述

我们对其提出多个假设——h1,h2,h3…
哪个概率更大，我们就认为D属于哪个类别更合理

极大后验假设定义
学习器在候选假设集合H中寻找给定数据D时可能性最大的假设h，h被称为极大后验假设

$P(h_1|D)=\frac{P(D|h_1)P(h_1)}{P(D)}\\ P(h_2|D)=\frac{P(D|h_2)P(h_2)}{P(D)}\\ P(h_3|D)=\frac{P(D|h_3)P(h_3)}{P(D)}\\ h_{MAP}=\max_{h\in H}P(h|D)\\ =\max_{h\in H}\frac{P(D|h)P(h)}{P(D)}\\ =\max_{h\in H}P(D|h)P(h)$

对象D是一个多维向量
eg:一个收入中等，信用度良好的青年爱好游戏顾客，是否会购买电脑
从中可以得到4个维度特征，即该对象时4维向量
多维对象——联合概率

$\bullet已知：对象D是由多个属性组成的向量(向量维度根据特征数目)\\ D=<a_1,a_2,...,a_n>\\ \bullet目标：h_{MAP}=\max_{h\in H}P(h|D)\\ h_{MAP}=\max_{h\in H}P(h|<a_1,a_2,...,a_n>)\\ \max_{h\in H}P(<a_1,a_2,...,a_n>|h)P(h)\\$

问题：当维度过高时，可用数据会变得很稀疏，难以获得结果
对于联合概率的极大开销，我们提出一个假设
假设每个属性都是独立同分布的
在独立同分布的假设下，我们的联合概率变成各个属性条件概率的连乘

$\bullet 假设D的属性a_i之间相互独立\\ P(<a_1,a_2,...,a_n>|h)=\prod_i^nP(a_i|h)\\ h_{MAP}=\max_{h\in H}P(h|<a_1,a_2,...,a_n>)\\ =\max_{h\in H}P(<a_1,a_2,...,a_n>|h)P(h)\\ =\max_{h\in H}\prod_i^nP(a_i|h)p(h)$