当前位置：网站首页>熵-条件熵-联合熵-互信息-交叉熵

熵-条件熵-联合熵-互信息-交叉熵

2022-06-30 17:49:00 【古路】

熵-条件熵-联合熵-互信息-交叉熵

0.引言

属于信息论基本概念。

1.信息熵 Entropy (information theory)

wiki
如何理解信息熵，这个视频做得真的很棒！

信息量： $x = log_2N$ ， $N$ 为等可能事件数量。例如，信息量为3，则原始等可能事件数为 $2^3=8$ .

请添加图片描述

信号量是信息熵的一个特例：事件是等可能发生的。

假设一个硬币：正面出现的概率为 0.8, 反面出现的概率为 0.2
将其转换为等可能事件（ $N = 1 / p$ ）：
- 正面–>想象为 $1 / 0.8 = 1.25$ 个等可能事件中出现一次的概率
- 反面–>想象为 $1 / 0.2 = 5$ 个等可能事件中出现一次的概率
则此时的信息量为：直观的信息量应为 $l o g 1.25 + l o g 5$ ，由于这两个等可能事件出现的概率也不同，所以此时真正的信息量为融入概率后的： $0.8*log\frac{1}{0.8} + 0.2*log\frac{1}{0.2}$ .
这就得出了著名的信息熵公式： $\Sigma{p_ilog\frac{1}{p_i}} = - \Sigma p_ilogp_i$
$H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)$

这篇文章中给出了定义:

定义：熵, 用来度量信息的不确定程度。
解释：熵越大，信息量越大。不确定程度越低，熵越小，比如“明天太阳从东方升起”这句话的熵为0，因为这个句话没有带有任何信息，它描述的是一个确定无疑的事情。

例子也很直观：

例子：假设有随机变量X，用来表达明天天气的情况。X可能出现三种状态 1) 晴天2) 雨天 3)阴天每种状态的出现概率均为 P(i) = 1/3，那么根据熵的公式： $H(X)=-\sum_{i=1}^{n} p\left(x_{i}\right) \log p\left(x_{i}\right)$

可以计算得到：H(X) = - 1/3 * log(1/3) - 1/3 * log(1/3) + 1/3 * log(1/3) = log3 =0.47712

如果这三种状态出现的概率为(0.1, 0.1, 0.8)：H(X) = -0.1 * log(0.1) *2 - 0.8 * log(0.8) = 0.277528

可以发现前面一种分布X的不确定程度很高（熵值很高），每种状态都很有可能。后面一种分布，X的不确定程度较低（熵值较低），第三种状态有很大概率会出现。

2.条件熵 Conditional entropy

wiki

定义：在一个条件下，随机变量的不确定性。

两个随机变量X，Y的分布，可以形成联合熵（Joint Entropy），用H(X, Y)表示。即： $H (X, Y) = - Σ p (x, y) l o g (x, y)$
$H (X ∣ Y) = H (X, Y) - H (Y)$ , 表示(X, Y)发生所包含的熵，减去Y单独发生包含的熵：在Y发生的前提下，X发生新带来的熵。

$\begin{aligned} &H(X|Y) = H(X, Y)-H(X) \\ &=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x} p(x) \log p(x) \\ &=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x}\left(\sum_{y} p(x, y)\right) \log p(x) \\ &=-\sum_{x, y} p(x, y) \log p(x, y)+\sum_{x, y} p(x, y) \log p(x) \\ &=-\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x)} \\ &=-\sum_{x, y} p(x, y) \log p(y \mid x) \end{aligned}$

3.联合熵 Joint Entropy

wiki

两个离散随机变量 X ,Y 的联合熵（以比特为单位）定义为:

$\mathrm {H} (X,Y)=-\sum _{x\in {\mathcal {X}}}\sum _{y\in {\mathcal {Y}}}P(x,y )\log _{2}[P(x,y)]$

对于两个以上的随机变量 $X_{1},...,X_{n}$ 扩展:

$\mathrm {H} (X_{1},...,X_{n})=-\sum _{x_{1}\in {\mathcal {X}}_{1}}... \sum _{x_{n}\in {\mathcal {X}}_{n}}P(x_{1},...,x_{n})\log _{2}[P(x_{1 },...,x_{n})]$

4.互信息 Mutual information

wiki

定义：指的是两个随机变量之间的相关程度。

理解：确定随机变量X的值后，另一个随机变量Y不确定性的削弱程度，因而互信息取值最小为0，意味着给定一个随机变量对确定一另一个随机变量没有关系，最大取值为随机变量的熵，意味着给定一个随机变量，能完全消除另一个随机变量的不确定性。这个概念和条件熵相对。

${\begin{aligned}\operatorname {I} (X;Y)&{}\equiv \mathrm {H} (X)-\mathrm {H} (X\mid Y)\\&{}\equiv \mathrm {H} (Y)-\mathrm {H} (Y\mid X)\\&{}\equiv \mathrm {H} (X)+\mathrm {H} (Y)-\mathrm {H} (X,Y)\\&{}\equiv \mathrm {H} (X,Y)-\mathrm {H} (X\mid Y)-\mathrm {H} (Y\mid X)\end{aligned}}$

${\begin{aligned}\operatorname {I} (X;Y)&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log {\frac {p_{(X,Y)}(x,y)}{p_{X}(x)p_{Y}(y)}}\\&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log {\frac {p_{(X,Y)}(x,y)}{p_{X}(x)}}-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log p_{Y}(y)\\&{}=\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{X}(x)p_{Y\mid X=x}(y)\log p_{Y\mid X=x}(y)-\sum _{x\in {\mathcal {X}},y\in {\mathcal {Y}}}p_{(X,Y)}(x,y)\log p_{Y}(y)\\&{}=\sum _{x\in {\mathcal {X}}}p_{X}(x)\left(\sum _{y\in {\mathcal {Y}}}p_{Y\mid X=x}(y)\log p_{Y\mid X=x}(y)\right)-\sum _{y\in {\mathcal {Y}}}\left(\sum _{x\in {\mathcal {X}}}p_{(X,Y)}(x,y)\right)\log p_{Y}(y)\\&{}=-\sum _{x\in {\mathcal {X}}}p_{X}(x)\mathrm {H} (Y\mid X=x)-\sum _{y\in {\mathcal {Y}}}p_{Y}(y)\log p_{Y}(y)\\&{}=-\mathrm {H} (Y\mid X)+\mathrm {H} (Y)\\&{}=\mathrm {H} (Y)-\mathrm {H} (Y\mid X).\\\end{aligned}}$

两个随机变量 $X, Y$ 的互信息,定义为 $X, Y$ 的联合分布和独立分布乘积的相对熵。
$I (X, Y) = D (P (X, Y) ∣ ∣ P (X) P (Y))$ ， $Y)=\sum_{x, y} p(x, y) \log \frac{p(x, y)}{p(x) p(y)}$

互信息和信息增益实际是同一个值。信息增益 = 熵 – 条件熵， $g (D, A) = H (D) - H (D ∣ A)$

请添加图片描述

5.相对熵

wiki

相对熵,又称互熵,交叉熵,鉴别信息,Kullback熵,Kullback-Leible散度等.

设 $p (x) 、 q (x)$ 是 $X$ 中取值的两个概率分布,则 $p$ 对 $q$ 的相对熵是
$D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\log \left({\frac {P(x)}{Q(x)}}\right)=-\sum _{x\in {\mathcal {X}}}P(x)\log \left({\frac {Q(x)}{P(x)}}\right)$