当前位置：网站首页>信息與熵，你想知道的都在這裏了

信息與熵，你想知道的都在這裏了

2022-07-05 09:02:00 【aelum】

️ 本文參考自 [d2l] Information Theory
如果這篇文章有幫助到你，可以關注️ + 點贊 + 收藏 + 留言，您的支持將是我創作的最大動力

此外，本文所提到的 $\log(\cdot)$ 如無特殊說明均指 $\log_2(\cdot)$ 。

一、自信息（Self-information）

先來看一個例子。擲一個質地均勻的骰子，會有 $6$ 種可能的結果，且每種結果發生的概率均為 $1 / 6$ 。現在：

設事件 $X=\{\text{點數不大於}6\}$ ，則顯然 $\mathbb{P}(X)=1$ ；此外，這句話是廢話，它並沒有告訴我們任何信息，因為擲一個骰子得到的點數肯定不會超過 $6$ ；
設事件 $X=\{\text{點數不大於}5\}$ ，則顯然 $\mathbb{P}(X)=5/6$ ；此外，這句話包含了一些信息，但並不多，因為我們差不多能够猜到結果；
設事件 $X=\{\text{點數正好等於}2\}$ ，則顯然 $\mathbb{P}(X)=1/6$ ；此外，這句話的信息量要比上面那句話更大，因為 $\{\text{點數正好等於}2\}$ 包含了 $\{\text{點數不大於}5\}$ 的信息在裏面。

從這個例子可以看出，一個事件 $X$ 所包含的信息量和它發生的概率有關系。概率越小信息量越大，概率越大信息量越少。

設事件 $X$ 所包含的信息量為 $I (X)$ ，其發生的概率為 $p\triangleq \mathbb{P}(X)$ ，那麼我們如何尋找 $I (X)$ 與 $p$ 之間的關系呢？

首先，我們有以下常識：

觀測一個幾乎確定的事件得到的信息量幾乎是 $0$ ；
共同觀測兩個隨機變量得到的信息量不超過分別觀測兩個隨機變量得到的信息量的和，且該不等式取等當且僅當兩個隨機變量相互獨立。

設事件 $X=\{A與B同時發生，其中A、B相互獨立\}$ ，則顯然 $\mathbb{P}(X)=\mathbb{P}(A)\mathbb{P}(B)$ ，而根據上述常識，又有 $I (X) = I (A) + I (B)$ 。不妨設 $I(*)=f(\mathbb{P}(*))$ ，則

$f(\mathbb{P}(A)\cdot \mathbb{P}(B))=f(\mathbb{P}(X))=I(X)=I(A)+I(B)=f(\mathbb{P}(A))+f(\mathbb{P}(B))$

不難看出 $\log(\cdot)$ 能够滿足這一要求。但考慮到 $\log x$ 在 $(0, 1]$ 上是非正的且單調遞增，所以我們一般采用 $-\log(\cdot)$ 來衡量一個事件的信息量。

綜合以上，設事件 $X$ 發生的概率為 $p$ ，則其信息量（又稱自信息）可以這樣計算：

$\textcolor{red}{I(X)=-\log p\tag{1}}$

當 $(1)$ 式中的 $\log$ 以 $2$ 為底時，自信息的單比特是 $\text{bit}$ ；
當 $(1)$ 式中的 $\log$ 以 $e$ 為底時，自信息的單比特是 $\text{nat}$ ；
當 $(1)$ 式中的 $\log$ 以 $10$ 為底時，自信息的單比特是 $\text{hart}$ 。

還可以得到：

$1\;\text{nat}=\log_2 e\;\text{bit}\approx 1.443 \;\text{bit},\quad 1\;\text{hart}=\log_2 10\;\text{bit}\approx 3.322 \;\text{bit}$

我們知道，對於任何長度為 $n$ 的二進制序列，它包含 $n$ 比特的信息。例如，對於序列 $0010$ ，它出現的概率是 $1/2^4$ ，因此

$I(\text{“\,0010\,”})=-\log\frac{1}{2^4}=4\;\text{bits}$

二、熵（Entropy）

設隨機變量 $X$ 服從分布 $\mathcal{D}$ ，則 $X$ 的熵定義為其信息量的期望：

$\textcolor{red}{H(X)=\mathbb{E}_{X\sim\mathcal{D}}[I(X)]}\tag{2}$

若 $X$ 是離散分布，則

$H(X)=-\mathbb{E}_{X\sim\mathcal{D}}[\log p_i]=-\sum_ip_i\log p_i$

若 $X$ 是連續分布，則

$H(X)=-\mathbb{E}_{X\sim\mathcal{D}}[\log p(x)]=-\int p(x)\log p(x)\text{d}x$

在離散情况下，設 $X$ 只取 $k$ 個值，則有： $0\leq H(X)\leq \log k$ 。

與信息量不同的是，這裏的 $X$ 是隨機變量而不是事件
把事件看成一個點，則信息量可以看成一個點所產生的的信息，而信息熵則代錶一系列點所產生的信息的均量
接下來的章節中我們都將只討論離散情形，連續情形下的公式可類比推理

2.1 聯合熵（Joint Entropy）

我們已經知道如何計算 $X$ 的信息熵了，那麼如何計算 $(X, Y)$ 的信息熵呢？

設 $(X,Y)\sim\mathcal{D}$ ，聯合概率分布為 $p_{ij}\triangleq \mathbb{P}(X=x_i,Y=y_j)$ ，再記 $p_i=\mathbb{P}(X=x_i),\,p_j=\mathbb{P}(Y=y_j)$ ，依照信息熵的定義類似可得

$\textcolor{red}{H(X,Y)=-\sum_{ij}p_{ij}\log p_{ij}}\tag{3}$

如果 $X = Y$ ，則 $H (X, Y) = H (X) = H (Y)$ ；如果 $X$ 和 $Y$ 相互獨立，則 $p_{ij}=p_i\cdot p_j$ ，進而

$H(X,Y)=-\sum_{ij}(p_i\cdot p_j)(\log p_i+\log p_j)=-\sum_j p_j\sum_i p_i\log p_i-\sum_ip_i\sum_jp_j\log p_j=H(X)+H(Y)$

此外，總有以下不等式成立：

$H(X),H(Y)\leq H(X,Y)\leq H(X)+H(Y)$

2.2 條件熵（Conditional Entropy）

條件熵 $H (Y ∣ X)$ 錶示在已知隨機變量 $X$ 的情况下隨機變量 $Y$ 的不確定性，定義為 $X$ 給定條件下 $Y$ 的條件概率分布的熵對 $X$ 的數學期望：

$H(Y|X)=\sum_i p_iH(Y|X=x_i)=\sum_i p_i \left( -\sum_j p_{j|i}\log p_{j|i}\right)=-\sum_{ij}p_{ij}\log p_{j|i}\tag{4}$

利用 $p_{j|i}=p_{ij}/p_i$ 可得

$H (Y ∣ X) = H (X, Y) - H (X)$

從上式可以看出， $H (Y ∣ X)$ 實際上代錶了包含在 $Y$ 但不包含在 $X$ 中的信息（類似於 $\ A ) = P ( A ∪ B ) − P ( A ) \mathbb{P}(B\backslash A)=\mathbb{P}(A\cup B)-\mathbb{P}(A)$ ）。

2.3 互信息（Mutual Information）

給定隨機變量 $(X, Y)$ ，我們已經知道了 $X$ 的信息可以用 $H (X)$ 來錶示； $(X, Y)$ 總共的信息可以用 $H (X, Y)$ 來錶示；包含在 $Y$ 但不包含在 $X$ 中的信息可以用 $H (Y ∣ X)$ 來錶示。那我們該用什麼來衡量 $X$ 和 $Y$ 都包含的信息呢？

答案是互信息，其定義如下（可以理解為集合 $X$ 與 $Y$ 的交集）：

$\textcolor{red}{I(X,Y)=H(X,Y)-H(Y|X)-H(X|Y)}\tag{5}$

熵、聯合熵、條件熵、互信息之間的關系如下：

從上圖還可以得到：

$\begin{aligned} I(X,Y)&=H(X)-H(X|Y) \\ I(X,Y)&=H(Y)-H(Y|X) \\ I(X,Y)&=H(X)+H(Y)-H(X,Y) \end{aligned}$

我們將 $(5)$ 式展開得到

$\begin{aligned} I(X,Y)&=-\sum_{ij}p_{ij}\log p_{ij}+\sum_{ij}p_{ij}\log p_{j|i}+\sum_{ij}p_{ij}\log p_{i|j} \\ &=\sum_{ij}p_{ij}(\log p_{j|i}+\log p_{i|j}-\log p_{ij}) \\ &=\sum_{ij} p_{ij} \log \frac{p_{ij}}{p_i\cdot p_j} \\ &=\mathbb{E}_{(X,Y)\sim \mathcal{D}}\left[\log \frac{p_{ij}}{p_i\cdot p_j}\right] \end{aligned}$

互信息的一些性質：

對稱性： $I (X, Y) = I (Y, X)$ ；
非負性： $I(X,Y)\geq 0$ ；
$I (X, Y) = 0$ $\;\Leftrightarrow\;$ $X$ 與 $Y$ 相互獨立；

2.4 點互信息（Pointwise Mutual Information）

點互信息定義為：

$\textcolor{red}{\text{PMI}(x_i,y_j)=\log \frac{p_{ij}}{p_i\cdot p_j}} \tag{6}$

結合 2.3 節，我們會發現有如下關系成立（好比信息熵是信息量的期望一樣，互信息也是點互信息的期望）

$I(X,Y)=\mathbb{E}_{(X,Y)\sim \mathcal{D}}\left[\text{PMI}(x_i,y_j)\right]$

PMI 的值越高，錶示 $x_i$ 與 $y_j$ 的相關性越强。PMI 常用於 NLP 任務中計算兩個單詞之間的相關性，但如果語料庫不足，可能會出現 $p_{ij}=0$ 的情况，這就導致兩個單詞的互信息為 $-\infty$ ，因此需要做一個修正：

$\text{PPMI}(x_i,y_j)=\max(0,\text{PMI}(x_i,y_j))$

上述的 PPMI 又稱為正點互信息（Positive PMI）。

三、相對熵（KL散度）

相對熵（Relative Entropy）又稱為KL散度（Kullback–Leibler divergence），後者是其更常用的名字。

設隨機變量 $X$ 服從概率分布 $P$ ，現在我們嘗試用另外一個概率分布 $Q$ 來估計 $P$ （假設 $Y\sim Q$ ）。記 $p_i=\mathbb{P}(X=x_i),\,q_i=\mathbb{P}(Y=x_i)$ ，則KL散度定義為

$D_{\text{KL}}(P\Vert Q)=\mathbb{E}_{X\sim P}\left[\log \frac{p_i}{q_i}\right]=\sum_ip_i\log \frac{p_i}{q_i}\tag{7}$

KL散度的一些性質：

非對稱性： $D_{\text{KL}}(P\Vert Q)\neq D_{\text{KL}}(Q\Vert P)$ ；
非負性： $D_{\text{KL}}(P\Vert Q)\geq 0$ ，等式成立當且僅當 $P = Q$ ；
若存在 $x_i$ 使得 $p_i>0,\,q_i=0$ ，則 $D_{\text{KL}}(P\Vert Q) =\infty$ 。

KL散度被用來衡量兩個概率分布之間的差异。如果兩個分布完全相等，則KL散度為 $0$ 。因此，KL散度可以用作多分類任務的損失函數。

由於KL散度不滿足對稱性，因此它不是嚴格意義上的 “距離”

四、交叉熵（Cross-Entropy）

我們將 $(7)$ 式拆解

$D_{\text{KL}}(P\Vert Q)=\sum_i p_i\log p_i-\sum_i p_i\log q_i$

若令 $\text{CE}(P,Q)=-\sum_i p_i\log q_i$ ，則上式可寫成

$D_{\text{KL}}(P\Vert Q)=\text{CE}(P,Q)-H(P)$

而 $\text{CE}(P,Q)$ 就是我們所說的交叉熵，其正式定義為

$\textcolor{red}{\text{CE}(P,Q)=-\mathbb{E}_{X\sim P}[\log q_i]}\tag{8}$

結合KL散度的非負性，我們還可以得到 $\text{CE}(P,Q)\geq H(P)$ ，該不等式又稱為吉布斯不等式。

通常 $\text{CE}(P,Q)$ 也會寫成 $H (P, Q)$

交叉熵計算一例：

$P$ 是真實分布，而 $Q$ 是估計分布，考慮三分類問題，對於某個樣本，其真實標簽和預測結果列在下錶中：

	類別 1	類別 2	類別 3
target	0	1	0
prediction	0.2	0.7	0.1

從上錶可以看出，該樣本真實情况是屬於類別 2，且 $p_1=0,p_2=1,p_3=0,q_1=0.2,q_2=0.7,q_3=0.1$ 。

因此

$\text{CE}(P,Q)=-(0\cdot \log 0.2+1\cdot \log 0.7+0\cdot \log 0.1)=-\log 0.7\approx 0.5146$

當給定了數據集， $H (P)$ 就成了一個常數，因此KL散度和交叉熵都能够用作多分類問題的損失函數。當真實分布 $P$ 是 One-Hot 向量時，則有 $H (P) = 0$ ，此時交叉熵等於KL散度

4.1 二元交叉熵（Binary Cross-Entropy）

二元交叉熵（BCE）是交叉熵的一個特例

$\begin{aligned} \text{BCE}(P,Q)&=-\sum_{i=1}^2p_i\log q_i \\ &=-(p_1\log q_1+p_2\log q_2) \\ &=-(p_1\log q_1+(1-p_1)\log (1-q_1))\qquad \end{aligned}$

BCE 可用作二分類或多標簽分類的損失函數。

交叉熵損失前通常接Softmax，而二元交叉熵損失前通常接Sigmoid
二分類情景下，輸出層既可以采用一個神經元+Sigmoid也可以采用兩個神經元+Softmax，兩者等價，但使用前者訓練起來更快一些

BCE 還可通過 MLE 得到。給定 $n$ 個樣本： $x_1,x_2,\cdots,x_n$ ，每個樣本的標簽 $y_i$ 非 $0$ 即 $1$ （ $1$ 代錶正類， $0$ 代錶負類），神經網絡的參數簡記為 $\theta$ 。我們的目標是尋找最優的 $\theta$ 使得 $\hat{y}_i=\mathbb{P}_{\theta}(y_i|x_i)$ 。設 $x_i$ 被分類為正類的概率為 $\pi_i=\mathbb{P}_{\theta}(y_i=1|x_i)$ ，則對數似然函數為

$\begin{aligned} \ell(\theta)&=\log L(\theta) \\ &=\log \prod_{i=1}^n \pi_i^{y_i}(1-\pi_i)^{1-y_i} \\ &=\sum_{i=1}^ny_i\log \pi_i+(1-y_i)\log (1-\pi_i) \end{aligned}$