当前位置：网站首页>高维高斯分布基础

高维高斯分布基础

2022-08-01 01:08:00 【Adenialzz】

高维高斯分布基础

多位高斯分布的几何理解

多维高斯分布表达式为：
$p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}$
其中 $x,\mu\in\mathbb{R}^{p},\Sigma\in\mathbb{R}^{p\times p}$ ， $\Sigma$ 为协方差矩阵，一般而言是半正定矩阵，这里我们强化一下条件，只考虑正定矩阵。

首先我们处理指数上的数字，指数上的数字可以记为 $x$ 和 $\mu$ 之间的马氏距离。

马氏距离(Mahalanobis Distance)是度量学习中一种常用的距离指标，同欧氏距离、曼哈顿距离、汉明距离等一样被用作评定数据之间的相似度指标。但却可以应对高维线性分布的数据中各维度间非独立同分布的问题。
两个向量 $\bf{x}$ 和 $\mathbf{y}{}$ 之间的马氏距离为：
$D_M(\bf{x},\bf{y})=\sqrt{(\bf{x}-\bf{y})^T\Sigma^{-1}(\bf{x}-\bf{y}))}$
其中 $\Sigma$ 是多维随机变量的协方差矩阵， $\mu$ 为样本均值，如果协方差矩阵是单位向量（ $\Sigma=I$ ），也就是各维度独立同分布，马氏距离就变成了欧氏距离。
关于马氏距离，详见：马氏距离(Mahalanobis Distance)。

对于对称的协方差矩阵可进行特征值分解， $\Sigma=U\Lambda U^{T}=(u_{1},u_{2},\cdots,u_{p})diag(\lambda_{i})(u_{1},u_{2},\cdots,u_{p})^{T}=\sum\limits _{i=1}^{p}u_{i}\lambda_{i}u_{i}^{T}$ ，于是：
$\Sigma^{-1}=\sum\limits _{i=1}^{p}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T}$

$\Delta=(x-\mu)^{T}\Sigma^{-1}(x-\mu)=\sum\limits _{i=1}^{p}(x-\mu)^{T}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T}(x-\mu)=\sum\limits _{i=1}^{p}\frac{y_{i}^{2}}{\lambda_{i}}$

我们注意到 $y_{i}$ 是 $x-\mu$ 在特征向量 $u_{i}$ 上的投影长度，因此上式子就是 $\Delta$ 取不同值时的同心椭圆。例如，在维度 $P = 2$ 时，取 $\Delta=1$ ，则有： $\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=1$ ，明显就是椭圆的曲线方程。

多维高斯模型的限制

下面我们看多维高斯模型在实际应用时的两个限制：

参数 $\Sigma,\mu$ 的自由度为 $O(p^{2})$ 对于维度很高的数据其自由度太高。
- 解决方案：高自由度的来源是 $\Sigma$ 有 $\frac{p(p+1)}{2}$ 个自由参数，可以假设其是对角矩阵，甚至假设其对角线上的元素都相同，此时称为各向同性的高斯分布。前一种的算法有 Factor Analysis，后一种有概率 PCA (p-PCA) 。
第二个问题是单个高斯分布是单峰的，对有多个峰的数据分布不能得到好的结果。
- 解决方案：使用多个单高斯模型组合得到高斯混合模型 GMM。

多维高斯分布的边缘概率和条件概率

对于高斯模型的线性变换，有这样一个定理（暂不证明）：
定理：已知 $x\sim\mathcal{N}(\mu,\Sigma), y\sim Ax+b$ ， $x\in\mathbb{R}^p,y\in\mathbb{R}^p$ ，那么 $y\sim\mathcal{N}(A\mu+b, A\Sigma A^T),\ \ \Sigma \in \mathbb{R}^{p\times p },\ \ A\in\mathbb{R}^{1\times p}$ 。

我们将 $p$ 维样本数据拆分为 $m + n$ 维： $x=(x_1, x_2,\cdots,x_p)^T=(x_{a,m\times 1}, x_{b,n\times1})^T$ 。

对应的高斯模型的参数也进行拆分：均值 $\mu=(\mu_{a,m\times1}, \mu_{b,n\times1})^T$ ，协方差矩阵 $\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}$ ，已知 $x\sim\mathcal{N}(\mu,\Sigma)$ 。

下面介绍如何求多维高斯分布的边缘概率和条件概率 $p(x_a),p(x_b),p(x_a|x_b),p(x_b|x_a)$ 。

求边缘概率

构造 $x_a=\begin{pmatrix}{I}_{m\times m}&{O}_{m\times n}\end{pmatrix}\begin{pmatrix}x_a\\x_b\end{pmatrix}$ ，其中 $I, O$ 分别是单位矩阵和零矩阵，代入上述定理中得到：
$\mathbb{E}[x_a]=\begin{pmatrix}{I}&{O}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_a\\ Var[x_a]=\begin{pmatrix}{I}&{O}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}{I}\\{O}\end{pmatrix}=\Sigma_{aa}$
所以 $x_a\sim\mathcal{N}(\mu_a,\Sigma_{aa})$ ，边缘概率 $p(x_a)$ 就得到了。类似的， $x_b\sim\mathcal{N}(\mu_b,\Sigma_{bb})$ 。

求条件概率

对于两个条件概率，通常是用配方法（如 PRML 的证明），这里我们用一种构造法。首先引入三个量，令：
$x_{b\cdot a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a\\ \mu_{b\cdot a}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a\\ \Sigma_{bb\cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}$
特别的，最后一个式子叫做 $\Sigma_{aa}$ 的 Schur Complementary。可以看到：
$x_{b\cdot a}=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&{I}_{n\times n}\end{pmatrix}\begin{pmatrix}x_a\\x_b\end{pmatrix}$
再有定理，有：
$\mathbb{E}[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_{b\cdot a}\\ Var[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}-\Sigma_{aa}^{-1}\Sigma_{ba}^T\\{I}_{n\times n}\end{pmatrix}=\Sigma_{bb\cdot a}$
则对于我们构造的 $x_{b\cdot a}$ ，有 $x_{b\cdot a}\sim\mathcal{N}(\mu_{b\cdot a},\Sigma_{bb\cdot a})$ ，这里可以看到最初这个构造的设计中，核心的构造就是 $x_{b\cdot a}$ ，而 $\mu_{b\cdot a},\ \Sigma_{bb\cdot a}$ 只是两个记号，在这种构造的推导下来表示一下均值和方差。

由我们最初的构造，有 $x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$ ，再由定理：
$\mathbb{E}[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$

$Var[x_b|x_a]=\Sigma_{bb\cdot a}$

所以 $x_b|x_a\sim \mathcal{N}(\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a,\Sigma_{bb\cdot a})$ 。类似的， $x_a|x_b\sim \mathcal{N}(\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b,\Sigma_{aa\cdot b})$ 。

根据边缘概率和条件概率求联合概率

已知： $p(x)=\mathcal{N}(\mu,\Lambda^{-1}),p(y|x)=\mathcal{N}(Ax+b,L^{-1})$ ，求解： $p (y), p (x ∣ y)$ 。

这种类型的问题在线性高斯模型、PCA降维等机器学习模型中经常出现。
这里的 $\Lambda, L$ 称为精度矩阵，它们是协方差矩阵的逆。

解：令 $y=Ax+b+\epsilon,\epsilon\sim\mathcal{N}(0,L^{-1})$ ，且 $\epsilon$ 与 $x$ 相互独立，还是根据上节的定理，有
$\mathbb{E}[y]=\mathbb{E}[Ax+b+\epsilon]=A\mu+b\\ Var[y]=A \Lambda^{-1}A^T+L^{-1}$
此时，就已经得到 $y\sim\mathcal{N}(A\mu+b,L^{-1}+A\Lambda^{-1}A^T)$ ，即 $p(y)=\mathcal{N}(A\mu+b,L^{-1}+A\Lambda^{-1}A^T)$ 。

因此：
$Var[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1}$
引入 $z=\begin{pmatrix}x\\y\end{pmatrix}$ ，我们可以得到 $Cov[x,y]=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T]$ 。对于这个协方差可以直接计算：
$\begin{align} Cov(x,y)&=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T]\\ &=\mathbb{E}[(x-\mu)(Ax+b-A\mu-b+\epsilon)^T]\\ &=\mathbb{E}[(x-\mu)(Ax-A\mu+\epsilon)^T]\\ &=\mathbb{E}[(x-\mu)(Ax-A\mu)^T+(x-\mu)\epsilon^T]\\ &=\mathbb{E}[(x-\mu)(Ax-A\mu)^T]\\ &=\mathbb{E}[(x-\mu)(x-\mu)^T]A^T\\ &=Var[x]A^T\\ &=\Lambda^{-1}A^T \end{align}$
注意到协方差矩阵的对称性，所以 $p(z)=\mathcal{N}\begin{pmatrix}\mu\\A\mu+b\end{pmatrix},\begin{pmatrix}\Lambda^{-1}&\Lambda^{-1}A^T\\A\Lambda^{-1}&L^{-1}+A\Lambda^{-1}A^T\end{pmatrix})$ 。根据上一节的公式，我们可以得到：
$\mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)$

$Var[x|y]=\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1}$

故得到： $p(x|y)=\mathcal{N}(\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b),\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1})$ 。