当前位置:网站首页>Bayesian inference problem, MCMC and variational inference
Bayesian inference problem, MCMC and variational inference
2022-06-28 19:19:00 【連理o】
Contents
The Bayesian inference problem
What is Bayesian inference?
- 簡單來說,貝葉斯推理就是基於貝葉斯範式進行統計推理。貝葉斯範式的基本思想就是利用貝葉斯定理來錶達後驗知識 p ( θ ∣ x ) p(\theta|x) p(θ∣x) (the “posterior”)、先驗知識 p ( θ ) p(\theta) p(θ) (the “prior”) 和似然 p ( x ∣ θ ) p(x|\theta) p(x∣θ) (the “likelihood”) 之間的關系

Computational difficulties
- 在很多場景下,prior 和 likelihood 都是已知的,但歸一化因子 evidence 卻需要通過積分得到:
上述積分在高維情况下將變得難以解决,因此需要使用一些近似方法去估計後驗概率 - 常用的近似方法有 Markov Chain Monte Carlo 和 Variational Inference (one should keep in mind that these methods can also be precious when facing other computational difficulties related to Bayesian inference)
Markov Chains Monte Carlo (MCMC) – A sampling based approach
- 馬爾可夫鏈蒙特卡羅法 (Markov Chain Monte Carlo, MCMC) (MCMC 對待采樣概率分布是否歸一化並不敏感,即使不進行歸一化也可以對其進行采樣)

Variational Inference (VI) – An approximation based approach
The approximation approach
- 與 MCMC 基於馬爾可夫鏈進行采樣不同,變分推理旨在從指定的概率分布族中找到複雜待采樣概率分布的一個最佳近似概率分布,實際上就是解决一個優化問題
- 具體而言,首先需要定義一個參數化的概率分布族,其中的不同概率分布由相應的參數决定 (e.g. 正態分布由 μ \mu μ 和 σ \sigma σ 控制)
然後需要從 F Ω F_\Omega FΩ 中找到一個最接近待采樣概率分布的概率分布 ω ∗ \omega^* ω∗,也就是解如下最優化問題:
其中, π \pi π 為待采樣概率分布, E ( p , q ) E(p,q) E(p,q) 用於衡量兩個概率分布之間的距離。在變分推理中, E ( p , q ) E(p,q) E(p,q) 為 KL 散度,優化過程采用梯度下降 (由於 KL 散度對 p p p 是否歸一化不敏感,因此變分推理不要求對待采樣概率分布進行歸一化)
Family of distribution
- 概率分布族的選擇實際上是一個非常强的先驗信息,它决定了對待采樣概率分布近似的 bias 以及優化過程的複雜度。如果分布族過於簡單,那麼近似的 bias 就會特別大,但優化過程很簡單,反之 bias 會較小,但優化過程就比較複雜。因此,我們有必要維持好 bias 和複雜度之間的平衡

平均場變分族 (mean-field variational family)
- 在平均場變分族中,隨機向量的所有分量都是獨立的,因此概率密度函數可以寫為下式:
其中, z z z 為 m m m 維的隨機向量, f j f_j fj 為 z z z 的第 j j j 個分量的概率密度函數
Kullback-Leibler divergence
- 在尋找待采樣概率分布的近似分布時,我們希望該優化過程對歸一化因子不敏感,而使用 KL 散度作為度量標准可以很好地滿足這一條件。設 π \pi π 為待采樣概率分布, C C C 為歸一化因子
則
因此在使用 KL 散度作為度量標准時,優化過程對歸一化因子不敏感,我們不必對待采樣概率進行歸一化:
Optimisation process and intuition

- 上述最優化問題可以利用梯度下降等方法尋找最優解
Intuition
- 為了更好地理解上述優化過程,下面以貝葉斯推理為例進行說明:
從最後一項中可以看到,最佳近似後驗概率分布會使得基於觀測數據 x x x 的期望對數似然盡量大,同時使得該近似後驗分布與先驗分布之間的 KL 散度盡量小 (prior/likelihood balance)
MCMC v.s. VI
- MCMC 和 VI 有著不同的應用場合。一方面,MCMC 的采樣過程計算量較大但 bias 較小,因此適用於需要得到精准結果而不在乎時間開銷的場合。另一方面,VI 中概率分布族的選擇和優化過程均會引入了 bias,相比 MCMC 而言 bias 較大但計算開銷較小,因此適用於需要快速計算的大規模推理問題
References
- Bayesian inference problem, MCMC and variational inference
- more about VI: Variational Inference: A Review for Statisticians
- more about MCMC: Introduction to Markov Chain Monte Carlo、An Introduction to MCMC for Machine Learning
- more about Gibbs Sampling applied to LDA: Tutorial on Topic Modelling and Gibbs Sampling、lecture note on LDA Gibbs Sampler
边栏推荐
- 视频压缩处理之ffmpeg用法
- matlab 二维或三维三角剖分
- F(x)构建方程 ,梯度下降求偏导,损失函数确定偏导调整,激活函数处理非线性问题
- 带你手把手实现grafana双轴图
- Are there any regular and safe foreign exchange dealers in China?
- sql面试题:求连续最大登录天数
- Graduation project - Design and development of restaurant management game based on unity (with source code, opening report, thesis, defense PPT, demonstration video and database)
- matlab 受约束的 Delaunay 三角剖分
- 直播app系统源码,动态遇到视频时开始自动播放
- PCL calculation of center and radius of circumscribed circle of plane triangle
猜你喜欢
随机推荐
async-validator.js数据校验器
论文3 VScode&texlive&SumatraPDF打造完美书写论文工具
Windows 64位下载安装My SQL
MongoDB系列之MongoDB工作原理简单介绍
PY SQL可以获取到表结构吗?
Openharmony - detailed source code of Kernel Object Events
How to remove dataframe field column names
I just bought the ADB MySQL service. Every time I do an operation, such as creating a table, this problem will pop up. What is the problem?
Pipeline based hybrid rendering
国内有正规安全的外汇交易商吗?
C语言-函数知识点
Markdown绘图mermaid实用教程
智能计算系统1 环境搭建
pd.cut 区间参数设定之前后区别
High performance and high availability computing architecture scheme commented by Weibo
sql计算每日新增用户、及留存率指标
Analysis of the core components of mybayis
Group programming TIANTI competition exercise - continuously updating
Rigid error: could not extract PIDs from PS output PIDS: [], Procs: [“bad pid
春风动力携手华为打造智慧园区标杆,未来工厂创新迈上新台阶









