A Variational Bayesian Framework for Graphical Models

[Hagai Attias] [Gatsby Unit, University College London] [In Advances in Neural Information Processing Systems 12, 2000]

論文はこちら：http://www.goldenmetallic.com/research/nips99vb.pdf

1章：Introduction

graphical modelをlearnする標準的方法は、最尤法(Maximum likelihood)である。training datasetを用いて、MLは最適な唯一解を決められたグラフ構造の中で見積もる。しかし、MLはモデルのoverfitやモデルの複雑化を招くという問題がある。

一方で、Bayesian framework(BF)は原則的に上記の問題に対する解決策である。BFはすべてのclassのモデルを考慮する。各々のモデルについて、与えられたdatasetのもとでの事後確率を算出する。testdataに対する予測値は各々の事後確率を重みづけした上で予測を平均化することで得られる。したがって、BFはパラメータを統合出力することでoverfittingを避ける。加えて、複雑なモデルは自動的に小さい事後確率を与えられることによってpenelizedされるため、最適な構造が確認出来る。

しかし不幸なことに、BFのcomputationsはintractable(http://eow.alc.co.jp/search?q=intractable)である。(当時)最も適用されている方法は2つある。Markov chain Monte Carlo methods(MCMC) and large sample methods。MCMCはvast computational resourcesが必要で高次元における複雑なモデルには実用的でない。Large sample methodsは細工が容易だが、すべてのパラメータについてdrasticな近似をすべてのパラメータについて標準的に事後確率をモデリングすることによって行う。加えて、これらの方法はHessianの計算を必要としており、これがintensiveになりうる。

この論文ではVariational Bayes(VB)について述べる。このフレームワークは隠れた変数、パラメータ、構造の事後確率の分析的な計算をfacilitateする。これらはExpectation Maximization(EM)に似たiterative algorithmに関係し、収束が保証されている。Hessianを計算する必要はない。モデルの選択は構造上の事後確率を用いて行う。特には、限定的なケースとして、BIC/MDLを用いる。

2章：General Framework (確認中)

Y = {y1,…,yN}をvisible data nodesとする。