貝葉斯學習--極大后驗概率假設和極大似然假設

jopen 10年前發布 | 13K 次閱讀機器學習

在機器學習中，通常我們感興趣的是在給定訓練數據D時，確定假設空間H中的最佳假設。

所謂最佳假設，一種辦法是把它定義為在給定數據D以及H中不同假設的先驗概率的有關知識條件下的最可能（most probable）假設。

貝葉斯理論提供了計算這種可能性的一種直接的方法。更精確地講，貝葉斯法則提供了一種計算假設概率的方法，它基于假設的先驗概率、給定假設下觀察到不同數據的概率、以及觀察的數據本身。

要精確地定義貝葉斯理論，先引入一些記號。

1、P(h)來代表還沒有訓練數據前，假設h擁有的初始概率。P(h)常被稱為h的先驗概率（prior probability ），它反映了我們所擁有的關于h是一正確假設的機會的背景知識。如果沒有這一先驗知識，那么可以簡單地將每一候選假設賦予相同的先驗概率。

2、P(D)代表將要觀察的訓練數據D的先驗概率（換言之，在沒有確定某一假設成立時，D的概率）。

3、P(D|h)代表假設h成立的情形下觀察到數據D的概率。更一般地，我們使用P(x|y)代表給定y時x的概率。

在機器學習中，我們感興趣的是P(h|D)，即給定訓練數據D時h成立的概率。

P(h|D)被稱為h的后驗概率（posteriorprobability），因為它反映了在看到訓練數據D后h成立的置信度。

應注意，后驗概率P(h|D)反映了訓練數據D的影響；相反，先驗概率P(h)是獨立于D的。

貝葉斯法則是貝葉斯學習方法的基礎，因為它提供了從先驗概率P(h)以及P(D)和P(D|h)計算后驗概率P(h|D)的方法。

貝葉斯公式

直觀可看出，P(h|D)隨著P(h)和P(D|h)的增長而增長。同時也可看出P(h|D)隨P(D)的增加而減少，這是很合理的，因為如果D獨立于h被觀察到的可能性越大，那么D對h的支持度越小。

極大后驗（maximum a posteriori, MAP）假設：

學習器考慮候選假設集合H并在其中尋找給定數據D時可能性最大的假設h∈H（或者存在多個這樣的假設時選擇其中之一）這樣的具有最大可能性的假設被稱為極大后驗（maximum a posteriori, MAP）假設。確定MAP假設的方法是用貝葉斯公式計算每個候選假設的后驗概率。

更精確地說當下式成立時，稱h_MAP為—MAP假設：

（在最后一步我們去掉了P(D)，因為它是不依賴于h的常量）

極大似然（maximum likelihood，ML）假設

在某些情況下，可假定H中每個假設有相同的先驗概率（即對H中任意h_i和h_j，P(h_i)=P(h_j)）。這時可把上式進一步簡化，只需考慮P(D|h)來尋找極大可能假設。P(D|h)常稱為給定h時數據D的似然度（likelihood），而使P(D|h)最大的假設被稱為極大似然（maximum likelihood，ML）假設h_ML。