數據挖掘十大算法----EM算法（最大期望算法）

jopen 9年前發布 | 18K 次閱讀機器學習

概念

在統計計算中，最大期望（EM）算法是在概率（probabilistic）模型中尋找參數最大似然估計或者最大后驗估計的算法，其中概率模型依賴于無法觀測的隱藏變量（Latent Variable）。

最大期望經常用在機器學習和計算機視覺的數據聚類（Data Clustering）領域。

可以有一些比較形象的比喻說法把這個算法講清楚。

比如說食堂的大師傅炒了一份菜，要等分成兩份給兩個人吃，顯然沒有必要拿來天平一點一點的精確的去稱分量，最簡單的辦法是先隨意的把菜分到兩個碗中，然后觀察是否一樣多，把比較多的那一份取出一點放到另一個碗中，這個過程一直迭代地執行下去，直到大家看不出兩個碗所容納的菜有什么分量上的不同為止。（來自百度百科）

EM算法就是這樣，假設我們估計知道A和B兩個參數，在開始狀態下二者都是未知的，并且知道了A的信息就可以得到B的信息，反過來知道了B也就得到了A。可以考慮首先賦予A某種初值，以此得到B的估計值，然后從B的當前值出發，重新估計A的取值，這個過程一直持續到收斂為止。

EM算法還是許多非監督聚類算法的基礎（如Cheeseman et al. 1988），而且它是用于學習部分可觀察馬爾可夫模型（Partially Observable Markov Model）的廣泛使用的Baum-Welch前向后向算法的基礎。

估計k個高斯分布的均值

介紹EM算法最方便的方法是通過一個例子。

考慮數據D是一實例集合，它由k個不同正態分布的混合所得分布所生成。該問題框架在下圖中示出，其中k=2而且實例為沿著x軸顯示的點。

每個實例使用一個兩步驟過程形成。

首先了隨機選擇k個正態分布其中之一。

其次隨機變量x_i按照此選擇的分布生成。

這一過程不斷重復，生成一組數據點如圖所示。為使討論簡單化，我們考慮一個簡單情形，即單個正態分布的選擇基于統一的概率進行選擇，并且k個正態分布有相同的方差σ²，且σ²已知。

學習任務是輸出一個假設h=<μ₁…μ_k>，它描述了k個分布中每一個分布的均值。我們希望對這些均值找到一個極大似然假設，即一個使P(D|h)最大化的假設h。

注意到，當給定從一個正態分布中抽取的數據實例x₁,x₂, …, x_m時，很容易計算該分布的均值的極大似然假設。

其中我們可以證明極大似然假設是使m個訓練實例上的誤差平方和最小化的假設。

使用當表述一下式，可以得到：

（公式一）

然而，在這里我們的問題涉及到k個不同正態分布的混合，而且我們不能知道哪個實例是哪個分布產生的。因此這是一個涉及隱藏變量的典型例子。

EM算法步驟

在上圖的例子中，可把每個實例的完整描述看作是三元組<x_i,z_i₁, z_i₂>，其中x_i是第i個實例的觀測值，z_i₁和z_i₂表示兩個正態分布中哪個被用于產生值x_i。

確切地講，z_ij在x_i由第j個正態分布產生時值為1，否則為0。這里x_i是實例的描述中已觀察到的變量，z_i₁和z_i₂是隱藏變量。如果z_i₁和z_i₂的值可知，就可以用式一來解決均值μ₁和μ₂。因為它們未知，因此我們只能用EM算法。

EM算法應用于我們的k均值問題，目的是搜索一個極大似然假設，方法是根據當前假設<μ₁…μ_k>不斷地再估計隱藏變量z_ij的期望值。然后用這些隱藏變量的期望值重新計算極大似然假設。這里首先描述這一實例化的EM算法，以后將給出EM算法的一般形式。

為了估計上圖中的兩個均值，EM算法首先將假設初始化為h=<μ₁,μ₂>，其中μ₁和μ₂為任意的初始值。然后重復以下的兩個步驟以重估計h，直到該過程收斂到一個穩定的h值。

步驟1：計算每個隱藏變量z_ij的期望值E[z_ij]，假定當前假設h=<μ₁,μ₂>成立。

步驟2：計算一個新的極大似然假設h′=<μ₁′,μ₂′>，假定由每個隱藏變量z_ij所取的值為第1步中得到的期望值E[z_ij]，然后將假設h=<μ₁,μ₂>替換為新的假設h′=<μ₁′,μ₂′>，然后循環。

現在考察第一步是如何實現的。步驟1要計算每個z_ij的期望值。此E[z_ij]正是實例x_i由第j個正態分布生成的概率：

因此第一步可由將當前值<μ₁,μ₂>和已知的x_i代入到上式中實現。

在第二步，使用第1步中得到的E[z_ij]來導出一新的極大似然假設h′=<μ₁′,μ₂′>。如后面將討論到的，這時的極大似然假設為：

注意此表達式類似于公式一中的樣本均值，它用于從單個正態分布中估計μ。新的表達式只是對μ_j的加權樣本均值，每個實例的權重為其由第j個正態分布產生的期望值。

上面估計k個正態分布均值的算法描述了EM方法的要點：即當前的假設用于估計未知變量，而這些變量的期望值再被用于改進假設。

可以證明，在此算法第一次循環中，EM算法能使似然性P(D|h)增加，除非它已達到局部的最大。因此該算法收斂到對于<μ₁,μ₂>的一個局部極大可能性假設。

EM算法的一般表述

上面的EM算法針對的是估計混合正態分布均值的問題。更一般地，EM算法可用于許多問題框架，其中需要估計一組描述基準概率分布的參數θ，只給定了由此分布產生的全部數據中能觀察到的一部分。

在上面的二均值問題中，感興趣的參數為θ=<μ₁,μ₂>，而全部數據為三元組<x_i,z_i₁, z_i₂>，而只有x_i可觀察到，一般地令X=<x₁, …,x_m>代表在同樣的實例中已經觀察到的數據，并令Y=X∪Z代表全體數據。注意到未觀察到的Z可被看作一隨機變量，它的概率分布依賴于未知參數θ和已知數據X。類似地，Y是一隨機變量，因為它是由隨機變量Z來定義的。在后續部分，將描述EM算法的一般形式。使用h來代表參數θ的假設值，而h′代表在EM算法的每次迭代中修改的假設。