機器學習中的有監督學習,無監督學習,半監督學習

jopen 8年前發布 | 46K 次閱讀 機器學習

在機器學習(Machine learning)領域,主要有三類不同的學習方法:

監督學習(Supervised learning)、

非監督學習(Unsupervised learning)、

半監督學習(Semi-supervised learning),


監督學習:通過已有的一部分輸入數據與輸出數據之間的對應關系,生成一個函數,將輸入映射到合適的輸出,例如分類。
非監督學習:直接對輸入數據集進行建模,例如聚類。

半監督學習:綜合利用有類標的數據和沒有類標的數據,來生成合適的分類函數。


一、監督學習

1、監督式學習(Supervised learning),是一個機器學習中的方法,可以由訓練資料中學到或建立一個模式( learning model),并依此模式推測新的實例。訓練資料是由輸入物件(通常是向量)和預期輸出所組成。函數的輸出可以是一個連續的值(稱為回歸分析),或是預測一個分類標簽(稱作分類)。

2、一個監督式學習者的任務在觀察完一些訓練范例(輸入和預期輸出)后,去預測這個函數對任何可能出現的輸入的值的輸出。要達到此目的,學習者必須以"合理"(見歸納偏向)的方式從現有的資料中一般化到非觀察到的情況。在人類和動物感知中,則通常被稱為概念學習(concept learning)。


3、監督式學習有兩種形態的模型。最一般的,監督式學習產生一個全域模型,會將輸入物件對應到預期輸出。而另一種,則是將這種對應實作在一個區域模型。(如案例推論及最近鄰居法)。為了解決一個給定的監督式學習的問題(手寫辨識),必須考慮以下步驟:

1)決定訓練資料的范例的形態。在做其它事前,工程師應決定要使用哪種資料為范例。譬如,可能是一個手寫字符,或一整個手寫的詞匯,或一行手寫文字。
2)搜集訓練資料。這資料須要具有真實世界的特征。所以,可以由人類專家或(機器或傳感器的)測量中得到輸入物件和其相對應輸出。
3)決定學習函數的輸入特征的表示法。學習函數的準確度與輸入的物件如何表示是有很大的關聯度。傳統上,輸入的物件會被轉成一個特征向量,包含了許多關于描述物件的特征。因為維數災難的關系,特征的個數不宜太多,但也要足夠大,才能準確的預測輸出。
4)決定要學習的函數和其對應的學習算法所使用的數據結構。譬如,工程師可能選擇人工神經網絡和決策樹。
5)完成設計。工程師接著在搜集到的資料上跑學習算法。可以借由將資料跑在資料的子集(稱為驗證集)或交叉驗證(cross-validation)上來調整學習算法的參數。參數調整后,算法可以運行在不同于訓練集的測試集上
另外對于監督式學習所使用的詞匯則是分類。現著有著各式的分類器,各自都有強項或弱項。分類器的表現很大程度上地跟要被分類的資料特性有關。并沒有某一單一分類器可以在所有給定的問題上都表現最好,這被稱為‘天下沒有白吃的午餐理論’。各式的經驗法則被用來比較分類器的表現及尋找會決定分類器表現的資料特性。決定適合某一問題的分類器仍舊是一項藝術,而非科學。

目前最廣泛被使用的分類器有人工神經網絡、支持向量機、最近鄰居法、高斯混合模型、樸素貝葉斯方法、決策樹和徑向基函數分類

二、無監督式學習

1、無監督式學習(Unsupervised Learning )是人工智能網絡的一種算法(algorithm),其目的是去對原始資料進行分類,以便了解資料內部結構。有別于監督式學習網絡,無監督式學習網絡在學習時并不知道其分類結果是否正確,亦即沒有受到監督式增強(告訴它何種學習是正確的)。其特點是僅對此種網絡提供輸入范例,而它會自動從這些范例中找出其潛在類別規則。當學習完畢并經測試后,也可以將之應用到新的案例上。

2、無監督學習里典型的例子就是聚類了。聚類的目的在于把相似的東西聚在一起,而我們并不關心這一類是什么。因此,一個聚類算法通常只需要知道如何計算相似度就可以開始工作了。


三、半監督學習

1、半監督學習的基本思想是利用數據分布上的模型假設, 建立學習器對未標簽樣本進行標簽。
形式化描述為:
            給定一個來自某未知分布的樣本集S=L∪U, 其中L 是已標簽樣本集L={(x1,y1),(x2,y2), … ,(x |L|,y|L|)}, U是一個未標簽樣本集U={x’1,x’2,…,x’|U|},希望得到函數f:X → Y可以準確地對樣本x預測其標簽y,這個函數可能是參數的,如最大似然法;可能是非參數的,如最鄰近法、神經網絡法、支持向量機法等;也可能是非數值的,如決策樹分類。其中, x與x’  均為d 維向量, yi∈Y 為樣本x i 的標簽, |L| 和|U| 分別為L 和U 的大小, 即所包含的樣本數。半監督學習就是在樣本集S 上尋找最優的學習器。如何綜合利用已標簽樣例和未標簽樣例,是半監督學習需要解決的問題。

2、半監督學習問題從樣本的角度而言是利用少量標注樣本和大量未標注樣本進行機器學習,從概率學習角度可理解為研究如何利用訓練樣本的輸入邊緣概率 P( x )和條件輸出概率P ( y | x )的聯系設計具有良好性能的分類器。這種聯系的存在是建立在某些假設的基礎上的,即聚類假設(cluster  assumption)和流形假設(maniford assumption)。






來自: http://blog.csdn.net//u011067360/article/details/24735415

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!