什么是機器學習?
原文 http://select.yeeyan.org/view/527032/441949
大家好!我是John Platt,我在微軟創建和使用機器學習(簡稱ML)算法已經17年了。最近這幾年機器學習開始受到廣泛關注,所以人們經常問我:“什么是機器學習?你們用機器學習來做什么?”
我非常樂意回答這些問題,因為事實證明,機器學習的使用已經廣泛存在于微軟的大量產品中——這些產品使微軟變成一個做機器學習的有趣的和有影響力的地方(簡直就像一個孩子走進了糖果店)。
一般來講,機器學習能夠將數據集轉換成被稱為“模型”的軟件,這些模型可以代表數據集并且推廣到新的數據從而進行預測。由于機器學習的廣泛使用,我覺得有必要把它進行一個粗糙的分類。人們會在三種情況下使用機器學習:
1、數據挖掘 :機器學習可以幫助人們從大型數據庫里得到深刻的見解。
2、統計工程 : 機器學習可以用來把數據轉換成對不確定數據做決定的軟件。
3、人工智能 : 機器學習可以用來模擬人類的思維,來創造可以看到,聽到和理解人的計算機。
在微軟,上述機器學習的這三個目標都有被實現。例如:
打擊惡意軟件
與微軟研究院合作的微軟惡意軟件保護中心已經利用機器學習創建了軟件來自動檢測惡意軟件,并幫助分析師了解了惡意軟件的開發。你可以從Dennis Batchelder博客里了解到更多關于這方面的內容。
建立一個搜索引擎
微軟的必應搜索引擎是一個非常復雜的系統,這個系統可以解釋你的查詢,搜索網頁和返回對你有用的信息。正因為必應引擎有這么高的信息量,所以必 須使用自動的決策制定系統來處理自然語言的不確定性和歧義性。我們已經用機器學習創建了許多必應引擎的插件,這些插件一起工作的時候可以形成一個高質量的 搜索引擎。機器學習對于搜索的一個特別的有用之處是排序:幾年前,一個來自微軟研究院的隊伍利用我們開發的算法贏得了學習排序的比賽。
使計算機能夠看到和聽到
微軟一直在推動技術在計算機視覺和語音識別領域的發展。Kinect里識別手勢的軟件是由機器學習開發的。微軟的語音識別系統是基于深度學習的,也是機器學習的一種受到大腦結構的啟迪而形成的模型。此外,我們還使用機器學習創造了一個實時語音翻譯機。
看著這些令人興奮的應用,我意識到現在正是機器學習的黃金時間。許多研究人員和開發者在這些年里一直穩定地使用這些應用。因為摩爾定律和互聯 網,我們現在有足夠的標記數據和計算使得機器學習創造卓越的軟件。我期待著為其他開發者提供我們的算法和工具,使他們能用他們的創造力來創造他們自己的引 人注目的應用。
在下一篇文章中,我將談論過去20年機器學習在微軟的發展。我很期待有機會通過博客與讀者進行互動!
John Platt