喬丹Reddit訪談實錄:統計學和機器學習不能分開
喬丹(Michael I. Jordan)教授是機器學習領域神經網絡的大牛,他對深度學習、神經網絡有著很濃厚的興趣。如今,在工業界解決不確定性問題的時候需要更加有效的結果和 更多理論依據的結果,這兩者之間總是會有分歧,這使得機器學習領域和統計學的工作的背景很相似,喬丹教授對兩個領域未來的發展方向有很多看法。
首先喬丹提到,他個人并沒有把統計學和機器學習區分開。他認為把理論和實際明確分開是沒有很大用處的,它們的相互作用已經被證明了是很有用的,當越來越復雜的系統誕生時,它們也會互相促進并且提升。
設想一下建一座橋的工程,這是從物理界到人文界工程師都需要一起參與的工程鏈,建筑師需要設計橋梁,土木工程師需要保證橋梁不會在某些極端條件下塌陷等等。在這條鏈中幾乎沒有人不知道把“理論概念”和“工程實際”結合起來,這一點已經在幾十年里都被證明過了。
類似的,Maxwell 方程為電子學提供了理論依據,但是感應匹配之類的想法也是在工程上開始建造電路和和流水線之后才進入人們的視線的,這些想法都是結合了理論和實際的。
我們有一個類似的挑戰——我們應該怎樣把核心推理出想法轉化成系統工程,使之能夠在我們所要求的條件下工作,例如時間效率、花費等等。這樣才能 夠反映出我們的設想是否能夠應用于這個領域,讓我們更加好的做出決定和改動,并且做到與人類更好的交互。實際上,出于對橋梁建造者、火箭制造者等人的尊 重,喬丹認為目前人類社會面臨著更加復雜的領域。
喬丹教授所做的領域很多,他把這些統稱叫做數據科學。實際上,我們所知道的大部分在統計學或者機器學習領域的人基本上都把他們自己理解成了這個 綜合領域的人。這些人不會說:“我對于數據集合的隨機化,或者怎樣歸并數據,或者預測的不確定性、評估模型、可視化等等不感興趣”。盡管他們僅僅在這個綜 合問題的子集上工作,但是他們對整個綜合問題都是很清楚的。不同圈子里的人通常有著自己不同的應用領域,因此使得他們目前的工作看起來截然不同,但是這里 并沒有基礎知識上的區別,很多看上去的分歧其實是歷史的玩笑。
喬丹重點談到了一位提問者所說的“僅在機器學習領域通用的算法”的問題。他不太清楚這個是指什么,從八九十年代來看,已經不知道有多少次在機器 學習領域里研究的人意識到他們的想法已經在其他領域出現過了,比如:統計學、決策樹、最近鄰居、邏輯回歸、PCA、典型相關、圖模型、K-means 和還有判別分析。當然,統計學群體至今也沒有一個很好的定義,像卡爾曼濾波、HMMs 還有因子分析之類的想法都來源于統計學群體之外,正是因為它們都是關于推斷所以才被吸收進統計學。類似的,多層神經網絡可以被看成是非參數的函數估計因子 或者目標,從而能夠從統計學中分析。
某種程度上,統計學是指一種分析形式,一個統計學家會很高興地分析一個系統的表現。比如,一個邏輯系統,如果輸入的數據是隨機的,那么輸出的數據也會被考慮成不確定的。一個統計方法中沒有任何僥幸概率的成分。
當 Leo Breiman 發明了隨機森林,他變成了一個統計學家或者機器學習家嗎?當喬丹和他的同事發明了 LDA 模型,他們變成了統計學家或者機器學習家嗎?難道因為 SVM 是一種機器學習的算法,邏輯回歸是一種統計算法,它們就完全不同了嗎?它們是以同樣的效率解決了相同的優化問題,區別僅僅是在一點點缺失函數的形式上,為 什么很多人總是認為這些是非常重要的區分呢?
喬丹教授說道,機器學習群體并沒有發展很多新的推論原理,或者很多新的優化原理。但是這個群體正在創造性地從其他領域吸收已經存在了的想法,并且把它們混合并加以改造,以使得解決這個領域的難題。
但是,也絕對不能將機器學習應用和統計學優化理論混淆起來。統計學群體往往非常收到歡迎,這僅僅是歷史原因,因為他們的工作往往集中在科學、醫 學和政策方面而不是工程。機器學習社區的出現極大地有助于放大應用統計推斷的范圍,它已經開始打破工程思維的一些障礙,例如,計算機系統思維和推理思維。 當然,它也遇到了新的理論問題。
<span id="shareA4" class="fl">
</span>