深度學習和經驗主義的勝利

jopen 9年前發布 | 18K 次閱讀 深度學習 機器學習

 

現在深度學習在許多監督式機器學習的任務中扮演著領頭羊的角色。也可以這樣認為,在近幾十年中,深度學習已經產生了最實用的非監督式機器學習算法。興奮之 余,這也引發了一系列的研究和聳人聽聞的新聞頭條。雖然我警惕這些炒作,但是我也發現了令人興奮的技術,并且最近加入了一個社團,針對回歸神經網絡序列學 習發表了 一篇30頁的關鍵評語

深度學習和經驗主義的勝利

但很多機器學習研究者并不奉承深度。事實上,對于那些利用數學語言和理論保證來挽救人工智能研究的人抗爭過的人而言,深度學習代表了一種時尚。更 糟糕的是,對于一些人來說,它似乎是一種倒退。在這篇文章中,我會盡力對理論保證的有用性提供一個高層次的、公平的分析,并說明為什么他們可能不總是像智 力獎勵那樣實用。更重要的是,我將提供論據來解釋為什么經過這么多年越來越健全的統計學機器學習,對今天許多表現最好的算法并沒有理論保證。

要保證什么?

保證是一個聲明,可以用數學確定其行為、性能或一個算法的復雜度。在其他條件不變的情況下,給定足夠的時間,我們的算法A可以從某種模型分類器 {H1,H2,···}找到一個分類算法H,它的性能不比H*差,H*是這個類中最好的分類器。當然,這和一些固定的損失函數L有關。簡短來說,我們可能 很樂意用一些常數來固定H與H*之間的性能差異或比例。缺少這樣一個絕對限制,我們可能會喜歡去證明,在固定的時間內,運行算法之后,H和H*能夠給出相 近的結果。

許多現有的算法能夠提供強大的統計學保證。線性回歸會有一個確切的解決方案。邏輯回歸能夠保證收斂。通常情況下,深度學習算法不能夠提供什么保 證。給定一個任意壞的起點,我知道沒有理論能夠證明,經過SGD變種訓練的神經網絡一定會隨著時間推移優化而不會陷入局部最小。近期的工作表明,在神經網 絡的誤差平面(一個m維平面,m是學習參數的個數,通常是節點邊緣之間的權重)上,鞍點的數目比局部最小值要多。然而,這不等于證明不存在局部最小或者它 們不能任意壞。

保證中存在的問題

可證明的數學性質顯然是可取的。它們甚至已經拯救了機器學習,AI領域曾經一度被認為設計不明確,承諾過度,總在實施。然而,今天許多最好的算法并沒有提供任何保證。這怎么可能呢?

  1. 保證通常與小類假設相關;
  2. 保證通常在最糟糕的情況下分析,但是最糟糕的情況在現實生活中很少見;
  3. 保證通常建立在錯誤的數據假設之上。

從弱者中選出優勝者

首先,對于某個給定的類,理論保證通常會確保一個假設會接近最佳假設。沒有辦法保證在給定的類中,一個假設能夠表現得令人滿意。

這里有個棘手的例子:我希望有一個人來幫助我撰寫文檔。拼寫檢查會保證它將如何表現。它將100%識別某些拼寫錯誤。但是,現有的自動校對工具不 能夠提供像智能人那樣的洞察力。當然,人不能給出任何形式的數學保證。人會睡覺,無視我的郵件,或者胡亂回應。然而人可以比工具助手表達更多有用的想法。 具有諷刺意味的是,可能可以采取兩種方法來提高理論保證。一個是改進算法,另一個減少假設類的成員。而神經網絡很少提供保證,它們提供了比大多數更好理解 的機器學習模型更豐富的潛在假設。啟發式學習技術和更強大的計算機已經排除了有效學習的障礙,很明顯,對于許多模型,為給出實用性的預測,這種增強的表現 力是不可少的。

最壞的情況可能并不重要

保證通常是在最壞的情況下給定的。通過保證最佳系數ε得到結果,最壞的情況也不過于是保證一個普通的系數ε得到的結果。但是在實踐中,最壞的情況 可能永遠不會發生。現實世界中的數據通常都是高度結構化的,并且最壞的情況可能具有這樣的結構,即在標準數據集和錯誤數據集之間沒有重疊。在這些假設中, 最壞情況下的約束仍然成立,但這可能是所有算法都更好執行的情況。可能沒有理由相信,更壞情況下的算法能夠保證會有一個更好的典型性能。

不正確假設下的預測

理論合理的模型可能不能轉為真實性能的另一個原因是,生成理論結果而假設的數據通常都是假的。以潛在狄利克雷分布(LDA)為例,它是一個易于理 解的非常有用的用于話題建模的算法。大量關于LDA的理論依據都是基于一篇文檔在主題上與分布相關這個假設之上。每個主題都依次與分布在詞匯表中所有單詞 相關聯。生成過程如下,對于文檔中的每個字,文章主題根據每個主題的相對概率來隨機選擇。然后,以選中的主題為條件,從這篇文章的主題詞分布中選取一個詞 語。反復這個過程直到所有的詞都被選中。

顯然,這種假設在任何自然語言的數據集上并不成立。在實際的文檔中,單詞要從上下文中選取,而且很大程度上取決于它們所處的語境。此外文檔的長度不是任意的,盡管這種情況可能在本科課程中出現。然而,對于這樣的生成過程,LDA具有許多理論特性的優雅證明。

需要明確的是,LDA的確是一個用處廣泛、最先進的算法。而且,我相信,算法的性能理論研究,即使是基于不切實際的假設,仍然是提高我們對更一般 和更強大定理做出理解和基礎工作不可或缺的步驟。在這篇文章中,我只思考眾多知名的理論,以及為數據科學工作者解釋關于為什么具有良好理論性質的算法并不 總是表現最好的。

經驗主義的勝利

有人可能會問,如果不是完全由理論引導,是什么讓像深度學習這樣的方法流行?另外,為什么由直覺判斷支撐的經驗方法會如此廣泛成功,即使在幾十年前他們并不受歡迎?

在回答這些問題上,我相信大量良好標記的數據的出現,比如ImageNet,是啟發式方法東山再起的原因。給定了足夠大的數據集,過度擬合的風險 很低。此外,對測試數據的驗證提供了解決典型案例的手段,而不是著眼于最壞的情況。并行計算和存儲器大小的進步讓人們可以通過實證分析來同時跟蹤許多假 設。由強大直覺判斷支撐的實證研究,在我們達到理解的極限時,為我們提供了前進的道路。

注意事項

對于在機器感知和自然語言領域深度學習所取得的成功,人們可以合理地認為,到目前為止,三個最有價值的機器學習算法是線性回歸、logistic 回歸和K-均值聚類,它們在理論上都非常易于理解。而迄今為止,反駁經驗主義勝利的最合理的理由可能是,最好的算法是由理論驅動和限制的,而經驗主義則只 是用于最新的突破,并不是最重要的。

有保證的事情很少

實現算法時,理論上的保證是很優美的。它們反應了清晰的思維,提供了對問題結構的深刻洞察。給定一個可工作的算法,理論解釋了其性能,加深理解,提供了進一步判斷的基礎。缺乏可工作的算法,理論提供了實現這個算法的思想。

不過,這種想法也有其美妙之處,搭配嚴謹的實證研究,有理有據的直覺判斷可以產生勝過更好理解模型的持續運作系統,有時在許多重要任務中,甚至超過人類。經驗主義為形式分析受到抑制的應用場合提供了前進的道路,并可能為將來可能最終承認深入理解理論知識打開了新的方向。

英文原文: Deep Learning and the Triumph of Empiricism (譯者/劉翔宇 審校/劉帝偉、朱正貴 責編/周建丁) 

關于譯者: 劉翔宇,中通軟開發工程師,關注機器學習、神經網絡、模式識別。

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!