解讀14個深度學習關鍵詞

DalXlr 8年前發布 | 11K 次閱讀 深度學習 機器學習

盡管在最近的在線搜索中已經占據高的搜索量,深度學習仍然是一個相對較新的概念。由于在各個不同的領域都獲得了巨大的成功,機器學習在研究和生產領域中大量涌現。機器學習是應用深度神經網絡技術的一個過程——也就是有著多個隱藏層的神經網絡構架——去解決問題。像數據挖掘一樣,深度學習也是一個進程,它采用了神經網絡構架——一種特定的機器學習算法。

近段時間來深度學習已經積累了可觀的研究成果。據此,在我看來,將以下下幾點牢記在心對機器學習十分重要:

  • 機器學習不是萬靈藥——它不能夠解決所有的問題。

  • 它并不是一個傳說中的大師級的算法——深度學習不能夠替代其他機器學習的算法和數據科學的技術,或者說,至少它至今還未被證明可以

  • 我們需要對它持以平和的期待——盡管最近各種分類問題,特別是計算機視覺和自然語言處理,強化學習以及其他領域都已取得顯著進步,深度學習目前還沒有到達可以解決諸如 “實現世界和平”這種復雜問題的水平。

  • 深度學習和人工智能并非同義詞。

  • 深度學習可以通過向一大堆數據提供附加的操作和工具從而解決問題。由此,深度學習在數據科學領域是一個十分有用的輔助。

就像上圖所示,深度學習深度學習之于數據挖掘,就像(深度)神經網絡之于機器學習(進程VS構架)。同時我們也可以看到深度神經網絡絕大程度屬于當前人工智能的情況。兩者概念相互交織幾乎已經到了相同意思的程度(但實際上這兩者并非相同的事物,人工智能除了神經網絡還含有大量其他的算法和技術)同時,在深度學習過程和神經網絡技術的帶領下,近幾年來在相關領域有了卓越的跨越。其中起重要作用的,深度學習/深度神經網絡和計算機視覺,自然語言處理,生成模型之間的聯系值得關注。由此,讓我們通過簡明扼要的定義,來了解深度學習和相關術語。

1.深度學習

就像上述定義的一樣,深度學習是應用神經網絡解決問題的過程。深度神經網絡是有著至少一個隱藏層的神經網絡(如下圖)。像數據挖掘一樣,深度學習所指的是一個特定的過程。其中采用了深度神經網絡-一種特定的機器學習算法的框架。

2.人工神經網絡(ANNs)

機器學習構架最早的靈感來源于生物大腦(尤其是神經元)深度學習就運用到了神經元的概念。事實上,單一的人工神經網絡(并非深度神經網絡)在很早之前就被發現,在過去已經能解決一些特定的問題。然而,相較于現在,目前的神經網絡構架都被設計為包含數個隱藏層(除了簡單的輸入和輸出層)。層數的增加提高了網絡的復雜度,使得網絡能夠進行深度學習,成為一種更強大的問題解決工具。

實際上,人工神經網絡ANN一族結構差別很大,因此,目前沒有一個確切的神經網絡定義。目前兩個主流的適用于所有ANN的特征,一個是擁有一個可調整的權重集合,另一個是具有模擬輸入信號到神經元的非線性功能的能力。

3.生物神經元

在生物和人工神經網絡之間的關系已經有了明確的定義。大量傳播開的出版物渲染出這樣一個概念:ANN是某種對發生在人(或其他生物)大腦的過程的完全復制。這種觀念顯然是不準確的。充其量我們只能說早期的人工神經網絡是受到生物學的啟發。兩者間抽象的關系不比原子的組成和功能與太陽系間的抽象關系明確。

也就是說,如果僅僅了解是什么啟發了ANN,這提供了一種高層次的解讀,可幫助我們去理解生物神經是如何工作的。

以下是我們對生物神經元的最感興趣的部分,包括:

  • 攜帶著遺傳信息的細胞核(如DNA)

  • 處理輸入刺激并轉化為輸出刺激的細胞體。

  • 從其他神經元接受刺激的樹突。

  • 信息傳給其他神經的軸突。

  • 軸突末端,和相鄰樹突之間形成的突觸結構。

在軸突末端與相鄰樹突形成的突出間隙中,擴散著一種叫做神經傳遞素的化學物質,他實現了神經傳遞。神經中最關鍵的部分,是神經通過樹突接收到刺激,處理后,通過軸突末梢傳輸出去。在末梢處會經過突觸間隙,然后到達許多接受神經的樹突。 該過程將重復進行。

4.感知機

感知機是一個簡單的線形二進制分類器。它接收輸入和與其相連的權重(表示輸入變量的相對重要性),將它們結合來產生輸出。輸出接下來被用于分類。感知機已經存在很長一段時間了,最早的使用可追溯到1950年代,其中一個也是應用到早期的人工神經網絡中。

5.多層感知機

一個多層感知機(MLP)是由幾個含有全鄰接層的感知機組成,形成一個簡單的前饋神經網絡(見下)。這個多層感知器在非線性激活函數上有許多好處,這些都是單層感知器不具備的。

6.前饋神經網絡

在非周期性連接的神經網絡結構中,前饋神經網絡是最簡單的形式。最初的人工神經網絡中,前饋網絡中的信息從輸入節點單方向前進,而后通過所有隱藏層,到達輸出節點,不存在任何周期。前饋網絡不同于之后的連接構成有向循環的周期性網絡架構(見下文)。

7.循環神經網絡

和上文所提到的前饋神經網絡不同,循環神經網絡的連接構成有向循環。這種雙向流動允許內部時間狀態表示,繼而允許序列處理。并且值得注意的是,它提供了用于識別語音和手寫的必要能力。

8.激活函數

在神經網絡中,激活函數通過組合網絡的加權輸入來產生判定邊界輸出結果。激活函數的范圍從標識(線性)到Sigmoid函數(邏輯或軟步長),雙曲線(正切)和超越。為了采用反向傳播(見下文),神經網絡必須使用可微的激活函數。

9.反向傳播

我所見過的對反向傳播的定義中,最基本、簡潔的定義是數據科學家Mikio L. Braun 在Quora上給出的答案 。我在此列出原文,以防破壞這份答案簡潔的完美。

反向傳播只是在個別錯誤上進行梯度下降。通過比較對神經網絡預期輸出的預測,而后計算相對于神經網絡的權重的誤差梯度。然后得出了權值空間中減小誤差的方向。

我將它列在這里。

10.成本函數

在訓練神經網絡時,必須評估網絡輸出的正確性。眾所周知,預期上正確的訓練輸出數據和實際的訓練輸出是可比擬的。成本函數便能測量實際和訓練輸出之間的差異。實際和預期輸出之間的零成本將意味著訓練神經網絡成為可能。但這顯然是理想化的。

所以,通過什么機制來調整成本函數,以實現將其最小化的目標呢?

11.梯度下降

梯度下降法是求函數局部極小值的一個優化算法。雖然它不能保證全定義域內的最小值,但梯度下降對于難以通過分析 (例如通過將導數取0獲得最優解)求得精確解的問題十分有用。

正如上文所述,在神經網絡的情況中,隨機梯度下降用于對網絡參數做出知情調整,以達到使成本函數最小化的目標,從而使網絡的實際輸出迭代性地愈加接近在培訓期間的預期輸出。這種迭代最小化采用微積分,即微分。在訓練步驟之后,網絡權重根據成本函數的梯度和網絡的當前權重接收更新,使得下一個訓練步驟的結果可以更加接近正確值(通過更小的成本函數測量)。反向傳播(關于錯誤的反向傳播)便用于將這些更新以小份的形式送到網絡。

12.梯度消失問題

由于反向傳播使用鏈式規則來計算梯度(通過微分),朝向n層神經網絡的“前”(輸入)層將使其修改的梯度以一個較小的值乘以n次方,然后再更新之前的固定值。這意味著梯度將指數性減小。 n越大,網絡將需要越來越多的時間來有效地訓練。

13.卷積神經網絡

卷積神經網絡(CNN)通常與計算機視覺和圖像識別相關聯,并采用卷積的數學概念來模仿生物視覺皮層的神經連接網格。

首先,正如 Denny Britz 所描述一樣,卷積可以被認為是在圖像的矩陣表示之上的滑動窗口(見下文)。

來源:斯坦福

在神經網絡結構中,至少在計算機視覺實現該概念將導致專用于處理局部圖像的神經元的集合。當在某些例如自然語言處理的其他領域中使用時,鑒于輸入(字,句子等)可以置于矩陣中并以類似的方式處理,故可以采取同樣的方法。

14.長短期記憶網絡(LSTM)

長短期記憶網絡(LSTM)是經優化以用于從時間相關數據中學習和作用的循環神經網絡,而這些數據可能在相關事件之間具有未定義的或未知的時間長度。它們的特定架構給予ANN“內存”并允許其持久性。最近手寫識別和自動語音識別的突破便得益于LSTM網絡。

這顯然只是深度學習術語的一個小部分以及許多衍生的從基礎到高級的概念。若欲了解更多關于機器學習研究當前領先的領域,您需要自行探索。

 

來自:http://www.jiqizhixin.com/article/1677

 

 本文由用戶 DalXlr 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!