【譯文】深度神經網絡入門手冊
深度神經網絡(DNNs)是擁有多層感知器的架構,用來解決復雜的學習問題。然而,DNNs在訓練和概括中面臨挑戰。傳統的DNNs互聯的大量數據可能會過擬合,需要不同的訓練方法來提高泛化。神經網絡權重的前訓練(pretrain)和神經網絡新品種旨在克服這些問題。尤其是卷神經網絡,被設計用于處理圖像,通過最小化可訓練的重量并提供強大的泛化能力。這些網絡在多個領域復雜的學習任務中表現出良好的勢頭。
深神經網絡(DNN)由辛頓等人定義為“一個前饋人工神經網絡,其包含不止一個隱藏單位的隱藏層”。DNN有許多處理層,可用于學習多層的抽象數據的表示。生產非線性模塊獲得的不同層,用于將表示層從單層表示轉換為更抽象的層表示。通過使用這些層、用于分類的數據的特征增強,而無關的特征被抑制。深卷積網和遞歸網絡也屬于DNN,使用它們的算法在處理文本,圖片,視頻,語音和音頻等方面帶來了突破。
起初,DNNs在1990年代的主要缺點是其計算能力有限。此外,由于受到早期有限大小數據集的限制,DNNs需要大量的培訓模式才能達到良好的解決方案。這些問題導致了DNNs一開始并不受歡迎。
彼時,尚有很多其他競爭的模型,如Hidden Markov模型和支持向量機(Support Vector Machine)。盡管DNNs實現了和上述模型類似或更好的結果(取決于任務),但是它們更難訓練。隨機初始化沒有得到一個很好的結果,而且使用者必須是專家,有著足夠領域知識以進行手工提取。此外,他們缺乏訓練使用未標記數據的能力,這是個頭疼的問題,因為我們能接觸到的大量現實世界的數據都是未標記的。
對那些有多隱藏層的學習網絡而言,單獨的反向傳播(backpropogation,BP)并不能在實踐中很好的工作,因為會遭遇到問題,如梯度消失和維數災難。
維數災難是指隨著輸入神經元數目的增加,輸入值的數目的指數增加。沒有更大的指數數據集來保持,大部分可能的組合是0,并且網絡面臨著訓練稀疏數據。隨著隱藏層總數的增加,學習時間將無法衡量。使用反向傳播的其他問題還包括訓練集的過度擬合和局部極小的問題。
DNNs有許多參數,非常強大,但容易過度擬合。過度擬合通常發生在模型非常復雜,有太多輸入參數,相較于輸出參數或觀測次數或稀疏數據集的情況。該模型不能概括新模式,因為訓練參數要和訓練集匹配。提出過擬合解決方案的是Srivastava和其他一些人,被稱為“dropout”。 這種技術的核心思想是把單位連同他們的連接隨機棄用,防止單位形成過度依賴。
Hochreiter所示,算法依賴于一個完整的計算梯度,它會漸漸消失,最終在執行backpropogation的時候完全消失。變化率是由誤差函數的導數計算的。從導數的鏈規則來看,梯度較低的層的會變得越來越小,最終重量太小,不足以作出重大調整。對此問題的解決方案之一是基于一種新梯度的方法,稱為長短期記憶,由Sepp Hochreiter和J¨urgen Schmidhuber提出,能夠記住較長時間的錯誤值。
基于參數隨機初始化梯度優化方法如隨機梯度下降法,DNNs有較高可能結束在一個局部最小值。網絡會導致一個很差的局部最小值,如果參數不能智能初始化,這種情況將隨著網絡深度的增加而更為普遍。在誤差空間局部最小值是次優的解決方案。在深度網絡有許多隱藏層,有大量的局部最小值。除非權重在訓練一開始就已經在全局最小值的區域,結果可能會陷入局部最小值不佳。
盡管由于表現不佳和數據集小DNNs最初不受歡迎,它最終投入廣泛地使用。在2000年代末有一個指數級增長的無標號數據集。有一個需要使用更多的無監督方法,由辛頓和其他促進當深刻的信念網絡(DBNs)。這是第一款的重大突破。關鍵的想法是使用“訓練的” 而不必手工為了學習功能。這個改進使DNNs有更容易的自動學習功能。下一個重大事件是快速圖形處理單元的出現,使得網絡訓練速度快10倍以上。很多使用DNNs創建的模型優于其他現有的模型。另一個突破是使用卷積網絡的分類ImageNet數據庫。DNNs的人氣大增,被采用在計算機視覺和圖像處理等各種領域,鼓勵更多的研究人員探索DNNs和深度學習。
參考來源:
Arel, I, Rose, D & Karnowski, T 2010, ‘Deep Machine Learning? A New Frontier in Artificial Intelligence Research [Research Frontier]’, IEEE Computational Intelligence Magazine, vol. 5, no. 4, p. 13, viewed 14 October 2015
Bengio, Y 2009, ‘Learning Deep Architectures for AI’, Foundations and TrendsR in Machine Learning, vol. 2, no. 1, pp. 1–127, viewed 3 October 2015,
Bengio, S & Bengio, Y 2000, ‘Taking on the Curse of Dimensionality in Joint Distributions Using Neural Networks’, IEEE Transactions on Neural Networks, vol. 11, no. 3, pp. 550- 557, viewed 3 October 2015,
Bengio, Y, Lamblin, P, Popovici, D & Larochelle, H 2007, ‘Greedy Layer-Wise Training of Deep Networks’, Advances In Neural Information Processing Systems 19, p. 153–158, viewed 4 October 2015,
Chapados, N & Bengio, Y 2001, ‘Input decay: Simple and Effective Soft Variable Selection’, Proceedings Of The International Joint Conference On Neural Networks, vol. 2, pp. 1233–1237, Washington DC, USA, viewed 16 October 2015
Farabet, C, Couprie, C, Najman, L & LeCun, Y 2013, ‘Learning Hierarchical Features for Scene Labeling’, IEEE Transactions On Pattern Analysis & Machine Intelligence, vol. 35, no. 8, pp. 1915–1929, viewed 6 October 2015, Computers & Applied Sciences Complete, EBSCO
Freeman, JA & Skapura, DM 1992, Neural Networks Algorithms, Applications, and Programming Techniques, Addison-Wesley Publishing Company, United States of America
Glorot, X & Bengio, Y 2010, ‘Understanding the Difficulty of Training Deep Feedforward Neural Networks’, Proceedings of the 13th International Conference on Arti- ficial Intelligence and Statistics (AISTATS), Sardinia, Italy, viewed 10 October 2015,
Hinton, G, Srivastava, N, Swersky, K, Tieleman, T & Mohamed, A n.d., ‘The ups and downs of backpropogation’, lecture notes, viewed 1 October 2015,
來自: http://dataunion.org/22356.html