并行運算,非死book提出門控卷積神經網絡的語言建模
摘要
目前語言建模的主要方法都是基于循環神經網絡的。在本研究中,我們提出了一種使用卷積方式處理的語言建模方式。我們引入了一種新的門控機制,可以緩和梯度傳播,它的表現比 LSTM 方式的門控(Oord 等人,2016)更加優秀。我們的方法在 WikiText-103 上創造了新的最高紀錄,同時我們也在 Google Billion Word 基準上進行了單 GPU 測試,結果創造了新的最快記錄。因為可以并行運算,在對延遲敏感的任務中,我們的模型的速度相較其他模型提升了一個數量級。目前為止,這是第一次出現非訓話方式在此類任務中超越了循環方式。
用于語言建模的門控卷積網絡架構
引言:
統計語言模型被用于估算詞序列的概率分布。這相當于給定一個詞,對下一個詞的概率進行建模,例如:
其中 wi 是詞匯表中的離散字索引。語言模型是語音識別系統(Yu&Deng,2014)以及機器翻譯系統的關鍵組成部分(Koehn,2010)。
近年來,神經網絡在此類任務的表現超過了 n 元語法模型(Kneser & Ney,1995;Chen & Goodman,1996)。經典的語言模型面臨數據短缺的問題,無法準確表征長段語句,缺乏分析長范圍從屬關系的能力。神經語言模型通過在應用神經網絡的連續空間中嵌入單詞來解決這個問題。語言建模的當前技術水平基于長短期記憶網絡(LSTM; Hochreiter 等人,1997),理論上可以建模任意長的從屬關系。
在本文中,我們介紹了門控卷積網絡(gated convolutional networks)并將其應用于語言建模。卷積網絡可以被堆疊以表示大的上下文尺寸,并且在具有在更大的上下文范圍內提取分層更抽象的特征(LeCun&Bengio,1995)。這種特性允許我們通過在大小 N 和內核寬度 k 的上下文上應用 O(N / k)運算來建模長期從屬關系。相反,循環網絡將輸入視為鏈結構,因此需要線性數目 O(N)的操作。
輸入分層的分析與類似于經典語法形式的構造相似,其構建了間隔增大的句法樹結構。例如,由包含復雜內部結構的名詞短語和動詞短語組成的句子(Manning&Schutze¨,1999;Steedman,2002)。另外,分層結構也簡化了學習,因為相較于鏈結構,給定上下文大小的非線性的數量減少,從而減輕了消失梯度問題(Glorot&Bengio,2010)。
現代計算機硬件非常適合運行高度并行化的模型。在循環網絡中,下一個輸出取決于前一個的隱藏狀態,它不啟用對序列元素的并行化。卷積網絡非常適合于此類計算,因為所有輸入字的計算可以同時執行。
門控已經顯示出超越循環神經網絡最快表現的潛力(Jozefowicz 等人,2016)。我們的門控線性單元通過為梯度提供線性路徑,同時保留非線性能力,減少了深層架構的消失梯度問題。
我們在單個 GPU 系統中進行了實驗,證明了使用門控卷積網絡的語言建模優于其他最近發布的語言模型,如在 Google Billion 上類似設置訓練的 LSTM Word 基準(Chelba 等人,2013)。我們還評估了我們的模型分析 WikiText-103 基準中長距離從屬關系的能力,其中該模型以整個段落而不是單個句子為條件進行處理,并且我們在此基礎上實現了新的最快記錄(Merity 等人,2016)。最后,我們展示了門控線性單元可以實現更高的精度和收斂,比 OST 等人的 LSTM 門控更快。
來自:http://www.jiqizhixin.com/article/2057