基于深層神經網絡的命名實體識別技術

jopen 9年前發布 | 51K 次閱讀 神經網絡
 

引言

命名實體識別(Named Entity Recognition,后文簡稱NER)是指從文本中識別具有特定類別的實體(通常是名詞),例如人名、地名、機構名、專有名詞等。命名實體識別是信息 檢索,查詢分類,自動問答等問題的基礎任務,其效果直接影響后續處理的效果,因此是自然語言處理研究的一個基礎問題。

傳統的方法

NER的問題通常被抽象為序列標注(Sequence labeling)問題。所謂序列標注是指對序列中每個符號賦予一個特定的標簽。例如:Barack H. Obama is the 44th President of the United States.其中 Barack H. Obama是人名,United States是國家名。對每個詞給出一個特定的標簽來表明是某個特定類型的開始,結束和中間詞等。容易觀察到每個詞的標記依賴附近的詞。所以最簡單的方法 是采用分類的方法,如圖 1所示。

基于深層神經網絡的命名實體識別技術

使用若干特征,例如附近詞語的信息來為每個詞語進行單獨分類。這里周圍詞語的標記也是一個很好的特征,但是在順序掃描的過程中,后面的標簽還沒有 計算出來,所以不能有效利用。此外該方法難以傳遞不確定性。改進的方法是基于概率的方法,其中最有代表性的算法是隱馬爾可夫模型(HMM)和條件隨機場 (CRF)。HMM 的方法如圖 2所示,x表示標簽,y表示觀測的詞,該模型對于給定一個觀察的詞序列,產生該觀察序列概率最高的標簽序列。CRF也是類似的概率方法,其效果是傳統方法 中最好的。

基于深層神經網絡的命名實體識別技術

基于深層神經網絡的方法

人們很早就開始研究基于神經網絡的模型,但是當網絡層數比較深的時候,很容易過擬合。2006 年Hinton【Geoffrey E Hinton and Ruslan R Salakhutdinov。Reducing the dimensionality of data with neural networks。Science,313(5786):504–507,2006。】提出一個可行的算法,在一定程度上減輕了深層神經網絡過擬合的問 題,并在圖像和語音領域取得驚人的效果,使得深層學習成為近些年研究的熱點。2015年Google的最新模型在ImageNet的識別率甚至超過人工標 注的效果。在自然語言處理方面,深層學習已經被應用到詞語的分布式表示、詞義消歧、句子語義計算、復述檢測和情感分類等多個方面。對于NER的問題,目前 最好的模型是2011年Collobert提出的一個基于窗口的深層神經網絡模型,其效果和性能超過了之前的傳統算法。下面將介紹該模型的理論,以及我們 實現該模型過程的具體細節和技巧。

【模型】

該模型從輸入的句子中自動學習一系列抽象的特征,并通過后向傳播算法來訓練模型參數。模型的整體架構如圖3所示【Ronan Collobert,Jason Weston,Léon Bottou,Michael Karlen,Koray Kavukcuoglu,and Pavel Kuksa。Natural language processing (almost) from scratch。The Journal of Machine Learning Research,12:2493–2537,2011】。第一層抽取每個詞的特征,第二層從詞窗口中抽取特征,并將其看做一系列的局部和全局結構,從而 區別傳統的詞袋模型。后面的層和經典的神經網絡一樣。

基于深層神經網絡的命名實體識別技術

該模型可以被抽象地描述為圖4所示。圖中綠線表示從輸入的句子向量中抽取指定窗口大小的向量交給窗口層。中間的隱藏層可以是多層, 這里只繪制了兩層。最后一層是用softmax函數輸出標簽。

基于深層神經網絡的命名實體識別技術

基于深層神經網絡的命名實體識別技術

下面給出模型的詳細描述和推導,為了方便公式表示簡潔,將圖3簡化為3層的模型,如圖5所示。去掉最外層的輸入層 (因為這一層可以通過查找表實現) 和部分隱藏層,讀者不難拓展到更高層的模型。簡化模型中j、k、l分別是窗口層,隱藏層和輸出層的節點下標。x表示輸入的詞向量,W和b1分別是第一層網 絡的權重和偏置項。f是激活函數,可以取雙曲正切或者sigmoid函數。V和 b2分別是隱藏層網絡的權重和偏置項。η也是激活函數,但一般最后一層取softmax。模型的數學描述如下公式。m是輸出的標簽個數,f取雙曲正切,η 取softmax。

基于深層神經網絡的命名實體識別技術

【損失函數】

如果把樣本的分布看作多項分布,則容易寫出樣本聯合概率的解析表達式,而后用極大似然估計求解。目標函數如下公式所示。n是樣本量,h是隱藏層節 點個數。c是窗口大小。d是詞向量的維度。這里按照目標函數的通常處理方法,將極大化似然轉化為極小化負對數似然。取對數的目的是簡化后面的求導公式,取 負號將極大問題轉化為標準的極小問題。在損失函數中除了極小化負對數似然,還增加了W和V的L2正則項。原因是softmax函數的參數存在冗余,也就是 極小點不唯一,為了將解唯一化,增加該正則項。另一方面,L2正則從概率角度看相當于對參數增加了高斯先驗,控制了參數的方差,懲罰過大的參數,對于提高 模型的泛化能力有幫助。罰因子λ調節正則項的權重,取值越大,對大參數的懲罰越大。后面我們簡單的將λ取作c。需要注意的是正則項中不包含偏置參數 b1和b2。

基于深層神經網絡的命名實體識別技術

【算法】

模型的訓練可以采用隨機梯度下降的方法。 這里一次只更新一個樣本, 所以目標函數簡化為下面公式的形式。

基于深層神經網絡的命名實體識別技術

其中λ是學習率。下面給出每個參數的梯度計算公式。

基于深層神經網絡的命名實體識別技術

其中t是學習率。下面給出每個參數的梯度計算公式。

基于深層神經網絡的命名實體識別技術

隨機梯度下降的方法有一個重要的參數是學習率,學習率太大,模型會快速收斂,但是精度不高,反之如何學習率太小,精度高,但是收斂速度慢。這個參數需要通過搜索的方法確定。

【詞向量】

Collobert 的模型在沒有對詞向量預處理的情況下效果并不如傳統的方法,原因是可供訓練的有標簽的數據很少,而詞的頻率分布符合冪率分布,很多長尾的詞得不到充分訓 練,不能獲得足夠的信息。解決的方式是在訓練神經網絡之前,先用無標簽的數據對詞進行訓練。好在無標簽的數據很多,省掉了數據標記的成本。具體訓練算法可 以采用word2vec【Tomas Mikolov,Kai Chen,Greg Corrado,and Jeffrey Dean。Efficient estima- tion of word representations in vector space。arXiv preprint arXiv:1301.3781,2013】的方法或者Huang【Eric H Huang,Richard Socher,Christopher D Manning,and Andrew Y Ng。Improving word representations via global context and multiple word proto- types。 In Proceedings of the 50th Annual Meeting of the Association for Com- putational Linguistics:Long Papers-Volume 1,pages 873–882。Association for Computational Linguistics,2012】提出的方法。

【討論】

第一層詞向量的初始化好壞對于最終的分類效果影響很大, 所以需要用大量的無標簽數據訓練。

網絡層數對結果的影響在超過4層以后影響不大。

NER是序列標注的一個特例,對于一般的問題,如詞性標注(POS)和語塊分析(Chunking),可以用基于窗口的方法。但對于語義角色標注 (SRL)還是不夠的,需要卷積的方法,本質上是多個基于窗口的方法的疊加,所以卷積可以看做是 泛化的窗口方法。

基于窗口的方法,模型并不知道有一個句子,每次只看到窗口內的信息, 假定標簽只依賴局部的詞。如果某些特殊的NER不能滿足這個假定,需要考慮基于卷積的方法。

深層學習方法在京東智能客服上的應用效果

JIMI機器人是京東基于自然語言處理和意圖識別等技術實現的一個自動應答系統,其服務功能從客服到售前逐步延伸。當用戶輸入問題后,我們需要從 中找出命名實體。圖6是采用基于窗口的深層神經網絡和傳統的CRF方法的比較,可以看到大部分標簽的F1值都有所提升,平均值從84.9%提升到 90.9%。

基于深層神經網絡的命名實體識別技術

總結

本文在介紹NER傳統方法的基礎上,引出深層神經網絡方法,針對基于窗口的模型給出了理論分析和實際的調參經驗。我們的體會是,深層神經網絡在克 服了過擬合問題后,用更多參數的非線性模型去擬合真實的模型,比傳統的淺層模型在效果上有了較大的提升。但是對于圖像和語音的進展而言,深層神經網絡在自 然語言處理方面還有待更大的提高。

作者簡介:張曉鑫,京東商城DNN實驗室研究員。曾任職于Google公司。主要研究方向包括信息檢索、自然語言處理、機器學習和分布式計算。目前專注于基于深層神經網絡的語義計算問題。

基于深層神經網絡的命名實體識別技術

文章筆者:文 / 張曉鑫

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!