推ter情感分析技術
情感分析是自然語言處理(NLP)、文本分析和計算語言學中的一個挑戰性問題。一般意義上,情感分析主要是分析用戶對于各種對象或問題的意見。它最初是利用長文本(如信件、電子郵件等)來進行分析。隨著互聯網的發展,像microbloging網站、論壇和社交網絡等互聯網應用爆發式增長,情感分析也越來越受到重視。用戶使用這些應用進行的各種交互行為(分享、評論、推薦、交友等)產生了大量的數據,被稱為用戶產生內容,這些數據蘊含著大量的信息,反映了用戶的內在行為規律。龐大的數據量要求使用自動化技術來進行挖掘和分析。目前,利用微博數據進行情感分析是一項挑戰性的工作,已有的工作主要采用了詞法分析方法和機器學習方法,以及兩種方法的融合。
背景
根據分析的載體不同,情感分析涉及到很多的主題,包括針對電影評論、商品評論,以及新聞和博客等的情感分析。在本文中,主要介紹針對 推ter內容的情感分析方法。對情感分析的研究到目前為止主要集中在兩個方面:識別給定的文本實體是主觀的還是客觀的,以及識別主觀的文本的極性。大多數情感分析研究都使用機器學習方法。
在情感分析領域,文本可以劃分為積極的或消極的類,或者多種類別,即積極、消極和中性(或不相關)。針對推ter內容的情感分析技術可以分為:
- 詞法分析
- 基于機器學習的分析
- 混合分析
詞法分析
這種技術主要使用了一個由預標記詞匯組成的字典。輸入文本通過詞法分析器被轉換為一個個單詞。將每一個新的單詞與字典中的詞匯進行匹配。如果有一個積極的匹配,分數加到輸入文本的分數總池中。例如,如果“戲劇性”在字典中是一個積極的匹配,然后文本的總分數會遞增。相反,如果有一個消極的匹配,輸入文本的總分數會減少。雖然這項技術本質上感覺有些業余,但已被證明是有價值的。詞法分析技術的工作方式如下圖。
文本的分類取決于文本的總得分。目前有大量的工作致力于度量詞法信息的有效性。對單個短語,通過手動標記詞匯(僅僅包含形容詞)的方式,大概能達到80%的準確率,這是由評價文本的主觀性所決定的。有研究者將同樣的方法用于電影評論的數據中,準確率僅僅為62%。除了手動標記詞匯的方法,還有研究者利用互聯網搜索引擎標記詞匯的極性。他們使用兩個AltaVista搜索引擎進行查詢:目標詞匯+“good”和目標詞匯+“bad”,最后的得分根據搜索的結果的數量進行統計,準確率從62%提高到了65%。后來還有研究者使用了WordNet數據庫,他們通過在WordNet pyramid中計算目標詞匯與“good”和“bad”之間的最小路徑距離(Minimum Path Distance,MPD),并將MPD轉換為分數值,存儲在詞匯字典中,這種方法的準確率可以達到64%。還有研究者通過簡單地從消極詞匯集合中去除積極詞匯,來評價語義差距,得到了82%的準確度。詞法分析也存在一個不足:其性能(時間復雜度和準確率)會隨著字典大小(詞匯的數量)的增加迅速下降。
基于機器學習的分析
機器學習技術由于其高的適應性和準確性受到了越來越多的關注。在情感分析中,主要使用的是監督學習方法。它可以分為三個階段:數據收集、預處理、訓練分類。在訓練過程中,需要提供一個標記語料庫作為訓練數據。分類器使用一系列特征向量對目標數據進行分類。在機器學習技術中,決定分類器準確率的關鍵是合適的特征選擇。通常來說,unigram(單個短語),bigrams(兩個連續的短語),trigrams(三個連續的短語)都可以被選為特征向量。當然還有其他的一些特征,如積極詞匯的數量,消極詞匯的數量,文檔的長度,支持向量機(SVM),和樸素貝葉斯(NB)算法等。取決于所選擇的各種特征的組合,精度可以達到從63%至80%。下圖是基于機器學習的分析所涉及到的主要步驟:
同時,機器學習技術也面臨很多挑戰:分類器的設計、訓練的數據的獲取、對一些未見過的短語的正確解釋。相比詞法分析方法,它在字典大小呈指數倍增長的時候依然工作得很好。
混合分析
情感分析研究的進步吸引大量研究者開始探討將兩種方法進行組合的可能性,既可以利用機器學習方法的高準確性,又可以利用詞法分析方法的快速特點。有研究者利用由兩個詞組成的詞匯和一個未標記的數據,將這些由兩個詞組成的詞匯劃分為積極的和消極的類。利用被選擇的詞匯集合中的所有單詞產生一些偽文件。然后計算偽文件與未標記文件之間的余弦相似度。根據相似性量度,該文件被劃分為積極的或消極的情感。這些訓練數據集然后被送入樸素貝葉斯分類器進行訓練。
有研究者使用背景詞法信息作為單詞類關聯,提出了一種統一的框架,設計了一個Polling多項式分類器(PMC)(也稱為多項式樸素貝葉斯),在訓練中融入了手動標記數據。他們聲稱利用詞法知識后性能得到了提高。
比較
在文獻[ 1 ]中,研究者在電影評論及推薦、新聞評論領域相關的用戶微博數據上進行測試,通過對所有的方法進行比較表明機器學習方法可以得到最好的結果,最差的是詞法分析方法。但是,如果沒有找到合適的分類器,機器學習方法可能會導致非常糟糕的結果。
出于分類器的訓練目的,用戶可以使用公開可用的數據集,包括:Cornel電影評論集,通用詢價形容詞列表,雅虎網絡搜索API,WordNet Java API,WEKA M.L. Java API(僅適用于機器學習目的),SVM-light ML(M.L.分類器)等。
文獻 1
[ 1 ] R. Prabowo and M. Thelwall. Sentiment analysis: A combined approach. Journal of In-formatics (2009) 143-157