文本聚類算法介紹

xg48 9年前發布 | 74K 次閱讀 算法

轉載請注明出處:http://blog.csdn.net/xiaojimanman/article/details/44977889

      本博客通過對當前比較成熟的聚類算法分析,介紹如何對非結構的數據(文檔)做聚類算法,第一大部分的內容來源百度百科,第二部分是對文本聚類算法思想的介紹。這里因為各種原因就不給出具體的代碼實現,如若有興趣,可以在后面留言一起討論。


###################################################################################

以下內容為聚類介紹,來源百度百科,如果已經了解,可以直接忽略跳到下一部分
############################################################################# </p>


聚類概念
      聚類分析又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法,同時也是數據挖掘的一個重要算法。聚類(Cluster)分析是由若干模式(Pattern)組成的,通常,模式是一個度量(Measurement)的向量,或者是多維空間中的一個點。聚類分析以相似性為基礎,在一個聚類中的模式之間比不在同一聚類中的模式之間具有更多的相似性。

算法用途
      在商業上,聚類可以幫助市場分析人員從消費者數據庫中區分出不同的消費群體來,并且概括出每一類消費者的消費模式或者說習慣。它作為數據挖掘中的一個模塊,可以作為一個單獨的工具以發現數據庫中分布的一些深層的信息,并且概括出每一類的特點,或者把注意力放在某一個特定的類上以作進一步的分析;并且,聚類分析也可以作為數據挖掘算法中其他分析算法的一個預處理步驟。
聚類分析的算法可以分為劃分法(Partitioning Methods)、層次法(Hierarchical Methods)、基于密度的方法(density-based methods)、基于網格的方法(grid-based methods)、基于模型的方法(Model-Based Methods)。

算法分類
      很難對聚類方法提出一個簡潔的分類,因為這些類別可能重疊,從而使得一種方法具有幾類的特征,盡管如此,對于各種不同的聚類方法提供一個相對有組織的描述依然是有用的,為聚類分析計算方法主要有如下幾種:

劃分法
      劃分法(partitioning methods),給定一個有N個元組或者紀錄的數據集,分裂法將構造K個分組,每一個分組就代表一個聚類,K<N。而且這K個分組滿足下列條件:
(1) 每一個分組至少包含一個數據紀錄;
(2)每一個數據紀錄屬于且僅屬于一個分組(注意:這個要求在某些模糊聚類算法中可以放寬);
      對于給定的K,算法首先給出一個初始的分組方法,以后通過反復迭代的方法改變分組,使得每一次改進之后的分組方案都較前一次好,而所謂好的標準就是:同一分組中的記錄越近越好,而不同分組中的紀錄越遠越好。
      大部分劃分方法是基于距離的。給定要構建的分區數k,劃分方法首先創建一個初始化劃分。然后,它采用一種迭代的重定位技術,通過把對象從一個組移動到另一個組來進行劃分。一個好的劃分的一般準備是:同一個簇中的對象盡可能相互接近或相關,而不同的簇中的對象盡可能遠離或不同。還有許多評判劃分質量的其他準則。傳統的劃分方法可以擴展到子空間聚類,而不是搜索整個數據空間。當存在很多屬性并且數據稀疏時,這是有用的。為了達到全局最優,基于劃分的聚類可能需要窮舉所有可能的劃分,計算量極大。實際上,大多數應用都采用了流行的啟發式方法,如k-均值和k-中心算法,漸近的提高聚類質量,逼近局部最優解。這些啟發式聚類方法很適合發現中小規模的數據庫中小規模的數據庫中的球狀簇。為了發現具有復雜形狀的簇和對超大型數據集進行聚類,需要進一步擴展基于劃分的方法。
使用這個基本思想的算法有:K-MEANS算法、K-MEDOIDS算法、CLARANS算法;

層次法
      層次法(hierarchical methods),這種方法對給定的數據集進行層次似的分解,直到某種條件滿足為止。具體又可分為“自底向上”和“自頂向下”兩種方案。
例如,在“自底向上”方案中,初始時每一個數據紀錄都組成一個單獨的組,在接下來的迭代中,它把那些相互鄰近的組合并成一個組,直到所有的記錄組成一個分組或者某個條件滿足為止。
      層次聚類方法可以是基于距離的或基于密度或連通性的。層次聚類方法的一些擴展也考慮了子空間聚類。層次方法的缺陷在于,一旦一個步驟(合并或分裂)完成,它就不能被撤銷。這個嚴格規定是有用的,因為不用擔心不同選擇的組合數目,它將產生較小的計算開銷。然而這種技術不能更正錯誤的決定。已經提出了一些提高層次聚類質量的方法。
代表算法有:BIRCH算法、CURE算法、CHAMELEON算法等;

密度算法
      基于密度的方法(density-based methods),基于密度的方法與其它方法的一個根本區別是:它不是基于各種各樣的距離的,而是基于密度的。這樣就能克服基于距離的算法只能發現“類圓形”的聚類的缺點。
      這個方法的指導思想就是,只要一個區域中的點的密度大過某個閾值,就把它加到與之相近的聚類中去。
代表算法有:DBSCAN算法、OPTICS算法、DENCLUE算法等;

圖論聚類法
      圖論聚類方法解決的第一步是建立與問題相適應的圖,圖的節點對應于被分析數據的最小單元,圖的邊(或弧)對應于最小處理單元數據之間的相似性度量。因此,每一個最小處理單元數據之間都會有一個度量表達,這就確保了數據的局部特性比較易于處理。圖論聚類法是以樣本數據的局域連接特征作為聚類的主要信息源,因而其主要優點是易于處理局部數據的特性。

網格算法
      基于網格的方法(grid-based methods),這種方法首先將數據空間劃分成為有限個單元(cell)的網格結構,所有的處理都是以單個的單元為對象的。這么處理的一個突出的優點就是處理速度很快,通常這是與目標數據庫中記錄的個數無關的,它只與把數據空間分為多少個單元有關。
代表算法有:STING算法、CLIQUE算法、WAVE-CLUSTER算法;

模型算法
      基于模型的方法(model-based methods),基于模型的方法給每一個聚類假定一個模型,然后去尋找能夠很好的滿足這個模型的數據集。這樣一個模型可能是數據點在空間中的密度分布函數或者其它。它的一個潛在的假定就是:目標數據集是由一系列的概率分布所決定的。
通常有兩種嘗試方向:統計的方案和神經網絡的方案。


###################################################################################

以下內容為文本聚類方法分析
############################################################################# </p>


文本聚類
      目前針對聚類算法的研究多數都是基于結構化數據,很少有針對非結構化數據的,這里就介紹下自己對這方面的研究。由于源碼目前牽扯到一系列的問題,所以這里就只介紹思想,不提供源碼,如有想進一步了解的,可以在下方留言。
      文本聚類(Text clustering)文檔聚類主要是依據著名的聚類假設:同類的文檔相似度較大,而不同類的文檔相似度較小。作為一種無監督的機器學習方法,聚類由于不需要訓練過程,以及不需要預先對文檔手工標注類別,因此具有一定的靈活性和較高的自動化處理能力,已經成為對文本信息進行有效地組織、摘要和導航的重要手段。
我們本次的介紹重點就是介紹如何對非結構化的文本做聚類。

文本聚類思想
      由于目前對結構化的數據的聚類研究已經十分成熟,所以我們就要想辦法把這種非結構化的數據轉化為結構化的數據,這樣也許就會很好處理。
      由于自己的工作方向是搜索引擎,所以自己的一些算法思想也都是基于它來的,對于如何將非結構話的數據轉化為結構化的數據,可以參照下博客《基于lucene的案例開發:索引數學模型》
下面給出具體的算法說明:
第一步:記錄分詞
這里為了簡化模型,我們就直接默認一篇文本只有一個屬性。在這一步中,我們需要對所有的文檔做初始化分析,過程中我們需要統計如下幾個值:第N篇文檔包含哪些詞元、第N篇文檔中的詞元M在文檔N中出現的次數、詞元M在多少篇文檔中出現、詞元M在所有文檔中出現的次數。在這一步中,需要使用到分詞技術,當處理中文的時候,建議使用IK等中文分詞器,其他通用分詞器處理的效果不是太好。這一步將文檔轉化為Document = {term1, term2, term3 …… termN};
第二步:計算權重
這里的計算權重方法和之前的稍微有一點區別,具體計算公式如下:

img
通過這一步的處理,我們就將Document = {term1, term2, term3 …… termN}轉化為DocumentVector = {weight1, weight2, weight3 …… weightN}
第三步:N維空間向量模型
我們將第二步得到的DocumentVector放到N維空間向量模型中(N是詞元的總數),文檔D在m坐標上的映射為文檔D中的m詞元的權重,具體如下圖:

img
第四步:最相近的文檔
在N維空間向量模型中,我們規定夾角越小,兩篇文檔就越相似。這一步,我們需要找到兩個夾角最下的兩個向量(即最相似的兩篇文檔);
第五步:合并文檔
將第四步得到的兩篇文檔視為一篇文檔(即將這兩篇文檔當作一個類別);
第六步:驗證
判斷這時的文檔數目是否滿足要求(目前剩余的文檔數是否等于要聚類的類別數),如果滿足要求結束本次算法,不滿足要求,跳到第二步循環2、3、4、5、6。


算法評估

      目前在自己工作筆記本(配置一般,內存4G)上的測試結果是聚類1W篇文檔耗時在40s~50s,下圖是對10條數據的聚類效果截圖:

img

 本文由用戶 xg48 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!