數據挖掘

jopen 10年前發布 | 18K 次閱讀 數據挖掘

什么是數據挖掘?

數據挖掘是在大型數據存儲庫中,自動地發現有用信息的過程。數據挖掘技術用來探查大型數據庫,發現前所未知的有用模式。數據挖掘還可以預測未來的觀測結果。并非所有的信息發現任務都被視為數據挖掘,與信息檢索的區別。

數據挖掘任務

預測建模,有兩類預測建模任務:分類(classification)和回歸(regression)。分類用于預測離散的目標變量;回歸用于預測連續的目標變量。如預測花的模型。

關聯分析,用來發現描述數據中強關聯特征的模式。如購物籃分析。

聚類分析,旨在發現緊密相關的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。

異常檢測,任務是識別其特征顯著不同于其他數據的觀測值。如信用卡欺詐檢測。

 

分類法是一種根據輸入數據集建立分類模型的系統方法。分類法的例子包括決策樹分類法基于規則的分類法神經網絡支持向量機樸素貝葉斯分類法。這些技術都使用一種學習算法確定分類模型,該模型能夠很好地擬合輸入數據中類標號和屬性集之間的聯系。學習算法得到的模型不僅要很好地擬合輸入數據,還要能夠正確地預測未知樣本的類標號。因此,訓練算法的主要目標就是建立具有很好的泛化能力模型,即建立能夠準確地預測未知樣本類標號的模型。

決策樹:原則上講,對于給定的屬性集,可以構造的決策樹的數目達指數級。盡管某些決策樹比其他決策樹更準確,但是由于搜索空間是指數規模的,找出最佳決策樹在計算上是不可行的。盡管如此,人們還是開發了一些有效的算法,能夠在合理的時間內構造出具有一定準確率的次優決策樹。這些算法通常采用貪心策略,在選擇劃分數據的屬性時,采取一系列局部最優決策來構造決策樹,Hunt算法就是一種這樣的算法。Hunt算法是許多決策樹算法的基礎,包括ID3、C4.5和CART。

基于規則的分類法:最近鄰分類器,是一種消極學習方法不需要建立模型,然而,分類測試樣例的開銷很大,因為需要逐個計算測試樣例和訓練樣例之間的相似度。相反,積極學習方法通常花費大量計算資源來建立模型,模型一旦建立,分類測試樣例就會很快。貝葉斯分類器,是一種把類的先驗知識和從數據中收集的新證據相結合的統計原理。貝葉斯分類器的兩種實現:樸素貝葉斯和貝葉斯信念網絡。

神經網絡

支持向量機

隨機森林

 

聚類算法:

K均值,是基于原型的、劃分的聚類技術。它試圖發現用戶指定個數(K)的簇(由質心代表)。K均值用質心定義原型,其中質心是一組點的均值

轉載:http://my.oschina.net/u/923087/blog/279133

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!