數據挖掘入門算法整理

jopen 9年前發布 | 21K 次閱讀 數據挖掘 機器學習
 

最近正打算學習一些數據挖掘方面的知識,開始看了一些相關博文,但是太過零碎,一直對此沒有一個較為系統的認識。周末在圖書館閑逛,偶然看見《大 話數據挖掘》一書,發現講的比較有條理,還蠻適合入門的,因此就讀了兩章,作此筆記。本文只是介紹了數據挖掘入門的一些算法分類,不涉及具體算法實現。一 下是整理的算法分類圖:

數據挖掘入門算法整理

1、關聯

關聯是指一個事件與另一個事件之間的依賴關系。如經典的 尿布與啤酒 的關系。

apriori算法是最經典的關聯規則算法,基本思想是:首先從事件中集中找到所有頻繁出現的子集。然后在這些子集中發現可信度較高的規則。

2、聚類

聚類就是將對象劃分成若干個類,在同一類中對象具有較高的相似度,不同類中對象差異較大。基于對象間距離可以分為兩類算法:劃分方法 (Partitioning Method)和層次聚類方法(Hierarchial Method)。前者的思想是:迭代計算各點到類中心點距離,類內數據點越近越好,類間點越遠越好。后者思想是:將對象分層建立簇,形成一顆以簇為節點的 樹,自下而上的是聚集的層次聚類,自上而下的是分裂的層次聚類。

3、預測

預測是通過對反映了事物輸入和輸出之間的關聯性的學習,得到預測模型,再利用該模型對未來數據進行預測的過程。如機器學習的一個簡單模型:輸入數 據為(x1,y1),(x2,y2)...(xn,yn),通過輸入數據的學習,可以得到模型y=f(x,β)中的β,從而對于新數據我們可以通過x確定 y值。具體的預測算法有很多,各自的效果和實現自行百度吧。

4、序列和時間序列

序列是指被排成一列的對象,即有序對象。而時間序列則是以時間來區隔的序列。由于序列與關聯關系很密切,所以序列前邊的值很可能影響序列后邊的值,對于時間序列而言就和回歸分析很像了。

這里列出的只是書中給出的,僅是一些比較有代表性的入門算法,實際每個分類下還有很多算法或變種,比如預測中比較常用的還有鄰近法和樸素貝葉斯 等,這里不再給出。此外本篇主要是給出這些算法概念,看了之后可能不知所云,所以如果真要深入了解,就需要去查對應算法相關的資料了。

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!