數據挖掘入門算法整理
最近正打算學習一些數據挖掘方面的知識,開始看了一些相關博文,但是太過零碎,一直對此沒有一個較為系統的認識。周末在圖書館閑逛,偶然看見《大 話數據挖掘》一書,發現講的比較有條理,還蠻適合入門的,因此就讀了兩章,作此筆記。本文只是介紹了數據挖掘入門的一些算法分類,不涉及具體算法實現。一 下是整理的算法分類圖:
1、關聯
關聯是指一個事件與另一個事件之間的依賴關系。如經典的 尿布與啤酒 的關系。
apriori算法是最經典的關聯規則算法,基本思想是:首先從事件中集中找到所有頻繁出現的子集。然后在這些子集中發現可信度較高的規則。
2、聚類
聚類就是將對象劃分成若干個類,在同一類中對象具有較高的相似度,不同類中對象差異較大。基于對象間距離可以分為兩類算法:劃分方法 (Partitioning Method)和層次聚類方法(Hierarchial Method)。前者的思想是:迭代計算各點到類中心點距離,類內數據點越近越好,類間點越遠越好。后者思想是:將對象分層建立簇,形成一顆以簇為節點的 樹,自下而上的是聚集的層次聚類,自上而下的是分裂的層次聚類。
3、預測
預測是通過對反映了事物輸入和輸出之間的關聯性的學習,得到預測模型,再利用該模型對未來數據進行預測的過程。如機器學習的一個簡單模型:輸入數 據為(x1,y1),(x2,y2)...(xn,yn),通過輸入數據的學習,可以得到模型y=f(x,β)中的β,從而對于新數據我們可以通過x確定 y值。具體的預測算法有很多,各自的效果和實現自行百度吧。
4、序列和時間序列
序列是指被排成一列的對象,即有序對象。而時間序列則是以時間來區隔的序列。由于序列與關聯關系很密切,所以序列前邊的值很可能影響序列后邊的值,對于時間序列而言就和回歸分析很像了。
這里列出的只是書中給出的,僅是一些比較有代表性的入門算法,實際每個分類下還有很多算法或變種,比如預測中比較常用的還有鄰近法和樸素貝葉斯 等,這里不再給出。此外本篇主要是給出這些算法概念,看了之后可能不知所云,所以如果真要深入了解,就需要去查對應算法相關的資料了。