數據挖掘入門算法整理

jopen 10年前發布 | 21K 次閱讀數據挖掘機器學習

原文 http://www.cnblogs.com/good-temper/p/4805435.html

最近正打算學習一些數據挖掘方面的知識，開始看了一些相關博文，但是太過零碎，一直對此沒有一個較為系統的認識。周末在圖書館閑逛，偶然看見《大話數據挖掘》一書，發現講的比較有條理，還蠻適合入門的，因此就讀了兩章，作此筆記。本文只是介紹了數據挖掘入門的一些算法分類，不涉及具體算法實現。一下是整理的算法分類圖：

數據挖掘入門算法整理

1、關聯

關聯是指一個事件與另一個事件之間的依賴關系。如經典的尿布與啤酒的關系。

apriori算法是最經典的關聯規則算法，基本思想是：首先從事件中集中找到所有頻繁出現的子集。然后在這些子集中發現可信度較高的規則。

2、聚類

聚類就是將對象劃分成若干個類，在同一類中對象具有較高的相似度，不同類中對象差異較大。基于對象間距離可以分為兩類算法：劃分方法（Partitioning Method）和層次聚類方法（Hierarchial Method）。前者的思想是：迭代計算各點到類中心點距離，類內數據點越近越好，類間點越遠越好。后者思想是：將對象分層建立簇，形成一顆以簇為節點的樹，自下而上的是聚集的層次聚類，自上而下的是分裂的層次聚類。

3、預測

預測是通過對反映了事物輸入和輸出之間的關聯性的學習，得到預測模型，再利用該模型對未來數據進行預測的過程。如機器學習的一個簡單模型：輸入數據為（x1,y1）,(x2,y2)...(xn,yn)，通過輸入數據的學習，可以得到模型y=f(x,β)中的β，從而對于新數據我們可以通過x確定 y值。具體的預測算法有很多，各自的效果和實現自行百度吧。

4、序列和時間序列

序列是指被排成一列的對象，即有序對象。而時間序列則是以時間來區隔的序列。由于序列與關聯關系很密切，所以序列前邊的值很可能影響序列后邊的值，對于時間序列而言就和回歸分析很像了。

這里列出的只是書中給出的，僅是一些比較有代表性的入門算法，實際每個分類下還有很多算法或變種，比如預測中比較常用的還有鄰近法和樸素貝葉斯等，這里不再給出。此外本篇主要是給出這些算法概念，看了之后可能不知所云，所以如果真要深入了解，就需要去查對應算法相關的資料了。

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1442147884075.html

數據挖掘機器學習

數據挖掘入門算法整理

1、關聯

2、聚類

3、預測

4、序列和時間序列

相關經驗

相關資訊

相關文檔

目錄