• 0推薦
    49K 瀏覽

    開源數據分析工具:Druid

    Druid 是一個針對在線分析處理(OLAP)事件數據而設計的開源數據存儲分析工具。它提供了低延遲(實時)數據攝取、靈活的數據探索及快速的數據聚合功能。現存 的已實施的Druid項目已經能處理數...
    ygfb 10年前   
    0推薦
    42K 瀏覽

    數據挖掘的學習資源

    數據挖掘(Data Mining)作為一個領域,比機器學習要大,偏應用。互聯網公司也大量使用數據挖掘技術,作為即將畢業進入互聯網公司從事機器學習算法開發的我,最近計劃系統了解一下這方面的理論和技...
    jopen 10年前   
    0推薦
    43K 瀏覽

    數據挖掘與預測分析術語總結

    分析型客戶關系管理(Analytical CRM/aCRM): 用于支持決策,改善公司跟顧客的互動或提高互動的價值。針對有關顧客的知識,和如何與顧客有效接觸的知識,進行收集、分析、應用。
    jopen 10年前   
    0推薦
    113K 瀏覽

    開源 BI 工具 Metabase 簡介

    這是 Metabase 官網上的介紹。BI 工具其實非常多,但卻沒有一種適合所有場景,各種產品的定位也各不相同。個人覺得 Metabase 相對于其他 BI 產品具有以下特性:
    jopen 10年前   
    0推薦
    21K 瀏覽

    數據挖掘入門算法整理

    最近正打算學習一些數據挖掘方面的知識,開始看了一些相關博文,但是太過零碎,一直對此沒有一個較為系統的認識。周末在圖書館閑逛,偶然看見《大 話數據挖掘》一書,發現講的比較有條理,還蠻適合入門的,因...
    jopen 10年前   
    0推薦
    72K 瀏覽

    數據挖掘(10):卷積神經網絡算法的一個實現

    從理解卷積神經到實現它,前后花了一個月時間,現在也還有一些地方沒有理解透徹,CNN還是有一定難度的,不是看哪個的博客和一兩篇論文就明白了,主要還是靠自己去專研,閱讀推薦列表在末尾的參考文獻。目前...
    jopen 10年前   
    0推薦
    26K 瀏覽

    數據挖掘(9):BP神經網絡算法與實踐

    神經網絡曾經很火,有過一段低迷期,現在因為深度學習的原因繼續火起來了。神經網絡有很多種:前向傳輸網絡、反向傳輸網絡、遞歸神經網絡、卷積神經網絡等。本文介紹基本的反向傳輸神經網絡(Backprop...
    jopen 10年前   
    0推薦
    40K 瀏覽

    數據挖掘(8):樸素貝葉斯分類算法原理與實踐

    隔了很久沒有寫數據挖掘系列的文章了,今天介紹一下樸素貝葉斯分類算法,講一下基本原理,再以文本分類實踐。
    jopen 10年前   
    0推薦
    33K 瀏覽

    數據挖掘(1):關聯規則挖掘基本概念與Aprior算法

    我計劃整理數據挖掘的基本概念和算法,包括關聯規則挖掘、分類、聚類的常用算法,敬請期待。今天講的是關聯規則挖掘的最基本的知識。
    jopen 10年前   
    0推薦
    37K 瀏覽

    數據挖掘(2):關聯規則FpGrowth算法

    上一篇介紹了關聯規則挖掘的一些基本概念和經典的Apriori算法,Aprori算法利用頻繁集的兩個特性,過濾了很多無關的集合,效率提高不少,但是我們發現Apriori算法是一個候選消除算法,每一...
    jopen 10年前   
    0推薦
    22K 瀏覽

    K-均值聚類分析

    上一篇介紹了關聯規則挖掘的一些基本概念和經典的Apriori算法,Aprori算法利用頻繁集的兩個特性,過濾了很多無關的集合,效率提高不少,但是我們發現Apriori算法是一個候選消除算法,...
    jopen 10年前   
    0推薦
    22K 瀏覽

    數據挖掘(6):決策樹分類算法

    從這篇開始,我將介紹分類問題,主要介紹決策樹算法、樸素貝葉斯、支持向量機、BP神經網絡、懶惰學習算法、隨機森林與自適應增強算法、分類模型選擇和結果評價。總共7篇,歡迎關注和交流。 這篇先...
    jopen 10年前   
    0推薦
    17K 瀏覽

    數據挖掘(3):關聯規則評價

    前面我們討論的關聯規則都是用支持度和自信度來評價的,如果一個規則的自信度高,我們就說它是一條強規則,但是自信度和支持度有時候并不能度量規則的實際意義和業務關注的興趣點。
    jopen 10年前   
    0推薦
    18K 瀏覽

    數據挖掘(5):使用mahout做海量數據關聯規則挖掘

    上一篇介紹了用開源數據挖掘軟件weka做關聯規則挖掘,weka方便實用,但不能處理大數據集,因為內存放不下,給它再多的時間也是無用,因此需要進行分布式計算,mahout是一個基于hadoop...
    jopen 10年前   
    0推薦
    10K 瀏覽

    數據挖掘中易犯的10大錯誤

    0. 缺乏數據(Lack Data) 對于分類問題或預估問題來說,常常缺乏準確標注的案例。 例如: -欺詐偵測(Fraud Detection):在上百萬的交易中,...
    jopen 10年前   
    0推薦
    23K 瀏覽

    數據挖掘(4):使用weka做關聯規則挖掘

    前面幾篇介紹了關聯規則的一些基本概念和兩個基本算法,但實際在商業應用中,寫算法反而比較少,理解數據,把握數據,利用工具才是重要的,前面的基礎篇是對算法的理解,這篇將介紹開源利用數據挖掘工具w...
    jopen 10年前   
    0推薦
    71K 瀏覽

    數據挖掘研究方向、熱點以及對大數據研究的認識

    通過上網查詢以及看同行對會議的公共認識,數據挖掘領域的頂級會議是 KDD(ACM SIGKDD Conference on Knowledge Discovery and Data Mining...
    jopen 10年前   
    0推薦
    39K 瀏覽

    kettle轉換和作業插件開發及調試

    這是一篇幾年前寫下的文檔,最近打算根據這篇文檔重寫一下kettle插件的教程。結果各種理由,一推再推。今天索性將這篇文檔發布出來,分享給大 家,例子等有空再補上。這是一篇基于kettle3.2基...
    jopen 10年前   
    0推薦
    19K 瀏覽

    LinkedIn 開源 OLAP 存儲和分析系統:Pinot

    Pinot 是一個實時分布式的 OLAP 數據存儲和分析系統。LinkedIn 使用它實現低延遲可伸縮的實時分析。Pinot 從離線數據源(包括 Hadoop 和各類文件)和在線數據源(如 Ka...
    jopen 10年前   
    0推薦
    16K 瀏覽

    Hive安裝手冊

    Hive安裝手冊
    jopen 10年前   
    1 2 3 4 5 6 7 8 9

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色