決策支持系統的發展演化決策支持系統(DSS)處理是一個漫長而復雜的演化進程的結果,而且它仍在繼續演化。DSS處理的起源可以追溯到計算機發展的初期。
BI確切地講,BI并不是一項新技術,它將數據倉庫(DW)、聯機分析處理(OLAP)、數據挖掘(DM)等技術與客戶關系管理(CRM)等結合起來應用于商業活動實際過程當中,實現了技術服務于決策的目的;MarkHammond從管理的角度看待BI,認為BI是從“根本上幫助你把公司的運營數據轉化成為高價值的可以獲取的信息(或者知識),并且在恰當的時間通過恰當的手段把恰當的信息傳遞給恰當的人”。
商業智能系統應具有的主要功能: 讀取數據——可讀取多種格式(如Excel、Access、以Tab分割的txt和固定長的txt等)的文件,同時可讀取關系型數據庫 (對應ODBC)中的數據。 分析功能——關聯/限定 關聯分析主要用于發現不同事件之間的關聯性,即一個事件發生的同時,另一個事件也經常發生。關聯分析的重點在于快速發現那些有實用價值的關聯發生的事件。
數據倉庫與數據挖掘概述隨著信息技術的不斷推廣和應用,許多企業都已經在使用管理信息系統處理管理事務和日常業務。這些管理信息系統為企業積累了大量的信息。企業管理者開始考慮如何利用這些信息海洋對企業的管理決策提供支持。因此,產生了與傳統數據庫有很大差異的數據環境要求和從這些海洋數據中獲取特殊知識的工具需要。
1、數據倉庫是公司成功的關鍵因素。2、隨著數據的數量以指數速度增長,將原始數據轉化為可供決策的信息就變得十分關鍵。3、這個演講將展示一個數據倉庫的結構及它在成功開展商業活動中所扮演重要角色
本章將針對OLAP組件需求和BI工具需求,提出我們的選型建議。
本文所提到的數據加載策略為OLTP系統作為源系統,并進行 ETL數據加載到OLAP系統中所采用的一般數據加載策略。
SPSS Clementine是Spss公司收購ISL獲得的數據挖掘工具。在Gartner的客戶數據挖掘工具評估中,僅有兩家廠商被列為領導者:SAS和SPSS。SAS獲得了最高ability to execute評分,代表著SAS在市場執行、推廣、認知方面有最佳表現;而SPSS獲得了最高的completeness of vision,表明SPSS在技術創新方面遙遙領先。
數據挖掘是從存放在數據集中的大量數據挖掘出有趣知識的過程。 (2)數據挖掘,又稱為數據庫中知識發現(Knowledge Discovery in Databases)或知識發現,它是一個從大量數據中抽取挖掘出未知的、有價值的模式或規律等知識的非平凡過程,它與數據倉庫有著密切的聯系。 (3)廣義的數據挖掘是指知識發現的全過程;狹義的數據挖掘是指統計分析、機器學習等發現數據模式的智能方法,即偏重于模型和算法。 (4)數據庫查詢系統和專家系統不是數據挖掘!在小規模數據上的統計分析和機器學習過程也不應算作數據挖掘。
要了解Kettle的執行分為兩個層次:Job和Transformation。兩個層次的最主要區別在于數據傳遞和運行方式。
什么是ETL?ETL即數據抽取(Extract)、轉換(Transform)、裝載(Load)的過程。它是構建數據倉庫的重要環節。數據倉庫是面向主題的、集成的、穩定的且隨時間不斷變化的數據集合,用以支持經營管理中的決策制定過程。數據倉庫系統中有可能存在著大量的噪聲數據,引起的主要原因有:濫用縮寫詞、慣用語、數據輸入錯誤、重復記錄、丟失值、拼寫變化等。即便是一個設計和規劃良好的數據庫系統,如果其中存在著大量的噪聲數據,那么這個系統也是沒有任何意義的,因為“垃圾進,垃圾出”(garbage in, garbage out),系統根本就不可能為決策分析系統提供任何支持。為了清除噪聲數據,必須在數據庫系統中進行數據清洗。目前有不少數據清洗研究和ETL研究,但是如何在ETL過程中進行有效的數據清洗并使這個過程可視化,此方面研究不多。本文主要從兩個方面闡述ETL和數據清洗的實現過程:ETL的處理方式和數據清洗的實現方法。
為什么會引入商業智能、引入商業智能的好處、商業智能(BI)的概述、商業智能(BI)技術實現的目的、商業智能(BI)的發展、商業智能(BI)的原理。
Hive是一個基于Hadoop的數據倉庫平臺。通過hive,我們可以方便地進行ETL的工作。hive定義了一個類似于SQL的查詢語言:HQL,能夠將用戶編寫的QL轉化為相應的Mapreduce程序基于Hadoop執行。本文講解如何搭建一個Hive平臺。假設我們有3臺機器:hadoop1,hadoop2,hadoop3。并且都安裝好了Hadoop-0.19.2(hive支持的Hadoop版本很多),hosts文件配置正確。Hive部署在hadoop1機器上。
Pentaho公司發布的PentahoBI套件企業版,是一個綜合性商業開源商務智能項目,涵蓋了絕大部分的商業智能所需,包括ETL(數據提取、轉換和加載),報表,OLAP(聯機分析處理),儀表盤,數據挖掘。這一次的發布更注重允許商業用戶設計豐富、互動的商業智能解決方案,以便使所有形式的信息傳遞能夠無縫整合。
Pentaho是目前最流行的、基于java平臺的開源商業智能套件,提供企業級報表制作、分析、數據挖掘、數據集成與工作流功能。我們將以Pentaho企業版30天試用版為基礎,分析其提供的功能組成以及功能使用流程。
Pentaho介紹Pentaho是目前最流行的、基于java平臺的開源商業智能套件,提供企業級報表制作、分析、數據挖掘、數據集成與工作流功能。還可以利用其靈活與完整的基礎框架來構建自定義的BI應用套件。Pentaho開創至今一直是開源商業智能的先鋒,其客戶包括sun、msyql等知名企業。
定義和作用Pentaho是目前最流行的、基于java平臺的開源商業智能套件,提供企業級報表制作、分析、數據挖掘、數據集成與工作流功能。還可以利用其靈活與完整的基礎框架來構建自定義的BI應用套件。應用范圍當進行BI商業智能產品、項目或者平臺的開發時,可以考慮購買企業版的pentaho或者在社區版上進行二次開發。基礎知識功能提供報表的制作、OLAP分析、數據挖掘、儀表板、數據集成、數據采集、商業智能平臺等強大功能。客戶Pentaho開創至今一直是開源商業智能的先鋒,其客戶包括sun、msyql等知名企業。