• 商務智能 BI開發入門

    7
    Business Intelligence(BI) 商務智能
    IDC將商業智能定義為下列軟件工具的集合:
    1.終端用戶查詢和報告工具。專門用來支持初級用戶的原始數據訪問,不包括適用于專業人士的成品報告生成工具
    2.OLAP工具。提供多維數據管理環境,其典型的應用是對商業問題的建模與商業數據分析。OLAP也被稱為多維分析
    3.數據挖掘(Data Mining)軟件。使用諸如神經網絡、規則歸納等技術,用來發現數據之間的關系,做出基于數據的推斷。
    4.數據集市(Data Mart)和數據倉庫(Data Warehouse)產品。包括數據轉換、管理和存取等方面的預配置軟件,通常還包括一些業務模型,如財務分析模型。
    5.主管信息系統(EIS,Executive Information System)
    這個定義應該是比較學術了,客戶多半不明白。 其實BI通俗來講就是收集相關信息并加以分析,以幫助您做決策。成功的BI系統多采用了數據倉庫技術。


    然后,再看看數據倉庫是什么:

    數據倉庫
    數據倉庫是在企業管理和決策中面向主題的、集成的、與時間相關的、不可修改的數據集合

    數據倉庫,英文名稱為Data Warehouse,可簡寫為DW。

    數據倉庫之父Bill Inmon在1991年出版的“Building the Data Warehouse”一書中所提出的定義被廣泛接受——數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrated)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策(Decision Making Support)。

    ◆面向主題:操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織的。

    ◆集成的:數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業的一致的全局信息。

    ◆相對穩定的:數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。

    ◆反映歷史變化:數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。

    數據倉庫是一個過程而不是一個項目。

    數據倉庫系統是一個信息提供平臺,他從業務處理系統獲得數據,主要以星型模型和雪花模型進行數據組織,并為用戶提供各種手段從數據中獲取信息和知識。

    從功能結構化分,數據倉庫系統至少應該包含數據獲取(Data Acquisition)、數據存儲(Data Storage)、數據訪問(Data Access)三個關鍵部分。

    什么是數據倉庫

    目前,數據倉庫一詞尚沒有一個統一的定義,著名的數據倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策。對于數據倉庫的概念我們可以從兩個層次予以理解,首先,數據倉庫用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;其次,數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。

    根據數據倉庫概念的含義,數據倉庫擁有以下四個特點:

    1、面向主題。操作型數據庫的數據組織面向事務處理任務,各個業務系統之間各自分離,而數據倉庫中的數據是按照一定的主題域進行組織。主題是一個抽象的概念,是指用戶使用數據倉庫進行決策時所關心的重點方面,一個主題通常與多個操作型信息系統相關。

    2、集成的。面向事務處理的操作型數據庫通常與某些特定的應用相關,數據庫之間相互獨立,并且往往是異構的。而數據倉庫中的數據是在對原有分散的數據庫數據抽取、清理的基礎上經過系統加工、匯總和整理得到的,必須消除源數據中的不一致性,以保證數據倉庫內的信息是關于整個企業的一致的全局信息。

    3、相對穩定的。操作型數據庫中的數據通常實時更新,數據根據需要及時發生變化。數據倉庫的數據主要供企業決策分析之用,所涉及的數據操作主要是數據查詢,一旦某個數據進入數據倉庫以后,一般情況下將被長期保留,也就是數據倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。

    4、反映歷史變化。操作型數據庫主要關心當前某一個時間段內的數據,而數據倉庫中的數據通常包含歷史信息,系統記錄了企業從過去某一時點(如開始應用數據倉庫的時點)到目前的各個階段的信息,通過這些信息,可以對企業的發展歷程和未來趨勢做出定量分析和預測。

    企業數據倉庫的建設,是以現有企業業務系統和大量業務數據的積累為基礎。數據倉庫不是靜態的概念,只有把信息及時交給需要這些信息的使用者,供他們做出改善其業務經營的決策,信息才能發揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時提供給相應的管理決策人員,是數據倉庫的根本任務。因此,從產業界的角度看,數據倉庫建設是一個工程,是一個過程。

    整個數據倉庫系統是一個包含四個層次的體系結構,具體由下圖表示。

    數據倉庫系統體系結構  

    ·數據源:是數據倉庫系統的基礎,是整個系統的數據源泉。通常包括企業內部信息和外部信息。內部信息包括存放于RDBMS中的各種業務處理數據和各類文檔數據。外部信息包括各類法律法規、市場信息和競爭對手的信息等等;

    ·數據的存儲與管理:是整個數據倉庫系統的核心。數據倉庫的真正關鍵是數據的存儲和管理。數據倉庫的組織管理方式決定了它有別于傳統數據庫,同時也決定了其對外部數據的表現形式。要決定采用什么產品和技術來建立數據倉庫的核心,則需要從數據倉庫的技術特點著手分析。針對現有各業務系統的數據,進行抽取、清理,并有效集成,按照主題進行組織。數據倉庫按照數據的覆蓋范圍可以分為企業級數據倉庫和部門級數據倉庫(通常稱為數據集市)。

    ·OLAP服務器:對分析需要的數據進行有效集成,按多維模型予以組織,以便進行多角度、多層次的分析,并發現趨勢。其具體實現可以分為:ROLAP、MOLAP和HOLAP。ROLAP基本數據和聚合數據均存放在RDBMS之中;MOLAP基本數據和聚合數據均存放于多維數據庫中;HOLAP基本數據存放于RDBMS之中,聚合數據存放于多維數據庫中。

    ·前端工具:主要包括各種報表工具、查詢工具、數據分析工具、數據挖掘工具以數據挖掘及各種基于數據倉庫或數據集市的應用開發工具。其中數據分析工具主要針對OLAP服務器,報表工具、數據挖掘工具主要針對數據倉庫。

         目前,數據倉庫一詞尚沒有一個統一的定義,著名的數據倉庫專家W.H.Inmon在其著作《Building the Data Warehouse》一書中給予如下描述:數據倉庫(Data Warehouse)是一個面向主題的(Subject Oriented)、集成的(Integrate)、相對穩定的(Non-Volatile)、反映歷史變化(Time Variant)的數據集合,用于支持管理決策。對于數據倉庫的概念我們可以從兩個層次予以理解,首先,數據倉庫用于支持決策,面向分析型數據處理,它不同于企業現有的操作型數據庫;其次,數據倉庫是對多個異構的數據源有效集成,集成后按照主題進行了重組,并包含歷史數據,而且存放在數據倉庫中的數據一般不再修改。多維

    數據倉庫的組成

          數據倉庫數據庫
          是整個數據倉庫環境的核心,是數據存放的地方和提供對數據檢索的支持。相對于操縱型數據庫來說其突出的特點是對海量數據的支持和快速的檢索技術。

          數據抽取工具
          把數據從各種各樣的存儲方式中拿出來,進行必要的轉化、整理,再存放到數據倉庫內。對各種不同數據存儲方式的訪問能力是數據抽取工具的關鍵,應能生成COBOL程序、MVS作業控制語言(JCL)、UNIX腳本、和SQL語句等,以訪問不同的數據。數據轉換都包括,刪除對決策應用沒有意義的數據段;轉換到統一的數據名稱和定義;計算統計和衍生數據;給缺值數據賦給缺省值;把不同的數據定義方式統一。

          元數據
          元數據是描述數據倉庫內數據的結構和建立方法的數據。可將其按用途的不同分為兩類,技術元數據和商業元數據。

          技術元數據是數據倉庫的設計和管理人員用于開發和日常管理數據倉庫是用的數據。包括:數據源信息;數據轉換的描述;數據倉庫內對象和數據結構的定義;數據清理和數據更新時用的規則;源數據到目的數據的映射;用戶訪問權限,數據備份歷史記錄,數據導入歷史記錄,信息發布歷史記錄等。

          商業元數據從商業業務的角度描述了數據倉庫中的數據。包括:業務主題的描述,包含的數據、查詢、報表;

          元數據為訪問數據倉庫提供了一個信息目錄(informationdirectory),這個目錄全面描述了數據倉庫中都有什么數據、這些數據怎么得到的、和怎么訪問這些數據。是數據倉庫運行和維護的中心,數據倉庫服務器利用他來存貯和更新數據,用戶通過他來了解和訪問數據。

          訪問工具
          為用戶訪問數據倉庫提供手段。有數據查詢和報表工具;應用開發工具;管理信息系統(EIS)工具;在線分析(OLAP)工具;數據挖掘工具。

          數據集市(DataMarts)
          為了特定的應用目的或應用范圍,而從數據倉庫中獨立出來的一部分數據,也可稱為部門數據或主題數據(subjectarea)。在數據倉庫的實施過程中往往可以從一個部門的數據集市著手,以后再用幾個數據集市組成一個完整的數據倉庫。需要注意的就是再實施不同的數據集市時,同一含義的字段定義一定要相容,這樣再以后實施數據倉庫時才不會造成大麻煩。

          數據倉庫管理:安全和特權管理;跟蹤數據的更新;數據質量檢查;管理和更新元數據;審計和報告數據倉庫的使用和狀態;刪除數據;復制、分割和分發數據;備份和恢復;存儲管理。

          信息發布系統:把數據倉庫中的數據或其他相關的數據發送給不同的地點或用戶。基于Web的信息發布系統是對付多用戶訪問的最有效方法。

    設計數據倉庫的九個步驟
          1)選擇合適的主題(所要解決問題的領域)
          2)明確定義fact表
          3)確定和確認維
          4)choosingthefacts
          5)計算并存儲fact表中的衍生數據段
          6)roundingoutthedimensiontables
          7)choosingthedurationofthedatabase
          8)theneedtotrackslowlychangingdimensions
          9)確定查詢優先級和查詢模式。

          技術上
          硬件平臺:數據倉庫的硬盤容量通常要是操作數據庫硬盤容量的2-3倍。通常大型機具有更可靠的性能和和穩定性,也容易與歷史遺留的系統結合在一起;而PC服務器或UNIX服務器更加靈活,容易操作和提供動態生成查詢請求進行查詢的能力。選擇硬件平臺時要考慮的問題:是否提供并行的I/O吞吐?對多CPU的支持能力如何?

          數據倉庫DBMS:他的存儲大數據量的能力、查詢的性能、和對并行處理的支持如何。

          網絡結構:數據倉庫的實施在那部分網絡段上會產生大量的數據通信,需不需要對網絡結構進行改進。
    實現上

    建立數據倉庫的步驟

    1)收集和分析業務需求
    2)建立數據模型和數據倉庫的物理設計
    3)定義數據源
    4)選擇數據倉庫技術和平臺
    5)從操作型數據庫中抽取、凈化、和轉換數據到數據倉庫
    6)選擇訪問和報表工具
    7)選擇數據庫連接軟件
    8)選擇數據分析和數據展示軟件
    9)更新數據倉庫

          數據抽取、清理、轉換、和移植

    1)數據轉換工具要能從各種不同的數據源中讀取數據。
    2)支持平面文件、索引文件、和legacyDBMS。
    3)能以不同類型數據源為輸入整合數據。
    4)具有規范的數據訪問接口
    5)最好具有從數據字典中讀取數據的能力
    6)工具生成的代碼必須是在開發環境中可維護的
    7)能只抽取滿足指定條件的數據,和源數據的指定部分
    8)能在抽取中進行數據類型轉換和字符集轉換
    9)能在抽取的過程中計算生成衍生字段
    10)能讓數據倉庫管理系統自動調用以定期進行數據抽取工作,或能將結果生成平面文件
    11)必須對軟件供應商的生命力和產品支持能力進行仔細評估
          主要數據抽取工具供應商:Prismsolutions.Carleton'sPASSPORT.InformationBuildersInc.'s
    EDA/SQL.SASInstituteInc.

    數據倉庫帶來了什么

          每一家公司都有自己的數據。并且,許多公司在計算機系統中儲存有大量的數據,記錄著企業購買、銷售、生產過程中的大量信息和客戶的信息。通常這些數據都儲存在許多不同的地方。

          使用數據倉庫之后,企業將所有收集來的信息存放在一個唯一的地方——數據倉庫。倉庫中的數據按照一定的方式組織,從而使得信息容易存取并且有使用價值。

          目前,已經開發出一些專門的軟件工具,使數據倉庫的過程實現可以半自動化,幫助企業將數據倒入數據倉庫,并使用那些已經存入倉庫的數據。

          數據倉庫給組織帶來了巨大的變化。數據倉庫的建立給企業帶來了一些新的工作流程,其他的流程也因此而改變。

          數據倉庫為企業帶來了一些“以數據為基礎的知識”,它們主要應用于對市場戰略的評價,和為企業發現新的市場商機,同時,也用來控制庫存、檢查生產方法和定義客戶群。

          每一家公司都有自己的數據。數據倉庫將企業的數據按照特定的方式組織,從而產生新的商業知識,并為企業的運作帶來新的視角。

    為何要建立數據倉庫

          計算機發展的早期,人們已經提出了建立數據倉庫的構想。“數據倉庫”一詞最早是在1900年,由Bill Inmon先生提出的,其描述如下:數據倉庫是為支持企業決策而特別設計和建立的數據集合。

          企業建立數據倉庫是為了填補現有數據存儲形式已經不能滿足信息分析的需要。數據倉庫理論中的一個核心理念就是:事務型數據和決策支持型數據的處理性能不同。

          企業在它們的事務操作收集數據。在企業運作過程中:隨著定貨、銷售記錄的進行,這些事務型數據也連續的產生。為了引入數據,我們必須優化事務型數據庫。

          處理決策支持型數據時,一些問題經常會被提出:哪類客戶會購買哪類產品?促銷后銷售額會變化多少?價格變化后或者商店地址變化后銷售額又會變化多少呢?在某一段時間內,相對其他產品來說哪類產品特別容易賣呢?哪些客戶增加了他們的購買額?哪些客戶又削減了他們的購買額呢?

          事務型數據庫可以為這些問題作出解答,但是它所給出的答案往往并不能讓人十分滿意。在運用有限的計算機資源時常常存在著競爭。在增加新信息的時候我們需要事務型數據庫是空閑的。而在解答一系列具體的有關信息分析的問題的時候,系統處理新數據的有效性又會被大大降低。另一個問題就在于事務型數據總是在動態的變化之中的。決策支持型處理需要相對穩定的數據,從而問題都能得到一致連續的解答。

          數據倉庫的解決方法包括:將決策支持型數據處理從事務型數據處理中分離出來。數據按照一定的周期(通常在每晚或者每周末),從事務型數據庫中導入決策支持型數據庫——既“數據倉庫”。數據倉庫是按回答企業某方面的問題來分“主題”組織數據的,這是最有效的數據組織方式。


    數據倉庫和數據集市

          有關決策支持型數據庫的數據集市是面向企業中的某個部門或是項目小組的。一些專家顧問將數據集市的建造描述為建立數據倉庫全過程中的一步。首先,一個儲存企業全部信息的數據倉庫被創建,其中,數據均具備有組織的、一致的、不變的格式。數據集市隨后被創立,其目的是為不同部門提供他們所需要的那部分信息。數據倉庫聚集了所有詳細的信息,而數據集市中的數據則是針對用戶們的特定需求總結而出的。

          而另外一些專家則認為數據集市的建立并不需要首先建立一個數據倉庫。在這個模型中,數據直接由事務型數據庫轉入數據集市中。一個公司可能建立有多個數據集市,而彼此之間毫無聯系。

          這種不在建立數據倉庫的基礎上創建數據集市的方式會更便宜、更快速,因為它的規模更加易于管理。

          第二種觀點的缺陷在于無法實現最初創建數據倉庫的最主要的目的——將企業所有的數據統一為一致的格式。現有的事務處理系統的數據往往是不一致、冗余的。如果首先建立起一個全公司范圍的數據倉庫,組織就能夠獲得一個統一關于企業的活動和客戶的知識庫。如果先建立起一個個獨立的數據集市,那么數據倉庫的諸多優勢都能夠得以實現,但是企業遠遠無法做到對數據的一致的儲存。

    相似問題

    相關經驗

    相關資訊

    相關文檔

  • sesese色