P4 PentahoBI主要為我們提供了一些圖形化的數據展示方案,通過PentahoBI我們可以制作報表、分析報表、分析視圖、儀表板等。
P18 聯機分析處理?(OLAP)?的概念最早是由關系數據庫之父E.F.Codd于1993年提出的.OLAP是數據倉庫系統的主要應用,支持復雜的分析操作,側重決策支持,并且提供直觀易懂的查詢結果。
P31 Kettle也叫PDI(全稱是Pentaho Data Integeration),是一款開源的ETL工具,項目開始于2003年,2006年加入了開源的 BI 組織 Pentaho, 正式命名為PDI。
P11 錯誤處理:在轉換步驟的過程中,當某個步驟發生錯誤時可能要進行額外的步驟處理。因此,在設置時就要求為步驟添加錯誤處理。
P45 要了解Kettle的執行分為兩個層次:Job和Transformation。兩個層次的最主要區別在于數據傳遞和運行方式。
P28 為什么要用Kettle和KETTLE JAVA API?Kettle是什么?kettle:是一個開源ETL工具。kettle提供了基于java的圖形化界面,使用很方便,kettle的ETL工具集合也比較多,常用的ETL工具都包含了。
P27 ETL的基本概念一功能:ETL負責將分布的、異構數據源中的數據如關系數據、平面數據文件等抽取到臨時中間層后進行清洗、轉換、集成,最后加載到數據倉庫或數據集市中,成為聯機分析處理(OLAP)、數據挖掘(DM)的基礎。特點:一、數據同步。不是一次性數據倒完就拉到,它是經常性的活動,按照固定周期運行的。甚至現在還有人提出了實時ETL的概念。二、數據量大。一般來說,數據量都是巨大的,值得我們將數據流動的過程拆分成E、T、L的過程。三、速度快。現在ETL的最高裝載記錄是4TB/h(Greenplum)。在日常運用中,根據我的經驗,裝載峰值大概在1–5萬rows/s。速度跟T的邏輯復雜度是密切相關的。
P26 什么Kettle?Kettle是一個開源的ETL(Extract-Transform-Load的縮寫,即數據抽取、轉換、裝載的過程)項目,項目名很有意思,水壺。按項目負責人Matt的說法:把各種數據放到一個壺里,然后呢,以一種你希望的格式流出。Kettle包括三大塊:Spoon——轉換/工作(transform/job)設計工具(GUI方式)Kitchen——工作(job)執行器(命令行方式)?????Span——轉換(trasform)執行器(命令行方式)Kettle是一款國外開源的etl工具,純java編寫,綠色無需安裝,數據抽取高效穩定。Kettle中有兩種腳本文件,transformation和job,transformation完成針對數據的基礎轉換,job則完成整個工作流的控制。
P30 數據挖掘數據挖掘是從大量數據中提取出有效的、新穎的、有潛在作用的、可信的、并能最終被人理解的模式(pattern)的非平凡的處理過程。
P42 DB2 數據倉庫版的核心引擎是行業領先的 DB2 企業版數據服務器,旨在滿足大中型企業的需求。DB2 可以部署在任何規模的服務器上,從一個 CPU 到數百個 CPU。DB2 企業版是構建隨需應變的企業級解決方案的理想基礎,比如多 TB 數據倉庫、高可用性大容量 OLTP 系統或基于 Web 的 BI 解決方案。DB2 是開發企業級解決方案的業界領先 ISV 的首選數據庫服務器,例如內容管理、電子商務、ERP、CRM 或 SCM 解決方案。 DB2 企業版核心引擎的許多功能是專為提高數據倉庫和分析功能及性能而設計的,比如:物化查詢表、星爆式優化器和多維群集)。此外,DB2 企業版還提供與其它企業級 DB2 和 Informix 數據源的連通性、兼容性和集成。DB2 企業版擁有事務處理委員會記錄在案和已核查的性能評測的許多領先性能結果。DB2 數據倉庫版構筑于 DB2 企業版引擎之上,為所有 OLTP、決策支持和混合工作負荷環境提供了最佳的平臺。
P116 Oracle公司作為世界上最大的數據庫廠家,憑借其在技術、資源和經驗上的優勢,一直致力于為企業提供最能滿足企業競爭需要的數據倉庫解決方案。Oracle的數據倉庫解決方案包含了業界領先的數據庫平臺、開發工具和應用系統。Oracle數據倉庫突破了現有數據倉庫產品的局限,能夠幫助企業以任何方式訪問存放在任何地點的信息,在企業中的任何層次上,滿足信息檢索和商業決策的需求。
P99 企業數據倉庫是一個環境, 通過有效的信息來滿足和促進企業的決策制定過程。
P22 Kettle使用-ETL&KettleETL(Extract-Transform-Load的縮寫,即數據抽取、轉換、裝載的過程),對于各個企業來說,經常會遇到大數據量的處理,轉換,遷移,所以了解并掌握一種etl工具的使用,必不可少。Kettle(PDI)是一款國外開源的etl工具,純java編寫,綠色無需安裝,支持WINDOWS、LINUX等各種平臺,數據抽取高效穩定。Kettle中有兩種腳本文件,transformation和job,transformation完成針對數據的基礎轉換,job則完成整個工作流的控制,hop:Transformationhop:主要表示數據的流向。從輸入,過濾等轉換操作,到輸出。Jobhop:可設置執行條件:(無條件執行;當上一個Job執行結果為true時執行;當上一個Job執行結果為false時執行)Kettle是BI數據倉庫解決方案Pentaho的組件之一。
P92 這個指南描述了使用Pentaho BI平臺來創建業務問題的解決方案的原理和工具。Pentaho BI 平臺集成了 Pentaho BI 套件的主要應用領域的能力:報表,分析,Dashboard,數據挖掘和工作流。集成包括安全,調度,審計,配置,solution 管理和工作流能力。
P32 Pentaho BI平臺是一個以過程為核心,面向解決方案的,可擴展的商務智能平臺。其目的在于將一系列企業級BI產品、開源軟件、API等等組件集成起來,方便商務智能應用的開發。它的出現,使得一系列的面向商務智能的獨立產品如Jfree、Quartz等等,能夠集成在一起,構成一項項復雜的、完整的商務智能解決方案。目前,Pentaho的主要組成元素包括報表生成、分析、數據挖掘和工作流管理等等。這些組件通過J2EE、WebService、SOAP、HTTP、Java、JavaScript、Portals等技術集成到Pentaho平臺中來。Pentaho的發行,主要以Pentaho SDK的形式進行。
P51 這篇文檔描述了如何使用 Pentaho Open BI 套件的 AJAX 庫創建瀏覽器端交互的 dashboards。它使用 Pentaho Pre-Configured Installation (PCI ) 提供的 Google Maps Dashboard sample 來解釋。在討論技術細節之前,簡短解釋什么是 AJAX,并逐步運行 Google Maps Dashboard sample,其使用 Pentaho AJAX 組件來創建一個交互式的位置智能 dashboard。
P16 pentaho開源商業智能平臺的搭建pentaho是世界上最流行的開源商務只能軟件。它是一個基于java平臺的商業智能(BusinessIntelligence,BI)套件,之所以說是套件是因為它包括一個webserver平臺和幾個工具軟件:報表,分析,圖表,數據集成,數據挖掘等,可以說包括了商務智能的方方面面。
P10
P19 當項目遇到一些很多明細數據的時候,對應搭建的多維模型一般是不引入明細數據的,因為數據量過大,導致的Cube很大,不利于抽取數據和后期維護更新等,這個時候需要在Biee中使用混合建模,也可叫做二次模型的加工,對于Biee而言,本質上用的是多維和關系表的映射建立模型。
P16 BI Publisher開發報表實例教程。本教程以開發一個資產負債表為例,介紹BI Publisher報表開發的相關方法,包含如下幾個部分:1、BI Publisher報表創建。2、RTF模板開發。