開源MySQL數據倉庫解決方案:Infobright
Infobright是一款基于獨特的專利知識網格技術的列式數據庫。Infobright是開源的MySQL數據倉庫解決方案,引入了列存儲方 案,高強度的數據壓縮,優化的統計計算(類似sum/avg/group by之類),infobright 是基于mysql的,但不裝mysql亦可,因為它本身就自帶了一個。mysql可以粗分為邏輯層和物理存儲引擎,infobright主要實現的就是一 個存儲引擎,但因為它自身存儲邏輯跟關系型數據庫根本不同,所以,它不能像InnoDB那樣直接作為插件掛接到mysql,它的邏輯層是mysql的邏輯 層加上它自身的優化器。
Infobright特征
優點:
- 大數據量查詢性能強勁、穩定:百萬、千萬、億級記錄數條件下,同等的SELECT查詢語句,速度比MyISAM、InnoDB等普通的MySQL 存儲引擎快5~60倍。高效查詢主要依賴特殊設計的存儲結構對查詢的優化,但這里優化的效果還取決于數據庫結構和查詢語句的設計。
- 存儲數據量大:TB級數據大小,幾十億條記錄。數據量存儲主要依賴自己提供的高速數據加載工具(百G/小時)和高數據壓縮比(>10:1)
- 高數據壓縮比:號稱平均能夠達到 10:1 以上的數據壓縮率。甚至可以達到40:1,極大地節省了數據存儲空間。高數據壓縮比主要依賴列式存儲和 patent-pending 的靈活壓縮算法.
- 基于列存儲:無需建索引,無需分區。即使數據量十分巨大,查詢速度也很快。用于數據倉庫,處理海量數據沒一套可不行。不需要建索引,就避免了維護索引及索引隨著數據膨脹的問題。把每列數據分塊壓縮存放,每塊有知識網格節點記錄塊內的統計信息,代替索引,加速搜 索。
- 快速響應復雜的聚合類查詢:適合復雜的分析性SQL查詢,如SUM, COUNT, AVG, GROUP BY </ol>
- 節約設計開銷。沒有復雜的數據倉庫模型設計要求(比如星狀模型、雪花模型),無需要物化視圖、數據分區、索引建立
- 節省存儲資源。高壓縮比率通常是10:1,某些應用可能達到40:1
- 集成利用廣泛。和眾多的BI套件相容,比如Pentaho、Cognos、Jaspersof
- 降低運維成本。隨著數據庫的逐漸增大,查詢和裝載性能持續保持穩定,實施和管理簡單,需要極少的管理
- 商業保證。第一個商業支持的開源倉儲分析數據庫,是Oracle/MySQL 官方推薦的倉儲集成架構 </ol>
- 大數據量的分析應用。網頁/在線分析、移動分析、客戶行為分析、分析營銷和廣告
- 日志/事件管理系統。電信詳單分析和報告、系統/網絡 安全認證記錄
- 數據集市。企事業單位特定數據倉庫、為中小企業提供數據倉庫
- 嵌入式分析。為獨立軟件供應商/ SaaS供應商提供嵌入式分析應用 </ol>
- 不支持數據更新:社區版Infobright只能使用“LOAD DATA INFILE”的方式導入數據,不支持INSERT、UPDATE、DELETE。這使對數據的修改變得很困難,這樣就限制了它作為實時數據服務的數據倉庫來使用。
- 不支持高并發:只能支持10多個并發查詢,雖然單庫 10 多個并發對一般的應用來說也足夠了,但較低的機器利用率對投資者來說總是一件不爽的事情,特別是在并發小請求較多的情況下。
- 沒有提供主從備份和橫向擴展的功能。如果沒有主從備份,想做備份的話,也可以主從同時加載數據,但只能校驗最終的數據一致性,使得從機在數據加載時停服務的時間較長;橫向擴展方面,它本身就不是分布式的存儲系統。 </ol>
- infobright適用于數據倉庫場合:即非事務、非實時、非多并發;分析為主;存放既定的事實,例如日志,或匯總的大量的數據。所以它并不適合于應對來自網站用戶的請求。實際上它取一條記錄比mysql要慢很多,但它取100W條記錄會比mysql快。
- mysql的總數據文件占用空間通常會比實際數據多,因為它還有索引。infobright的壓縮能力很強大,按列按不同類型的數據來壓縮。
- 服務形式與接口跟mysql一致,可以用類似mysql的方式啟用infobright服務,然后原來連接mysql的應用程序都可以以類似的方式連接與查詢infobright。這對熟練mysql者來說是個福音,學習成本基本為0。 </ol>
- 對DML、alter語句限制
- 需定時增量load導出導入
- 自帶的MyISAM難以支持高并發,若想充分利用服務器資源,需開啟另外的MySQL實例
- 對中文等多字節文字支持不好
- 僅支持單核調度
- 缺少原廠的支持 </ol>
- 明顯的查詢性能差異。雖然IEE和ICE版本均具有明顯超出例如Oracle、SQL Server、MySQL等行式數據庫的查詢性能,但IEE還要比ICE版本快50-500%。這個明顯差距來自于IEE核心引擎中特有的——多線程調度 模塊(自IEE3.5引入).而在ICE中,一個獨立的查詢只能使用單個CPU核心,其他的查詢進程只能使用其他核心。對于需要篩選和區分大量數據的復雜 查詢,使用IEE多線程調度模塊可以顯著地節約查詢時間。
- 支持DML語句。IEE支持標準的SQL 數據操作語言,使用insert、update、delete操控數據。而ICE只支持Load data infile進行數據導入,任何數據的變化都需要重新導入全部數據。DML語句的使用會降低數據查詢性能,隨次數遞增。
- 支持DDL語句。包括alter table rename,add column,drop column(但是列操作只能對最后列生效)
- 支持Hadoop接口(通過DLP)
- 高級復制和高可用。IEE版本包含主從功能,基于SQL statement
- 更簡易的導入和更快的導入速度。IEE支持分布式導入工具-DLP;且包含標準的MySQL原生loader,用于處理一些復雜數據的導入,另一方面也說明IBloader的容錯性較差
- Load或DML同時的一致性查詢
- 支持臨時表
- 其他商業授權,售后支持等 </ol>
- 邏輯層:處理查詢邏輯(服務及應用管理),邏輯層右端的loader與unloader是infobright的數據導入導出模塊,也即處理 SQL語句里LOAD DATA INFILE … 與SELECT … INTO FILE任務,由于infobright面向的是海量數據環境,所以這個數據導入導出模塊是一個獨立的服務,并非直接使用mysql的模塊。邏輯層的 infobright優化器包在mysql查詢優化器的外面,如下面將會提到的,因為它的存儲層有一些特殊結構,所以查詢優化方式也跟 mysql有很大差異。
- 存儲引擎:Infobright的默認存儲引擎是brighthouse,但是Infobright還可以支持其他的存儲引擎,比如 MyISAM、MRG_MyISAM、Memory、CSV。Infobright通過三層來組織數據,分別是DP(Data Pack)、DPN(Data Pack Node)、KN(Knowledge Node)。而在這三層之上就是無比強大的知識網絡(Knowledge Grid)。 </ul>
- Optimizer優化器。最小化的解壓縮數據,有效提高執行計劃。
- Knowledge Grid知識網格。存儲元數據、列信息、表關系,數據塊分布狀態統計信息,同等查詢狀態緩存信息
- Data Pack數據塊。真實數據壓縮存放位置,按照數據存儲塊保存 </ol>
- Data Pack Node(數據塊節點):Data Pack Node和Data Pack是一一對應的關系。DPN記錄著每一個DP里面存儲和壓縮的一些統計數據,包括最大值(max)、最小值(min)、null的個數、單元總數 count、sum。avg等等。至不同值的量等等;Knowledge Node則存儲了一些更高級的統計信息,以及與其它表的連接信息,這里面的信息有些是數據載入時已經算好的,有些是隨著查詢進行而計算的,所以說是具備一 定的“智能”的。
- Knowledge Node里面存儲著指向DP之間或者列之間關系的一些元數據集合,比如值發生的范圍(MIin_Max)、列數據之間的關聯。大部分的KN數據是裝載數據的時候產生的,另外一些事是查詢的時候產生。 </ol>
- 存儲在memory中,作用域在一個Sission中
- 提高JOIN查詢性能,無論是新建還是復用的 </ul>
- 相關的DP(Relevant Packs),滿足查詢條件限制的DP
- 不相關的DP(Irrelevant Packs),不滿足查詢條件限制的DP
- 可疑的DP(Suspect Packs),DP里面的數據部分滿足查詢條件的限制 </ol>
Infobright的價值
Infobright的適用場景
限制:
與MySQL對比
infobright有兩個發布版:開源的ICE及閉源商用的IEE。ICE提供了足夠用的功能,但不能 INSERT,DELETE,UPDATE,只能LOAD DATA INFILE。IEE除提供更充分的功能外,據說查詢速度也要更快。
社區ICE版,國內各大企業均有測試,投入生成系統的較少,主要有以下原因:
ICE與IEE版本區別
IEE包含針對大多數企業工作需求的附加特性,如:更好的查詢性能、DML語句支持、分布式導入等。另外,IEE版本還包含了一定級別的Infobright原廠或代理商的支持救援服務、產品培訓等。
架構
基于MySQL的內部架構 – Infobright采取與MySQL相似的內部架構,下面是Infobright的架構圖:
灰色部分是mysql原有的模塊,白色與藍色部分則是 infobright自身的。
Infobright跟mysql一樣的兩層結構:
Infobright的模塊
Data Pack(數據塊)壓縮層
存儲引擎最底層是一個個的Data Pack(數據塊)。每一個Pack裝著某一列的64K個元素,所有數據按照這樣的形式打包存儲,每一個數據塊進行類型相關的壓縮(即根據不同數據類型采用不同的壓縮算法),壓縮比很高。它上層的壓縮器與解壓縮器就做了這個事情。
Infobright號稱數據壓縮比率是10:1到40:1。前面我們已經說過了Infobright的壓縮是根據DP里面的數據類型,系統自動選擇壓縮算法,并且自適應地調節算法的參數以達到最優的壓縮比。先看看在實驗環境下的壓縮比率,如下圖所示:
整體的壓縮比率是20.302。但是這里有一個誤區,這里的壓縮比率指的是數據庫中的原始數據大小/壓縮后的數據大小,而不是文本文件的物理數據大 小/壓縮后的數據大小。很明顯前者會比后者大出不少。在我的實驗環境下,后者是7:1左右。一般來說文本數據存入數據庫之后大小會比原來的文本大不少,因 為有些字段被設置了固定長度,占用了比實際更多的空間。還有就是數據庫里面會有很多的統計信息數據,其中就包括索引,這些統計信息數據占據的空間絕對不 小。Infobright雖然沒有索引,但是它有KN數據,通常情況下KN數據大小占數據總大小的1%左右。
既然Infobright會根據具體的數據類型進行壓縮,那我們就看看不同的數據類型具有什么樣的壓縮比率。如下表所示:
首先看看Int類型的壓縮比率,結果是壓縮比率上Int<mediumint<smallint。細心地讀者會很容易發現 tinyint的壓縮比率怎么會比int還小。數據壓縮比率除了和數據類型有關之外,還和數據的差異性有特別大關系,這是顯而易見。posFlag只有 0,1,-1三種可能,這種數據顯然不可能取得很好的壓縮比率。
再看看act字段,act字段使用了comment lookup,比簡單的char類型具有更佳的壓縮比率和查詢性能。comment lookup的原理其實比較像位圖索引。對于comment lookup的使用下一章節將細細講述。在所有的字段當中date字段的壓縮比率是最高的,最后數據的大小只有0.1M。varchar的壓縮比率就比較 差了,所以除非必要,不然不建議使用varchar。
上面的數據很清楚地展示了Infobright強大的壓縮性能。在此再次強調,數據的壓縮不只是和數據類型有關,數據的差異程度起了特別大的作用。 在選擇字段數據類型的時候,個人覺得性能方面的考慮應該擺在第一位。比如上面表中一些字段的選擇就可以優化,ip可以改為bigint類型,date甚至 可以根據需要拆分成year/month/day三列。
Knowledge Grid(知識網格)
壓縮層再向上就是infobright最重要的概念:Knowledge Grid(知識網格)這也是infobright放棄索引卻能應用于大量數據查詢的基礎。Knowledge Grid構架是Infobright高性能的重要原因。它包含兩類結點:
Knowledge Grid可分為四部分,DPN、Histogram、CMAP、P-2-P。
DPN如上所述。
Histogram用來提高數字類型(比如date,time,decimal)的查詢的性能。Histogram是裝載數據的時候就產生的。 DPN中有mix、max,Histogram中把Min-Max分成1024段,如果Mix_Max范圍小于1024的話,每一段就是就是一個單獨的 值。這個時候KN就是一個數值是否在當前段的二進制表示。
Histogram的作用就是快速判斷當前DP是否滿足查詢條件。如上圖所示,比如select id from customerInfo where id>50 and id<70。那么很容易就可以得到當前DP不滿足條件。所以Histogram對于那種數字限定的查詢能夠很有效地減少查詢DP的數量。
CMAP是針對于文本類型的查詢,也是裝載數據的時候就產生的。CMAP是統計當前DP內,ASCII在1-64位置出現的情況。如下圖所示
比如上面的圖說明了A在文本的第二個、第三個、第四個位置從來沒有出現過。0表示沒有出現,1表示出現過。查詢中文本的比較歸根究底還是按照字節進行比較,所以根據CMAP能夠很好地提高文本查詢的性能。
Pack-To-Pack是Join操作的時候產生的,它是表示join的兩個DP中操作的兩個列之間關系的位圖,也就是二進制表示的矩陣。
粗糙集(Rough Sets)是Infobright的核心技術之一。Infobright在執行查詢的時候會根據知識網絡(Knowledge Grid)把DP分成三類:
案例: