開源商業智能解決方案 Pentaho 4.1 發布
Pentaho BI項目提供了企業級的報表、多維分析、儀表盤、數據挖掘和工作流功能,幫助組織更加有效率的運營。Pentaho產品提供了方便的發布選項,使得它可以作為嵌入式的組件、自定義的BI應用方案以及一個完整的開箱即用的集成BI平臺。

Pentaho 4.1 發布了,增加對Infinispan/JBoss企業數據網格及Memcahed緩存系統的數據分析支持,同時也可以擴展到其他系統。其他改進則包括全新的性能輔助調整(tuning aids)、支持對Apache Hive及EMC的Greenplum數據庫的本地SQL代碼自動生成等。
In?nispan 是個開源的數據網格平臺。它公開了一個簡單的數據結構(一個Cache)來存儲對象。雖然可以在本地模式下運行In?nspan,但其真正的價值在于分布 式,在這種模式下,In?nispan可以將集群緩存起來并公開大容量的堆內存。這可比簡單的復制強大的多,因為它會為每個結點分配固定數量的副本——服 務器故障的一種恢復手段——同時還提升了可伸縮性,這是由于存儲每個結點所需的工作量是與集群大小息息相關的。
In?nispan提供了一種簡單的機制來利用大容量的堆內存。如果對每個結點維護一個拷貝,假如集群當中有100個結點,每個結點分配2GB的堆內存, 那么網格中的任何實例都能使用多達100GB的空間,這可都是內存,顯然速度會非常快。同時In?nispan還兼容于JTA,這樣它就能很好地處理事務 了。我們還有一個超級強大的異步API,它可以保證同步的網絡調用以及異步調用的并行性及可伸縮性。比方說:Future f = cache.putAsync(k, v) 可以阻塞線程,再調用f.get()可以讓網絡調用繼續進行或是忽略掉f。更為重要的是,線程還可以做別的事情,這一點非常有用。然后再回來通過調用 f.get()來檢查該網絡調用是否能繼續進行。可以將其看作是NIO與傳統的阻塞性IO之間的關系。
In?nispan公開了一個CacheStore接口和幾個高性能的實現,包括JDBC CacheStores、基于文件系統的CacheStores以及Amazon S3 CacheStores等等。CacheStores可用作“溫啟動(warm starts)”或是確保網格中的數據在重啟后依然可用,同時在內存耗盡時還能將數據寫到磁盤上。
主要特點:
- 大量的堆體
- 極高的可擴展性
- 快速輕量級核心
- 不僅僅支持Java(PHP,Python,Ruby,C…)
- 支持Compute Grids
- 管理是關鍵:當你在grid上運行幾百個服務時,實現管理是必須的
memcached是一套分布式的快取系統,當初是Danga Interactive為了LiveJournal所發展的,但目前被許多軟件(如MediaWiki)所使用。這是一套開放源代碼軟件,以BSD license授權釋出。
memcached缺乏認證以及安全管制,這代表應該將memcached服務器放置在防火墻后。
memcached的API使用三十二位元的循環冗余校驗(CRC-32)計算鍵值后,將資料分散在不同的機器上。當表格滿了以后,接下來新增的資料會以LRU機制替換掉。由于memcached通常只是當作快取系統使用,所以使用memcached的應用程式在寫回較慢的系統時(像是后端的數據庫)需要額外的程式碼更新memcached內的資料。
memcached具有多種語言的客戶端開發包,包括:Perl/PHP/JAVA/C/Python/Ruby/C#/MySQL/
Hive是一個基于Hadoop的數據倉庫平臺。通過hive,我們可以方便地進行ETL的工作。hive定義了一個類似于SQL的查詢語言:HQL,能 夠將用戶編寫的QL轉化為相應的Mapreduce程序基于Hadoop執行。
Hive是非死book 2008年8月剛開源的一個數據倉庫框架,其系統目標與 Pig 有相似之處,但它有一些Pig目前還不支持的機制,比如:更豐富的類型系統、更類似SQL的查詢語言、Table/Partition元數據的持久化等。
Pentaho 官網:
http://www.pentaho.com/
Via H-online