eBay開源新數據庫技術Kylin,支持TB到PB級數據量
英文原文:eBay open sources a big, fast SQL-on-Hadoop database
eBay 開源了一種名為 Kylin 的數據庫技術,eBay 在周三的一篇博客上分享了 Kylin 的諸多細節,基于 Hadoop 提供 SQL 接口和 OLAP 接口,支持 TB 到 PB 級別的數據量,Kylin 旨在減少 Hadoop 在 10 億行以上數據級別的情況下的查詢延遲。這些都表明 eBay 在使用 Hadoop 技術等方面取得了不俗的成績。
以下為譯文:
在線拍賣網站 eBay 開源了一種名為 Kylin 的數據庫技 術,該公司宣稱這項技術能夠在 Hadoop 上支持 PB 級數據存儲的快速查詢。eBay 并不是像 Google 和 非死book 那樣的大數據公司,但它運用 Hadoop 等技術已經達到了一個相當大的規模,Kylin 就是一個很好的例子,這說明它在該領域的創新已經走在前頭。
eBay 在周三的一篇博客上分享了 Kylin 的細節, 包括 REST API、ANSI-SQL 兼容性、連接分析工具 Tableau 和 Excel,以及在一些查詢上低于秒級的延遲。然而, Kylin 最獨特的特性是它如何處理 scale。eBay 表示,它可以查詢數十億行數據——在高達 14TB 的數據集上,速度比使用傳統的 Apache Hive 工具快得多。
Kylin 工作在一個很高級別上,它從 Hive 取數據;使用 MapReduce 預處理大型查詢;然后將這些結果作為鍵值 cuboids 存儲在 HBase 上。當用戶用一組特定的變量值運行一個 Kylin 查詢,結果已經準備就緒,不需要再重新處理,這和已經使用多年的分析型數據庫完全不同。
下面是 eBay 分享的 Kylin 如何在公司內部的使用情況:
開放 Kylin 的時候,我們已經有一些 eBay 業務單元在生產中使用它。我們最大的用例是 120+ 億源記錄生成的 14 +TB cube。它的 90% 查詢延遲小于 5 秒。現在,我們的用例瞄準分析師和業務用戶,他們可以輕松的通過 Tableau 分析并且得到結果——不再需要 Hive 查詢,shell 命令等等。
想要知道 Kylin 在與下一版本的 Hive、Spark SQL 以及 Hadoop SQL 分析的其他選項較量中誰會勝出,將是一件非常有趣的事情,Kylin 作為 YARN 資源管理器一部分可以在 Apache Hadoop 的最新版本上獲得。我猜它會慢一點,但比內存選項或那些不需要 MapReduce 處理的更具擴展性,不過這對于那些仍然在運行更早軟件版本的用戶可能是一個可靠的選擇。
<span id="shareA4" class="fl">
</span>