專訪韓卿:Kylin是如何成為Apache頂級項目的?

jopen 10年前發布 | 32K 次閱讀 Kylin
 

2015年12月8日, Apache基金會批準Apache Kylin正式畢業成為Apache的頂級項目 。Apache Kylin(麒麟)是由eBay 研發并貢獻給開源社區的Hadoop上的分布式大規模聯機分析(OLAP)平臺。Kylin于2014年10月開源,并于當年11月成為Apache孵化 器項目,是eBay第一個貢獻給Apache軟件基金會的項目,也是第一個由中國團隊完整貢獻到Apache的項目。為了了解Apache Kylin的開源發展歷程以及經驗,InfoQ記者采訪了該項目的負責人韓卿。

InfoQ:請簡單介紹下Apache Kylin的開源發展歷程以及目前的項目狀態。

韓卿:Apache Kylin是在2014年10月1日由eBay在github.com上開源,之后在業界獲得了非常積極的反饋,相關Hadoop方面的資深成員提議讓我 們申請加入Apache孵化器以獲得更好的發展,并愿意做我們的Mentor。經一系列工作后于2014年11月25日正式加入Aapche孵化器項目, 經過不到一年的時間,Apache Kylin正式成為Apache頂級項目,其為eBay全球貢獻至Apache軟件基金會(ASF)的第一個項目,也是全部由在中國的華人團隊整體貢獻至 Apache的第一個項目。

目前Aapche Kylin社區的有5位mentor,13位PMC成員(來自eBay,美團,明略數據等)及眾多contributor (GitHub上顯示有代碼提交的有31位,還有更多在郵件列表,JIRA及其他地方的貢獻者),我們正在發展新的一批的committer。目前 eBay團隊有7位成員全職參與此項目。

在eBay,已經上線兩個生產環境平臺,有著諸多的應用,包括用戶行為分析、點擊分析、商戶分析、交易分析等應用,最新的 Streaming分析項目也已經上線。目前在eBay平臺上最大的單個cube包含了超過850億的數據,90%查詢響應時間小于1.5秒,95%的查 詢響應時間小于5秒。

此外,社區中也有包括來自百度地圖、京東、美團、唯品會、明略數據、Expedia等各個公司的諸多應用已經上線使用。

InfoQ:開源一年的時間,就成為了Apache的頂級項目,并且全部由中國團隊運營,這是中國開源歷程里的一個重要里程碑。回顧這一年,你們在開源項目運營上,都做了哪些工作?

韓卿:非常感謝對Apache Kylin項目及我們團隊和社區的褒獎。在項目伊始,我們就面臨無數的挑戰,包括技術、產品以及其他各個方面。除了在內部積極推動項目,吸引更多應用來使 用Kylin平臺外,開源項目的運營也是工作的重點。作為Kylin產品及開源社區負責人,在項目開源之前就定下了“發展社區”及”構建生態系統”兩個重 要的方向。

發展社區

正如Apache一直強調的:Community over Code。Apache Kylin開源后,社區發展一直是對外的工作重點之一,通過各種渠道擴展線上線下社區,并且積極參與和組織各種活動和Meetup,比如Apache Kylin Meetup,Spark Meetup等等,參加國際國內各個行業大會,包括Strata+Hadoo World 倫敦,Hadoop Summit 硅谷,大數據技術大會,數據庫技術大會,QCon,ApacheCon等。通過媒體網站,社交媒體,微信等進一步擴展Apache Kylin的知名度,吸引了非常多對Apache Kylin技術有興趣的公司和個人參與進來,之后整個團隊非常積極的響應各種問題,及時修復各種Bug,為贏得初期客戶打下了堅實基礎,由此Apache Kylin的社區也初步建立起來。隨著后續相應版本的穩定發布,各個不同案例的成功應用,Kylin社區越來越活越,更多的contributor更多的 committer不斷加入,發展了包括來自美團,京東,明略數據等多位committer,并正在發展新的一批committer,同時也和其他開源社 區形成了良好的互動,包括Apache Zeppelin,Apache Calcite等。

構建生態系統

一個應用很難單獨的存在與一個企業中,不管是商業產品還是開源項目。從一開始,我們就定下了只關注核心功能,盡可能與整個產業鏈中的其它產 品,項目及公司進行合作的方向。比如在前端展現方面和Tableau進行充分合作,在存儲方面依靠HBase等。Apache Kylin的生態圈圖從第一版到現在沒有太多的變化,只是增加了更多的朋友,例如Apache Zeppelin等,隨著新版架構的改進,整個項目將與Spark,Kafka, Excel/PowerBI, Docker等形成更好的互補和整合,積極融入整個大數據生態圈并打造自己的生態系統。

積極學習Apache社區的運作方式

作為第一個Apache項目,從公司到團隊到個人都沒有特別多的這方面的經驗。因此我們在加入Apache后積極學習和遵循Apache社 區及項目的運作方式,特別是The Apache Way、Community Over Code等。另外整個團隊與我們的mentor們形成了很好的互動,在各個方面獲得了他們極大的指導和幫助,整個團隊,社區一起不斷進步和發展,為我們順 利畢業成為頂級項目提供了前提。

InfoQ:有人說過,開源社區也是混圈子,能詳細闡述下這個『感受』嗎?

韓卿:首先,社區是什么?技術社區不是一個在線論壇或者微信群,而是圍繞一個產品或者技術,具有共同興趣或者愛好而所形成的人與人之間的聯系和互動。所以 僅僅只是參與在線論壇或者郵件列表,提交代碼,貢獻補丁是遠遠不夠的,需要不斷的認識朋友,與不同的人就行交流,不斷碰撞新的想法,積極與其他人進行互動 等。在硅谷,經常有各種meetup、user group等組織這方面的活動,比如Spark、Hive、Kafka等等,通過線下活動將線上的ID映射到活生生的人的時候,圈子自然形成了,朋友自然 就交到了,如果你的技術或者產品很吸引人,自然會有更多人愿意來幫助。另外一方面,混熟悉后,不管如何當需要幫忙的時候就方便的多了。這方面我們國內的開 發者社區還遠遠不夠,不過已經看到了非常不錯的交流氛圍,也希望更多的朋友能夠參與到國際社區的交流中,這樣當你需要找人投票,找人幫忙review code的時候就容易的多,也是一個很好的機會向國際社區展現來自我們本土的技術力量和產品等。

InfoQ:目前國際上有幾個大的基金會,如果要捐獻,就基金會的選擇方面,你有什么心得?

韓卿:目前國際上有Apache軟件基金會,Linux Foundation基金會,Open Stack基金會,容器基金會等,由于本人較少參與其他基金會,這里僅給出一些簡單的個人看法:

如果你要捐獻你的項目至開源社區,為其選擇合適的基金會很重要,比如大數據(Hadoop/Spark等)相關,則ASF是比較好的地方, 絕大部分的大數據相關項目目前都在Apache旗下,如果是云計算方向,則OpenStack基金會則是很好的地方,如果是微軟技術系列的項目,則最新 的.NET基金會是更好的選擇。

選擇合適的基金會將會為項目帶來諸多便利,相關參與者及貢獻者一般都活躍在特定的基金會及相關的社區中,在那里較容易獲得更多的關注和幫助。比如在Apache中很容易找到Hadoop、Spark相關人士,但云計算方向就比較少。

InfoQ:Apache Kylin項目做的很棒,在這段時間里,公司的支持一定是你們強有力的后盾吧。就公司的開源戰略和投入方面,你有什么經驗?Apache Kylin的成功對eBay有什么意義?

韓卿:Apache Kylin項目的成功離不開eBay公司的支持,最初的立項、團隊、客戶案例等都是從eBay內部挖掘的,雖然我們在一開始就定了要開源的方向,但我們設 定了內部必須有真實案例上生產環境才可以對外開源,事實上,Kylin在eBay內部的生產環境正式于2014年9月30日上線,同時有三個應用案例,在 隔天即2014年10月1日我將代碼push到了GitHub上。此外管理層也給了巨大的支持,從美國總部到eBay中國卓越技術中心(CCOE)都給予 了充分的信任和支持,為團隊能夠非常專注在產品設計,技術研發,應用開拓上提供了必要的支持。

eBay公司一直參與開源社區,貢獻了很多項目至開源世界,特別是從2013年開始,公司決策層將采用,參與及貢獻回開源社區作為戰略指 導,鼓勵各個團隊參與和貢獻至開源社區,Apache Kylin在項目一開始就獲得eBay高級副總裁的直接comment: Ready Open Source from Day One。

Apache Kylin所獲得的影響在公司內外部引起了積極反響,也獲得了非常高的評價,從CTO到高級副總裁到部門VP等都給予了極大的贊賞和鼓舞。特別是 Apache Kylin在今年的InfoWorld Bossie大獎中與Apache Spark,Apache Kafka,Druid,Apache Flink等一同榮獲“最佳開源大數據工具”獎,是業界對整個項目的認可,也在eBay內部引起了巨大的影響,也為后續的其他項目進一步貢獻至開源社區帶 來了一個好的開端,來自我們部門的另一個項目Apache Eagle已經于2015年10月正式成為新的Apache孵化器項目。

InfoQ:接觸了這么長時間的Apache社區,有什么感想和讀者分享嗎?

韓卿:相對于直接在github.com或者其他地方開源方式,Apache社區及基金會給人的感覺會更加“古板”和“官僚”,比如到目前為止,討論社區 都還是以郵件列表(文本形式)為主,還不能使用Google Group等“現代”工具。討論,設計,決策,版本發布等都需要遵守一定的規則來完成,甚至很多時候以為一些細節問題不得不重新生成發布包并重新投票。

但是,這些方式,以及ASF一直推崇的The Apache Way為一個開源項目帶來的是更好的治理(Governance)和品質,相信每一位朋友和我的感覺一樣,一個來自Apache的項目或者 framework是可以放心使用的,基本上不用擔心有什么大的問題,更新上也會有一定的保證,這比在GitHub上看到一個好項目,但幾個月甚至一年都 沒有更新,要靠譜的多的多。

而且Apache軟件基金會會定期review不活躍的項目,重新尋找貢獻者,或者直接retire該項目,通過這樣的方式保證了Apache社區中的項目都具有穩定的活躍度和較高的品質。

對于愿意參與開源項目,個人非常推薦多多參與Apache相關項目,一方面可以為開源項目做貢獻,另一方面也是一個很好的機會可以學習西方 文化,學習其他項目如何運作;對于有興趣貢獻項目的朋友,Apache軟件基金會是個不錯的選擇,如果你的項目希望加入Apache孵化器,可以聯系我, 希望我們在這方面的一些經驗可以對大家有一些幫助。

InfoQ:接下來Apache Kylin有什么規劃?

韓卿:我們正在準備Apache Kylin 2.0的發布工作,預計2015年年底前會發布一個穩定的beta版本,該版本將支持StreamingOLAP及可插拔架構(Plugable Architecture)。之后將更關注在實時OLAP, Spark生態整合,快速的明細數據查詢,更多友好的客戶端(包括Zeppelin,Excel,PowerBI及其他BI和展現工具),完善的SQL功 能及高級函數支持,以及穩定性和易用性等方面。

更多的關于Kylin2的特性及計劃,請關注Apache Kylin的微信公眾號(ApacheKylin)或者推ter帳號(@ApacheKylin)以獲得最新的信息。

關于韓卿(Luke Han)

現任eBay全球分析基礎架構部(ADI) 大數據產品負責人, 負責包括Apache Kylin,Apache Eagle及其它大數據相關產品的設計,規劃,戰略和執行。并且作為Apache Kylin co-creator & VP管理和驅動Apache Kylin的愿景,路線圖,特性及計劃等,在全球各地不同部門中發展客戶,開拓內外部合作伙伴及管理開源社區等,建立與大數據廠商,集成商及最終用戶的聯 系已構建健壯的Apache Kylin生態系統。在此之前任eBay BI平臺高級架構師,帶領團隊為eBay全球商務智能平臺提供管理,架構,開發等,在大數據,數據倉庫,商務智能等方面擁有超過十年的工作經驗。

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!