李廈戎:一個在生物領域創業的數據控(圖靈訪談)
李廈戎稱自己為數據控,他致力于機器學習算法和分布式系統的實際應用。目前他正在生物數據領域創業,創辦聚道科技 (Genedock),希望用數據技術推動生命健康行業革新。李廈戎曾在中國最大的移動數據服務平臺友盟工作,他作為首席數據科學家,帶領團隊針對移動數 據特點,構建了面向數十億移動設備的 ID 映射和用戶畫像系統。在此期間,他還結合移動廣告的實際需求,開發了行為定向和 CTR 預估等廣告策略模塊。
問:你在做現在的 Genedock 之前是做什么工作的?
我之前在友盟,當時是首席數據科學家,做的主要是數據分析和數據挖掘,包括計算廣告策略的優化,比如怎么去預估 CTR (Click Through Rate,點擊率),怎么樣給用戶做畫像,從而針對用戶做定向投放。從 2011 年底一直到今年的 8 月份我一直在友盟。
問:Genedock 跟你之前的工作有關系嗎?
我之前的工作基本上就是為上述的數據應用設計 pipeline,做數據整合和預處理,構建數據倉庫,選擇算法,并在分布系統上實現處理流程。今年年初的時候跟同學聊天,他就是做生物領域的,他跟我提 到基因測序技術,雖然我之前沒有了解過,但是感覺很神奇,這是一個能更深入了解自身的工具。后來我發現基因測序分析已經有實際的應用了,包括產前篩查、新 生兒、遺傳病,以及癌癥相關的診斷和用藥指導。深入了解之后,我覺得基因技術的普及對于人類健康有很大的幫助,本身是一件非常有意義的事。而且,我發現基 因很大程度上是一個數據問題,而我所積累的知識技能是可以幫助這個領域解決數據方面的問題。
基因數據領域其實國外已經有一些公司在做了,包括谷歌也在從投資和自研兩個角度進入這個領域。因此,這是一個有意義、前沿并蘊藏潛力的方向。所以我在 5 月份下決心做這件事,并著手準備。
問:國內現在這個領域的發展情況怎么樣?
如果我們拿基因測序或者基因分析這個市場來說,華大基因肯定是一枝獨秀,可以說是這個領域的帶頭大哥。基因領域的很多公司是由華大員工創辦的, 業內一般稱之為“華小”,所以華大就相當于這個領域的黃埔軍校。華大的業務基本涵蓋了整條產業鏈,它之前沒有自有的測序技術,沒有自有儀器生產,通過收購 Complete Genomics 也都有了。由于華大的示范效應,領域內其他公司的業務模式大都差不多,提供的都是涵蓋樣本制備、測序、計算、分析的整合式服務方案。
隨著基因數據不斷增加,很快數據處理會成為整個業務流的瓶頸。我和合伙人之前都在互聯網公司的數據部門,都具備云服務和大規模計算系統的背景,我們希望提供云端數據產品來幫忙解決這個領域的數據計算問題。
所以,我們和行業中已有的公司之間的關系其實不是競爭,更多的是合作關系。我們看到美國市場的分工比較細,有專門做生物實驗的,有專門做樣本 的,有專門做測序的,有專門做數據計算的,有專門做領域應用的,甚至數據存儲和檢索也有專門的公司。但是國內市場還是處在比較早期而封閉的階段,所以分工 沒有那么明確。但是我相信行業會越來越開放,分工會隨之出現,每個公司都做自己擅長的部分。
問:你們團隊有沒有生物方面的專業人士?
公司的 CTO 王樂珩上一份工作在阿里云,他是阿里云的資深產品經理。他之前畢業于中科院計算所的生物信息實驗室,并且在那工作了一段時間,前后六年生物信息系統的開發 經驗,他參與開發的 pFind 系統在國內應用廣泛。另外,我們的科學顧問在斯坦福大學的基因組系(Department of Genetics)任教。團隊內的基因數據工程師都是做過相關的科研工作。
問:生物大數據和生物信息是一回事嗎?它們之間有什么關系?
生物信息學是生物和計算機交叉的學科,主要研究生物數據的處理分析。生物數據本身就具備大數據特性。首先,大數據在規模和生產速度上的特性,一 個典型的例子就是由二代基因測序所帶來的基因數據量井噴。以前的基因組研究所涉及的數據量比較小,大部分是 MB 級別的數據。現在一個人類全基因組測序所產出的原始數據就是 100-200GB。基因數據的增長背后有幾個原因,第一個因素是成本下降,十年前做一個完整的人類全基因測序需要數千萬美元,現在只需要一千美元,而未 來一兩年有可能會達到幾百美元甚至更便宜,成本下降非常快。同時,基因測序的數據產出增長也非常快,比如說最新的 Illumina 的X-Ten 測序儀,一天就會產生幾百 GB 的數據。所以,一方面是成本下降,一方面是生產速度提高。
大數據另一個重要的性質是多樣性,現在隨著各種組學研究,比如基因組、蛋白組、代謝組都在產生大量的數據,并且現在的趨勢是組學的交叉研究,我 們科學顧問所在的實驗室就發表過這方面的早期工作。單一組學產生的數據已經不少了,多個維度的數據交叉必然會使得數據的分析壓力越來越大。
另外,大數據的還有真實性和高價值的性質。基因測序是更直接而準確的研究方法,對于醫療、農業、環境、傳染病等方面都具有比較高價值。
問:你有沒有補充生物方面的知識?對于學習全新領域的知識有什么感受?
最近幾個月一直都在看相關的書,包括生物基礎知識和生物信息學方面。
生物技術是人類認識自我,量化自我,甚至改善自我的工具。一開始,我覺得面對一個陌生但又非常神奇的行業。雖然隔行如隔山,但我發現生物信息的很多分析算法,之前也都使用過,所以也經常有他鄉遇故知的感覺。
問:基因測序在國內的發展水平與國外相比如何?
從科研方面上來講,基本上還是同步的狀態。但是在商業和醫療應用方面,我們的基礎設施還是落后于國外。大部分的核心技術還是在國外,比如測序儀和測序試劑都是國外研發的。
問:國外的市場發展情況如何呢?
目前基因領域最大的消費者是科研和醫療機構,而這兩個機構其實在中國是相對保守的,國內的商業化相對會落后一些。國外相應的行業都比較開放,愿意接受商業化的服務。
問:那以個人為對象的呢?
現在個人的基因業務是一個起步的階段。在健康方面,Google 投資的 23andMe,因為未能達到嚴格的醫療標準,所以 FDA 就把它叫停了。國內也有一些在做基因健康方面的公司,也被中國的主管部門叫停。臨床方面,國外在孕期、新生兒、遺傳疾病、癌癥和傳染病都有相關應用。現在 國內批準的個人醫療業務是今年 5 月份華大剛批下來的無創產前篩查。
醫療服務需要得到衛生和藥監部門的監管,這也是正常的,因為關乎生命健康,處理的方式需要比較謹慎,但是政府整體上還是鼓勵的。面向個人的應用業務無論在國內或者國外,現在都處在一個早期階段,上升空間比較大。
問:大數據現在在生物領域已經解決了哪些問題?未來有可能會解決哪些問題?
大數據技術對于這個領域來說是一個基礎的工具。工欲善其事,必先利其器,大數據技術可以向生物學家和醫生提供高效易用并可擴展的分析工具。
并且,現在主流的大數據技術不是高成本的超算技術,而是用相對廉價的計算資源來做,所以實際上是降低了計算成本。這一點非常重要,降低計算成本 意味著普及,以前很多科研和醫療機構無法承受的昂貴的計算能力變得可以接受。所以會有更多人參與到這個行業里來,我相信大數據技術會對這個行業有正向的促 進作用。至于說解決疾病健康這類核心問題,還得靠領域內的生物學家、醫生、藥企的協同努力,大數據技術只是一個好用的工具幫助他們去做事情而已。
問:你們 Genedock 的切入點在哪里?你們現在已經在做哪些具體的業務?
我們的工作在于解決大量基因數據傳輸、存儲、融合、計算、協作等問題。提供開放的接口,讓用戶能夠方便地來管理和操作數據。然后我們也在跟一些生物信息方面的業務團隊合作,因為他們在計算技術方面不是很擅長,我們就是在幫他們解決這樣的問題。
問:對于你們來說,現在是一個積累的過程嗎?
是的,需要積累的東西很多。生物領域和互聯網數據在很多地方有很大的差異,包括安全性和隱私性的要求、數據的存儲方式、處理流程、分析結果的質量控制。所以怎么樣在這些環節形成標準化,是比較重要且需要長期積累的事。
問:在國內有跟你們定位一樣的團隊嗎?
國內有一些團隊在做跟我們做差不多的工作,一些成熟的商業公司也正在考慮用商業云的解決方案。不過,從定位上我們是聚焦于數據技術在這個領域應 用的,在業務面向上會有一些差別。我們希望能夠幫助到行業里的其他人,結合生物技術和數據技術,大家互補協作是最有效率的方式。
國外做基因數據服務的公司已經有不少,比較成熟的公司包括 Google 投資的 DNANexus,Seven Bridges Genomics,NextCode,另外新興的公司也很多。
問:你們現在使用的是什么語言?
我們后端和 web 現在是以 Python 為主,有少量的 Java 代碼,前端就是 html、JS 這樣的標準語言。我們也在考慮用 Golang。
問:在生物信息學領域,Python 和 Perl 誰更強大、易用、代表著未來的發展方向?
其實生物信息軟件用什么語言寫的都有,現在生物信息領域具體的算法并沒有統一的金標準。針對不同的領域和問題,會有不同的解決方案,也就形成不 同的軟件包,有用 Perl,有用R,有的是 Python 寫的,有 Java,有C++,也有C,也不存在那種語言更強大更適用的問題。我們選用 Python 的主要原因是,這是一個開發效率比較高的膠水語言。現在階段我們的主要目標是更方便地整合這些已有的工具,提供更好的接口。因為對于一個用戶來講他不可能 熟悉這么多語言或者熟悉這么多的 APP 的使用,我們是想降低使用難度。你可以自助利用我們配置好的 APP 把工作流搭建起來。然后調度和運行對用戶來說是完全透明的,這會顯著降低了用戶使用成本。
問:你們現在團隊大概有多少人?
我們團隊現在 8 個人,都是工程師,不過我們開發的服務其實相對更硬一些,對工程師的需求還是很大,前后端工程師都有需求,尤其是擅長分布式系統和算法的數據工程師以及數據可視化專長的前端工程師。
問:你覺得什么樣的人適合加入你們?
我們做的是跨界并且前沿的領域,我們在用數據技術解決生命科學和醫療的問題,所以需要對方是一個充滿好奇心并有很強學習能力的人,重視健康,最 好能對醫療健康領域感興趣。另外,熱愛數據,喜歡用數據來描述和解決問題,也是一個加分項。我覺得真正能讓大數據產生價值的人是需要有豐富想象力并帶有理 想主義精神的,也就是像我這樣的數據控,相信我們正在解決的問題是深刻而有意義的。
<span id="shareA4" class="fl">
</span>
</div>