當數學家遇上大數據

jopen 10年前發布 | 25K 次閱讀 大數據

當數學家遇上大數據

        導語:本期采訪對象@陸丹峰, 大數據領域創業者。思維嚴謹,凡事講求效率,習慣性地尋找最快、最優美的解決方案,關注事物的本質……北大數學系的 7 年時光顯然在他身上烙下了深深的印記。正是由于這些特質,當下流行的“大數據”在他眼里并不難,陽光底下無新事,只要掌握了底層的原理和數學知識,一切就 會像庖丁解牛般游刃有余。

        他曾用半年時間完成了一篇 SCI 索引文章(SCI 索引是博士畢業的標準),守著橫溢的才華不揮霍那不是浪費嗎!于是畢業的時候打著創業的幌子玩了半年游戲,游戲沒做成,卻發現不能再這么玩下去了。再后來 的日子,他奮起直追。曾先后幾次從無到有搭建技術團隊,在上家公司,他負責搭建并管理近百人的研發團隊,及公司核心產品線的架構與研發。可他心里清楚,團 隊再大,也是為了實現別人的夢想,而一直以來,他都想要追尋自己的夢。

        終于還是辭職了。他看好大數據處理的未來,創業方向是基于社交媒體的流式數據加工和處理平臺。對于這個曾經的數學家來說,大數據的算法復雜度是 可以計算的,而創業則要面對更多的變量,在尋求優美架構的背后,還需要很多商業上的支撐。見面那天,他的日程安排得很緊張,下午剛參加完微軟孵化器的面 試,晚上還要繼續見人。采訪完成后,我們一起吹著冷風,步行從中關村去北大,二十分鐘的路程,他一直在和客戶做電話溝通。創業公司剛起步,為了團隊能繼續 追夢,他不得不接一些算法優化方面的項目,在理想和現實間尋求平衡。過了這么多年,他早已不再像畢業時那般心高氣傲,而是更加沉穩和實際,腳踏實地的追尋 夢想。

        技術人攻略:聽說你大學 7 年都在北大,能簡單介紹一下求學過程嗎?

我本科和研究生都在北大,專業是數學。研究生的方向是圖像處理,畢業前用了半年,完成了一篇 SCI 的索引文章(SCI 索引是博士畢業的標準)。論文的內容是關于曲面重建,通過采集到的零散的點,去掉噪音,把原有的場景和形狀還原出來。當時非常瘋狂,導師在美國,我在中 國。每天大概 7 點去實驗室,12 點甚至 1 點回宿舍,半學期就完成了從理論到建模的工作。

05 年畢業的時候導師想讓我跟他去美國做研究,而我對互聯網很感興趣,想留在國內創業,所以連簡歷都沒有寫。當時創業氣氛沒有現在這么濃厚,北大畢業生這樣做 的比較少。于是聯合了另外兩個本科同學打算做網游,怎么做呢?當時想的是要先玩好游戲才能做游戲。正好魔獸世界特別火,我們仨都沉浸在其中。半年里每天除 了吃飯睡覺,就是打游戲,最后游戲沒做成,卻發覺不能這么玩下去了。

現在回想,這半年是一種很特殊的人生經歷,可是這個過程中失去了非常多的東西。選擇創業沒有錯,但當時的我們太心高氣傲,不管是對市場、對怎么做這件事情和對自身,都沒有一個足夠清晰的定位和認知。如果能重新再來一次,我應該會做不一樣的選擇。

        技術人攻略:第一次創業失敗之后又干了什么?

第一次創業失敗之后,仍然還是想創業,跟著一個同學的前領導,開始做大型網站的質量分析和診斷。比如說一些國家機關的網站,做得非常龐大,我們就想 辦法幫它做優化,檢查頁面上是否有斷鏈、提升訪問速度、做 SEO 優化等。由于發展方向不是我喜歡的,所以 07 年離開了。

這個時候我感覺需要進入大公司學一些東西,補充自己在認知體系、經驗方面的欠缺。正好日本電通成立了 Digital Marketing 部門,我加入進去負責整個 IT 部門和 IT 團隊的搭建,工作內容一方面是公司內部 IT 的運維,另一方面是精準營銷產品的開發,主要是廣告數據的分析產品。

在互聯網營銷這個領域做了兩年多以后,遇到 AdMaster 的負責人閆曌。AdMaster 專注于做網絡廣告的效果監測,剛拿了風投,需要加強研發團隊,我們就一拍即合在一起了。本來研發團隊都在上海,我去了后就開始有北京研發團隊了。在電 通,IT 屬于支持部門,發揮的空間也比較少。AdMaster 是一家廣告技術公司,可以有很大的成長空間。

我在 AD 的兩年半里,從無到有建立了北京研發團隊,重構了廣告監測產品的底層并主導了基于社會化媒體的數據分析產品。但我骨子里還是喜歡自己創業,給人打工是幫別人實現夢想,就算掙幾萬塊錢一個月,也無法完全支配自己的生活。

        技術人攻略:現在自己創業做什么方向呢?

我比較看好大數據和大數據處理的未來,我們正在做一個基于社交媒體的流式數據加工和處理平臺,實時對社交數據做各種各樣的加工,可以應用到精準營銷、企業公關預警、行業趨勢預測、競品分析等領域。在數據獲取到以后,我們可以在毫秒級別實現數據的實時處理及呈現。

這種對數據的需求,現在看來可能只是大企業愿意花錢,很多中小企業甚至個人沒有辦法去享受這種數據服務,一方面是因為服務太貴,另一方面是現在市面 上的產品還達不到客戶的需求。但是如果可以把這個服務變得非常方便,把收費的模式變得非常靈活,中小企業或個人都會有相應的需求。例如,我想買一個東西, 特別希望了解背后的信息和評價。但是這些信息得靠我花時間去挖掘,未來通過我們的服務,瞬間就能把這些信息全部展現出來。

        技術人攻略:社交網站如新浪微博的活躍度在下降,會不會對產品造成影響?

不會。我們其實是做一個數據處理的架構,針對不同的平臺會有不一樣的數據獲取方式,和數據源的關系不大。除了社交媒體之外,我們還會抓取一些視頻媒 體、電商媒體的數據。永遠不要為數據擔心,因為數據在五年以后,你不知道它會有什么樣的變化。五年以前我們有這么多數據嗎?根本沒有。你現在覺得拿不到什 么數據,以后的數據會越來越多。

        技術人攻略:你們的系統在數據的獲取、清洗、處理、呈現這幾個環節,哪塊你感覺比較有技術挑戰?

技術挑戰是在流式處理的環節里,要加入很多的元素進去,通過數據之間的關聯關系增強數據。如何增強呢?當從社交平臺上拿到某一條數據的時候,里面可 能有一個 ID 及這個 ID 說了什么話。但是并不知道 ID 背后的這個人是什么樣的,我們會增強它。首先我們會找到 ID 背后是什么樣的人,把性別、年齡,或者其他的數據算出來,這是一部分增強;第二是把他說的這句話做語義分析,讓這條信息獲得更多的含義,比如說包含什么樣 的主題和情感。

對于不同網站的數據,我們還考慮到數據之間的 Map 映射,通過 Cookie、帳號、或者用戶信息做關聯匹配。比如說在微博上的用戶名、郵箱、生日等信息,可以和豆瓣上的信息一起做相似度匹配,計算出來是否是同一個用戶。

做大數據分析的門檻,一方面是要有構建大型系統的經驗。大型系統有非常高的并發,非常大的數據量,要能預見到問題在什么地方,在什么樣情況下有什么樣的問題,用什么樣解決方案,這個難點已經把大部分人擋在外面了。第二個難點,要能夠運用數學知識。大數據涉及的機器學習、自然語言處理都逃不過數學,算法里的分類、聚類、預測、回歸,無非都是數學。在什么樣的場景下,用什么樣的數學模型,調一個什么樣的參數,這又把好多人擋在外面。

        技術人攻略:之前參加業界的一個會,討論關于組建一個大數據團隊需要多少錢。來自電商企業的一個技術經理認為,30 個人左右的團隊,加上幾十臺機器,一年至少需要投入一千萬。你怎么看這個問題?你們團隊有幾個人?

需要幾個人跟你做的事情和跟用什么樣的人有關,Instagram 1.5 億用戶的時候,技術團隊才 6 個人。如果一個人能力抵幾個人,那要不了那么大的團隊。我在上一家公司搭建了完善的大數據離線和流式處理系統,每天大概有十幾億數據量的采集,50 個 Hadoop 節點,可真正負責核心數據采集和 Hadoop 運維的人不超過四個。

對大公司來說人多好辦事,可我覺得小而美反而會更好。Google 的 Analytics 這個產品,最初始的原型就是一個印度人開發的。人不在于多,而在于精。你用什么樣的方式去解決這個事情決定了時間和成本,有很多問題的解決方案有很多,但 有一條方案有可能是最合適的、最省時間的、最便宜的,但是往往很多人找不到這樣的方法。你能根據自己的經驗和知識構建出好的解決方案,你就值得比其他人獲 得更多的回報。

我們團隊加上我自己才四個半人,一個產品經理、一個做大數據的、一個算法工程師,半個是我們的在校實習生。他們的技術和知識面都非常廣,并且數學功底都比較深。

        技術人攻略:大數據技術很火爆,市場究竟需要具備什么技能的大數據人才?

市場肯定是缺大數據處理的人才的,但我說的是“人才”。現在也有培訓公司在做大數據培訓,但培訓出來的那不叫人才,叫技術工人。培訓公司教的就是 Hadoop 怎么搭、MapReduce 怎么寫,這種東西其實用不著培訓,善學的人看看網上的資料就可以做了。真正的人才是理解數據的人,核心在于掌握大數據處理的思維方式。分布式處理技術老早 之前就有了,自己寫一套架構就可以實現,只不過 Hadoop 架構讓這種服務變得非常便捷和廉價。

大數據的思維跟平常處理數據的思維不一樣。幾個重要的變化包括:用全量數據代替采樣、通過尋找相關性代替尋找因果關系、擁抱雜亂無章的數據。這幾點總結來自《大數據時代》那本書,引用一下。

采樣的方法很難保證隨機性,而且一旦采樣采錯了,最后的結論就是失之毫厘,謬以千里。用全量數據則沒有這個問題。直接的因果關系往往難以找到,而相 關關系比較容易挖掘,并且相關性也多種多樣,比如強相關弱相關、正相關負相關、線性相關非線性相關等,都是我們日常中要經常遇到的。第三是使用各種各樣的 雜亂無章的數據,例如 PC 的、手機的、穿戴式設備的、腦電的,及線下的數據,你要想辦法把他們揉雜在一起。數據越多,你描述一個東西就變得越豐富,越有可能接近真實的情況。

        技術人攻略:對于想進入大數據領域的人,除了思維上的變化,在技能上需要做什么準備?

技能方面最重要的是理解兩點,第一是跟底層操作系統相關的方方面面,第二是數據處理的一些基本算法。

現代的技術逃脫不了操作系統相關的知識,分布式的算法也是一樣,無非是把一些任務拆解分到不同的機器上,讓不同機器上的數據在本機運算,然后再傳回去而已。當你對操作系統各項東西都理解了,比如內存、進程、IO 都弄清楚了,你就是一個很好的架構師,在當前技術領域里就沒什么太大的難事,大數據在你面前就灰飛煙滅了。

市面上很多技術人員對 IO 的原理都搞不清楚,IO 模型有幾種,Windows 用什么樣的模型,Linux 用什么樣的模型,一臺機器如何應對那么多的請求訪問,高并發到底怎么實現,一個請求怎么產生的,在服務端怎么處理的,最后怎么返回給用戶的,整個的環節操 作系統是怎么控制的……而且很多小朋友對于算法復雜度,也是搞不清楚的。我實現一個東西,最低的算法復雜度是多高,都是可以計算出來的。

這就是你的知識體系問題,我們的教育體系在教的時候,沒有特別好地讓學生把這些做 IT,做互聯網最基本的知識學到腦子里。一些人在寫代碼的時候,用的邏輯簡直非常可笑,不是嚴謹的,不是最精簡的,不是一個合理的邏輯,只是實現了一個功 能而已。為什么這些人找不到很好的方式去提升自己?或者學了一門新的語言就很得意。其實這一點意義都沒有,語言可以在一天之內就學會,但如果不去關注這個 語言為什么會產生,這門語言解決的問題是什么是沒用的。他們的思維方式,需要經過磨煉才能夠達到一個新層面。

第二就是數據處理的一些最基本的算法,做互聯網要用到的算法包括分類、聚類、回歸、協同過濾、推薦等。至少要去學一學,去了解一下,在什么情況下,我應該用什么樣的算法去實現一個什么樣的東西,這些都是在做數據處理的時候非常重要的。

        技術人攻略:你先后幾次搭建新的技術團隊,這個過程困難嗎?你挑人的時候看重哪些方面?

搭建新團隊的過程一般需要一兩個月,因為搭建之前就對團隊的目標和所需的技能心里有數了。核心團隊主要來自于一些志同道合者,已經建立了非常好的信任關系,所以比較容易一起共事,在這個基礎上再慢慢尋找其它成員。

上一家公司的研發團隊接近 100 人,我面過幾百個人。挑人的時候我主要看兩方面。第一是人品、態度和為人處事,品格要端正,待人接物要懂禮貌。因為一旦要去做一些大的事情,必然要求這個 人是很大氣的,一個團隊的短板,決定了一個團隊能走多遠,一個大氣的人,一個心胸寬廣,一個很沉著冷靜的人,必然能做大事。而且往往在危機的關頭,他也知 道怎么去做,他也能挺過去。

第二點這個人一定要足夠的聰明,學東西一定要足夠的快,這方面通過交流過程中觀察他的思維和邏輯來判斷。通過一個人說話的方式,組織語言的方式,基本可以看出他平時怎么思考,他有沒有在思考,他以前有沒有思考過這些問題。

舉個簡單的例子,比方說我會問:你是怎么學語言的?有些人會說,就是把語法看一遍,習題做一做,然后就上手開始做東西,這些人往往有可能就是把一個 經驗用了好幾年。另外一個人會說,我要先去了解這門語言,它是怎么產生的,為什么存在,它的特性有哪些,它適用于哪些場景,它有什么樣的數據結構,它是一 個函數式語言,還是面向對象的語言。如果面試者跟我談這些,這個人的思維模式就對路子了,說明他在更高的層面上去看這件事,這種人往往具備較強的解決問題 的能力。創業團隊要面臨著很多特殊的情況,不可總是讓老大沖在前面,每個人都要有解決問題的能力。一個人的思維模式就代表了他是否具有處理問題的能力。

我會從各個層面去了解候選人,反而技術問題會談得非常少,因為技術都是可以教的,但為人處事,或解決問題的能力是很難教的。一個熱愛運動的人身上往 往會有拼搏精神,有興趣愛好說明他能長期堅持做一件事情。我現在的團隊人,每個人都有自己的愛好,但是唯一最重要的一點,他們都有一顆善良的和包容的心。 當然,在上家公司招聘的人里,有 10% 的人還是招錯了。百分之一百把人看準了,這是不可能的。

招聘的時候還遇到有一類人,是來自大公司的求職者。大公司的毛病往往在于,一個人就是一顆螺絲釘,這些人往往只會一個工具,在公司只做一件事情,工 資還不低。他們換工作的原因是覺得無聊,必須要成長,不能在一個地方做兩三年都做同一件事情。但是想擺脫這種困境需要做好準備,沒做好準備怎么往上跳呢? 所以在大公司工作一定要注意提升自己的視野和技能,這對長期成長來說,是非常重要的事。

        技術人攻略:你在廣告領域做了這么多年,從行業大趨勢和技術兩方面,這個行業從你 08 年進去到現在有什么樣的變化?

從 08 年開始,在線廣告變得越來越火,這中間經歷了視頻網站、SNS、微博、電商的崛起,廣告在這里面扮演了很重要的角色,每年有幾百億的市場在里面。雖然跟傳 統的廣告相比還是很小的一塊,但它的比重在變大,并且形式變得豐富多樣,不僅僅是圖片、文字、聲音,還有地理位置,很多新東西在進入廣告這個領域。互聯網 廣告不停改善的目標,一方面是把營銷變得更精準,另一方面是把廣告變得不是那么突兀,而是以一個非常的自然的狀態呈現。

但中國互聯網有很多急功近利和不太好的地方,比方說做廣告監測的時候,我們發現很多媒體都在作弊;還有就是媒體間競爭越來越激烈,同質化嚴重,例如 視頻網站的內容同質化,但慢慢地大家也在走差異化道路了;另外對于怎樣避免廣告干擾用戶,怎樣避免隱私被過渡使用,這是需要我們全行業去解決的。大家應該 聯合起來建立一套標準,把用戶服務好,而不是想著瓜分用戶、搶用戶、不停騷擾用戶,這樣只會把這個行業毀掉。

技術的演變并沒有什么特別的新的東西,但是技術在逐漸的被模塊化和標準化。現在構建一個產品,已經可以根據業務的場景,用開源的服務把它搭建起來,生產力變得更加高效了,技術正變得易用、標準、開放、可拆卸。

        技術人攻略:你平時的興趣愛好是什么?

早年聽了很多搖滾,看了很多電影啊書什么的,算是文青。游戲打的也不少。現在這些基本都是需要放松一下時候才碰一下。但是運動還是要堅持的,跑跑步 踢球游泳什么的,逮到機會并且空氣也不太差的時候就鍛煉一下,身體對于創業來講非常重要,前幾天因為勞累加吃壞了東西腸胃發炎,影響工作好幾天。也可以說 現在最大的興趣愛好就是創業了,把這當游戲成就一樣來看待,想想都是很興奮有意思的事情。

當數學家遇上大數據

        圖為 2002 年的世界數學家大會,和曾獲得 Fields 獎(數學界的諾貝爾獎)的法國數學家拉弗格合影

來自: jianshu.io
                    <span id="shareA4" class="fl">                          </span> 

</div>

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!