數據工程師自白:說我們讓用戶裸奔真是過譽了
你線上生活的點滴數據是如何成為互聯網公司淘金的工具的?
你線上生活的點滴數據是如何成為互聯網公司淘金的工具的?數據挖掘分析工程師功不可沒。正是他們從浩瀚如恒河微沙的信息中提取有價值數據進行分 析和處理,來優化他們的產品,發揮更大的商業價值的。那么他們具體工作是如何完成的?對于你自主貢獻上來的數據又有什么要吐槽的呢?
“比相親更靠譜”
我和數據打交道有 9 年多時間了。
一開始是在傳統企業做數據分析。來到互聯網企業后,盡管同樣是做數據分析,但差別太明顯了:之前我面對的數據量和現在比起來很小很小,處理起來 也相對容易。現在我面對的數據量非常大,而且還在不斷變得更大,傳統的處理方法已經不能滿足現在的需要了,那種借一個現成的軟件完成分析的日子一去不復 返,算法上沒有現成的工具,我們要用自己的語言來實現算法。
另一個大的差別在于,以前我只是注重對客戶的分析,所有分析都是營銷驅動的,產品概念幾乎沒有。怎么理解這個差別呢?舉例說,之前我們想針對客 戶做一個促銷活動,那我只要扒用戶數據,各個維度上的篩選把針對人群給“圈”出來提供給前線的部門就可以。但現在更多是以產品概念為重心,好比要讓用戶在 網站停留更多時間,更順暢使用網站的服務,每一款新的應用甚至是一個點擊按鈕的設置和設計都要不斷通過算法來優化。
我們的工作可以簡單分兩部分,一個是底層數據倉庫的構建,在我們公司每個產品線業務都在源源不斷產生用戶的數據,需要這個崗位的同事把它們抽取過來集中到一起;另一個則是基于底層數據的應用,那就是挖掘和分析,還有就是對數據做二次開發。
當我一開始來到互聯網公司面對這一職位的時候,別提有多興奮。我之前就一直在想,用戶的基本特征,像性別職業等等信息自然不在話下;如果我去的 是一個電子商務公司,那么用戶的購買信息還可以看出他的家庭狀況(最近買尿布奶粉的人估計就是當了爸爸媽媽的人了)、消費水平,如果他還參加了團購業務, 那他線下活動的地域范圍都可以略知一二;要是在社交網站,從用戶的日常發言、評論還能看出他的“三觀(人生觀、價值觀、世界觀)”……
只要用戶與網絡的聯系越來越緊密,那么他們聊天聊什么、買什么東西、看什么電影、讀什么書、對某一件事情的態度、跟什么樣的人交往以及他內心真實的想法等,通過數據都能毫無保留地看得到的。我曾和朋友開玩笑說,這比面對面去相親要靠譜很多了!
“變廢為寶”的工作
可是,自從我從事這個工作之后,發現這是份非常有挑戰性的工作。雖說用戶之前沉淀在我們這兒的數據很豐富,但我們要做的是去預測此時此刻他的需 求是什么。預測這個事情就存在準確率的問題。據說 Netflix(Nasdaq:NFLX;美國在線影片租賃提供商)用了強大的推薦算法,也只是把用戶的點擊率提高了一點點而已。
所以這個工作是絕對稱得上如履薄冰的———哪怕是注冊信息當中已經有了用戶的性別信息,但實際上我們要將每一次用戶新的登錄,都當做陌生人來重 新判斷一次他的性別。雖然商品信息可以簡單分為“男款”、“女款”,但這不意味著我們可以簡單地對男性用戶推薦皮夾克,而對女性用戶就推薦香水。為什么這 么做呢?這其實很好理解。現實生活中,男生為女生買香水,女生為男生買皮夾克,不都很常見的嗎?
如果我的目的是向他推薦皮夾克這個類別的商品,這時候,我們炮制出來的那套算法會把他的瀏覽歷史記錄、消費歷史等等信息,在一個設定的周期內做 一次統計,得出他在跟皮夾克相關的商品類目下最近一段時間的購買頻次和金額等結果,從而判斷此時此刻這個用戶需不需要皮夾克、能夠接受的價格區間的結論。 這些數據在接近閃電般的系統速度之下,組合成了這個用戶當時眼前屏幕上所看到的信息。
即便準確率在我看來還是有點粗糙,但互聯網公司又不得不繼續做這個事情。沉淀下來的很多用戶數據和行為信息,對互聯網公司來說是非常重要的,我們巴不得數據越豐富越好,雖然有人會覺得數據當中也有很多是沒有價值的,但這絕對是見仁見智,就看你怎么“變廢為寶”了。
所以,從事我們這個崗位,兩種素質是必備的,第一個是比較強的數據處理分析能力,第二個則是商業敏感性和業務敏感性。所有的數據挖掘都是針對某個業務提供某個服務,我們對自己業務理解得有多深,數據的價值就有多重要。
決策的輔佐者
說點有成就感的經歷吧。數據挖掘的工作,和產品經理、研發的同事互動相當多。有一次,產品經理想將社區中用戶討論的話題按照一些標簽來做些分 類,于是大家頭腦風暴集思廣益,列了諸如星座、兩性、年齡等標簽,這些標簽到我們這兒來,自然要經過我們逐個進行“論證”了。通過對社區中用戶的數據挖掘 和分析,我們把星座這個看似很炫很酷的標簽給否決掉了,因為鐵的事實擺在我們眼前:用戶是什么星座,對話題的影響體現不出相當明顯的差異。
我感覺研發和產品運營的同事提出的需求其實是不明確的,如果他們提出明確需求,那我們的工作就只是簡單的數據提取而已了。更多情況下,他們只是提出假設和疑問,但并不知道最優的結果是什么,這就是我們來回答的問題。
但這也不是說我們的崗位就有多么了不起。就跟傳統企業做生意一樣,決策者也會分析經銷商的數據什么的,但最終還是要結合行業經驗來做決定,有時 候還帶著點冒險的直覺。互聯網公司的產品同事們也是這樣的。數據本身是輔助做決策的,并不是百分之百完全無誤的,當然,有問題的話,我們能做的還是會繼續 修正之前的算法。畢竟從長遠來看,數據的魅力就在于大的方向感和目標性上所發揮的無可取代的作用。
所以,說我們讓用戶裸奔了,這真是過譽了。至少我們并不這么認為,這不是謙虛,而是遠遠沒有達到這一步。到現在,還有同行離開這個職位,一跟我見面就說“用戶數據分析這東西其實挺不準的”這些話呢。
(本文據創富志記者對多家互聯網大型及初創型公司數據工程師的采訪綜合整理)