淺談大數據應用研究的3個V

來自: http://www.techxue.com/techxue-22616-1.html

To knowledge 是目標,手段還是 mining ,俗稱數據民工。每當大家講到大數據,都會不約而同的提到大數據幾個 V 的定義: Volume , Variety , Velocity , Veracity , Value 。大部分情況下我們都是將這幾個 V 放在 PPT 的 introduction 部分一筆帶過,并無詳細解讀。我想謹以此文拋磚引玉,回顧和學習其中的 3 個 V ,重新審視我們的工作。  

前言

當我們面對一個數據驅動型的應用時,我們首先需要明確應用目標,確定我們需要做的事情屬于什么層面,然后對問題建模,并制定方案。數據類型的應用目標,我想可以歸納這 4 類:數據描述了什么,內在組成是什么樣?數據所反映的現象,是否存在某些內在規律?通過數據反饋的現象,能否學習規律并進行預測?在我們已知的結果方案之外,是否能借助數據去分析和進一步改進方案?  

絕大部分時候我們停留在 Information 和 Intelligence 層面,也就是我們常用的統計分析,關聯挖掘,聚類分析,分類(回歸)預測等。但是這些問題似乎是很經典的問題,在當前豬都吹上天的大數據時代,有哪些不一樣呢?我想如果我們只停留在 Volume 變得超級大,我們需要用 hadoop 之類的就有點圖森破了,大數據時代我們采集信息的來源和類型更加廣泛,每個行為也能關聯到更多的上下文信息,甚至有些事情算法不需要大改,增加數據量就能取得更好的效果,我們重點展開 Variety , Veracity , Velocity ,這 3 個 V 來討論一下。

Variety 在開發數據驅動型應用時,我們一般對 variety 的理解更多的是多來源、多類型的數據,然后在應用中進行數據融合,開發更完善的業務模型。比如百度 2012 年的百萬美元大獎 [5] ,網盟數據和搜索數據打通,提升系統收益。而我們熟知的廣告點擊率預估,或者推薦系統中常說的用戶畫像 [6] ,還有特征工程中的 context feature 和 item feature ,屬于典型的不同類型數據融合。

大部分情況下,我們對 variety 的理解和使用,需要有一個實體能將不同數據串聯起來,比如搜索可以以一個用戶的 session ,把不同 query 串聯起來;一個公司可以以唯一用戶 ID 把不同產品數據串聯起來;甚至外部數據融合也需要以身份證之類的把相關信息串聯打通。俞士綸老師給出了一些不一樣的理解,竊以為這是業務之外我們經常忽略的的,但是確實是大數據時代才具有的 variety 屬性。

挖掘實體相關,但是不同來源的信息

最典型的是我們在做大規模的非線性文本分類時,并不完全按傳統的文本分類的思路,從切詞信息中去發現有限的信息做分類器,而是結合相關實體,比如說這句話的人,某篇文章的發布者,去引入更多領域知識和先驗提高分類精度。比如 推ter 要對只有 140 個字符的 tweets 進行大規模高精度的分類 [7] ,就大量使用了 推ter 賬號的,還有 URL 的領域信息作為先驗。我們進行公眾號文章分類所使用的 paragraph to vector 特征 [8] ,其實也是公眾號領域知識的數字表達。  

從原理上講,各種分類(回歸)預測任務不限特征來源,但是上述這種不同來源領域知識的遷移,放在大數據的背景下,會更加有意義。不僅僅是我們可以融合的數據來源和類型變多了,更重要的一點是其他來源的數據可能更容易抽取到信息,對比之前缺少信息的情況下,開發難度變低了。

不同實體的不同類型信息,但是可以通過復雜網絡相關聯的

這種類型的典型場景是不同社交網絡的多源融合問題,用戶的信息可以在不同網絡之間進行遷移( transfer ),國內像清華大學的唐杰老師,崔鵬老師,做過不少這部分的研究。

variety 對信息遷移的理解,在算法研究層面是不是還能有不一樣的解讀呢?個人意見,機器學習方法雖然不限特征來源,且能進行簡單的非線性交叉,但是 deep learning 對各種特征做的更高層的 embbeding 和抽象,這種更高層特征的融合將 variety 在模型層面又提升了一個臺階,而 deep learning 的使用離不開大數據,沒有超大數據根本無法訓練大規模的深層網絡。

Veracity 有些文獻將 veracity 歸結為 uncertain data ,竊以為不是特別準確。大數據有一些繞不過去的問題,比如高噪聲,再比如一些異常信息淹沒在可信數據的汪洋大海中,使得我們進行檢測的難度變得極其大。但是長尾信息可能也淹沒在這些海量的數據中,我們不需要懼怕這些問題,因為非純凈數據中同樣蘊含著信息,只不過我們需要更加精細化的去深耕細作,甚至引入更大的數據和參數規模來刻畫這些信息,相對于純凈數據甚至能取得更好的效果。

對此,俞老師也給出了一個角度的思考:發動群體智慧來進行抗噪或者異常檢測。

對應此問題,我們也做了一些有意思的工作。比如朋友圈廣告的評論數據,我們可以對這些評論進行情感傾向的量化,從而在點贊和點不喜歡之外,提供另外一個維度的用戶反饋。但是我們也知道排除發小廣告的,絕大部分評論都是非常短的文本內容。有些甚至是看似噪聲的內容,比如小鮮肉最喜歡說的 “ 這是什么鬼 ” 。我們如何去發現這些數據中蘊含的信息呢?  

我經常跟學術界小鮮肉說的是:你們搞高級算法,我們則利用社交網絡的大數據優勢(陰險的笑)。上面的問題簡單描述一下思路:通過表情采樣(要防止表情的 term 過擬合),得到一些朋友圈 UGC 內容的情感傾向的 label ,然后對這些文本內容通過 word embbeding 和卷積神經網絡來引入上下文信息來學習語義情感傾向。而海量且每日更新的 UGC 內容,可以關聯到大量的相關數據所蘊含的信息,比如 “ 這是什么鬼 ” ,從社交大數據出發,走群眾路線解決上述問題。

VelocityVelocity ,直觀翻譯是高速,很多文獻對應的應用場景直觀的就是 streaming data 。但是我認為可以引申出更多種理解:數據的高速流轉,我們想要的結論可以及時反饋;內部特質變化,能快速的反應在數據分布和特征上;當需要了解收集數據時,可以快速的獲取最新鮮的數據,等等等。回到大數據的應用研究中,聚焦到業務目標最終體現的是模型的快速更新能力,快速捕捉訓練數據中反映的變化。

比如當目標是廣告 CTR 預估這樣的應用點時, velocity 涉及到許多技術環節,諸如日志快速收集反饋,日志實時 Log Join ,流式計算等等。最終體現在 CTR 模型實時更新這一項技術上。 KM 也有相關業務介紹過快速模型更新帶來的 CTR 效果提升相關工作 [11] 。  

參考文獻

[1] JIAWEI HAN, From Data to Knowledge: Construction and Exploration of Heterogeneous Information Networks  

[2] 芮勇 , From Big Data to Knowledge Discovery  

[3] PHILIP S. YU, Challenges and Opportunities on Mining Big Data  

[4] https://en.wikipedia.org/wiki/Big_data  

[5] http://wangmeng.baidu.com/news/2012-08-10/1347281356.html  

[6] http://km.oa.com/group/18268/articles/show/218391  

[7] Shuang-Hong Yang , etc. , Large-scale high-precision topic modeling on 推ter  

[8] http://km.oa.com/group/propen/articles/show/231733  

[9] Kevin Murphy ,《 Machine Learning: A Probabilistic Perspective 》  

[10] http://km.oa.com/group/14352/articles/show/213192  

2016-2-2 17:39 | 來自: 騰訊大數據

</div>

 本文由用戶 xxxway 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!