【近戰】基于微博用戶關系與行為的用戶建模分析
【編者按】好的技術實戰分享從來不因為時間的流失而褪色。2011年開始運營的阿里技術沙龍共積累35期,近100位深度實戰培訓資源(PPT+視頻)讓很多朋友大呼過癮。接棒阿里技術沙龍,云棲社區特別挑選最具人氣的12場深度實戰分享組成【近戰】的第一個系列。其中包含新浪微博、淘寶搜索、美團、美麗說、淘寶推薦、小米、支付寶、阿里云、淘寶無線在內,涵蓋建模、個性化推薦、排序學習、系統優化、數據監控、流量優化、架構探索等多方面一線經驗總結。
以下為【近戰】第一篇,基于微博用戶關系與行為的用戶建模分析。
用戶建模是廣告、推薦、搜索算法最基礎也是最核心的技術問題之一,本報告將介紹新浪微博大數據挖掘團隊如何綜合利用社交關系和用戶行為來建立用戶模型。以下分享下精彩內容。
微博及大數據
微博作為中國最大的社交媒體平臺,微博沉淀了海量的用戶,內容,關系,和行為數據。
其中用戶:注冊人數10億,月活人數1.98億,日活人數:8900萬。關系:關注關系近千億,分組關系50億+。內容:日增博文1億+,日增原創4000萬。行為:轉發6000萬,?評論3000萬,贊1億,收藏:1000萬,?查看200億。
圖1
如圖1,微博大數據要做什么?要幫助用戶發現感興趣的內容,加快有價值內容的傳播效率。目標如何實現?要挖掘有能力生產垂直領域優質內容的用戶,挖掘用戶內容消費的興趣偏好。工作如何串聯?用戶能?力標簽,用戶興趣標簽,微博內容標簽。
大數據標簽體系
圖2
圖2所示為大數據標簽體系的基本框架圖。
用戶能力標簽——
用戶能力標簽的產品形態
圖3
如圖3微博找人直接推薦各行各業的能力用戶
圖4
如圖4微博頭條輸出各領域原始語料的專家庫
圖5
圖5為用戶能力標簽庫的整體框架
用戶能力標簽庫的策略算法如下:
(1)基于決策樹的分組名分類算法:將分組名分為興趣分組名和熟人關系分組名。興趣分組名用于用戶的能?力興趣計算,熟人關系分組名用于用戶的自然屬性挖掘。
(2)基于用戶關注關系數據計算用戶在關系方面的能力:利用興趣分組名稱構建出標簽的相關詞庫,進而通過歸一化公式計算出基礎權重。
(3)基于用戶發布內容數據計算用戶在內容?方面的能?力:用戶在某個領域發布博?文數量、純度、互動量越?高,在這個領域內容?生產能?力越大。
(4)通過PageRank計算用戶在垂直?行業的影響力:通過PageRank計算具有?一定內容?生產能?力和關系能力的用戶群中每個用戶的影響力。
(5)通過線性加權將用戶的關系、內容和?行業影響力計算為在這個垂直領域的綜合能力:用戶能力標簽歸?一化到0~100的區間,達到橫縱向可比較。
圖6
主要問題如圖6,標簽的自動聚合和篩選時的噪音問題,微博短文本分類及語義主體識別問題。
圖7
圖7為標簽自動聚合流程。
用戶能力標簽的效果很好,挖掘出120萬能?力用戶,覆蓋月活粉絲1.6億;微博用戶中娛樂、互聯?網、財經行業名人最多; 微博用戶中動漫、美食、旅行行業精英最多;微博聚集了近萬名互聯網技術牛人。
用戶興趣標簽
用戶興趣標簽的產品形態
圖8
圖8是基于興趣推薦用戶感興趣的文章。
圖9
圖9是基于興趣Push用戶一段時間內關注人發的但是沒看過的微博。