Graphical model在收藏夾作弊行為識別上的應用

JosFoelsche 6年前發布 | 39K 次閱讀 圖模型 機器學習

總述

Graphical Model通常應用在問題本身帶有多個相互聯系的變量的場景,并提供了一種基于圖的表達方式讓你去建模這些聯系從而挖掘潛在的因果關系。在本文中,我們創新性地將概率圖模型應用到了淘寶平臺收藏作弊行為檢測的任務中,取得了遠超傳統分類模型的結果(Top1%記錄中召回60%的作弊行為)。本文我們將從作弊行為分析,構建模型,求解模型三個部分對這個工作進行詳細介紹。目前文章已被WWW 2018接收(接收率14.8%)。

背景介紹

隨著在線購物網站的發展,在線購物正在逐步取代傳統的購物方式。2016年普華永道的調查顯示54%的購物者每周或每月都會在網上購買商品,其中34%的購物者認為手機是他們主要的購物工具。在購物網站中,搜索引擎是用戶找到具體商品,款式或者品牌的主要入口。在搜索引擎的幫助下,用戶能夠方便地在購物網站上完成一系列加購,收藏,購買行為,而這些用戶行為數據本身也蘊含著極大的價值,在優化購物網站的推薦和搜索中扮演了非常重要的角色。“加入收藏夾”作為淘寶一個重要的功能,可以方便用戶收藏一些暫時不買的商品。與此同時,商品被“加入收藏夾”的數量,也稱作人氣,也是淘寶的搜索引擎提供的一種可選的排序策略;且對于默認的綜合排序,人氣值也常常作為一個參數被引入進去。

為了提升產品或店鋪的排名及可見度,部分惡意商家采取虛假的作弊行為以提高銷量,主要包括虛假推廣行為(收藏、加購和轉發)及虛假的評論行為。目前,針對于淘寶作弊活動的地下產業已趨近成熟,尤其是隨著眾包平臺的發展,這些商家可以根據自己的需求,便捷地發布作弊任務,吸引眾多的參與者來完成作弊活動,從而快速高效的實現產品或店鋪的宣傳推廣。以虛假收藏為例,惡意商家通過發布任務,快速提高其商品的人氣值,從而影響淘寶的推薦和搜索排序策略,進一步提高商品銷量。這類借助眾包平臺的作弊行為能夠在短時間內產生大量異常數據,且難以檢測,會對用戶以及購物網站本身造成惡劣的影響。因此,如何快速有效地找到這些作弊活動,對于淘寶來說非常重要。

作弊活動運作模式

通過調研灰產平臺提供的收藏作弊服務,我們總結了如下圖所示的作弊模式:

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

首先商家通過平臺發布作弊任務,指定商品,搜索關鍵詞,任務時間以及傭金。除了這些基本的信息之外,商家還會提出一些特殊的要求,例如在搜索結果頁中瀏覽超過x分鐘,在搜索結果中隨機點擊y個商品,再點擊指定商品進行收藏,有一些任務還需參與者滿足一定的等級要求。平臺的用戶看到任務之后會去申領,根據任務中提出的要求進行搜索,瀏覽,點擊,收藏等一系列動作,最后還需要截圖,以便去平臺申領傭金。

此類平臺的用戶,多為兼職刷手,作弊行為只是其在淘寶平臺留下的行為的一部分。此外,收藏作為一個隱私行為,無法被大眾察覺,缺少類似于“對我有用”、“最佳答案”等顯性的指標。因此,這類新興的作弊任務,很難用已有的方法進行檢測。

為了針對此類作弊行為進行識別,我們收集了作弊平臺上一個月時間的任務,用于對用戶行為進行標注。同時,我們分別從用戶屬性,商品屬性以及行為屬性三個角度,對收藏作弊進行了深入分析。我們將這些屬性和用戶,商品之間的關聯關系用Factor Graph模型進行了整合,并基于此設計了一個分類模型來檢測可能的收藏作弊行為。

用戶、商品以及行為屬性對比分析

行為屬性分析

首先,我們對作弊收藏行為和正常收藏行為之間的屬性差異做了詳盡的對比。

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

從加購角度看,作弊收藏行為中帶有加購動作的只有6%,而在正常收藏行為中則有8%。這個差異主要是因為極少數的收藏作弊任務中會有加購物車的要求,另外作弊收藏的商品本身也不是用戶想要的,自然加購的意愿也就差一些。在搜索過程中,用戶可以通過一些篩選條件(發貨地,價格區間等)來更有效的找到商品,這里作弊收藏對比正常收藏,使用篩選的比例反而更低一些。對于收藏前是否有其余的商品點擊(在當前這次搜索過程中),作弊收藏行為明顯高出正常收藏行為很多。這個主要還是因為作弊任務中很多都要求多點幾個商品。從時間上看,作弊行為更傾向于發生在周末,這可能是與作弊用戶是兼職的有關系。

在下圖中,我們對更多的行為屬性進行了對比,這其中包括了搜索關鍵詞的長度,搜索結果頁瀏覽深度,搜索結果頁停留時間以及點擊商品詳情頁的停留時間。

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

通過上面的分析,我們可以看到除了前序商品點擊之外,其余的多種屬性上,作弊收藏行為和正常收藏行為之間的差異性并不大,這也進一步印證了但從行為本身來區分作弊與非作弊是非常困難的。

用戶屬性分析

在接下去的分析中,我們將收集到的作弊樣本涉及的用戶定義為作弊用戶,其余的用戶稱為正常用戶,類似作弊樣本中的商品成為作弊商品,其余的商品成為正常商品。

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

從上表中可以看到,作弊用戶的行為(收藏,加購,購買,評論)明顯要少于正常用戶。這些行為能反映出一個用戶在平臺上投入的時間,很顯然,作弊用戶的活躍度遠低于正常用戶。

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

我們取了其中一個作弊用戶,來觀察其收藏行為的持續性。結果如上圖中展現,作弊用戶會在一段持續的時間里(前半個月)收藏一定數量的作弊商品。這個數據說明,作弊用戶收藏作弊商品會在某個持續的時間窗口內。

商品屬性分析

與用戶屬性分析類似,我們也對比了作弊商品和正常商品之間的差異性。數據見下表。很明顯,作弊商品上的行為數據遠低于正常商品,這也反映出,通常只有表現不是很好的商品會尋求作弊,同時這些作弊商品也很難吸引到正常的用戶。

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

我們選取了一個作弊商品和一個正常商品,觀察它們被收藏的持續性,結果見下圖。可以看到,作弊商品上的作弊行為集中在一個很短的時間窗口內,這或許是對應的任務指定的時間。

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

作弊收藏檢測

模型定義

根據對作弊活動的分析,我們提取了有區分能力的特征,并將提取的特征因素和關聯因素統一整合到概率圖模型框架中(Activity Factor Graph Model, AFGM),進行虛假收藏活動的識別。

在AFGM模型中,我們一共引入了三方面的特征因素,包括行為特征,用戶特征和商品特征,同時引入了基于用戶和商品的關聯因素,即對于一個固定的時間窗口內,相同用戶或者相同商品產生的兩條收藏記錄建立邊的關系,具體模型如下圖所示。

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

圖中,網絡G中的一組活動節點 \(V={A_1,A_2,…,A_N}\) 被映射到了一組因子節點 \(Y={y_1,y_2,…,y_N}\) 。G中的活動有一部分是有標簽的,因此Y可以被分為有標簽的 \(Y_L\) (訓練集), 沒有標簽的 \(Y_U\) (測試集)。 AFGM 可以根據訓練集中已知的因子節點來推測未知的節點是否是作弊。根據上面對行為屬性,用戶屬性和商品屬性的分析,我們定義了以下4種因子:

行為屬性因子: \(f_b (y_i│b_i )\) 表示在給定行為屬性向量 \(b_i\) 的情況下, \(y_i\) 的后驗概率。

用戶屬性因子: \(f_u (y_i│u_i )\) 表示在給定用戶屬性向量 \(u_i\) 的情況下, \(y_i\) 的后驗概率。

商品屬性因子: \(f_p (y_i│p_i )\) 表示在給定商品屬性向量 \(p_i\) 的情況下, \(y_i\) 的后驗概率。

另外根據前述的發現,作弊商品/用戶的作弊行為具有持續性和集中性,所以我們定義了兩種相關性因子:

\(g_u (y_i│C_u (y_i))\) 表示基于用戶的行為相關性,其中 \(C_u (y_i )\) 是與在概率圖中與 \(y_i\) 連接的相關性因子節點的用戶集合。

\(g_p (y_i│C_p (y_i))\) 表示基于商品的行為相關性,其中 \(C_p (y_i )\) 是與在概率圖中與 \(y_i\) 連接的相關性因子節點的商品集合。

有了這些因子之后,AFGM中的行為概率就可以表達為:

\(P(Y│G)=1/Z ∏_if_b (y_i│b_i )? f_u (y_i│u_i )?f_p (y_i│p_i )?g_u (y_i│C_u (y_i))?g_p (y_i│C_p (y_i))\)

模型的目標是將 \(P(Y|G)\) 最大化。

模型求解

我們用指數線性函數來定義三個屬性因子:

\(f_(b(y_i│b_i ) )=exp?{λ_b^T Φ_b (y_i,b_i )}\)

\(f_(u(y_i│u_i ) )=exp?{λ_u^T Φ_u (y_i,u_i )}\)

\(f_(p(y_i│p_i ) )=exp?{λ_p^T Φ_p (y_i,p_i)}\)

這里, \(λ_b^T,λ_u^T,λ_p^T\) 是權重向量, \(Φ_b,Φ_u,Φ_p\) 則是特征向量函數。類似的,相關性因子的定義為

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

這里, \(φ_u^T,φ_p^T\) 是權重向量, \(Θ_u,Θ_p\) 是示性函數向量。學習AFGM就是去估計一組參數設置 \(θ=(λ_b^T,λ_u^T,λ_p^T,φ_u^T,φ_p^T )\) ,使得 \(P(Y│G)\) 最大。

為了簡潔,我們將一個因子節點 \(y_i\) 的所有的因子函數連接在一起,記為

\(s(y_i )=(Φ_b (y_i,b_i )^T,Φ_u (y_i,u_i )^T,Φ_p (y_i,p_i )^T,Θ_u (y_i,y_j )^T,Θ_p (y_i,y_j )^T )\)

這樣,我們可以把 \(P(Y│G)\) 改寫為

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

由于因子節點集合Y是部分標注的,為了計算這個概率,我們定義 \(Y|Y_L\) 為已知標簽集 \(Y_L\) 的前提下,所有節點的標簽配置情況。進一步,我們定義log-likelihood目標函數為

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

我們用梯度下降算法來求解這個目標函數,其中參數 \(θ\) 的梯度為:

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

這里 \(E_(Y|Y_L,G) (S)\) 表示在已知標簽 \(Y_L\) 的前提下S的期望, \(E_(Y|G) (S)\) 則表示所有標簽可能下的S的期望。由于 \(E_(Y|Y_L,G) (S)\) , \(E_(Y|G) (S)\) 在計算上非常困難,我們利用loopy belief propagation(LBP)算法來求一個近似解。在每次迭代過程中,我們兩次運用LBP算法,第一次用于估計位未知節點的邊際概率,第二次是用于估計所有節點的邊際概率。有了這個邊際概率之后,上述的兩個期望可以近似為將所有相關節點的邊際概率之和。最后根據梯度,我們會不斷的更新參數直至收斂。

根據學到的參數 \(θ\) ,我們在測試集上再一次用LBP算法估計一個邊際概率。這個邊際概率就會作為一個節點是否為作弊的預測值。

實驗結果

我們將AFGM的結果與Support Vector Machine,Logistic Regression,Random Forest,以及AFGM的三個變種

AFGM-UP:去掉用戶因子與商品因子后的模型,用于說明加入用戶因子與商品因子的必要性

AFGM- \(C_u\) :去掉用戶相關性因子后的模型,用于說明加入用戶相關性因子的必要性

AFGM- \(C_p\) :去掉商品相關性因子后的模型,用于說明加入商品相關性因子的必要性

我們對比Top1%中的作弊召回量: 阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用 。同時,我們也是對比了AUC來檢查我們的模型是否給予了作弊行為記錄一個更高的概率。試驗結果如下:

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

可以看到,傳統方法在作弊檢測這個問題上基本上沒有效果,而利用概率圖模型則均可得到一個較好的結果。相比之下,我們發現即便不考慮商品屬性因子和用戶屬性因子,模型已經能到得到一個很好的結果了,加入這些因子之后只是對最終結果小幅提升。

阿里巴巴WWW 2018錄用論文:Graphical model在收藏夾作弊行為識別上的應用

上圖顯示了不同的概率圖模型在topk%下的檢測效率,可以看到在top10%中,我們就可以檢測出近80%的作弊行為,而AFGM與AFGM-UP兩種模型的表現非常接近。這個可能是由于相關性因子已經包含了足夠的信息用于檢測作弊行為。AFGM-CP的表現是四種模型中最差的,這說明商品相關性因子在檢測作弊的時候更加重要。

小結

在本文中,我們對淘寶評上的收藏作弊行為從多個角度做了深入的分析,揭示了作弊行為與正常行為之間的差異性。通過這些分析,我們提取了多種特征,并提出了AFGM來推斷一次收藏行為是否為作弊。實驗結果顯示,AFGM在top1%的記錄中能召回超過60%的作弊行為。通過不同模型之間的對比,我們也發現商品相關性因子在檢測作弊行為時更為重要。盡管我們提出的檢測模型具有相當高的效率,但是也得指出目前的算法只能對一個時間周期內的作弊進行整體識別,尚不能對行為進行實時判別,這將是未來的一個研究方向。

 

 

來自:http://www.infoq.com/cn/articles/alibaba-AAAI-2018-graphical-model

 

 本文由用戶 JosFoelsche 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!