海量數據之data海拾貝
海量數據之data海拾貝
---淺談用戶行為的跟蹤和偏好挖掘
在市場環境競爭中,如何才能讓服務提供商與服務使用者之間的相互交互得到更進一步的提升,對于服務提供商來說有著非凡的意義。服務提供商正在面臨著這樣一個問題,如何根據服務使用者來對每一個用戶提供針對性的商品或服務。這當中最能解決這個問題的就是個性化服務。個性化服務通過收集和分析用戶服務信息進行用戶偏好的學習;通過提供推送高質量的服務,培養忠實用戶以及吸引更多的新用戶。【】
百度高級技術總監王夢秋曾說過這樣的一句話:“用戶數據對于想研究互聯網的人來說,簡直是夢寐以求的寶庫”,由此可見用戶的行為分析的重要性。大牛網針對企業比較關心的用戶行為的跟蹤和偏好挖掘的現狀,針對現有國內外文獻和資料進行了一些整理,來簡單談談用戶行為的跟蹤和偏好挖掘,希望能幫助企業更加有效的挖掘潛在的用戶,提高現有用戶的更好的體驗,從而提高產品的市場競爭力。
面對大量的數據,那哪些是有用的呢?到底從何處下手呢?這里給個具體例子,比如從不同用戶的角度來分析:
1. 一般用戶行為分析 通過統計分析,為運營者提供所需數據由以下幾種:
A. 流入路徑數據:客戶的流入路徑及移動路徑
B. 訪問關鍵字數據:通過搜索網站的訪客,不同關鍵字類別的分布情況
C. 滯留時間數據:訪客在每頁中滯留的時間
D. 訪問次數數據:訪客的訪問次數及不同客戶的訪問次數
E. 客戶系統數據:客戶的使用系統信息
F. 訪客最常移動的路徑:訪客在訪問某網站時,依次瀏覽的網頁順序組成了一條移動路徑。例如,有一位訪客在某一購物網站訪問時,其移動路徑很可能是:首頁-> 用戶登錄頁-> 商品查詢頁面-> 商品信息頁面-> 訂購頁面??
G. 入口頁和出口頁: 入口頁(Entry Page):無論通過哪種渠道來到您的網站,訪客進入您網站瀏覽的第一頁就被稱為“入口頁”,入口頁不一定就是一個網站的首頁。 出口頁(Exit Page):無論訪客在您的網站瀏覽了哪些頁面,他/她最后瀏覽的一個頁面就被稱為“出口頁”。如果訪客進入您的網站僅瀏覽了一個頁面,則該頁面既是入口頁,也是出口頁。
2. 廣告用戶行為追蹤
會員/非會員按照廣告位指引點擊進入網站的依次路勁,從中分析出網站廣告投放的吸引程度及會員相關心的網站內容。從數據分析中得出有多少會員通過廣告所帶來最終消費。
3. 付費用戶行為分析
付費用戶為網站注冊用戶,并通過付費享有一定優惠權限。根據付費用戶點擊進入網頁的路徑,分析出其瀏覽頁面的關注程度,之后繼續優化頁面,提升最終消費率的提升。
用戶行為的分析不僅包括用戶日均瀏覽頁面數等方面,而是對網站用戶行為數據進行全面統計、分析并得出用戶需求特征的分析,比如用戶數的增長分析,用戶黏度的分析,用戶屬性的分析,用戶對內容喜好程度的分析等用戶數據的全面剖析。
網站的訪客包括兩類,一個是網站的注冊用戶,一個是非網站注冊用戶。對網站用戶來說,有年齡、地區、性別等基本屬性,還有收入、教育程度、職業等社會屬性。這是用戶注冊時所提交的數據,這些數據對于分析用戶的行為有重要作用,也是做數據庫的基礎。比如不同年齡段的用戶,對服務的偏好是否有不同,不同性別的用戶在選擇上是否會有不同。所有這些數據的分析,都是服務于網站的目的。這對于網站產品的定位、網站推廣有重要的參考意義。并且,這些用戶的屬性,可用于網站廣告的定向發布,把用戶感興趣的廣告推給客戶,比如正在裝修的用戶,可能推送他們一些裝修建材一類的優惠信息,這些廣告信息,對于用戶來說是有價值的。 除了用戶屬性,對用戶行為的分析也非常關鍵。用戶上網的行為有很多,比如登陸人數、登陸頻率、頁面瀏覽數、平均在線時長等。
針對時下比較火的電子商務,《基于用戶瀏覽行為的偏好興趣挖掘推薦研究》一文作者李微娜給出了用戶界面反饋值Q的具體計算方法:
在隱性反饋中,假定用戶對商品的偏好程度可以用以下幾點來理解:
第1步(1)用戶放入購物籃內的商品比只點擊瀏覽過的商品,用戶更感興趣。
第2步(2)對于點擊瀏覽過的商品,累積總的瀏覽時間越長,用戶的偏好程度越強。
此外,為了盡可能多得到詳細的客戶當前偏好,對偏好判斷的最大數設置
的約束集可以首先通過最近產生的反饋,然后再下一個,依此類推,除非它變成
不可行。將同類商品分類定義成一個集合A={,
,??,
},并且該商品集
合中的每種商品具有相同的商品屬性集C={,
,??,
}。
第3步:計算每個商品喜好度。
(1)若用戶將商品已放人購物籃,則Y()=1;否則Y(
)=0。
(2)用戶近期瀏覽的每個商品頁面的總時間進行疊加,為t( )=
第4步:將第r價商品放人GK中,并比較偏好順序,產生商品集合表示。
(1)設n=1。
(2)產生商品集合 ={l Y(
)=1,
∈ }。
(3)=- 。
(4)產生商品集合={ l maxt(a),
∈}。
(5)若=- 非空,若n=n+l,返回(3);否則的話,下一步。
第5步:產生有序對的集合Ω K={(,
)I
∈,
∈。,r=1,
2,? ,n-1},其中(,
)表示的是商品
,
兩商品之問的弱偏好關系。
第6步:得到一個約束集,表示從用戶那里得到的最近的第K次頁面反饋。此約束集表示的是兩商品間的對比偏好關系,以
形式給出,其中
,從這種偏好順序關系中,可以得到n個
k約束集合,
.
第7步:產生一個臨時約束集,其中
第8步:若是可行的且仍存在
,則
,返回第2步;否則下一步。
第9步:輸出Q,Q為可行的不等式約束集【】
上面的方法在web挖掘的基礎上,對用戶的瀏覽行為進行了分析,獲取偏好信息,利用Web用戶反饋的不完全偏好信息,結合分析用戶的個性化不完全偏好信息,旨在根據用戶的訪問路徑向用戶推薦個性化的web資源。通過利用用戶的瀏覽足跡,實時地匹配用戶的當前訪問序列,對不同的用戶有針對性的提供不同的推薦資源。
當然面對海量的數據,單靠某一方法去挖掘,去推薦的話,目前技術還不是很成熟,不過相比5年前,已經準確很多了。相信在不久的將來,各服務提供商面對一千個客戶,給出一千個個人服務。
【1】 基于用戶行為反饋的服務偏好挖掘方法研究 《武漢理工大學》 2012
作者張慧
【2】 基于用戶瀏覽行為的偏好興趣挖掘推薦研究 《中國科技博覽》李微娜
【3】 數據挖掘原理與技術 張云濤等
【4】 Web日志挖掘數據預處理優化 周愛武,肖云