移動電商搜索個性化技術
移動端搜索流量保持高速增長,移動搜索與桌面搜索互為補充,使得消費者的網購行為得以進一步普及化和深入化。本次演講主要介紹淘寶搜索技術如何思考移動端 搜索帶來的技術挑戰,如何來結合移動端設備私有化,使用時間碎片化,輸入模式的多樣化,交互方式的便捷化等特點來優化移動端搜索,及個性化在移動搜索中的應用。
圖1
圖1是移動視角的基本結構圖。
圖2
圖2是移動搜索產品形態。
個性化體系結構
個性化搜索面臨的挑戰有很多:
大數據,稀疏,長尾,噪音:
淘寶上海量的商品,針對個體而言,發生行為的商品有限, 稀疏度在百萬分之一,甚至更低。
用戶行為模式的挖掘和利用:
網購行為的復雜性,如何準確的描述用戶的興趣和特色,包括長短期興趣等? People change over time。
冷啟動:
新用戶,新商品。
多樣性與精確性的兩難困境:
Interestingness v. relevance ,Need Serendipity
用戶界面與用戶體驗:
個性化體驗的可解釋性。
系統的挑戰性
評估的挑戰性
個性化搜索誤區:
千人千面并非意味著,去追求單純個體的個性化體驗,個性化搜索是立足于提升整體用戶的個性化體驗;
Personalization != customization;
勿忘行為建模的基本假設——hypothesis: 接受商品 à 接受他得所有屬性;
過度個性化——搜索場景的個性化:“to personalize or not to personalize “,Explore & Exploitation ;
主觀性 vs. 客觀性——“data driven”,購物行為所表現的個性化特點 != 用戶的物理個性化特征。
圖3
圖3展示了個性化技術的魅力。
圖4
圖4是鳥瞰個性化體系。
圖5
圖5為個性化體系框圖。Offline:離線模型訓練數據收集,過濾, 聚合,特征ID化,利用batch-learning產出nearline環節,online環節所需要的模型。Near-line:
構建于流式計算體系的實時日志解析,行為特征抽取,聚合,實時用戶profile預測,實時人群-商品累積行為特征計算,離散化處理;更新在線排序計算依賴的實時字段,UPS中實時userprofile字段,引擎中的商品正排字段;構建基于mini-batch的在線學習模型,增強系統的適應新數據的能力和explore能力; 實時反作弊。Online:各個排序維度模型的在線預測;多個排序因素的在線融合;EE 策略。
個性化體系的移動元素:
查詢意圖——時間,地點,逛/搜;pull or push。
用戶肖像——移動端特色數據;跨屏行為建模,實時肖像特征。
P(滿意|query,用戶,商品)。
實時個性化。
E&E。
Query/User 意圖識別
圖6和圖7是Query/User 意圖識別,
圖6
圖7
圖8
圖8為Query 的隱含個性化需求。
個性化數據