用python寫一個簡單的推薦系統

hmsc6242 9年前發布 | 33K 次閱讀推薦系統 Python Python開發

前言

在上篇文章豆瓣電影，電視劇DM實戰中提及到，我和室友們產生了劇荒，萌生出要做一個個人用的推薦系統，解決劇荒的問題，經過一輪的死纏爛打，這個個人推薦系統終于成型了。

今天來分享一下心得，對此感興趣的朋友可以自己對著寫一個。

傳統推薦系統算法

首先介紹一下傳統的推薦系統方法，之所以叫它傳統，是因為大部分學習資料上都是用這一個方法。

我們來假設有這么一個矩陣(用 python 的列表表示):

  [# A B C D E
    [2,0,0,4,4], #1
    [5,5,5,3,3], #2
    [2,4,2,1,2]  #3
    ......
  ]

矩陣的行代表用戶，列表示物品，其交點表示用戶對該物品的評分。

假設現在 用戶1 需要選商品，推薦系統則假設其會選擇并未選擇過的商品，因此，系統會在第一行中尋找評分為0的物品，顯然會找到 B 和 C 。這時，該怎么知道是推薦 B 還是 C 呢？(假設用戶只需推薦一個),這時則需要計算B、C和用戶以前選擇過的物品(已評分)的相似度。

僅僅算出相似度還不夠，因為你不能判斷這到底是好的那一部分相似還是壞的部分相似。所以這時，我們需要 引入用戶的評分作為相似度計算的權重 ，評分X相似度得到最后的得分（該得分會一直累加， 則B的推薦得分會是B與A，D，E的相似得分的累加和 ）。這樣一來，評分低物品的最后得分自然就低，評分高的物品自然得分就高，這時問題就簡化成排序問題了。

顯然，上述問題的核心在于如何計算相似度。

這里給出計算相似度的兩種方法：

歐式距離法

以 B 和 A 的相似度為例：

similar = 1/sqrt((0-2)^2 + (5-5)^2 + (4-2)^2 ……) 最后B與A的相似得分還得乘上評分， score = similar * 2
余弦相似度

$$costheta=frac{Acdot B}{||A||||B||}$$

AB為兩列向量，||A||表示A的2范數

特別注意一點的是，cos的取值是-1~1,我們需要將其歸一化，即把范圍弄成在0~1上。于是相似度計算公司變成 0.5 + 0.5*cos

少用戶推薦系統的創新

在上述的內容中，我們可以發現傳統的方法有一個特出的問題，傳統的算法需要大量的用戶評分，即矩陣的行數需要較多才能得出的結果才值得參考。這一個需求咋看起來是沒什么問題，也符合我們的邏輯，唯有數據量足夠，我們才能找到較為準確的規律嘛。

但回到我的需求上來說，這可是一個明顯的缺點，在前言我說明的需求上說過 這是一個給宿舍甚至是個人使用的推薦系統。

也就是說:

我們無法提供大量數據。
我們很懶，我們最可能是告訴系統我從它的推薦中采納了哪一部的電影，而不會去評分，我們可能告訴它質量是否可以接受，但不會像豆瓣用戶那樣給出0~10的準確分數。

因此，傳統的推薦算法有很多不適合我需求的地方，但是看問題要看本質。無非就是根據用戶的特性，或者根據商品特性，進行與訓練好的模型進行相似性比較。抓住這些特點，我做了少少的"創新"

不基于用戶的評分作相似度，而是用商品的 label 做標準

現在很多商品尤其是音樂或者電影，都會具有自己的 label ，比如說喜劇，懸疑，其次還有主演，導演等可以作為其特征。電商平臺上也有諸如商品種類衣服 , 女鞋，包包 ,等，而某些物品，例如衣服，那么衣服的品牌， size ，都可以作為用戶的一個選擇的特征。

用戶模型是動態更新的

這一點不難理解，如果一個用戶長期使用使用該系統，那么他的選擇中很可能已經覆蓋了大量的label，這時基于label的推薦系統則很難區分該用戶的喜好。這是我們有兩個解決方法。第一個是允許用戶自定義label，比如SF就可以自定義問題或文章的標簽，這樣增大了label的多樣性。當然，這個解決方案只能算一個緩解的方案，要想徹底解決，我覺得需要給特征選定有效期。

增加有效期后，用戶的選擇可以反應出一個時間段內的需求。假設這樣一個場景，一名用戶準備去旅游了，他可能會大量瀏覽旅游用品的出售頁面，例如一次性牙膏等，這時，就可以向該用戶推薦出售旅行用品的網站了。而超過了特征的有效期，例如一周，這時用戶已經旅游回來，因為特征已經無效，推薦系統不再推薦旅游用品（這樣用戶不會覺得莫名其妙。個人經歷，現在某些網站就往往會出現明顯已經超過我感興趣時限的推薦），而是開始重新收集用戶新一周瀏覽的特征，動態構建用戶模型，推薦用戶下一階段他可能需要的物品

實現上述想法，在python中，我們可以這么做,實現如下字典

record = { "labelName":(weight,time), "labelName2":(weight,time) …… }

labelName是標簽名稱，在該標簽下有一個元組，元組的第一個字段是這個標簽的權重。

權重越大，表示用戶越喜歡這個標簽。

第二個字段是創建該標簽的起始時間</pre>

在實現推薦時，則較為容易實現，給定 testList 。這時需要:

創建名 res 的空字典
遍歷 testList ，每一個對象命名為 t
遍歷 t 具有的 label ，根據 label 從 record 上獲取信息。
同時獲取當前時間 time2 ，如果 time2-time 超出了規定時限，則該標簽的信息無效，忽略該 label ，同時刪除 record 里面的對應的字段。
若該標簽有效，則 t 的得分加1，并將t的下標 index 作為 key 假如到一個 res 中
遍歷完成后，對 res 字典按 value 排序
最后，可以根據需要對排序結果進行訪問。并入只獲取最高的前5名。

這樣，一個 適合少用戶的推薦系統 就弄出來啦~

現在正在宿舍投入運行，至于效果如何可能要一段時間才知道了

后話

github 地址

說明一下，github上 只是提供了一個實現了上述改進后思路的類 recommend.py ，并不是一個成型的推薦系統，你可以下載后，根據這個類進行二次開發，比如:

利用flask框架包裝成一個web應用
結合該類并利用SMTP協議，弄一個自動往郵箱發信息的腳本，推薦的電影信息
將類實例化，弄出簡單的命令行應用

遲下我會上傳一個使用falsk封裝的一個簡單的 webserver 去github,可以通過 web API 請求，返回 json 格式的電影信息。

如有錯誤，望指正。

來自： https://segmentfault.com/a/1190000005152849

本文由用戶 hmsc6242 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1463618570731.html

推薦系統 Python Python開發

用python寫一個簡單的推薦系統

前言

傳統推薦系統算法

少用戶推薦系統的創新

labelName是標簽名稱，在該標簽下有一個元組，元組的第一個字段是這個標簽的權重。

權重越大，表示用戶越喜歡這個標簽。

第二個字段是創建該標簽的起始時間</pre>

后話

相關經驗

相關資訊

相關文檔

目錄