Nerd 說:所謂 “驚喜”,就是比你更了解自己
上面這個故事的要義在于:大數據比你更了解自己。這也正是 Nerd —— 一款 “絕對讓你驚喜的” 讀物推薦應用 —— 的理論基礎。首次注冊 Nerd,你可以選擇用 SNS 賬號登陸,并被邀請回答幾個看上去有些 “不著邊際” 的選擇題,比如:你使用的手機品牌是什么?你每天工作幾個小時?你電腦的操作系統是什么?接下來,Nerd 會基于對你性格模型的分析,推薦適合你閱讀的書目和文章,每下拉刷新一次即可獲得一個新條目。點開具體書目,可以看到哪些名家推薦了這本書,還可以選擇 “想讀”、“讀過”、或 “詢價”,并跳轉到電商網站下單。
“大數據挖掘”,“個性化推薦” 的概念已經被炒了很多年,并且在電商、音樂(如 蝦米 )、新聞(如 今日頭條 )等領域都有了相當成熟的應用。僅就圖書領域來說, 豆瓣讀書 的 “喜歡XXX的人也喜歡” 功能就是個性化推薦最廣為人知的例子之一。同樣是做讀物推薦,Nerd 的推薦機制究竟是怎樣的,和其他網站有什么區別?Nerd 創始人韓杉給我詳細解釋了其中的邏輯。
Nerd 要做的事情是個性化連接人與書,在你甚至不知道自己對某本書可能感興趣的時候,biu 一下把它推到你眼前,使用戶產生 “驚喜感”,進而更容易產生閱讀、購買等行為。這件事說神婆一些,叫“預測人的喜好和行為”,科學一些,叫“基于大數據挖掘的精準推薦”。要做好這件事, 就需要理清幾個問題: 人和書的數據分別是什么?兩者的匹配模型是什么?
韓杉告訴我,Nerd 算法機制中 “人的數據”主要有三個來源:一是上面提到的邀請用戶回答的幾個精心設計的問題;二是綁定社交網絡賬號后,對其個人資料、評論轉發、好友關系等信息的抓取;三是用戶在使用過程中點擊、標記、試讀(和 當當 合作,功能即將上線)等行為。“書的數據” 則來自對互聯網信息的廣泛抓取,值得一提的是,這些數據指的不單是書名、簡介、分類這種表面信息,更是書的內容(比如描述方法、難度等級)、推薦人、書評這樣的深層信息。
匹配模型方面,Nerd 使用的也是目前主流的“基于模型的協同過濾”,即不斷用數據為每個實體塑造出一個盡可能準確的 “多維向量模型”,并將 “人的模型” 和 “書的模型” 根據相似度進行匹配。在主流框架之內,Nerd 的推薦模型也有自己的特點:在初始數據的獲取中,豆瓣的做法是讓新用戶選一些感興趣的話題,然后生成一系列初始值;今日頭條則是通過綁定微博賬號,獲取用 戶在社交網絡中沉淀的信息;Nerd 則是先在整個互聯網中抓取外圍數據,預先生成幾百個人物模型,并在用戶注冊時拋出那幾個精心設計的問題,根據答案 “激活” 相應的人物模型,力求讓沒有產生使用數據的新用戶也獲得不錯的 “驚喜度”。
對 “引入外圍數據可以在多大程度上提升推薦準確度” 這個問題,技術界目前仍有爭議,不過可以確定的是,對校準模型最有效的數據,仍是用戶在站內產生的使用數據:是否產生點擊、頁面停留時間多久、是否進行了 試讀、試讀之后的操作...... 每次的點擊對完善模型來說都是最直接的數據,因此和其他個性化推薦應用一樣,用戶使用越頻繁,Nerd 的推薦就越精準。
拋開推薦算法這樣的技術性問題不說,在產品形態上,Nerd 作為一款小而美的應用,還需要做很多改進,才能做到讓用戶 “愛不釋手”:
- Nerd 的推薦是圍繞著書來做的,推薦文章是想起到引發興趣的作用,但目前兩者的配合還不太 “默契”,接下來,Nerd 會嘗試在 feed 流中僅推送文章,并將相關書目放在文章底部進行推薦;
- 人想要了解自己的渴望總是無限的,他們不僅想知道 “推薦了什么”,更想知道 “憑什么推薦”。當用戶數據較豐富時,Nerd 會將系統分析出的用戶畫像適度公開給本人;
- 接下來會上線 UGC 功能,用戶可以添加自己喜歡的數目,從算法上來看,這也可以使人物模型更豐富,推薦更精準。
今日頭條張一鳴曾表示 ,希望從個性化推薦文章發展到基于共同興趣的社交,再發展到連接個性化服務。在一個信息過載的時代,這種個性化“入口” 漸漸變成一種強需求。而 Nerd 以圖書為中心,未來也可以將推薦拓展到音樂、電影、甚至商品的范疇,不過這個因為 “愛看書” 而走到一起的小團隊,在打造 “入口” 這件事上注定會有自己的風格。
Nerd 上線不到一個月,注冊量過萬。團隊此前獲得了 100 萬元種子輪融資,正在尋求天使或 pre-A。
感謝我司計算機大牛李立和 Retric 對本文的貢獻
原創文章,作者:小天
原文 http://36kr.com/p/5035602.html
</div>
</div>