阿里大數據競賽——穿越到甄嬛傳,你有幾分勝算?
又是一年選秀開始,于是宮里宮外又開始了明爭暗斗。如何才能挑出合皇上口味的好秀女,當好主子的左膀右臂?可能還要花很多功夫。
你知道皇上喜歡聰明的嬛嬛,喜歡明艷的華妃,喜歡得體的皇后,那你怎么知道皇上喜不喜歡新來的秀女呢?
(皇上,左邊是不是別有一番風味?——你一定是在逗我(╯‵□′)╯︵┻━┻)
好吧,現代的審美在宮里估計是站不住腳,但如果運用現代技術,比如機器學習算法,也許可以幫上你一些忙。
要預測小主未來的受寵程度,自然是以宮中已有的主子們作為樣本。各位娘娘千姿百態,你便首先要將大家的特點(attribute)加以歸類,方便日后的總結。而對應的皇上的態度基本分為三類:朕喜歡,朕不喜歡,偶爾朕還覺得挺逗比的。
然后聰明的你會去找@留一手給各位娘娘都打個單項分(方便謀劃起見,請將他的分數調整為正數),然后與皇上的態度聯系起來:
嬪妃 |
容貌 |
家世 |
脾氣 |
人際關系 |
皇上態度 |
甄嬛 |
|||||
沈眉莊 |
|||||
安陵容 |
|||||
華妃 |
|||||
皇后 |
|||||
吃貨淳貴人 |
像這樣已經存在并被分類(皇上態度已經明確)的情報,我們稱之為前車之鑒(training set)。
有了情報,你就可以用很多種辦法來處理它們,比如將這些分數調整比重相加得出一個總評分,總評分越高對應皇上越喜歡。這樣,你大概可以算出皇上 喜歡溫婉大方的白富美學霸,而且似乎美貌和溫婉占的比重更大一些。為了驗證這個評判法則,你可以選一些一開始尚未加入前車之鑒情報集、新發現的嬪妃 (testing set)進行驗證。
在驗證的過程中,你才會知道神馬叫做人算不如天算。總有一些姑娘雖然百般不符合你的預測,仍然得了皇上的寵幸。這就說明——皇上的眼瞎了?才不 是呢!是你需要修改你的評判法則了!這時你可以再加入一個改進因子(learning rate),每次如果預測結果與實際不符,你就得做出一定的修正。
如此一來,你便可以將每年的選秀都當成你的八卦演練場了。當再有新人進宮的時候,你只需再分析一下新人的各個屬性特征,就可以大概猜出這位小主 的前途。隨著新人的不斷進入,你的這個評判法則也會越來越趨于準確。當然,前提是皇上的口味保持一致。如果皇上性情大便,啊不,大變,那有可能原有的模型 都要推倒重來了。
好吧,我們的機器學習算法看起來還不錯,也為你的宮斗進階之路提供了指引。如果你是女人,請你按照主子的喜好去努力,也許哪一天你就是下一個 容!嬤!嬤!(奴婢可是當年大明湖畔的夏雨荷!!!)如果你是一個#可愛的男孩子#,恭喜你,是一塊蘇培盛接班人的好材料……#注定孤獨一生#
在 21 世紀的天貓,就有那么一群兢兢業業的可愛的男孩子,他們每時每刻都在尋找新的方式來揣測各位主子的意思,希望能給為屏幕前的皇上老佛爺們挑出最合各位口味的商品。這,就是我們[人見人愛花見花開妹子你們怎么還不到碗里來]的天貓算法團隊。
除了并肩作戰之外,這些算法達人之間還會展開各種激烈的廝殺啃咬……來比賽誰更懂主子的心意!就是傳說中的”阿里巴巴大數據競賽內部賽——天貓 推薦算法大挑戰”!那么高大上的名字想來你也還沒聽說過,不過隨著天貓數據的開放,你也將有機會可以小試身手,看看面對看不見的主子們,你有幾分勝算!
少年們,繼續加油,多多提高姿勢水平啊!當年宮里那些個公公嬤嬤,都不知道比你高到哪里去了!
阿里巴巴大數據競賽——天貓推薦算法大挑戰正式啟動,給你真實的數據,解決真實的問題。百萬大獎,等你挑戰!快來參賽吧~~~
參賽猛戳:http://102.alibaba.com/competition/addDiscovery/index.htm
大賽官方微博:@2014 阿里巴巴大數據競賽
大賽技術交流微博:@2014 阿里大數據競賽技術交流