SVM發明者推出的自動機器學習競賽
http://www.36dsj.com/archives/21071
譯者:WZL, (36大數據專稿,轉載必須標明來源)
在機器學習界叱咤風云多年的支撐向量機算法(SVM),其發明人不單有奠基統計學習理論的Vapnik(最近跳槽去了非死book 的FAIR人工智能研究實驗室),還有Boser和Guyon等人。
Guyon是位女科學家,但許多年來都自由行走在學術圈和工業圈之間,擔任機器學習頂級雜志JMLR的評委,也給不少企業做顧問。她持續推進的一個項目,則是通過競賽平臺來推動機器學習的進展:從特征選擇競賽,到因果學習,到生物數據挖掘。
最近她又有新創意,帶來一個名為Chalearn 無人工干預全自動機器學習(AutoML)競賽的東東。
她在邀請信里說:新年伊始,愿你們開年大吉。想必你們各種忙碌,但有個機遇已經來臨,數據科學領域許多研究者所夢想的可能將實現,那就是創造出 “完美黑盒”——無需任何人工干預卻能從實例中學習。從現在開始到六月,我們將激進地推出30個分類及回歸學習任務。這些任務來自不同的領域,有不同的數 據類型和分布。
作為第一輪任務,2月14日前我們準備了兩個獎項:
第0輪(預備輪)屬于“調優馬拉松”:針對知名的樣本數據集提交代碼和結果。
第1輪(新手輪)屬于“自動機器學習”:針對二元分類問題提交結果和代碼。
后續則會像圖中描繪那樣,從新手晉級到中級,從中級到高級,從高級到專家,從專家到大師。
中級輪屬于調優馬拉松,高級屬于自動機器學習輪,依次輪換。
聽起來很有意思吧,就像一個不斷打怪,成為機器學習高手的養成計劃。
讓我們看看 http://www.codalab.org/AutoML 更細節的描述:
我們聚焦在機器學習的“監督學習”,從70多個不同組織捐贈的數據集里我們挑選出30個,特征表達已經處理好。而你要攻克的挑戰,就是解決這其中的分類和回歸分析問題, 無需任何人工干預 。
這些數據類型跟分布非常不一樣(有不均衡類別、稠密稀疏特征、有的有遺漏值、有的是非數值特征、衡量指標各個不同、數據量也差異很大)。
這些任務來自不同領域(有的是醫療診斷,有的是語音識別,還有信用打分、藥品毒性預測、文本分類、客戶滿意度估計、模式識別、蛋白質結構分析、視頻動作識別等)。
雖然已有的不少機器學習包能處理上述數據,但給定一批數據、任務、衡量指標和計算時間需求,總需要投入相當多的人力來尋找一批方法和超參數。
這次的競賽獨特之處在于: 消除這個循環中的人為干預,創造出“完美黑盒”。
這批比賽有一條路線是提交代碼模式:在競賽服務器上,自動運行你提交的代碼,看這些算法在未知的數據集上表現如何,優異者獲得獎勵。
但你也可以不提交代碼。可以只提交預測結果。
比賽分成預備、新手、中級、高級、專家、大師六輪,每輪有5個數據,難度逐步提升。但也可以跳過任何一輪,參與你感興趣的特定輪比賽。每一輪會單 獨設立獎項,頒發600-1500美金的獎勵。并采取眾包模式合作撰寫論文,促進研究成果的傳播,組織參與IJCNN/ICML/NIPS研討會環節。
競賽還提供上手程序包,盡量減少學習難度,規范競賽流程。
這的確是個有創意的機器學習競賽,從易到難,從小到大,是快速成長、提升水平的好平臺。并有不少機器學習大神站臺,不容錯過的觀摩和學習的機會。
報名請點擊: http://www.codalab.org/AutoML
</div>