他們的夢想是人人都能用機器學習

jopen 9年前發布 | 16K 次閱讀 機器學習
 

以前的機器學習似乎是陽春白雪,只有大公司和尖端高校實驗室才能玩得轉。有一群人,他們的夢想是使機器學習技術變得下里巴人,讓人人都能用機器學習。他們分布在兩類從事機器學習技術研發的公司:

  1. 提供機器學習技術平臺
  2. 機器學習API提供者

專業造輪子

工程師們的一句口頭禪就是“不要重復造輪子”,意思是告誡工程師們應該把主要精力放在滿足需求上。但這句話不是絕對的,對于專業造輪子的工程師來說,造牛 逼的輪子就是他們的需求。第一類公司的工程師就是專業造機器學習輪子的人們。據我所知,目前世界成熟的第一類只有Databricks和我們之前報道過的 Dato兩家,Petuum剛剛進入商業版本開發階段。

他們的夢想是人人都能用機器學習

這類公司有兩個優勢。一是研制機器學習技術平臺需要極高的技術水準。雖然 Google非死book 以及國內的 百度 都有自研的機器學習系統,但都沒有對外公開。二是機器學習技術平臺有很廣泛的應用,不管是面對企業提供API或者數據分析服務的公司,還是面對消費者提供 智能服務的公司,都需要一個高效的機器學習技術平臺。因此這種提供基礎設施的領域有可能產生新的巨頭,就像網絡時代產生了思科網絡設施巨頭一樣。

但這類公司也有隱憂。機器學習領域和誕生思科的硬件領域有一點不一樣,機器學習領域存在牛逼的技術開源項目。目前Spark和Storm兩個開源 系統各方面都比較完善,對第一類公司成長為巨頭構成威脅。除了通用型的開源機器學習系統,還有特定用處的開源項目,比如用于深度學習的 Caffe、用于 自然語言處理的 Stanford CoreNLP 以及 數據預處理可視化的 Pandas。

這類公司并不是直接面對普通開發者,而是方便公司里的工程師們搭建大規模機器學習平臺,讓那些無力研制機器學習系統的公司也能方便地使用高效的機器學習。第二類提供 API 的公司是直接面對普通開發者的。

Call Me

他們的夢想是人人都能用機器學習

第二類公司提供機器學習的API。如果API有心愿,那么這個心愿一定是“調用我(Call Me)啊”。機器學習的API也分兩類,一類是用公司自己收集的訓練數據訓練好的模型。比如 AlchemyAPI 提供的情感分析API,只需要用戶提供文本或者文本的鏈接地址,就會返回該段文本蘊含正面情緒還是負面情緒。另一類是需要用戶提供自己的數據訓練API。比如 Face++ 的人臉識別API就需要用戶自己上傳不同人物的照片。當然很多公司同時提供這兩種API。更妙的是,有些深度學習模型,比如適合處理圖像的卷積神經網絡,允許先用公司收集的大規模訓練數據進行訓練,再根據用戶提供的數據進行微調。

有了這些API,開發人員需要做的事情包括:1)處理好自己的數據,2)將處理好的數據扔給API得到結果,3)對于需要預先訓練的API,還需要整理一份有正確答案的訓練數據給API訓練。開發人員利用這些API可以很方便地將機器學習運用在自己的產品中。

除了創業公司,巨頭們也開始涉足這個領域,比如 Google Predict API, Amazon Machine Learning和 微軟 的Azure Machine Learning等等。

他們的夢想是人人都能用機器學習

人人都能用機器學習

這兩類的公司都致力于讓機器學習的使用變得簡單。 MetaMind 公司創始人Socher這樣描述他創立MetaMind的初衷,“ Google微軟非死book 的研究會影響到許多人。但是我感覺,如果你把這些模型提供給其他公司或者個人,讓他們去研究,那么還有許多的潛力可挖”。為了提高易用性,MetaMind甚至允許用戶使用拖拽方式訓練模型和獲取模型的預測。

他們的夢想是人人都能用機器學習

除了上面兩類技術導向型公司,大量公司是利用機器學習技術整合應用,來解決更多實際的痛點。機器學習的門檻降低,利用機器學習技術整合應用的難度會大大降低。比如有程序員在 網上 貼出了如何利用 Clarifai 圖像物體識別API和 Algolia 搜索API給自己的 Instagram 照片建立檢索系統。未來我們能見到更多集成了機器學習的酷炫應用。

機器學習產業的前進靠兩個輪子,一個是技術,一個是數據。機器學習的使用門檻下降之時,對于大部分公司來說,誰能夠收集管理更多的數據,誰擁有更好的開發數據價值的意識,誰就能為人們提供更好的智能服務,更好地解決人們的痛點。

原創文章,作者:goto

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!