你應該知道的機器學習方法
決定何時以及如何在你的團隊中使用AI技術是一項艱巨的任務。可選的技術比比皆是:據 venturescanner.com 網站顯示,目前VCs給多達885家AI公司投資了將近90億美元。而且這還并不包括大量已成立的供應商和創業型公司。信息如此之多,足以使你暈頭轉向,分析能力癱瘓。
但是,讓我們來正視它吧——在這些所有的選擇中,我們仍然可以比AI軟件做出一個更好的選擇。即使此技術已經非常先進,我們也可以使用許多相同的在其它軟件上被成功實踐過的方法。
從心開始
在先前的 Thinking Big Data? Think Bold Questions Instead 一文中我指出,在大數據時代,我鼓勵人們從一個問題開始學習而不是從一個工具開始。這個道理同樣適用于AI/機器學習領域。在我們如今生活的年代,讓人興奮的是我們可以提出真正無所畏懼的問題。因為我們已經不再受到硬件或軟件的限制。
首先花時間徹底弄清楚你正在解決的問題的類型。使用“五個為什么”(問為什么?五次)的方法來追朔問題的根源。根據我的經驗,我發現了一些常規形式:
- Top Line(收入 ):哪一個是我們最好/最有利可圖的產品、客戶、期望等,采取什么行動可以獲取最大利益?這是一個擴展的經典市場細分和商業智能報告。使用大數據和人工智能領域的新工具,我們可以分析海量的數據和組,或者做出高精度和細微差別的預測。
- Bottom Line (成本代價):在我們的操作過程中,效率低下的地方有哪些,如何優化才能降低成本?這也是一個擴展的傳統報表技術。
- 消費者經驗 :促使消費者最佳/積極消費經歷的因素是什么,要怎么做才可以提升它?除了上面提到的方法和工具,推薦引擎(類似于Amazon和Netflix)在這個領域里也扮演了重要的角色。面向客服服務的自動助手也成為可能。
- 知識發現/決策支持 :我們從已知的信息中能夠挖掘到什么新知識,并且應該如何使用它來做出決策呢?這是我個人最喜歡的一個方向,我職業生涯的大部分時間都在做這個。決策支持 工具已經出現了一段時間,但技術的進步持續地提高了計算機的處理分析能力,讓我們從處理分析能力的限制里解脫出來,不用擔心處理能力的不足,從而專注發 現。
- 智能機器/軟件 :其他領域都集中于使企業或消費者變得更好,然而這一領域專注于創造智能機器來處理世界上特定的問題:從導航真實世界到數據的實時分析和反應。機會仍然存 在,即使你不是一個核心軟體開發公司。如果你在這個領域有商業理念,你可以永遠與那些能給你的生活帶來愿景的人合作。
如果這些問題帶領你去尋找一個非技術性解決方案,那么請不要驚訝。有時候,最好的解決方案并不是實現一個軟件,而是從人以及處理方法上做改進。
比如,我曾被帶去幫助一個出版社組織去評估新的分析工具。在挖掘詳細信息之后,我發現他們面臨的真實問題是“創新者的窘境”。任何一種新技術都可 能腐蝕他們已存的商業模式,除非他們先解決自己市場上的混亂。我對此給出了一些適度的技術改進方法,但我還是鼓勵他們把大部分精力集中在解決商業模式的問 題上。
你可能也會發現,很多傳統的商業智能工具都是有必要的,或許你有一個不需要人工智能的大數據規模問題。請牢牢記住,成功往往是問正確的問題,而不是挑選閃亮的新玩具。
識別機器學習類別
盡管供應商和算法多的讓人有些眼花繚亂,但事實上機器學習方法只有那么幾類。首先,從你需要解決的問題開始識別方法,然后你就可以縮小供應商和支 持此方法的最佳工具。這看起來可能很明顯,但我都不知道有多少次看到一些公司在理解需求或方法之前就開始使用特定的工具了(Hadoop,還有其它的 嗎?)。
最常見的方法如下:
- Feature Extraction (特征提取):這種方法需要一個類似文本、圖像、視頻、音頻的原始輸入,然后提取可以在隨后的機器學習算法中使用的相關“特征”和模式。這與其自身并不是息息相關,但卻是一個重要的預處理步驟。
- Clustering(聚類) :此方法也稱作"unsupervised learning(無監督學習)",它基于相似性原理將原始數據或特征和組對象組放到一起。唯一真正的要求就是對象需要一種比較相似性的手段,例如,比較它們相似或不同的方法。
- Classification(分類) :此方法也稱作“supervised learning(監督學習)”,分類需要原始數據或特征,以及一個用戶定義的類別,然后開發規則將這些對象歸入 到這些類別中。這種規則接著可以用來預測新的、沒有類別的對象。這種技術也有助于標記內容,例如,圖片、視頻和產品。
- Prediction(預測) :此方法根據已知的數據來確定關系,并制定規則,然后預測未來的事件,例如,一個客戶的離開(“客戶流失”)或一個人會不會買這件商品(“推薦引擎”)。預測的過程真的很有趣,做預測的一個最佳理由就是:誰不想預測未來呢?
該列表看似很短,然而很多公司在實踐中都曾在其中絆倒過,簡而言之就這幾個。即使更先進的解決方案,如谷歌的無人駕駛汽車使用的也是這些基本的構 建模塊:特征提取(將其三維空間降解為一系列機器可讀的對象),分類(這些物體看起來像一輛車,那些對象看起來像行人),預測(如果是紅燈,我前面的車將 會停止)。
這些模塊的選擇(無論是單獨使用還是組合),取決于你需要解決的問題,并且你可以以你的方式更好地完成一個成功的機器學習項目。
選擇適合你風險承受能力的技術
一旦你了解了你需要的機器學習的算法類型,最后一步就是評估和選擇符合你特定需求的技術。你可能會傾向于使用最富有特色的方法,但這可能會導致組 織風險承受能力的不匹配。我看到一些大的、成熟的組織從一些靈活的小公司中選擇軟件,類似于小公司和IBM這樣的大公司。每一次,都在合同的墨水還沒干涸 之前就出現了問題。
所以,你最好和一個與你的整體策略、理念和風險承受能力在一個等級的供應商合作。領域的變化非常快,一個純技術的決定是相當短見的。你要有一個能以類似的速度成長和適應的伙伴,這樣就不存在任何期望的不匹配。除了技術,還需根據以下幾個方面進行評估:
- 公司成長戰略
- 領導團隊
- 咨詢方式(傳統的瀑布型,敏捷開發型等)
- 技術風格(專有的重型研發,集成等)
找到那些與你的企業精神相匹配的公司,如此你才會為你踏上這個旅程找到一個好的合作伙伴。你也可以使用這種評估,故意地移除這些公司。如果你是一 個需要更多創新的大型公司,你可以選擇一個更富有活力和進取心的供應商,僅僅只是為了將新的思想和精力注入到一個不景氣的企業。只是要確保時刻睜開你的雙 眼,關注著發生的一切。
最后一點看法
在機器學習的嗡嗡聲下,伴隨的是解決復雜業務問題或改革新產品的真正機會。但在該領域所有的噪音和咆哮下,你需要保持冷靜的頭腦并以一種理性的方 法來研究項目:以全面綜合的方式確定項目的需要,選擇合適的方法,并評估供應商。做到了這些,你將會領先于你的大部分競爭對手,并成為此領域的佼佼者。
原文鏈接: Selecting the Right Machine Learning Approach (譯者/劉帝偉 審校/趙屹華、朱正貴 責編/仲浩)
譯者簡介: 劉帝偉,中南大學軟件學院在讀研究生,關注機器學習、數據挖掘及生物信息領域。