劉鐵巖:博弈機器學習是什么?

lh_2010 8年前發布 | 60K 次閱讀 數據挖掘 人工智能 機器學習

人工智能早就不是一個新詞了。早在六十年前,在達特茅斯學院舉行的一次會議就正式確立了人工智能(Artificial Intelligence)的名稱,以及研究領域和任務。在那之后,人工智能幾經沉浮,走過黃金時代,也走過人工智能的寒冬。如今,人工智能又迎來了新的春天,不管是Skype Translator實時的語音翻譯技術,超過人類準確度的圖像識別技術,像微軟小娜、小冰一樣琳瑯滿目的聊天機器人,還是不久前的人機圍棋大戰,都讓我們目睹了人工智能技術的一個又一個突破。身處人工智能時代,一方面,我們對人工智能的未來充滿信心,另一方面我們也需要深刻反思現在的人工智能技術是否存在局限性,而未來的人工智能之旅又該去向何方?

從個體智能到社會智能

作為人工智能領域的研究人員,我認為“人工智能即將取代人類”的想法未免太過“樂觀”了。事實上,目前人類對人工智能的研究還停留在相當初級的個體智能階段,即計算機仍只能完成某些單一任務,例如識別出圖像中的內容、聽懂一段語音、打贏某個電子游戲,或者在某次考試中取得一定成績……雖然計算機在某些特定領域或某些特定任務上的表現已經逐漸逼近人類,甚至超越人類,但這些任務通常目標單一,且缺乏與其他智能個體(人類)或群體的互動。

從智商到情商,從個體智能到群體智能,是實現人工智能的一道重要門檻 。不夸張地講,如果我們人類只有個體智能,而不知道如何和其他同類打交道,不能通過群體和社會來不斷放大我們的智能的話,那么我們將無法像今天一樣成為萬物之靈。在日常生活中,有很多例子都能充分表明擁有社會智能,并充分利用社會智能的重要性。比如商業領域的互聯網廣告競價、股票交易;公共服務領域的城市交通、教育;甚至到各項政策的推行、法律法規的制定等等。在這些例子中,每一次規則與政策的變化,參與其中的人(局中人,player)也會根據策略相應地調整自己的行為。

人類做出每一項決策,其實都是與其他若干擁有同樣智能的人類 相互博弈 的過程。本著趨利避害的本能,人類傾向于在相互博弈的過程中做出最有利于自己的決策。相比之下,人工智能技術的行為原理,大多假設世界是客觀存在(或者一成不變、或者具有穩定的統計屬性),很少考慮到它要處理的數據可能是另外一個智能體在與自己博弈的過程中產生的。這種簡單的假設會使得人工智能的算法只具備個體智能,而缺乏社會智能,從而很難在與聰明的人類交往的過程中真正逼近或者超越人類。

具體來講, 絕大部分人工智能和機器學習方法都是基于這樣的一個假設——用于研究的數據(或產生數據的環境)是預先存在的,而且它的統計規律不因學習過程本身而改變。 機器學習過程就是對這些數據進行分析和學習,理清其潛在的數據分布,從而找到合適的分類器、回歸器,實現對未來事件的預測。這種假設在某些情況下是合理的,例如用于圖像識別的大量圖像及標簽數據,用于語音識別的聲音數據,用于機器翻譯的語言數據等。這類數據都十分可靠、穩定,不會持續地發生變化,我們也易于用一些概率分布去描述這些數據。

與這類穩定的天然數據不同,在互聯網時代我們所說的大數據卻并不是一成不變的 。例如應用商店的下載排名發生變化時,用戶的下載行為也會產生相應的變化;例如搜索引擎給出不同的查詢結果頁時,用戶的點擊行為也會因為排序的變化而改變;又例如在社交媒體中,回復、跟帖、轉發等大量數據產生都是由人類這一智能體產生的,并且會根據系統的推薦算法、其他用戶的互動行為而發生變化。在這些例子中,如果我們依據收集好的歷史數據學到一個模型(比如排序模型或推薦模型)并把它應用到實際中,一旦用戶的行為隨之發生了變化(從而導致數據分布的變化),原來學到的模型將不再最優,其性能可能遠遠低于我們的預期。但人們的行為變化迅速,即便我們再根據變化之后的數據更新模型,也總會比人們行為的改變慢上一拍,在這個由博弈導致的變化環境中永遠與“最優”隔岸相望。

此前,我的團隊在與微軟在線廣告部門合作時,就發現了這樣的問題。我們團隊首先依據此前累積的數據,幫微軟廣告部門離線訓練了一個效果極佳的機器學習模型用于必應廣告搜索中的競價排名。上線之初模型立刻帶來了很大的效益,但隨著時間的推移,廣告效益卻大打折扣。我們很快地找到了這個現象的根源:廣告競價排名過程常常涉及到人(廣告主)的因素,廣告主會敏銳地發現因為廣告競價算法的改變所帶來的自己廣告投放成本和收益的變化,從而相應地調整自己的廣告投放策略,這是一個動態的變化過程。如果不考慮經濟規律和人的動態策略,離線地進行機器學習模型的訓練,結果自然會產生很大的偏差。

廣告競價的過程包含廣告平臺與廣告主之間的互動,以及廣告主之間的相互博弈,想要對其進行精準建模, 僅靠機器學習的知識背景是顯然不夠的 。因此我們團隊把博弈論的思想引入機器學習,并于2013年在國際人工智能大會(IJCAI)上首次提出了“博弈機器學習”的概念,將博弈論的思想引入機器學習中,即以博弈論的思想對人的動態策略進行顯式建模,利用行為模型和決策模型相結合的方式來解決這一類難題。有了博弈機器學習,我們的算法就可以比人多想一步、甚至多想很多步,提前預料對方會做出什么樣的反應,從而在與博弈的時候占得先機。

行為經濟學和增強學習

此前,學術界還有多種方法用于解決個體和個體之間的博弈問題,例如行為經濟學、增強學習等等,博弈機器學習與這些學科既有聯系又有區別。

首先是 行為經濟學 ,這是一個經濟學概念,研究人員主要是經濟學家。我們知道,傳統經濟學的基本假設是人是完全理性的,但這種假設在很多實際情況下是不合理的。例如,情況一:你扔一枚硬幣,正面就給你1000塊錢,反面就一分錢也不給你;情況二:直接給你500塊錢。這兩種情況從理性角度并無區別(期望的收益都是500塊錢),但在現實生活中,人可能因為對風險的恐懼,更傾向于選擇直接拿500塊錢。為了更好地解釋人類的這種行為,學者們又提出了有限理性的概念,對傳統經濟學進行了修正,從而衍生出了行為經濟學這個學術分支。行為經濟學雖然比傳統經濟學更加合理,但是其主要研究目的仍然和傳統經濟學一脈相承——對經濟數據進行解釋,而在計算機領域我們則是希望通過構建算法模型對將要發生的事情進行計算和預測。

增強學習 ,大家都知道此前的圍棋機器人所采用的主要算法之一叫做增強學習。增強學習主要關注的是智能體如何在環境中通過采取一系列行動(包括探索和利用),獲得最大累積回報的自學習策略。增強學習認為數據是環境產生的,并且把環境分成隨機型和對手型兩種進行考察。雖然在對手型增強學習里,某種程度上考慮了算法和環境的博弈過程,但是它沒有對對手的行為進行顯式建模,而是簡單地使用最大最小準則來得出最壞情況下的學習路徑。從這個意義上講,它對于對手的理解很有限,和人們想象的不同,這種算法不能達到比對手多想一步的效果。以人機圍棋大戰為例,系統并沒有針對博弈對象(李世乭)本身的行為特點(棋路、現場表現、情緒狀態等)采取有的放矢的個性化策略,而是利用離線習得的策略函數和價值函數、以及在線的蒙特卡洛樹搜索來決定如何出招。

真實的人類行為既非隨機、也非完全理性和對立——事實上人類(智能體)的行為往往會有一定規律可循。與前面提到的這些技術不同,博弈機器學習就是利用了這樣一個簡單的常識。無論是人與人之間的互動,還是人與計算機之間的互動都是可以被建模的,這樣我們就能夠知道這些人為的數據是如何產生的,從而在學習的過程中對此加以利用,從而在和人類博弈的過程中占得先機。

用博弈機器學習解決現實生活中的問題

除了我們前面提到的,博弈機器學習可以幫助我們優化在線廣告的競價機制,它的思想在很多其他領域都大有用武之地,比如社交媒體、眾包管理、交通疏導等等。一旦我們在機器學習的過程中,對人的行為模型做出學習和描述,就可以知道我們的算法機制發生改變之后,人們的行為會怎么去改變,從而知道在很長時間以后當人的行為趨于穩定(均衡態),我們取得的結果是好是壞。

以城市交通為例:

目前城市中的其中一條主干道A堵車情況十分嚴重,另外一條路線B行駛緩慢,而路線C較為暢通,那么當司機通過導航等渠道得知了這個信息之后會做出怎么樣的選擇呢?很有可能司機們選擇一窩蜂涌入道路C而造成該道路極為擁堵,當然也可能存在大量無論如何也不愿意繞遠路而死守在最短路線A上的司機。那么如何實現理想的資源優化配置呢?

如果從博弈機器學習的角度來思考,我們首先會注意到每位司機都有著大量的駕駛數據,例如幾點出門,幾點回家,習慣走哪條路,備用路線通常是什么、對擁堵的忍耐程度、是否常常根據導航給出的建議改變行車路線、等等。倘若我們將這些數據利用起來,為每個司機構建個性化的行為模型,那么作為交通誘導信息的發布者(這里我們假設是交管局或者導航軟件)就可以預測在發布某個交通誘導信息之后對城內交通可能帶來的影響,并以此為依據來幫助決策者選擇更好的誘導策略,甚至能有針對性的對不同行為偏好的司機提供不同的誘導策略。而對于一些數據量較少,不足以構建個性化行為模型的司機,我們可以做一些聚類模型,或是采用通用模型,加以解決。

2013年,我們提出的“博弈機器學習”理念隨后得到了學術界的廣泛肯定,很多國際知名的博弈論專家、以及機器學習專家也開始紛紛進入這一領域。現在回想起來,之所以我們的工作會取得這么大的反響,是有原因的。首先,算法博弈論的研究通常是以理論研究為主,對應用的研究相對較少。但在微軟亞洲研究院,我們是站在工業界的角度,能夠發現實際問題,并找到理論問題與實際問題之間的差距和聯系,從而彌補這一方面的空白。正是因為這種獨特的角度,近幾年我們的研究組提出了大量全新的問題,受到了理論界的廣泛歡迎。其次,機器學習的主流研究人員是統計學家和數據科學家,而博弈論研究的主力則是組合數學家和理論計算機科學家。這原本是兩個非常不同的世界。但現實問題多是既有組合又有概率,既有數據又需要理論分析,我們研究組的背景恰恰與此吻合——我們同時具有統計背景和博弈論知識,自然而然就擔當起了學科交流融合的角色,并為這兩個學科都引入了新鮮血液。

當計算機學會博弈

什么才是人工智能?想要解決這個問題,首先需要為“智能”提出一個定義。如果說過去對于個體智能的研究為計算機賦予了智商(IQ)的話,那么社會智能則對應著人工智能的情商(EQ) 。三人成眾,人類是具有極強社會性的動物,而“社會性”則少不了與其他人類進行互動,這樣的互動體現出的就是情商和社會智能。真正想把人類的智能研究清楚,把個體智能擴展到社會智能是一條必經之路;而想要把社會智能解釋清楚,既利用了人類的行為數據,又利用了群體之間博弈行為本質的博弈機器學習將會是一個絕佳的工具。

為計算機打造出高情商,博弈機器學習可能是個極佳的解決方案。通過觀察周圍人的行為,對每個人構建不同的個性化行為模型,計算機就可以三思而后行,選擇一條能讓周圍人最大化滿意的策略。假設我們現在要設計一個聊天機器人,那么有了博弈機器學習,我們就可以基于用戶的個性化行為模型,計算一下當機器人說出某句話以后其他人會有什么反應,幾個人開心,幾個人生氣,最終是否能達到平衡,平衡的結果是大家都離我而去,還是相談甚歡。這樣的聊天機器人可以超越簡單的問答模式,懂得“察言觀色”、“看人說話”,體現出非同凡響的情商。我們的研究組目前正在和微軟的小冰團隊一起,探索這方的技術和應用,如果小冰學會博弈、具有情商,那樣我們離真正的人工智能就更近了一步。

經常有年輕的研究員問我,如何在當下火熱的人工智能大潮中把握好前進的方向。從我的研究經歷出發,其實上面提到的博弈機器學習的研究歷程就是一個很好的例子。 當一個人擁有非常寬的領域知識、并且懷揣強烈的好奇心,對應用還非常敏感,那么他就可以很容易找到屬于自己的獨特的研究方向,做出對學術界和產業界都有價值的創新性研究 。微軟亞洲研究院正是一個可以幫助大家實現這一目標的孵化器,歡迎各路有才華有想法的年輕人加入我們,一起開拓更新的世界,為世界創造更多的價值。

參考論文:

1) Di He, Wei Chen, Liwei Wang, and Tie-Yan Liu, A Game-theoretic Machine Learning Approach for Revenue Maximization in Sponsored Search, IJCAI 2013.

2) Tie-Yan Liu, Wei Chen, and Tao Qin, Mechanism Learning with Mechanism Induced Data, AAAI 2015.

3) Haifang Li, Wei Chen, Fei Tian, Tao Qin, and Tie-Yan Liu, Generalization Analysis for Game-theoretic Machine Learning, AAAI 2015.

4) Fei Tian, Haifang Li, Wei Chen, Tao Qin and Tie-Yan Liu, Agent Behavior Prediction and Its Generalization Analysis, AAAI 2014.

5) Wei Chen, Tie-Yan Liu, and Xinxin Yang, Reinforcement Learning Behaviors in Sponsored Search, Applied Stochastic Models in Business and Industry, 2016.

6) Tao Qin, Wei Chen, and Tie-Yan Liu, Sponsored Search Auctions: Recent Advances and Future Directions, ACM Transactions on Intelligent Systems and Technology, 2014.

7) Di He, Wei Chen, Liwei Wang, and Tie-Yan Liu, Online Learning for Auction Mechanism in Bandit Setting, Decision Support Systems, 2013

8) Haifeng Xu, Diyi Yang, Bin Gao and Tie-Yan Liu, Predicting Advertiser Bidding Behaviors in Sponsored Search by Rationality Modeling, WWW 2013.

注:本文首發于 《環球科學》(Scientific American)

 

來自:http://blog.sina.com.cn/s/blog_4caedc7a0102whpt.html

 

 本文由用戶 lh_2010 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!