神經網絡簡史

jopen 9年前發布 | 74K 次閱讀 神經網絡

作者:團成片的尼克

自圖靈提出“機器與智能”,一直就有兩派觀點,一派認為實現人工智能必須用邏輯和符號系統,這一派看問題是自頂向下的;還有一派認為通過仿造大腦可 以達到人工智能,這一派是自底向上的,他們認定如果能造一臺機器,模擬大腦中的神經網絡,這臺機器就有智能了。前一派,我想用“想啥來啥”來形容;后一派 就稱之為“吃啥補啥”,估計他們的思想來源于中國古代的原始思維,套一句庸俗的哲學詞,前者偏唯心,后者偏唯物。這兩派一直是人工智能領域里兩個階級、兩 條路線的斗爭,這斗爭有時還你死我活。

神經網絡簡史

麥卡洛可(McCulloch)

神經網絡簡史

皮茨(Pitts)

模擬神經網絡的原創文章發表于1943年,兩位作者都是傳奇人物,麥卡洛可(McCulloch)和皮茨(Pitts)。話分兩頭。

皮茨打小就喜歡數學和哲學,初中時還讀過羅素的《數學原理》,還和羅素通信,羅素愛才,邀請他到英國跟隨自己學習邏輯。但皮茨家里是苦出身,連高中 都讀不起,英國留學自然未果。他十五歲時,他爸強行要他退學上班,就像所有愛讀書的窮孩子,皮茨一怒就離家出走了。他打聽到偶像羅素那時要到芝加哥大學任 教,就只身來到芝加哥,還真見到了羅素,老羅遂把他推薦給那時也在芝加哥任教的卡爾納普。卡爾納普想看看這孩子到底有多聰明,就把自己的《語言的邏輯句 法》一書送給皮茨,沒過一個月,皮茨就看完了,把寫滿筆記的原書還給卡爾納普。老卡驚為天人,于是給他在芝加哥大學安排了份打掃衛生的工作。別看不起打掃 衛生,電影《心靈捕手》(Good Will Hunting)里馬特·達蒙飾演的角色也是在知名大學打掃衛生時,不小心解了道數學難題,引起老師的注意。掃馬路至少可避免流浪街頭。皮茨后來結識了也 在芝加哥的麥卡洛可。

沃倫-麥卡洛可比皮茨大一輩,他本科在耶魯學哲學和心理學,后在哥倫比亞得了心理學碩士和醫學博士(MD),其實醫學博士和哲學博士不是一回 事,MD不是學術學位,屬終極職業學位,和MBA、MFA差不多。MD的那個D是指“醫生”,PhD的D才是博士。麥卡洛可畢業后做了幾年實習醫生,先去 了耶魯研究神經生理學,后又去了伊利諾伊大學芝加哥分校,做精神病學系的教授。麥卡洛可的強項是神經科學,但不懂數學,他和十七歲的流浪漢數學票友皮茨是 絕配。他們合作的成果就是神經網絡的第一篇文章:“A Logical Calculus of Ideas Immanent in Nervous Activity”, 發表在《數學生物物理期刊》上。這篇文章也成了控制論的思想源泉之一。

神經網絡簡史

諾伯特·維納

控制論的始作俑者諾伯特·維納早年自稱神童,他爸是哈佛教授,曾經帶著他到英國見過羅素,但羅素特不喜歡這孩子和他爹。自打進入二十世紀后,甭管哪 門哪派的學問,最后都能扯到羅素那兒,不想得諾貝爾文學獎的科學家都不是好情人。維納后來也在哈佛任教,但不被主流數學家喜歡,沒拿到終身教職。最后到了 隔壁的麻省理工落腳,在二戰時搞了點武器研究。那時最好的數學家和物理學家都參與了造原子彈的“曼哈頓”計劃,維納卻沒沾邊。這也許同他的個性有關系,他 的同事和家人都覺得他對數學之外的事情反應遲鈍。維納提出“控制論”后出了大名,在麻省理工搞了一大筆錢,麥卡洛可就帶著皮茨等一票人馬投奔維納,有錢才 能當老大,哪都一樣。維納的老婆瑪格麗特是納粹,在二戰時,家里還偷藏了本英文版的希特勒的《我的奮斗》。那時他們的女兒芭芭拉正在讀小學,有意無意也看 過那書,寫作文時居然引用書里的“警句”,差點被學校開除。麥卡洛可的老婆是猶太人,與瑪格麗特形同水火。其實維納祖上是波蘭猶太人,瑪格麗特早干啥去 了?維納娶瑪格麗特是為了自嘲嗎?就像很多中國男人討洋老婆或老外娶中國剩女,圖的不是相貌,是稀罕。反正最后維納被中和為“不可知論者” (agnostic)。瑪格麗特有次對維納說麥卡洛可小組有人(可能暗指皮茨)勾引寶貝女兒芭芭拉,維納大怒,隨即斷絕和麥克洛克及其學生的所有往來。現 在看瑪格麗特是有意造謠。但維納的舉動對皮茨造成巨大創傷,皮茨本來是維納的特招學生(special student),但估計他年幼時受過挫折,秉性怪異。和維納鬧翻后,他拒絕麻省理工給他的研究生學位,對學問也心灰意冷。皮茨1969年比他的長輩麥卡 洛可早幾個月離世,只有四十六歲。

神經網絡簡史

邁克爾·阿比卜(Michael Arbib)

得維納真傳的人不多,不能不說一下邁克爾·阿比卜(Michael Arbib)。他二十三歲就在維納手下得了PhD,他出名是那本科普書《大腦、機器和數學》。阿比卜后來創辦了麻省大學的計算機系,并延攬一幫人工智能人 馬,其中有后來以“強化學習”出名的巴托(Andy Barto),使麻省大學的人工智能一直處領先地位。阿比卜后來轉往南加州大學,擔任一堆系的教授,包括計算機、生物、生物醫學工程、電氣工程、神經科 學、還有心理;他那名片要是印出來,估計很像中國的農民企業家,就差“政協委員”或“人大代表”了。阿比卜到南加州后,沒出過什么有影響力的原創成果。在 神經網絡不景氣時,巴托的“可適應學習實驗室”曾經短期收容了很多人,其中就有后來的大佬級人物,如喬丹(Michael Jordan),喬丹在伯克利時又培養了Andrew Ng等一干人馬,那是后話。

1949年,神經心理學家Hebb出版《行為組織學》(Organization of Behavior),在該書中,Hebb提出了被后人稱為“Hebb規則”的學習機制。這個規則認為如果兩個細胞總是同時激活的話,它們之間就有某種關 聯,同時激活的概率越高,關聯度也越高。換句話說,就是“吃啥補啥”。2000年諾貝爾醫學獎得主肯德爾(Eric Kandel)的動物實驗也證實了Hebb規則。后來的各種無監督機器學習算法或多或少都是Hebb規則的變種。

神經網絡簡史

弗蘭克·羅森布拉特

神經網絡研究的后一個大突破是1957年。康奈爾大學的實驗心理學家弗蘭克·羅森布拉特在一臺IBM-704計算機上模擬實現了一種他發明的叫作 “感知機”(Perceptron)的神經網絡模型。這個模型可以完成一些簡單的視覺處理任務。這引起了轟動。羅森布拉特在理論上證明了單層神經網絡在處 理線性可分的模式識別問題時,可以收斂,并以此為基礎,做了若干“感知機”有學習能力的實驗。羅森布拉特1962年出了本書:《神經動力學原理:感知機和 大腦機制的理論》(Principles of Neurodynamics: Perceptrons and the Theory of Brain Mechanisms),這書總結了他的所有研究成果,一時成為“吃啥補啥”派的圣經。羅森布拉特的名聲越來越大,得到的研究經費也越來越多。國防部和海 軍都資助了他的研究工作。媒體對羅森布拉特也表現出了過度的關注。畢竟,能夠構建一臺可以模擬大腦的機器,當然是一個頭版頭條的搶眼消息。此時的羅森布拉 特也一改往日的害羞,經常在媒體出鏡,他開跑車、彈鋼琴,到處顯擺。這使得另一派的人相當不爽。

明斯基是人工智能的奠基人之一,是達特茅斯會議的組織者。明斯基在一次會議上和羅森布拉特大吵,他認為神經網絡不能解決人工智能的問題。隨后,明斯 基和麻省理工學院的另一位教授佩普特合作,企圖從理論上證明他們的觀點。他們合作的成果就是那本影響巨大、“是也非也”的書:《感知機:計算幾何學》 (Perceptrons: An Introduction to Computational Geometry)。在書中,明斯基和佩普特證明單層神經網絡不能解決XOR(異或)問題。異或是一個基本邏輯問題,如果這個問題都解決不了,那神經網絡 的計算能力實在有限。其實羅森布拉特也已猜到“感知機”可能存在限制,特別是在“符號處理”方面,并以他神經心理學家的經驗指出,某些大腦受到傷害的人也 不能處理符號。但“感知機”的缺陷被明斯基以一種敵意的方式呈現,當時對羅森布拉特是致命打擊。所有原來的政府資助機構也逐漸停止對神經網絡的研究。 1971年,羅森布拉特四十三歲生日那天,在劃船時淹死。很多人認為他是自殺。王國維沉湖時遺言“經此世變,義無再辱”,在羅森布拉特,我猜“辱”是明斯 基的書,“世變”是隨后“神經網絡”學科的消沉。不同的是,王靜安謂之“世變”是歷史潮流,但神經網絡學科十年后會逆襲。

表面是科學,但有證據表明明斯基和羅森布拉特以前就有瓜葛。他們是中學同學。布朗克斯(Bronx)科學高中大概是全世界最好的高中,畢業生里出過 八個諾貝爾獎、六個普利策獎、一個圖靈獎。遠的不說,明斯基是1945年畢業生,而羅森布拉特是1946年畢業生。美國高中學制四年,明斯基和羅森布拉特 至少有兩年重疊,而且彼此認識,互相嫉妒。1956年的達特茅斯會議定義了“人工智能”這個詞,會議的組織者包括明斯基、麥卡錫和香農等,參會者還有司馬 賀,紐威爾等。這個會議在定義“人工智能”領域時只是提到了神經網絡。那時明斯基是神經網絡的支持者。他1954年在普林斯頓的博士論文題目是“神經-模 擬強化系統的理論,及其在大腦模型問題上的應用”(Theory of Neural-Analog Reinforcement Systems and its Application to the Brain-Model Problem),實際是一篇關于神經網絡的論文。他晚年接受采訪時開玩笑說,那篇三百多頁的博士論文從來沒正式發表過,大概只印了三本,他自己也記不清 內容了。貌似他想極力開脫自己和神經網絡學科的千絲萬縷的關系。達特茅斯會議的主題并不是神經網絡,而是后來被紐維爾和司馬賀稱為“物理符號系統”的東 西,也就是說達特茅斯會議,“想啥來啥”派是主要基調。

羅森布拉特被比他大一歲的明斯基妒忌是自然的。工作上,明斯基所負責的麻省理工學院的人工智能實驗室也在向國防部和海軍申請經費。大多數的圈內科學 家,對羅森布拉特突然被塑造的明星范兒很反感。明斯基早期也是“吃啥補啥”派出身,但此時已經改為“想啥來啥”派了。由于他和佩普特對感知機的批判,倆人 后來被“吃啥補啥”派稱為“魔鬼搭檔”。其實明斯基認識佩普特結識還是通過麥卡洛克的介紹,歷史真是糾結。被稱“魔鬼”是因為《感知機》第一版有言:“羅 森布拉特的論文大多沒有科學價值。”這話跳步確實有點大,但羅森布拉特人緣不好,沒有得到同行的支持。

比羅森布拉特小一歲的維德羅(Widrow)是斯坦福大學教授,在羅森布拉特剛提出“感知機”時,就提出了Adaline可適應性算法。 Adaline和感知機很相似,也是機器學習的鼻祖模型之一。羅森布拉特享受盛譽時,維德羅也沾了光,但在羅森布拉特死后,他卻并沒有被非難。維德羅在幾 十年后回憶說,那是因為他后來主要在電機系(EE)做集成電路的工作,而不是在計算機系里從事派系繁雜的人工智能研究,圈子不同,老死不相往來。

神經網絡簡史

大佬米德(Carver Mead)

感知機的失敗導致神經網絡研究的式微,用加州理工學院的集成電路大佬米德(Carver Mead)的話說是“二十年大饑荒”。明斯基在《感知機》一書再版時,刪除了原版中對羅森布拉特的個人攻擊的句子,并手寫了“紀念羅森布拉特”(In memory of Frank Rosenblatt)。但其他在“大饑荒”時期受到壓迫的科學家認為明斯基不可原諒,后來神經網絡得勢后,這些人紛紛對明斯基口誅筆伐。美國電氣電子工 程師協會(IEEE)于2004年設立了羅森布拉特獎,以獎勵在神經網絡領域的杰出研究。

在信息科學和神經科學的結合部的失敗,并沒有影響到神經生物學內部。哈佛神經生物學家胡貝爾(Hubel)和威瑟爾(Wiesel)對視網膜和視皮 層(visual cortex)中神經細胞的信息處理模式做了深入研究,他們為此獲得1981年的諾貝爾醫學獎。隨后,麻省理工學院英年早逝的大衛·馬爾(Marr)為視 覺信息處理建立數學模型,影響了后來連接主義的運動。威瑟爾后來離開哈佛去了洛克菲勒大學。1991年洛克菲勒大學時任校長大衛·巴爾的摩出了學術丑聞被 迫辭職后,威瑟爾出任洛克菲勒校長,為把那所學校建成生物學的重鎮做出貢獻。

1974年,哈佛的一篇博士論文證明了在神經網絡多加一層,并且利用“后向傳播”(Back-propagation)學習方法,可以解決XOR問 題。這篇論文的作者是沃波斯(Werbos),他后來得到了IEEE神經網絡學會的先驅獎。沃波斯這篇文章剛發表時并沒引起多少重視,那時正是神經網絡研 究的低谷,文章不合時宜。

神經網絡簡史

霍普菲爾德(Hopfield)

神經網絡在1980年代的復興歸功于物理學家霍普菲爾德(Hopfield)。1982年,那時在加州理工擔任生物物理教授的霍普菲爾德,提出了一 種新的神經網絡,可以解決一大類模式識別問題,還可以給出一類組合優化問題的近似解。這種神經網絡模型后被稱為霍普菲爾德網絡。1984年,霍普菲爾德用 模擬集成電路實現了自己提出的模型。霍老也培養了一批后起之秀,包括現在在生物學重鎮Salk研究所擔任計算神經生物學實驗室主任的Terry Sejnowski。霍老后轉往普林斯頓擔任分子生物學教授,現已退休。霍普菲爾德模型的提出振奮了神經網絡領域。一幫早期神經網絡研究的幸存者,在生物 學家克里克(Crick,對,就是發明DNA雙螺旋的那位諾貝爾獎得主)和認知科學大佬唐·諾曼(Don Norman)的鼓勵下,以加州大學圣地亞哥分校為基地,開始了“連接主義”(Connectionism)運動,這個運動的領導者是兩位心理學家魯梅爾 哈特(Rumelhart)和麥克利蘭德(McLelland),外加一位計算機科學家辛頓(Geoffrey Hinton)。

神經網絡簡史

連接主義運動的成果之一就是那本著名的被稱為PDP(Parallel and Distributed Processing)的文集(分兩卷 )。此書的出版給認知科學和計算機科學吹了股大風,被后起的神經網絡新秀們成為圣經。“神經網絡”在八十年代就像九十年代的互聯網,后來的Web2.0, 和眼下的“大數據”。誰都想套套近乎。一些做理論的大佬也不能免俗,發明RSA算法的R(Rivest)也帶了幾個學生轉做神經網絡學習問題的復雜性。一 時間紅旗不倒,彩旗飄飄,好不熱鬧。1993年,美國電氣電子工程師學會IEEE開始出版《神經網絡會刊》,為該領域的高質量文章提供出版渠道。美國國防 部和海軍、能源部等也加大資助力度。神經網絡一下子成了顯學。

連接主義運動也培養了一堆新人,并使得加州大學圣地亞哥分校的認知科學系成為同類系科的佼佼者。魯梅爾哈特后轉往斯坦福大學任教,前年不幸死于已掙 扎多年的神經退化疾病。喬丹就是他的學生,而Andrew Ng( 吳恩達)又是喬丹的學生,魯梅爾哈特人雖離世,但香火沒滅。他的另一名學生Robert Glushko后來遠離本行,跟隨硅谷互聯網早期英雄馬蹄塔南鮑姆(Marty Tennenbaum,據說馬蹄的兒子都在麻省理工當教授了),創立了一家XML公司,那家公司后來賣給Commerce One,賺了一票錢。Glushko捐錢設立了“魯梅爾哈特獎”來獎勵神經網絡的研究者,辛頓成了第一位獲獎者。麥克利蘭德則先轉往卡內基梅隆擔任計算機 和心理兩系教授,后來也到斯坦福,在那里建立了“心、腦、計算研究中心”,一度還擔任心理系主任。

神經網絡簡史

辛頓則先轉往卡內基梅隆,最終到加拿大多倫多大學計算機系任教。辛頓現在可是神經網絡最牛的人了。他還有一段不太為外人所知的革命家史:他是布爾的 外曾曾孫子(對,就是“布爾代數”的那個布爾),他曾祖母Ellen是布爾的女兒。中國革命的參與者、美國鐵桿左派韓丁和寒春(William and Joan Hinton)也是Ellen的孫子孫女,照這么說韓丁是辛頓的堂叔,寒春是辛頓的堂姑。布爾的小女兒、Ellen的妹妹伏尼契(Ethel Lilian Voynich)是傳遍蘇聯和中國的小說《牛虻》的作者。《牛虻》西方不亮東方亮,在蘇聯和中國是幾代人的革命加愛情勵志暢銷書。晚年在紐約生活陷入困頓 的伏尼契,靠了蘇聯和周恩來特批的中國的意外稿費得以善終。這一家子把中國、蘇聯、革命、邏輯和神經網絡都聯系起來了,通吃“吃啥補啥”派和“想啥來啥” 派。智力題:伏尼契和辛頓是啥關系。

語言學家、公共知識分子斯蒂夫·平克對連接主義不以為然。魯梅爾哈特和麥克利蘭德在PDP圣經中合作了一章,講神經網絡可以學會動詞的過去式,比如 一看start,就知道started,一看come就知道came等等。平克認為有規則的過去式(直接加ed的,如started)可以通過簡單計算得 來;而不規則的(不通過加ed的,如came)則是存在大腦的一個特定區域。平克引用神經心理學的證據指出處理規則的和不規則的操作是在大腦不同部位完成 的,他還認為神經網絡的行為和一類大腦受傷害患失語癥的病人的行為相似。其實這種觀察并不深刻,都是羅森布拉特三十年前玩剩下的。符號系統可能比較適合處 理規則的情況,而神經網絡可能更適合不規則的情況,這個一般人都能想到。對神經網絡派的批評也如此:我們可以定義一個規則,可以用符號系統實現也可以用神 經網絡實現。哪個快用哪個。

符號處理和神經網絡的方法論之爭有時會被更大地夸張。偉大的喬姆斯基就不認可人工智能領域的最新進展。機器翻譯歷來是人工智能的試金石之一,就像在 1996年之前的計算機下棋。機器翻譯的早期實踐都源于喬姆斯基的理論,但近來的突破卻是基于統計的方法。喬姆斯基認為統計的方法不“優雅” (elegant),只是模仿而不是理解。會騎自行車不算理解,對自行車為什么不倒,能說三道四,才算理解。谷歌的研發總監彼特·諾維格為統計方法辯護時 說:簡單的模型(如喬姆斯基理論,以及后來的各種改進版本)不能解決復雜的問題,人工智能的進一步發展必須兩條腿走路。諾維格在加入谷歌之前曾是加州大學 伯克利分校的計算機教授,他對兩派都了如指掌,在學術界和工業界都被尊重,他寫的《人工智能》是最流行的教科書。他的觀點似乎被更多的人接受。

神經網絡在八十年代的光芒被后來的互聯網掩蓋了。但這幾年又恰恰是互聯網給了神經網絡更大的機會。這幾年計算機科學最火的詞兒就是“深度學習”。神 經網絡由一層一層的神經元構成。層數越多,就越深,所謂深度學習就是用很多層神經元構成的神經網絡達到機器學習的功能。辛頓就是“深度學習”的始作俑者, 他2006年的一篇文章開辟了這個新領域。最新的深度神經網絡的最后兩層的每個節點都可對應于某些概念。這是神經網絡的一大進步,貌似為“吃啥補啥”找到 了科學根據,調和了與“符號派”的矛盾。至于符號派買不買賬是另一回事。深度學習的實測效果很好。辛頓最早用來做圖像識別,而后來微軟用深度學習還開發可 實用的語音識別和同聲翻譯系統。

年過六十的辛頓不甘寂寞,和他的兩個學生開了家專注深度學習的公司。公司成立沒多長時間,谷歌和微軟就對這家公司動了收購的念頭,后來百度也加入競標,最終花落谷歌,谷歌出了幾千萬美元于2013年初收購了這家只有三名員工的公司。為了把辛頓納入花名冊,谷歌還真不差錢。

神經網絡簡史

2012年,斯坦福大學人工智能實驗室主任Andrew Ng(吳恩達)和谷歌合作建造了一個當時最大的神經網絡,這是谷歌神秘的X實驗室的一個計劃。網絡上一度瘋傳的谷歌貓臉識別就是用的這個參數多達十七億的 神經網絡。后來Ng自己在斯坦福又搞了個更大的神經網絡,參數更高達一百一十二億。人腦的神經連接有一百萬萬億個。從計算能力上說,如果這個人工神經網絡 要是能接近大腦,每個人工神經元必須能達到一萬個大腦神經元的功能。這個神經網絡會用到大量的圖形處理芯片GPU,GPU是模擬神經網絡的完美硬件,因為 每個GPU芯片內都有大量的小核心。這和神經網絡的大規模并行性天然相似。硬件的進步讓以往不可能的成為可能。

斯坦福大學人工智能實驗室的創辦人約翰·麥卡錫,是達特茅斯會議的主要組織者,“人工智能”這個詞就是他提出的,也是他把明斯基拉到他當時任教的麻 省理工。說他是人工智能之父是名副其實,約翰大叔是鐵桿的符號派。但現任的人工智能實驗室主任卻是神經網絡的大拿Andrew Ng。這個轉變也許是個“吃啥補啥”派得志的風向標。斯坦福的這個神經網絡的目標是模擬人的大腦。這讓我們不禁想起了羅森布拉特,那不正是他的夢想嗎?

本文寫作得到老友洪濤的鼓勵,向他感謝。每次和他聊天都受益非淺。作者微博>>>

End.

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!