哪些電影最經典?數據科學告訴你
一年一度的奧斯卡頒獎典禮又要到來了。也許你還在為去年《美國騙局》惜敗《地心引力》而耿耿于懷,但你的朋友們已經為《鳥人》和《少年時代》孰優孰劣、卷福和庫珀誰會封王爭得面紅耳赤,為一個月后杜比劇院里那場星光璀璨的盛大儀式預熱了吧。
眾所周知,對于電影這樣的藝術作品進行價值評判往往是非常困難的。首先電影審美是一個非常主觀的概念,一千個影迷心中有一千零一個哈利波特。更 何況,在這個大片如流水、明星似牛毛的娛樂時代,電影的數量、種類層出不窮,即便有金球獎、奧斯卡這樣的專業獎項,依然是眾口難調。
星球大戰與星際迷航,到底誰是永恒經典?
如何才能評價一部電影的價值,成了影迷心中最難的問題。是看票房,還是看小金人?是看爛番茄、Metacritic、豆瓣上的總評分,還是看觀 影人數?是看是否入選 IMDb 等各大網站的 Top 榜單,還是看有沒有受到羅杰·埃伯特等知名影評人的青睞?標準太多,信息量太大,這實在讓人無所適從。
不過沒有關系,人搞不定的事情,那就讓計算機來幫你搞定吧!最近,芝加哥西北大學復雜系統研究院聯席主任路易斯·阿馬拉爾(Luis Amaral)教授率領的科學團隊(其他兩名作者為馬克斯·沃瑟曼(Max Wasserman)和我)就發表了這樣一項研究。結合互聯網上的眾包數據,利用數據挖掘、復雜網絡分析等手段,我們找出了比網友打分和專家評論更能反映 電影作品重要性的指標。這項成果已于 1 月 20 日在《美國科學院院刊》(PNAS)上發表[1]。
電影是否“重要”,誰說了算?
那么你也許會問了,先不管這數據分析是個什么玩意兒,研究團隊要怎么定義電影的“重要性”呢?首先票房、觀影人數這一類的數字肯定是不行的。像 《復仇者聯盟》、《變形金剛》這樣的商業大片,雖然上映時火爆異常、吸金無數,沖擊力(Impact)自然十足,但要放到整個電影發展史來看,其影響力 (Influence)就很難說了。而且,《穆赫蘭道》《歡樂糖果屋》等 Cult 片的擁躉自然也會反對以票房論成敗。
當年的票房滑鐵盧,如今的不朽經典,電影的重要性究竟要如何衡量?
那么奧斯卡之類的電影獎項呢?小金人由美國電影藝術與科學學會頒發,評選的六千多名會員全部都是業內資深人士,這可夠權威了吧?好是好,可惜奧 斯卡只評選當年上映的電影,提名的影片也就那么幾個,最終獲獎名單極易受到流行時尚、商業宣傳的左右,因此在評估影片的長遠影響方面,它仍是力有不逮。每 年奧斯卡都會引發諸多爭議,也從側面印證了這一點。
那么,到底該怎么辦?我們的研究團隊幾經尋覓思索,終于發現了一個最接近理想的標準,那就是美國國會圖書館保存的國家影片登記表[2]。1988 年,美國政府成立了美國國家電影保護局,每年年底評選 25 部“文化上、歷史上和藝術上具有重要性”的美國電影,收錄進國家影片登記表加以保存。最為重要的是,參選電影必須上映至少十年以上,這就確保了入選的電影 必須經過時間的沉淀,最大程度地避免了潮流、商業運作的影響。
電影也有“引用”網絡
找到了這個相對可靠的“重要性”評價標準之后,研究團隊的下一個任務便是要找出哪些變量是預測電影能否入選國家影片登記表的最佳指標。仔細考量之后,研究團隊認為電影的重要性能夠從它的“品質”、在大眾中的“沖擊力”和對其他電影的“影響力”幾個方面體現出來。
“品質”可以由“專家意見”和“大眾點評”反映,埃伯特評分(Ebert’s Rating)這樣的單個專家評分,Metacritic Score 這樣眾多專家評分的匯總,以及 IMDb 上影迷評分的數據都可以作為參考。“沖擊力”則可以通過 IMDb 上的評分人數來衡量。
而衡量某一個電影對其他電影的“影響力”就不那么好辦了。電影不像科學論文,它們不會在片尾字幕里打上“參考文獻”列表,把對本影片產生過影響的電影一一列出。不過,萬能的互聯網還是不會讓我們失望的。
互聯網電影數據庫(Internet Movie Database, IMDb.com)是亞馬遜(Amazon)旗下的一個網站,擁有極為詳實的電影資料,從演員表、票房收入到劇情梗概,巨細無遺。而其中最末尾也是最不被 人們注意的一欄,其實隱藏著非常豐富的信息,那就是由網友們提交的電影之間的“聯系”(Connection)。
一代代電影人都是看著上一代電影人的作品成長的,那些經典電影自然會對后來的電影產生深遠的影響,其中的經典橋段也可能在之后的電影中有所體 現。而火眼金睛的網友們發現了這種聯系,便會把它提交到 IMDb 網站上。根據提交原因,這些聯系可分為“參考”、“惡搞”、“放映”、“續作”等等類別。
比如,1977 年上映的傳世之作《星球大戰:新希望》中唐僧一般嘮叨的機器人 C3PO,他其實是以 1927 年科幻電影開山鼻祖之一《大都會》里的機器人為范本設計的,因此我們便可以認為《星球大戰》“參考”了《大都會》。同理,我們也可以認為《北京遇上西雅 圖》“參考”了《西雅圖未眠夜》,《舌尖上的中國2》“參考”了《人類星球》。而《當哈利遇到莎莉》里直接出現了《卡薩布蘭卡》的片段,這就算是“放 映”。《怪物史萊克》則“惡搞”了許多經典的動畫角色和橋段。我們可以認為,這些“聯系”其實就是電影之間的“引用”。
電影的引用網絡。t為兩部電影的年份間隔,越往下的電影越老。圖片來自參考文獻1
在這個數據庫中,15425 部影片組成的電影引用網絡里一共可以找到 42794 個聯系。越重要、越經典的電影,擁有的“引用”數自然也越多,《綠野仙蹤》、《驚魂記》、《教父》、《公民凱恩》等影迷們津津樂道的名作都有著成百上千的“引用”。
最佳指標:長間隔引用次數
有了這個引用網絡之后,我們就可以利用復雜網絡分析的手段,來計算某一部電影對其他電影的“影響力”了。研究團隊從這個網絡中計算生成了兩個數字指標,一個是根據 PageRank 算法[3]給 出的分數,另一個則是時間跨度超過 25 年的被引用次數,我們稱之為“長間隔引用次數”。為什么不直接使用總引用數呢?這是因為研究團隊通過觀察經驗分布和與零模型對比發現,很多電影被引用都是 在大約 25 年之內,超過 25 年以后就無人問津了。而對于某些電影,不管它多老,總還會收到新的“引用”。因此我們認為,時間跨度在 25 年以內的“引用”可能更多受到潮流的影響,而長時間跨度的“引用”更能說明作品經受住了時間的考驗。
接下來,研究團隊使用 Probit 回歸模型和隨機森林兩種機器學習算法,分別計算了埃伯特評分、Metacritic Score、IMDb 評分、IMDb 評分人數、PageRank 分數以及長間隔引用次數這六個指標是否能夠預測電影能否入選美國國家影片登記表。
結果表明,長間隔引用次數在兩個算法下的表現都是最優,它超過了總引用次數和 PageRank 分數,更是遠勝于影評專家的個人意見。研究團隊根據“長跨度引用”的個數,制定了一張“最具影響力”的電影榜單,排在前十位的電影分別是《綠野仙蹤》 (1939)、《星球大戰》、《驚魂記》、《卡薩布蘭卡》、《亂世佳人》(1939)、《金剛》(1933)、《科學怪人》(1931)、《教父》、《公 民凱恩》和《2001:太空漫游》。值得一提的是,在作者提交論文的六個月后,《歡樂糖果屋》已于 2014 年年底入選國家影片登記表。這樣一來,這張榜單上前 40 部電影里,除了《德州電鋸殺人狂》、《七年之癢》和《羅絲瑪麗的嬰兒》之外,其余 37 部均已入選。另外我們的研究結果也顯示,來自 Metacritic Score 和 IMDb 的網友平均打分預測力超過了單個專家意見,這也再次證實了兩句老話:“人多力量大”,“三個臭皮匠,賽過諸葛亮”。
據“長間隔引用”次數得出的美國電影排名,最后一欄為影片入選美國國家影片登記表的時間。數據由本文作者提供
由此看來,在預測電影的重要性方面,數據科學的效果還是最好的,而大眾評審的綜合評分也比專家的個人意見更加可靠。雖然目前的評價方法還要依靠 網友手動提交電影之間的“聯系”,計算 25 年后的“引用率”也需要相當漫長的等待,不過這依然是數據科學與復雜網絡理論在文藝作品評價方面一次有趣的嘗試。
“影評家在挑選重要電影時有時會過于自信,而且會有偏見。我們的方法則是盡可能客觀的。” 阿馬拉爾教授評價說,“一部電影的某些屬性是我們無法看見的,但卻有其他方面可以測量,包括評分、獎項以及受其他電影人的參考程度。這些方面都在暗示著這 部電影的隱藏屬性——它的重要性。我們發現,到頭來是電影的創造者自己來決定哪些電影最為重要,而非那些影評專家們。” (編輯:窗敲雨)
作者的 PS:對于中國電影,“引用網絡”這樣的數據還很匱乏,不知道大家有沒有興趣一起補充數據庫,讓咱們也看看中國電影到底哪些才是經典之作呢?
參考資料:
- Wasserman M, Zeng XHT, Amaral LAN (2015), Cross-evaluation of metrics to estimate the significance of creative works. Proceedings of the National Academy of Sciences, Early Edition, DOI: 10.1073/pnas.1412198112
- Library of Congress (2014) National Film Registry. Available at www.loc.gov/film/ filmnfr.html. Accessed
- Brin S, Page L (1998) The anatomy of a large-scale hypertextual Web search engine. Computer Networks and ISDN Systems 30(1-7):107–117. 26.