TED演講譯文:大數據好東西,會偷走我們的工作……
你或許聽說過大數據這個詞。事實上, 你可能對這個詞已經心生厭惡。確實, 大數據受到了空前的宣傳炒作,這很不應該。因為大數據是一個非常重要的工具,社會將由此而不斷進步。過去我們習慣于處理小數據,并以此來了解世界。現在我 們的數據量前所未有的巨大,當我們掌握海量數據時,我們可以做一些在只有較少數據時不可能辦到的事。大數據很重要, 想象一下,它能夠幫助我們應對世界性難題像食物短缺,醫療短缺,能源短缺,電力短缺。還有確保人類家園不會因為全球變暖而生靈涂炭的唯一辦法是有效利用大 數據。
那么大數據新在何處, 重在何處呢?為了回答這個問題,讓我們看一下信息在以前是什么樣的 1908 年在克里特島上 (注:位于地中海為希臘第一大島) 考古學家發現了一個粘土做的盤子,這是個公元前 2000 年的盤子,距今約有 4000 年的歷史,盤子上有銘文,但是我們不知道它們是什么意思。但這就是 4000 年前信息的樣子,這就是當時社會存儲和傳遞信息的方式。
現代社會也沒有什么很大的進步,我們還是把數據存儲在盤中(注:指磁盤)。但我們可以存儲更多的信息,遠遠超過以前的信息容量。這些信息搜索和 復制起來更簡單,分享和處理起來也更便捷。我們也可以重新利用這些數據,一些我們當初收集的時候,從來沒有料想過的用途,從這個方面來說,數據已經從儲存 狀態到了流動狀態,從靜態的統計性的數據,變成動態的數據流,這就是信息的流動性。克里特島發現的粘土盤有 4000 年的歷史, 非常笨重,但它不能記錄太多的信息,并且它所記錄的信息是不能更改的。與此相反,愛德華·斯諾登從美國國家安全局所獲得的文件,可以放在一個僅有指甲大小 的存儲盤里,并且可以以光速進行數據共享。
今天我們有這么多數據的一個原因是,我們一直在收集信息,就像我們一直在做的一樣。但是我們以前從沒把信息轉換成數據形式,現在我們正在把信息 轉變成數據。舉個例子,關于姿勢,你們現在坐著的姿勢都不一樣,這是一個關于腿長,你的背部和背部輪廓的函數。如果我現在放一些傳感器,或許 100 個,在你的椅子里,我可以算出你的獨一無二的參數。這就像你的指紋,但不是針對你的手指。
那我們能用它來干什么呢?東京的研究者把它運用在一個汽車防盜設施的雛形上,它的設想是盜賊坐在駕駛座上,企圖把車開走。但是汽車識別出駕駛座上的是個未授權駕駛人,那汽車可能就會熄火。除非你在儀表盤上輸入密碼來表明“我已獲得授權”。
如果歐洲的每輛汽車都裝備了這項技術會是怎樣的情形?我們還能做些什么呢?或許如果我們整合數據,我們可以識別示警信號,對于在下一個五秒鐘內 可能發生的意外做出最佳預判。我們也可以進行數據化的是司機的疲勞度,當汽車偵測到司機的坐姿倒成某一特定姿勢時,這個設備感知到并發出車內警告,可能是 震動方向盤或語音提示:“嗨,醒醒,集中精神在路況上”。這就是生活的更多方面數據化后,我們能做的事情。
那么大數據的價值在哪里?好,思考一下,你有了更多地信息,你可以做你以前不能做的事。在運用這個概念的領域里讓人印象最為深刻的是機器學習。 機器學習是人工智能的一個分支,人工智能又是計算機科學的一個分支。它的基本理念是,把關于某個問題的一堆數據扔給電腦,讓電腦自己找出解決方案,而不是 教電腦應該做什么。舉個例子,20 世紀 50 年代 IBM 的計算機科學家亞瑟·塞繆爾想玩跳棋,所以他寫了個程序,這樣他就可以和電腦來玩開始他下一盤贏一盤,因為電腦只知道規則允許怎樣走,而亞瑟·塞繆爾還下 棋的策略。所以他又寫了一個附加程序,它的功能只是計算概率,在對方每走一步后,會計算獲勝或者失敗的概率。他又和電腦下棋,還是下一盤贏一盤。后來亞瑟 讓電腦自己和自己下棋,電腦自己玩的時候收集了更多的數據,收集的數據越多,預測的準確率就越高。然后亞瑟又繼續和電腦下棋,這次他下一盤輸一盤。亞瑟創 造了一個機器,它的能力超越了亞瑟開始時所教給它的。
機器學習的理念現在已經隨處可見。你們覺得無人駕駛汽車(關鍵的技術)是什么?是不是把所有交通規則輸入軟件就萬事大吉了?不是。內存很便宜? 不是。算法更快了?不是。處理器更強大了?不是。這些都有影響, 但不是真正的原因。真正的原因是我們改變了問題的本質,我們把問題的本質從試圖明確無誤地教會電腦怎樣駕駛變成我們對電腦說:“這里有許多關于汽車的數 據。你自己搞定它。你知道那是交通信號燈,那是紅燈不是綠燈,遇到紅燈你必須停下來,不能往前走”。
機器學習是許多網上在線應用的基礎。搜索引擎、亞馬遜的個性化算法、電腦智能翻譯、語音識別系統。研究者最近在研究關于活組織檢查的問題。關于 腫瘤活組織檢查,他們讓電腦通過(歷史)數據和存活率來判斷這些細胞是否是癌癥細胞。果不其然,當你把數據交給電腦,電腦通過自主學習可以尋找出 12 個最佳的鑒別特征用來篩查乳腺癌細胞的活檢切片確實是癌癥細胞切片。問題是醫學文獻只知道其中的九個鑒別特征,其他三個人們本不知道但是電腦把它們找了出 來。
大數據也有黑暗的一面。它可以改善我們的生活,但也會帶來一些我們需要注意的問題。首先就是我們可能因為預測的結果而受到懲罰。警察可能會用大 數據來實現目標,有點像“小報告”。現在有個詞叫做預見性監管,或者叫算法犯罪學。這個是指如果我們掌握了大量數據,比如以往犯罪發生的地點,我們可以就 知道把警力派到哪里。這很合理,但問題是數據分析不會僅限于地點數據。它會進一步深入到個人層面,為什么我們不去分析某人的中學成績單,或者我們可以了解 他們的就職情況、信用記錄和他們的上網行為比如他們是否熬夜。當可以通過健康腕帶讀取生化數據時,就可以知道他們是否有激進的想法。我們可以用算法來預測 我們將要做什么。可能有些事情還沒做我們就要承擔責任。個人隱私在小數據時代是主要挑戰。在大數據時代,這個挑戰將會成為保衛自由意愿、道德選擇、人類意 志、人類的能動性。
還有另一個問題:大數據會偷走我們的工作。在 21 世紀大數據和算法會威脅到白領和需要專業知識的工作。就像在 20 世紀工廠自動化和裝配生產線的應用威脅到了藍領們的工作崗位。想象一下一個研究室技術員,他的工作就是通過一個顯微鏡,觀察一個癌癥活檢組織來判定它是不 是癌癥的。這個人上大學,買房子,投票選舉,他/她是這個社會的一份子。然后這個人的工作,還有其他像他一樣的專業人員將會發現他們的工作被徹底改變了, 或者徹底廢除了。我們一直以為在短時或者暫時的就業調整期后,在一段時間內科技會創造就業機會。在工業革命時期事情就是這樣的,但是我們忘記了一件事情, 有些類型的職業已經徹底消失了并且再也不會回來。
所以我們必須非常小心,根據我們的需求和整個人類的需求來利用和適應大數據。我們必須是技術的主人而不是技術的仆人。我們正在步入大數據時代, 老實說,我們并不能很好地處理所有我們現在能夠收集到的數據。這不僅僅是國家安全局的問題,許多企業也搜集并不恰當地使用數據,我們需要時間來糾正這個問 題,這有點像原始人類面對火時所面臨的挑戰,火是一種工具,但是如果使用不當就會引火燒身。
大數據即將改變我們的生活方式,工作方式和思考方式。它可以幫助我們管理事業,幫助我們過想要的滿足、充滿希望、幸福和健康的生活。但是在過 去, 對于信息技術(IT) 我們經常只看到了‘T’,就是技術、硬件。因為這是切實可見的東西,現在我們需要把目光放在‘I’上:信息。它不是那么切實可見,但某種程度上卻更加重 要,在人類永無止境的探索過程中,我們可以從我們能收集的信息中來了解這個世界以及人類在這個世界中所處的地位。這就是為什么大數據非常重要。
<span id="shareA4" class="fl">
</span>
</div>