學習了!統治世界的十大算法

jopen 10年前發布 | 23K 次閱讀 算法

如果你之前已經看過《主宰全球的 10 大算法》,請暫時“清空相關記憶”。《統治世界的十大算法》先于前者。

        英文原文:The 10 Algorithms That Dominate Our World 

        Follow me on 推ter: @dvorsky

        算法對于我們今天生活十分重要,怎樣宣揚也不會夸張。它們在虛擬世界中無處不在,從金融機構到交友網站。但是,相比于其他算法,其中有一些算法更大程度上改變并控制著我們的世界——本文列舉了其中十種最為重要的算法。

        在正式介紹算法內容之前,讓我們來迅速復習一些基本內容。雖然,沒有明確的定義,但是計算機科學家將算法描述為一個定義了操作順序的規則集合。它們是一組順序指令,用來告訴計算機怎樣解決一個問題或者達到某種既定目標。認識算法的好方法,是將算法可視化為流程圖。

        1. Google Search 谷歌搜索

        不久之前,搜索引擎成為了互聯網時代的霸主。與搜索引擎一起崛起的還有谷歌和谷歌提出的 PageRank 算法。

學習了!統治世界的十大算法

        今天,在美國的核心搜索市場中,谷歌的市場占有率達到了 66.7%,其次是微軟(18.1%),雅虎(11.2%),Ask(2.6%),AOL(1.4%)。毋庸置疑,谷歌已經統治了搜索市場,而且我們中的很多人把谷歌作為使用互聯網的主要途徑。

        PageRank 的工作依賴于兩個組成部分,一是叫做“蜘蛛”或者“爬蟲”的自動程序,另一部分是關鍵詞索引及其位置。這個算法通過計算某個網頁的相關鏈接數量和鏈接質 量,來大致計算這個網頁的重要性。算法的基本思想是越重要的網頁會有越多的鏈接指向它。這是一個基本的人氣競賽。除此之外,PageRank 算法也考慮了一個網頁中關鍵詞的頻率和出現位置,以及這個網頁發布的時間。

        2. 非死book  News Feed

        雖然我們不愿承認,但是 非死book 的新聞提要(NewsFeed)是我們最喜歡浪費時間的地方。除非你的個人偏好已經設置為展示所有事件并且按照時間順序更新所有好友新聞,不然你看到的新 聞是一個預處理之后的選擇,這個預處理是由 非死book 的算法為你量身選擇某些新聞而展示。

學習了!統治世界的十大算法

        為了決定哪些新聞的內容是最有意思的,這個算法會考慮很多因素,比如評論數,發表人(是的,有一個內容的“流行”人物排名,所謂的“流行”人物是與你互動最多的人),發表類型(比如照片、視頻、狀態、更新等等)。

        3. OKCupid 情侶匹配

        在線交友現在是一個價值 20 億美元的產業。由于 Match.com, eHarmony, and OKCupid 等網站的發展,這個產業自從 2008 年以來每年擴大 3.5%。分析家認為這個產業的加速發展在未來五年還將繼續——情有可原:這是情侶遇見的有效方式。婚戀網站不僅僅造就了更多的成功婚姻,他們也擅長于根據個人不同的喜好和傾向,匹配潛在情侶。當然,這樣的匹配完全是由算法完成的。

學習了!統治世界的十大算法

        我們將以 OKCupid 為例,OKCupid 是一個免費的婚戀網站,聯合創始人之一是哈佛大學的數學家 Christian Rudder。OKCupid 采用一種絕對的分析方法促成約會,他們從用戶那里盡力獲取信息。OKCupid 的配對算法不僅僅是簡單地匹配一些共同愛好,同時,每一個問題都被賦予了權重,用來衡量這個問題對于用戶和他們潛在情侶的重要程度。這就是所謂的差異造就 不凡——這是 OKCupid 成為最高效婚戀網站的原因之一。

        4. NSA 數據采集,解讀和加密

        我們越來越多地被算法而不是被人觀察。感謝 Edward Snowden,我們知道了美國安全局(NSA)及其小伙伴已經暗中監控了上百萬的無辜公民。近期披露的文件顯示,已經有許多的監控項目被 FiveEyes 實施,FiveEyes 是由美國、澳大利亞、加拿大、新西蘭和英國共同組成的情報組織。它們已經監控了我們的移動電話、電子郵箱、網絡攝像頭圖像和地理位置信息。同時,“它們” 我指的是他們的算法,這其中有太多的數據,人力無法進行收集和解讀。

學習了!統治世界的十大算法

        有意思的是,NSA 聲稱實際上他們并沒有“采集”我們的數據。根據一份 1982 年的程序手冊,“信息“采集”是指當信息被收集并被國防部情報機構在職責范圍內使用”。同時“數據由電子系統采集是指信息采集并被轉換為可理解的形式”。 英國衛報的 Bruce Schneier 解釋道:

“ 因此,假設你的朋友在家里有成千上萬的書籍,根據 NSA 的解釋,他并不“收集”圖書。只有他真正在讀的那些才是他“收集”的圖書,他利用圖書做其他事情時并不能認為他在“收集”圖書。”

        這會產生一個問題因為:

計算機算法與人們密切相關。當我們想到計算機算法正在監控我們并且分析我們的個人數據時,我們必須想想在算法背后的人。是不是有人正在看著我們的數據,事實上,他們能做的事情正是監視。

        最后,最相關的還有美國國家安全局的 Suite B 加密算法,這是一套功能強大的算法,用于加密、數據交換、數字簽名和哈希。機構正是利用這一算法來保護分類以及未分類文件的。

        5. 推薦算法

        諸如比如亞馬遜和 Netflix 這樣的網站,會記錄你購買過的書籍或是你看過的電影,然后根據我們的愛好為我們推薦商品。

學習了!統治世界的十大算法

        正如許多自動程序一樣,這種二十一世紀獨有的技術既有優點也有缺點。雖然這樣的推薦有時候很有幫助,但是有時候也會偏離目標——特別是你為你的三歲女兒選購了一本兒童讀物作為禮物之后。

        與 PageRank 和 非死book 的新聞提要一樣,這樣的算法正在造成所謂的“過濾器泡沫”,這是一種現象,用戶與他們不感興趣的信息隔離——有效地將用戶通過意識形態的“泡沫”隔離起來。這導致了 Eli Pariser 提出的“信息決定論”,我們過去在網上瀏覽的興趣決定了我們的未來。

        6. Google AdWords

        與之前的算法類似, Google, 非死book 以及其他的網站跟蹤你的行為、用詞、搜索請求來推送相應廣告。 Google’s AdWords——公司最主要的收入來源——正是以這樣的模式進行預測的,同時 非死book 也在盡力進行相關研究(你最后一次點擊 非死book 的廣告是什么時候?)

        7. 高頻率的股票交易

學習了!統治世界的十大算法

        很久之前,金融部門就開始使用算法來預測市場波動,但是他們在高頻率的股票交易中的實踐才剛剛開始。這樣的高速交易涉及的算法,也叫做機器人,可以對訂單在毫秒級做出判斷。相反,一個人通常需要至少一秒才能對潛在的風險做出反應。因此,人們逐漸被排除在了實際交易的循環之外——一個全新的電子生態正在逐漸形成。

        但是,又是這些算法會造成錯誤。Leo Hickman 解釋道

比如:2010 年五月六日的“閃電崩盤”,當時道瓊斯指數在幾分鐘內平均下跌了 1000 點,而在二十分鐘之后市場才出現反彈。這樣的大幅直線下跌到目前為止也沒能得到完整解釋,但是大部分經濟學家將齊歸咎于“竟次”。“竟次”的罪魁禍首是為 了達到高頻交易而大規模使用的量化交易算法。Scott Patterson,華爾街日報的記著和《The Quants》的作者,將在交易場地使用這些算法比作飛機的自動駕駛。今天,大部分的交易是由算法自動完成的,但是當情況出現不同時,比如發生閃電崩盤 時,應當有人工介入。

        8. MP3 壓縮

        壓縮數據算法是電子世界不可磨滅的重要一員。我們希望更快地接收媒體數據,同時希望節約硬盤空間。因此,人們設計了很多方法來壓縮和傳送數據。

學習了!統治世界的十大算法

        比如,在 1991 年思科系統研發了 CRTP 協議。1987 年,德國研究者發明了今天廣泛使用的 MP3 格式,從而將音頻的大小減少到原始大小的十分之一。這一壓縮格式導致了音樂產業的革命(影響有好有壞)。

        9. 預測分析軟件

        目前這一技術并沒有主宰我們的世界,但是它將很快主宰世界。越來越多的警察機構正在使用一種預測分析技術——一種讓人想起電影《少數派報告》的新工具

        在 2010 年,據說利用 IBM 的預測分析軟件(叫做 CRUSH,全稱 Criminal Reduction Utilizing Statistical History),2006 年以來孟菲斯市的警察局減少了超過 30% 的惡性案件,其中包括減少了 15% 的暴力犯罪。同時,在波蘭、以色列以及英國的城市也在關注這一技術。現在,洛杉磯、圣克魯斯、查爾斯頓等也開始了試點。

學習了!統治世界的十大算法

        這一技術結合了數據采集、統計分析,當然還有前沿的算法。它使得警察可以評估城市的犯罪特點,并且預告可能的犯罪“熱點”,從而“積極地配置資源和分配人手,從而提高人力物力的使用效率,提高公眾安全”

        未來,這個系統可能會大規模替代分析家的工作。犯罪行為可以被精確的算法所追蹤,這些算法監控了互聯網行為、GPS,個人電子設備,生物特征和其他現實中的通信方式。越來越多的無人機會用來追蹤潛在罪犯,通過分析他們的肢體動作和其他的可視化線索,來預測他們的意圖。

        10. 調音(Auto-Tune)

        最后,僅供娛樂,現在調音器由算法完成。無論是歌聲或是樂器的聲音,這些設備都能通過一組特定規則,略微修改音高,讓音高達到最接近的準確半音上。有趣的是,這種技術最初由 Exxon’s Any Hildebrand 用于處理地震數據。

        美國女歌手 Cher 的《Believe》,被認為是第一首使用調音的流行歌曲。

        翻譯: 伯樂在線 programmer_lin
        譯文鏈接: http://blog.jobbole.com/71784/

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!