DARPA宣布開源Memex搜索技術

cbgd 10年前發布 | 6K 次閱讀 DARPA

Memex 項目最早于 2014 年 2 月由美國國防部高級研究計劃局（DARPA）發起。DARPA 于 2015 年 4 月 17 日宣布了 Memex 項目，并開源各個組件，使得政府等機構和個人可以進行高度定制化的搜索。Memex 搜索引擎的研究發起者 Chris White 表示，“互聯網比人們想得要龐大得多。據統計分析，Google、微軟 bing 以及雅虎搜索只收錄了網絡上大約5% 的內容。”“暗網”通常指互聯網中無法被搜索引擎抓取到的部分（現在谷歌上已經能搜到一些暗網地址了）通常包含非法內容，包括不限于：色情、槍支彈藥、毒品等。參與 Memex 項目的卡耐基梅隆大學教授 Jeff Schneider 之前表示，“該計劃目前的重點是販賣人口。但是用來研究人口販運的算法也可以應用到其他領域。”

今年 2 月，美國國防部五角大樓的研究機構批準 Scientific American 新聞網對 Memex 進行了報道。美國國防部先進研究項目局的主管 Dan Kaufman 表示，“Memex 的理念簡化來說就是——如何挖掘不易被發現的東西。”目前，DARPA 在 Apache 許可證下開源了 Memex 項目開發的工具。其中，大部分軟件源代碼托管在 GitHub 上。根據福布斯網站的公布，參與 Memex 項目的機構主要有：

Uncharted Software 開發了前端接口 TellFinder 和 DIG；

ArrayFire 公司開發了通過 GPU 加速計算和網頁搜索的軟件庫 ArrayFile；

卡耐基梅隆大學開發了 TJBatchExtractor，用于在廣告中提取名字、位置等數據信息；

Diffeo 公司開發了 Dossier Stack，主要負責分析用戶的興趣，為搜索結果的展示提供建議；

Hyperion Gray 公司的爬蟲用來復制用戶與網站的交互情況；

Jet Propulsion Laboratory 機構搭建了 ImageCat、FacetSpace、LegisGATE 和 ImageSpace 等四個組件，用于分析和操作圖像和文字；

MIT 林肯實驗室編寫了 Text.jl、MITIE 和 Topic 三個自然語言處理工具；

紐約大學聯合 JPL 和 Continuum 創建了 Topic 接口來幫組用戶與爬蟲進行交互；

Sotera Defense Solution 創造了 Data Wake，用于收集用戶可以點擊、可能點擊或者已經點擊過的鏈接；

SRI International 開發了 Hidden Service Forum Spider 暗爬蟲，用于從暗服務中抓取內容；

斯坦福大學開發了 DeepDive，用于把文字和多媒體轉變成為知識庫，從而在不同人和組織之間創建連接關系。

通過這諸多機構的參與，Christ White 表示，他們想要動搖谷歌、雅虎和微軟控制的搜索行業。不過，不論 Memex 的能力有多強大，其目的只是降低犯罪率，而不是侵犯大多數人的隱私。同時，它也有助于更好的理解互聯網信息的龐大性。

來自: InfoQ

本文由用戶 cbgd 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/news/view/406aed

DARPA

DARPA宣布開源Memex搜索技術

相關資訊

相關經驗

相關文檔