DARPA宣布開源Memex搜索技術
Memex 項目最早于 2014 年 2 月由美國國防部高級研究計劃局(DARPA)發起。DARPA 于 2015 年 4 月 17 日宣布了 Memex 項目,并開源各個組件,使得政府等機構和個人可以進行高度定制化的搜索。Memex 搜索引擎的研究發起者 Chris White 表示,“互聯網比人們想得要龐大得多。據統計分析,Google、微軟 bing 以及雅虎搜索只收錄了網絡上大約5% 的內容。”“暗網”通常指互聯網中無法被搜索引擎抓取到的部分(現在谷歌上已經能搜到一些暗網地址了)通常包含非法內容,包括不限于:色情、槍支彈藥、毒品等。參與 Memex 項目的卡耐基梅隆大學教授 Jeff Schneider 之前表示,“該計劃目前的重點是販賣人口。但是用來研究人口販運的算法也可以應用到其他領域。”
今年 2 月,美國國防部五角大樓的研究機構批準 Scientific American 新聞網對 Memex 進行了報道。美國國防部先進研究項目局的主管 Dan Kaufman 表示,“Memex 的理念簡化來說就是——如何挖掘不易被發現的東西。”目前,DARPA 在 Apache 許可證下開源了 Memex 項目開發的工具。其中,大部分軟件源代碼托管在 GitHub 上。根據福布斯網站的公布,參與 Memex 項目的機構主要有:
- Uncharted Software 開發了前端接口 TellFinder 和 DIG;
- ArrayFire 公司開發了通過 GPU 加速計算和網頁搜索的軟件庫 ArrayFile;
- 卡耐基梅隆大學開發了 TJBatchExtractor,用于在廣告中提取名字、位置等數據信息;
- Diffeo 公司開發了 Dossier Stack,主要負責分析用戶的興趣,為搜索結果的展示提供建議;
- Hyperion Gray 公司的爬蟲用來復制用戶與網站的交互情況;
- Jet Propulsion Laboratory 機構搭建了 ImageCat、FacetSpace、LegisGATE 和 ImageSpace 等四個組件,用于分析和操作圖像和文字;
- MIT 林肯實驗室編寫了 Text.jl、MITIE 和 Topic 三個自然語言處理工具;
- 紐約大學聯合 JPL 和 Continuum 創建了 Topic 接口來幫組用戶與爬蟲進行交互;
- Sotera Defense Solution 創造了 Data Wake,用于收集用戶可以點擊、可能點擊或者已經點擊過的鏈接;
- SRI International 開發了 Hidden Service Forum Spider 暗爬蟲,用于從暗服務中抓取內容;
- 斯坦福大學開發了 DeepDive,用于把文字和多媒體轉變成為知識庫,從而在不同人和組織之間創建連接關系。 </ul>
通過這諸多機構的參與,Christ White 表示,他們想要動搖谷歌、雅虎和微軟控制的搜索行業。不過,不論 Memex 的能力有多強大,其目的只是降低犯罪率,而不是侵犯大多數人的隱私。同時,它也有助于更好的理解互聯網信息的龐大性。
來自: InfoQ
本文由用戶 cbgd 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!