BT搜索引擎：ssbc

sdww 10年前發布 | 22K 次閱讀 ssbc 搜索引擎

作為最早在國內研究和實踐DHT爬蟲的人，我的靈感是來自芬蘭Helsinki大學的這篇論文： Real-World Sybil Attacks in BitTorrent Mainline DHT 英文好的同學應該很容易讀懂，跟我寫的不到300行的爬蟲代碼大致原理一樣。初次接觸DHT網絡的可以結合我之前的文章閱讀，或者拜讀Kevin Lynx的博客。所以具體原理在這里就不再闡述了。

手撕包菜一開始只是為了純粹的技術研究，沒有去想這個搜索引擎能給網民帶來什么樣的福利。當時采集了大量的數據，發現有一半以上的資源為限級內容，于是試圖去對資源進行分類并且做了很多這方面的工作。譬如，基本上能通過一套規則能篩選出限級內容，對資源進行分類，如果是視頻還能匹配出是哪一部影片。可惜，這些工作我主觀上認為對生活應用并沒有太大價值，于是就放棄了深入的研究。或許是因為網民使用此類搜索引擎大部分都是具有明顯的目的性。

手撕包菜經歷了多次點技術變更

開源版本使用了django網站框架重寫，之前是Flask，再早期是tornado。電影FM也是使用tornado，后來發現tornado并不適用于任何場景。以內容為王的網站還是django比較擅長，只是入門時間比其他框架都較長。早期數據庫采用了MongoDB，因為配合Python讀寫數據很方便，也不用關注數據結構，搜索功能采用自帶的關鍵詞搜索，不過后來隨著資源數量增加，性能也明顯跟不上。今年換了WiredTiger引擎，自帶的 fulltext search還是不給力。另外Amazon的cloudsearch是個坑，土豪可以考慮，性能真的很不錯，就是比較貴。最后還是搭建一個 SphinxSearch吧，數據庫也換成MySQL（MyISAM引擎），配合起來也很方便。Sphinx創建全文索引的速度很給力，官方的自評也很高，我自己測試1000w的資源（大概3GB），1分鐘左右就索引完畢。不信，大家可以自測一下。

項目主頁：http://www.baiduhome.net/lib/view/home/1437231674709

本文由用戶 sdww 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1437231674709.html

ssbc 搜索引擎

BT搜索引擎：ssbc

相關經驗

相關資訊

相關文檔

目錄