p2pspider - DHT Crawler + BT Client = P2P Spider

jopen 8年前發布 | 41K 次閱讀 p2pspider 網絡爬蟲

介紹

p2pspider 是一個 DHT 爬蟲 + BT Client 的結合體, 從全球 DHT 網絡里"嗅探"人們正在下載的資源, 并把資源的metadata(種子的主要信息)從 遠程 BT 客戶端下載, 并生成資源磁力鏈接. 通過磁力鏈接, 你就可以下載到資源文件.

用途

你可以使用 p2pspider 打造私人種子庫, 也拿它做資源數據挖掘與分析.

安裝

git clone https://github.com/Fuck-You-GFW/p2pspider

使用

請確保你的node版本是4.X.X. 初次使用前, 請執行npm install安裝依賴包. 執行node example.js便可運行程序. 執行后, 需要等待一段時間才會有數據輸出, 等待多久看你的網絡環境. 建議放在公網主機上運行, 在局域網里幾乎沒效果, 最好是國外的.

定制

你可以修改example.js文件對爬取到的數據進行處理/保存. 詳情請看example.js的例子, 很簡單滴.

待做

  • 完全 ES6 化
  • 效率優化
  • 數據保存
  • 跨平臺 GUI 化
  • 數據共享
  • 資源下載
  • 視頻流媒體播放

目標

打造成人人都能用的神器, 可以用它搜索種子; 下載資源; 共享數據庫; 如果是視頻, 可邊下載邊播放; 打造成分布式快播是可以有滴. :)

感謝

在開發這個項目時, 從 bittorrent-protocolut_metadata 借鑒了一些實現代碼. 非常感謝其作者 @feross 指點迷津.

交流

如果你對此項目感興趣, 不管你是不是開發者, 都可加 QQ 群(145234507)進行實時交流. 雖然 QQ 群看起來很 Low, 但不得不說, 特別適合快速交流.

提醒

不要拿這個爬蟲爬取的數據分享到互聯網, 因為很多敏感資源; 你懂滴資源; 侵權資源. 否則后果自負喔.

許可證

MIT

項目地址: https://github.com/Fuck-You-GFW/p2pspider

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!