Java網絡蜘蛛:Spiderman
Spiderman - 又一個Java網絡蜘蛛
Spiderman 是一個基于微內核+插件式架構的網絡蜘蛛,它的目標是通過簡單的方法就能將復雜的目標網頁信息抓取并解析為自己所需要的業務數據。
它包含了兩部分(二者缺一不可):
主要特點
* 靈活、可擴展性強,微內核+插件式架構,Spiderman提供了多達 10 個擴展點。橫跨蜘蛛線程的整個生命周期。
* 通過簡單的配置就可以將復雜的網頁內容解析為自己需要的業務數據,無需編寫一句代碼
* 多線程
怎么使用?
- 首先,確定好你的目標網站以及目標網頁(即某一類你想要獲取數據的網頁,例如網易新聞的新聞頁面)
- 然后,打開目標頁面,分析頁面的HTML結構,得到你想要數據的XPath,具體XPath怎么獲取請看下文。
- 最后,在一個xml配置文件里填寫好參數,運行Spiderman吧!
這里有個抓取網易新聞案例
XPath獲取技巧?
這里只說下Chrome瀏覽器,其他瀏覽器估計也差不多,只不過插件不同而已。
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!