Java網絡蜘蛛:Spiderman

jopen 12年前發布 | 66K 次閱讀 Java 網絡爬蟲

Spiderman - 又一個Java網絡蜘蛛

Spiderman 是一個基于微內核+插件式架構的網絡蜘蛛,它的目標是通過簡單的方法就能將復雜的目標網頁信息抓取并解析為自己所需要的業務數據。

它包含了兩部分(二者缺一不可):

主要特點

* 靈活、可擴展性強,微內核+插件式架構,Spiderman提供了多達 10 個擴展點。橫跨蜘蛛線程的整個生命周期。
* 通過簡單的配置就可以將復雜的網頁內容解析為自己需要的業務數據,無需編寫一句代碼
* 多線程 

怎么使用?

  • 首先,確定好你的目標網站以及目標網頁(即某一類你想要獲取數據的網頁,例如網易新聞的新聞頁面)
  • 然后,打開目標頁面,分析頁面的HTML結構,得到你想要數據的XPath,具體XPath怎么獲取請看下文。
  • 最后,在一個xml配置文件里填寫好參數,運行Spiderman吧!

這里有個抓取網易新聞案例

XPath獲取技巧?

這里只說下Chrome瀏覽器,其他瀏覽器估計也差不多,只不過插件不同而已。

  • 首先,下載xpathonclick插件,猛擊這里
  • 安裝完畢之后,打開Chrome瀏覽器,可以看到右上角有個“X Path” 圖標。
  • 在瀏覽器打開你的目標網頁,然后點擊右上角的那個圖片,然后點擊網標上你想要獲取XPath的地方,例如某個標題
  • 這時候按住F12打開JS控制臺,拖到底部,可以看到一串XPath內容
  • 記住,這個內容不是絕對OK的,你可能還需要做些修改,因此,你最好還是去學習下XPath語法
  • 學習XPath語法的地方:猛擊這里

項目主頁:http://www.baiduhome.net/lib/view/home/1350864482102

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!