• 利用jsoup 如何從網頁中下載圖片

    1
    Java HTML C/C++ Go 22894 次瀏覽
    如何從網頁中下載圖片
    如果做為爬蟲很有必要從網頁中下載圖片到本地,那么我們利用jsoup來進行該操作,jsoup 是一個很不錯的html解析器。下面是它的簡介:

    jsoup 是一款 Java 的HTML 解析器,可直接解析某個URL地址、HTML文本內容。它提供了一套非常省力的API,可通過DOM,CSS以及類似于JQuery的操作方法來取出和操作數據。

    jsoup的主要功能如下:

    1. 從一個URL,文件或字符串中解析HTML;
    2. 使用DOM或CSS選擇器來查找、取出數據;
    3. 可操作HTML元素、屬性、文本;

    jsoup是基于MIT協議發布的,可放心使用于商業項目。

    網頁中下載圖片需要這么兩步操作
    1.獲取絕對路徑
    很多網頁中用的是相對路徑,因此獲取圖片的絕對路徑很重要
    方法一:我們就利用jsoup來獲取
    Element image = document.select("img").first();
    String url = image.absUrl("src");
    // url = http://www.example.com/images/chicken.jpg
    或者
    String url = image.attr("abs:src");
    他們的前提利用connect方式獲取而不是文件方式
    Document doc = Jsoup.connect("http://jsoup.org").get();
    Element link = doc.select("a").first();
    String relHref = link.attr("href"); // == "/"
    String absHref = link.attr("abs:href"); // "http://jsoup.org/"
    方法二:利用jdk中url
    URL url  = new URL("http://www.example.com/index.html");
    URI uri = url.toURI();
    System.out.println(uri.resolve("images/chicken.jpg").toString());
    2.第二步則就是下載圖片
    URL   url   =   new   URL( "圖片地址"); 
    URLConnection   uc   =   url.openConnection(); 
    InputStream   is   =   uc.getInputStream(); 
    File   file   =   new   File( "本地路徑 "); 
    FileOutputStream   out   =   new   FileOutputStream(file); 
    int   i=0; 
    while   ((i=is.read())!=-1)   { 
    out.write(i); 
    } 
    is.close();
    本站翻譯的:jsoup的官方教程

    相似問題

    相關經驗

    相關資訊

    相關文檔

  • sesese色