Perl爬蟲的簡單實現

jopen 10年前發布 | 108K 次閱讀 Perl Perl開發

原文 http://www.cnblogs.com/glacierh/p/4573929.html

由于工作中有個項目需要爬取第三方網站的內容，所以在Linux下使用Perl寫了個簡單的爬蟲。

爬取步驟

下面以爬取某網站的手機App為例，說明一下爬取的步驟。

1. 爬取目錄

假設我需要爬取的目錄頁是 http://www.anzhi.com/sort_39_1_new.html ，首先找到頁索引和URL的規律，這個是很簡單的，只需要把 http://www.anzhi.com/sort_39_[i]_new.html 中的[i]替換為頁索引即可。接下來，需要知道一共有多少頁，才能知道爬取目錄頁什么時候時候完成。一般頁面上會顯示共多少頁，但這里要爬的頁面是沒有的，那怎么辦呢？可以通過人工的方式去看一共有多少頁，還有一個方法是，爬取到某一頁發現沒有匹配的目錄項了，就說明所有目錄頁已經爬完了。

把目錄頁爬取下來后，把二級頁面的ULR通過正則匹配提取出來，寫到數據庫中，URL可以標識一個頁面的唯一性，所以要保證寫入數據的URL不重復。需要注意的是在HTML中的URL可能是相對路徑，需要把URL補全。

大部分情況是需要增量爬取的，如每天只爬取新增的目錄項，為了防止重復無效的爬取，選擇的目錄頁最好是按更新時間排序的，這樣只需要爬取有更新的前幾頁就可以了。那怎么知道哪些目錄頁是有更新的呢？如果目錄項有更新時間的話，可以通過比較這個時間來確定。還有一種更簡單的方法是，如果某一頁所有的 URL在數據庫都存在了，說明這一頁沒有新的目錄項了，可以停止爬取了。

2. 爬取詳細信息

在第一步中已經把二級頁面的URL爬取下來了，接下來就是要爬取詳細信息了，如手機App的各種信息，截圖和安裝包的URL。對于文字信息是很容易在HTML中提取的，但對于安裝包URL就不是一眼能找到的，這里的下載地址隱藏在JS中，如下圖，在頁面里提取到id后，就能拼出安裝包URL。對于爬取完成的URL，在數據庫中應該用狀態字段標示其爬取完成，避免重復爬取。

3. 文件下載

有時候我們不僅要爬取文字信息，還需要下載圖片或文件，比如這里我們還需要下載截圖和安裝包，在前一步中已經爬取了截圖和安裝包的URL，使用curl或wget可以很方便地進行文件下載。同樣也需要狀態字段來標示文件的下載狀態。

通用和擴展

1. 通用爬取接口

為了減少一些爬取的重復代碼，這里提取了一些公共代碼，寫了一個比較通用的爬取接口，需要注意的是，由于頁面的編碼和數據編碼可能不一致，所以需要把頁面的編碼轉化成數據庫編碼，否則寫入數據就可能出現亂碼。接口說明和代碼如下：

調用方式：@results=&CrawlUrl($url, $page_charset, $expect_charset, \@regexs, \$crawl_result)

參數：URL，頁面編碼，期望編碼，正則表達式數組，爬取是否成功（0成功，否則失敗）

返回值：匹配結果二維數組（一個正則表達式可以匹配一組數據）

#!/usr/bin/perl

sub ParseUrl
{
    my $url=$_[0];
    $url=~s/\[/\\\[/g;
    $url=~s/\]/\\\]/g;
    return $url;
}

sub CrawlUrl
{
    my $url=$_[0];
    my $page_charset=$_[1];
    my $expect_charset=$_[2];
    my $regex_ref=$_[3];
    my $crawl_result_ref=$_[4];
    my @regexs=@$regex_ref;
    my @results;

    my $file=`echo -n "$url" | md5sum | awk '{print \$1".htm"}'`;
    chomp($file);
    $url=&ParseUrl($url);
    `curl -o "$file" "$url"`;
    my $curl_result=`echo $?`;
    chomp($curl_result);
    if($curl_result!=0)
    {
        $$crawl_result_ref=1;
        return @results;
}

    my $html="";
    if($page_charset ne "" && $expect_charset ne "" && $page_charset ne $expect_charset)
    {
        $html=`iconv -f $page_charset -t $expect_charset "$file"`;
    }
    else
    {
        $html=`cat "$file"`;
    }
    `rm -f $file`;

    for(my $i=0;$i<=$#regexs;$i++)
    {
        my $reg=@regexs[$i];
        my @matches=($html=~/$reg/sg);
        $results[$i]=\@matches;
    }

    $$crawl_result_ref=0;
    return @results;
}

2. 爬蟲通用性

我們可能需要爬去同一個類型的多個網站，比如我需要爬取數十個來源的手機App，如果每個網站都寫一個特定的爬蟲，會帶來大量的編碼工作，這時候就要考慮爬蟲的通用性，如何讓一套代碼能夠適應一類網站。這里采用的方法是把各個網站的差異化信息作為配置存儲在數據庫，如目錄頁URL、網站編碼、各字段正則表達式等，這樣爬蟲通過讀取這些配置就可以去適配不同的網站，達到一定的通用性。如果要新增一個網站的爬取，只需要增加相應的配置，而不需要修改任何代碼。

3. 多進程爬取

如果要爬取的頁面或要下載的文件數量比較大，會比較耗時，這時候可以考慮多個進程同時進行爬取。寫一個進程控制模塊，通過查詢數據庫中未爬取的URL和檢測當前啟用爬取的進程數，來確定是否啟用新的進程，達到對多進程爬取的控制。

4. 代理

有些網站可能會限制IP的訪問頻率，如果對網站的爬取頻率比較高，可能就會導致IP被封了，可以通過在多個代理服務器隨機切換的方式來規避這個問題。為了避免代碼重復，寫了一個使用代理的wget封裝的Shell工具。

#!/bin/bash

PROXY_HOST=(代理服務器列表)

function GetProxyStr()
{
    rand=$(($RANDOM%(${#PROXY_HOST[*]}+1)))
    if [ $rand -lt ${#PROXY_HOST[*]} ]
    then
        PROXY_STR="-e http_proxy=${PROXY_HOST[$rand]}"
    fi
}

PROXY_STR=""
PATH_TYPE="$1"
FILE_PATH="$2"
URL="$3"

GetProxyStr
GetPath

wget --user-agent="Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.9.0.3) Gecko/2008092416 Firefox/3.0.3" $PROXY_STR $PATH_TYPE "$FILE_PATH" "$URL"

5. 監控

還有一個問題就是，如果爬蟲是每天定時運行的，在網站目錄頁URL發生變化或頁面改版了，爬取就會失敗。這就要求對這些失敗進行監控，在爬取頁面失敗或者正則匹配失敗時，通過短信、郵件等方式進行告警。

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1434258364047.html

Perl Perl開發

Perl爬蟲的簡單實現

相關工具

爬取步驟

通用和擴展

相關經驗

相關資訊

相關文檔

目錄