基于行塊分布函數的通用網頁正文抽取:cx-extractor

jopen 10年前發布 | 14K 次閱讀 正文抽取

cx-extractor 基于行塊分布函數的通用網頁正文抽取:線性時間、不建DOM樹、與HTML標簽無關。

對于Web信息檢索來說,網頁正文抽取是后續處理的關鍵。

雖然使用正則表達式可以準確的抽取某一固定格式的頁面,但面對形形色色的HTML,使用規則處理難免捉襟見肘。能不能高效、準確的將一個頁面的正文抽取出來,并做到在大規模網頁范圍內通用,這是一個直接關系上層應用的難題。

作者提出了《基于行塊分布函數的通用網頁正文抽取算法》,首次將網頁正文抽取問題轉化為求頁面的行塊分布函數,這種方法不用建立Dom樹,不被病態HTML所累(事實上與HTML標簽完全無關)。通過在線性時間內建立的行塊分布函數圖,直接準確定位網頁正文。同時采用了統計與規則相結合的方法來處理通用性問題。作者相信簡單的事情總應該用最簡單的辦法來解決這一亙古不變的道理。整個算法實現代碼不足百行。但量不在多,在法。

項目主頁:http://www.baiduhome.net/lib/view/home/1412172041656

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!