通用網頁正文抽取 cx-extractor
對于Web信息檢索來說,網頁正文抽取是后續處理的關鍵。
雖然使用正則表達式可以準確的抽取某一固定格式的頁面,但面對形形色色的HTML,使用規則處理難免捉襟見肘。能不能高效、準確的將一個頁面的正文抽取出來,并做到在大規模網頁范圍內通用,這是一個直接關系上層應用的難題。
作者提出了《基于行塊分布函數的通用網頁正文抽取算法》,首次將網頁正文抽取問題轉化為求頁面的行塊分布函數,這種方法不用建立Dom樹,不被病態HTML所累(事實上與HTML標簽完全無關)。通過在線性時間內建立的行塊分布函數圖,直接準確定位網頁正文。同時采用了統計與規則相結合的方法來處理通用性問題。作者相信簡單的事情總應該用最簡單的辦法來解決這一亙古不變的道理。整個算法實現代碼不足百行。但量不在多,在法。
建議使用svn checkout http://cx-extractor.googlecode.com/svn/trunk/,svn的好處是更新及時,zip包作者不能保證每次修改完后都及時上傳 :)
There are undoubtedly serious bugs lurking somewhere in code this funky. So feel free to contact us if you meet any problem.
Bug reports and other feedback are most welcome :-)
Version | Author | Institute | |
Perl | 陳鑫 | xchen@ir.hit.edu.cn | 哈工大信息檢索研究中心 |
Java | 王利鋒、羅磊 | {lfwang,lluo}@ir.hit.edu.cn | 哈工大信息檢索研究中心 |
C++ | 朱亮 | zhuliang@software.ict.ac.cn | 中科院計算所高級網絡重點實驗室 |
PHP | 軒文烽 | xwf1788@gmail.com | 哈工大智能技術與自然語言處理研究室 |
C# | 張帆 | zfannn@gmail.com | 中科院信息科學與工程學院 |
如果您正在關注或使用cx-extractor,同時希望在第一時間得到該項目的更新信息,
您可以加入該項目的郵件列表 http://list.qq.com/cgi-bin/qf_invite?id=2a19dc7f75fcba75ee9962adfcf5013e3154e3b92ef767a3
本軟件的使用許可協議:署名-非商業性使用-相同方式共享 (by-nc-sa),新浪微博http://weibo.com/cx3180