這個Java類庫提供算法來探測和刪除在一個網頁中主文本內容旁多余的重復內容。它已經有提供特殊的策略來處理一些常用的功能如:新聞文章提取。
<DIV class=date>收錄時間:2011-03-07 08:52:39</DIV>
本文由用戶 碼頭工人自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!