.NET平臺下,一個高效的從Html中提取正文的工具 - Html2Article

jopen 11年前發布 | 15K 次閱讀 HTML操作類庫 Html2Article

.NET平臺下,一個高效的從Html中提取正文的工具。

正文提取采用了基于文本密度的提取算法,支持從壓縮的Html文檔中提取正文,每個頁面平均提取時間為10ms,正確率到95%以上。

.NET平臺下,一個高效的從Html中提取正文的工具 - Html2Article

Html2Article有如下特點:

  • 標簽無關,提取正文不依賴標簽。
  • 支持從壓縮的html文檔中提取正文內容。
  • 核心算法簡潔高效,平均提取時間在20ms左右。

使用示例:

/// 
/// 文章正文數據模型
/// 
public class Article
{
    public string Title { get; set; }
    public string Content { get; set; }
    public DateTime PublishDate { get; set; }
}
// html為你要提取的html文本
string html = "....";
Article article = Html2Article.GetArticle(html);

項目主頁:http://www.baiduhome.net/lib/view/home/1357803816027

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!