.NET平臺下,一個高效的從Html中提取正文的工具 - Html2Article
.NET平臺下,一個高效的從Html中提取正文的工具。
正文提取采用了基于文本密度的提取算法,支持從壓縮的Html文檔中提取正文,每個頁面平均提取時間為10ms,正確率到95%以上。
Html2Article有如下特點:
- 標簽無關,提取正文不依賴標簽。
- 支持從壓縮的html文檔中提取正文內容。
- 核心算法簡潔高效,平均提取時間在20ms左右。
使用示例:///
/// 文章正文數據模型
///
public class Article
{
public string Title { get; set; }
public string Content { get; set; }
public DateTime PublishDate { get; set; }
}
// html為你要提取的html文本
string html = "....";
Article article = Html2Article.GetArticle(html);
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!