Java開發的重復數據刪除引擎:Duke
Duke是個用Java編寫的一個快速,靈活的重復數據刪除引擎。構建在Lucene之上。Duke可以在你的數據庫中找到重復的客戶記錄,或其他種類的記錄。
特性:
- 高性能
- 高度可配置
- 支持 CSV, JDBC, SPARQL, and NTriples.
- 擁有許多內置的比較器 comparators.
- 可以利用插件實現自己數據源,比較器和 cleaners.
- 基于遺傳算法的自動調整配置。
- 命令行客戶端入門。
- API 可嵌入到任何類型的應用程序中。
- 支持批處理和連續處理。
- 能夠保持通過JNDI/JDBC發現的數據庫鏈接.
- 可以在多個線程中運行。 </ul>
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!