Java實現的網絡爬蟲,Apache Nutch v2.3 發布

m4ed 9年前發布 | 18K 次閱讀 Apache Nutch

Nutch的創始人是Doug Cutting,他同時也是Lucene、Hadoop和Avro開源項目的創始人。

Nutch 誕生于2002年8月,是Apache旗下的一個用Java實現的開源搜索引擎項目,自Nutch1.2版本之后,Nutch已經從搜索引擎演化為網絡爬 蟲,接著Nutch進一步演化為兩大分支版本:1.X和2.X,這兩大分支最大的區別在于2.X對底層的數據存儲進行了抽象以支持各種底層存儲技術。

在 Nutch的進化過程中,產生了Hadoop、Tika、Gora和Crawler Commons四個Java開源項目。如今這四個項目都發展迅速,極其火爆,尤其是Hadoop,其已成為大規模數據處理的事實上的標準。Tika使用多 種現有的開源內容解析項目來實現從多種格式的文件中提取元數據和結構化文本,Gora支持把大數據持久化到多種存儲實現,Crawler Commons是一個通用的網絡爬蟲組件。

大數據這個術語最早的引用可追溯到Nutch。當時,大數據用來描述為更新網絡搜索索引需要同 時進行批量處理或分析的大量數據集。現在,大數據的含義已經被極大地發展了,業界將大數據的特性歸納為4個“V”。Volume數據體量巨 大,Variety數據類型繁多,Value價值密度低,商業價值高,Velocity處理速度快。

Hadoop是大數據的核心技術之 一,而Nutch集Hadoop之大成,是Hadoop的源頭。學習Hadoop,沒有數據怎么辦?用Nutch抓!學了Hadoop的Map Reduce以及HDFS,沒有實用案例怎么辦?學習Nutch!Nutch的很多代碼是用Map Reduce和HDFS寫的,哪里還能找到比Nutch更好的Hadoop應用案例呢?Apache Nutch v2.3已經發布了,建議所有使用2.X系列的用戶和開發人員升級到這個版本。

這個版本提供了一個基于Apache Wicket的Web管理界面,解決了143個問題,提供了Maven依賴,升級到Gora v0.5,支持的底層存儲為:

  • Apache Hadoop 1.0.1 & 2.4.0

  • Apache Cassandra 2.0.2

  • Apache HBase 0.94.14

  • Apache Accumulo 1.5.1

  • MongoDB 2.12.2

  • Apache Solr 4.8.1

  • Apache Avro 1.7.6

同時請注意,Gora對SQL的支持已經過時了。

更多詳細內容請看更新日志下載地址Nutch官網

來自:http://www.oschina.net/news/59287/apache-nutch-2-3

 本文由用戶 m4ed 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!