Java實現的網絡爬蟲,Apache Nutch v2.3 發布
Nutch的創始人是Doug Cutting,他同時也是Lucene、Hadoop和Avro開源項目的創始人。
Nutch
誕生于2002年8月,是Apache旗下的一個用Java實現的開源搜索引擎項目,自Nutch1.2版本之后,Nutch已經從搜索引擎演化為網絡爬
蟲,接著Nutch進一步演化為兩大分支版本:1.X和2.X,這兩大分支最大的區別在于2.X對底層的數據存儲進行了抽象以支持各種底層存儲技術。
在
Nutch的進化過程中,產生了Hadoop、Tika、Gora和Crawler
Commons四個Java開源項目。如今這四個項目都發展迅速,極其火爆,尤其是Hadoop,其已成為大規模數據處理的事實上的標準。Tika使用多
種現有的開源內容解析項目來實現從多種格式的文件中提取元數據和結構化文本,Gora支持把大數據持久化到多種存儲實現,Crawler
Commons是一個通用的網絡爬蟲組件。
大數據這個術語最早的引用可追溯到Nutch。當時,大數據用來描述為更新網絡搜索索引需要同
時進行批量處理或分析的大量數據集。現在,大數據的含義已經被極大地發展了,業界將大數據的特性歸納為4個“V”。Volume數據體量巨
大,Variety數據類型繁多,Value價值密度低,商業價值高,Velocity處理速度快。
Hadoop是大數據的核心技術之
一,而Nutch集Hadoop之大成,是Hadoop的源頭。學習Hadoop,沒有數據怎么辦?用Nutch抓!學了Hadoop的Map
Reduce以及HDFS,沒有實用案例怎么辦?學習Nutch!Nutch的很多代碼是用Map
Reduce和HDFS寫的,哪里還能找到比Nutch更好的Hadoop應用案例呢?Apache Nutch v2.3已經發布了,建議所有使用2.X系列的用戶和開發人員升級到這個版本。
這個版本提供了一個基于Apache Wicket的Web管理界面,解決了143個問題,提供了Maven依賴,升級到Gora v0.5,支持的底層存儲為:
-
Apache Hadoop 1.0.1 & 2.4.0
-
Apache Cassandra 2.0.2
-
Apache HBase 0.94.14
-
Apache Accumulo 1.5.1
-
MongoDB 2.12.2
-
Apache Solr 4.8.1
-
Apache Avro 1.7.6
更多詳細內容請看更新日志,下載地址,Nutch官網。
來自:http://www.oschina.net/news/59287/apache-nutch-2-3