Apache Nutch 2.3.1 發布,搜索引擎
Apache Nutch 2.3.1 發布,此版本主要解決了 40 個 issues,詳情請看這里:
http://s.apache.org/nutch_2.3.1
下載: http://nutch.apache.org/downloads.html
此版本推薦的 Gora 后端:
- Apache Avro 1.7.6 - Apache Hadoop 1.2.1 and 2.5.2 - Apache HBase 0.98.8-hadoop2 (although also tested with 1.X) - Apache Cassandra 2.0.2 - Apache Solr 4.10.3 - MongoDB 2.6.X - Apache Accumlo 1.5.1 - Apache Spark 1.4.1
![]()
Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
Nutch的創始人是Doug Cutting,他同時也是Lucene、Hadoop和Avro開源項目的創始人。
Nutch 誕生于2002年8月,是Apache旗下的一個用Java實現的開源搜索引擎項目,自Nutch1.2版本之后,Nutch已經從搜索引擎演化為網絡爬 蟲,接著Nutch進一步演化為兩大分支版本:1.X和2.X,這兩大分支最大的區別在于2.X對底層的數據存儲進行了抽象以支持各種底層存儲技術。
在 Nutch的進化過程中,產生了Hadoop、Tika、Gora和Crawler Commons四個Java開源項目。如今這四個項目都發展迅速,極其火爆,尤其是Hadoop,其已成為大規模數據處理的事實上的標準。Tika使用多 種現有的開源內容解析項目來實現從多種格式的文件中提取元數據和結構化文本,Gora支持把大數據持久化到多種存儲實現,Crawler Commons是一個通用的網絡爬蟲組件。
Nutch 致力于讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎. 為了完成這一宏偉的目標, Nutch必須能夠做到:
每個月取幾十億網頁
為這些網頁維護一個索引
對索引文件進行每秒上千次的搜索
提供高質量的搜索結果
以最小的成本運作
來自: http://www.oschina.net//news/70145/nutch-2-3-1