Apache Nutch 1.10 發布,搜索引擎
Apache Nutch 1.10 發布,此版本現已提供下載:http://syncope.apache.org/downloads.html。
更新內容:
Bug 修復
-
[SYNCOPE-654] - Some generic and uninformative error messages
-
[SYNCOPE-655] - Files under /etc/apache-syncope ignored
-
[SYNCOPE-656] - Debian configuration files overwrittern
-
[SYNCOPE-658] - Duplicate derived attribute after sync task when it is configured as accountid for the synched resource
-
[SYNCOPE-659] - Wrong fasterxml.jackson, common-lang3 version in the Import-Package in the syncope-common, syncope-client
-
[SYNCOPE-664] - Empty string values not allowed with Oracle DB
改進
-
[SYNCOPE-663] - Option to ignore users / roles during synchronization or push
完整改進請看:http://s.apache.org/S4Z。
Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
Nutch的創始人是Doug Cutting,他同時也是Lucene、Hadoop和Avro開源項目的創始人。
Nutch 誕生于2002年8月,是Apache旗下的一個用Java實現的開源搜索引擎項目,自Nutch1.2版本之后,Nutch已經從搜索引擎演化為網絡爬 蟲,接著Nutch進一步演化為兩大分支版本:1.X和2.X,這兩大分支最大的區別在于2.X對底層的數據存儲進行了抽象以支持各種底層存儲技術。
在 Nutch的進化過程中,產生了Hadoop、Tika、Gora和Crawler Commons四個Java開源項目。如今這四個項目都發展迅速,極其火爆,尤其是Hadoop,其已成為大規模數據處理的事實上的標準。Tika使用多 種現有的開源內容解析項目來實現從多種格式的文件中提取元數據和結構化文本,Gora支持把大數據持久化到多種存儲實現,Crawler Commons是一個通用的網絡爬蟲組件。
Nutch 致力于讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎. 為了完成這一宏偉的目標, Nutch必須能夠做到:
-
每個月取幾十億網頁
-
為這些網頁維護一個索引
-
對索引文件進行每秒上千次的搜索
-
提供高質量的搜索結果
-
以最小的成本運作