Nutch簡介

openkk 13年前發布 | 24K 次閱讀 搜索引擎 nutch

Nutch簡介
Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。

盡管Web搜索是漫游Internet的基本要求, 但是現有web搜索引擎的數目卻在下降. 并且這很有可能進一步演變成為一個公司壟斷了幾乎所有的web搜索為其謀取商業利益.這顯然不利于廣大Internet用戶.

Nutch為我們提供了這樣一個不同的選擇. 相對于那些商用的搜索引擎, Nutch作為開放源代碼搜索引擎將會更加透明, 從而更值得大家信賴. 現在所有主要的搜索引擎都采用私有的排序算法, 而不會解釋為什么一個網頁會排在一個特定的位置. 除此之外, 有的搜索引擎依照網站所付的費用, 而不是根據它們本身的價值進行排序. 與它們不同, Nucth沒有什么需要隱瞞, 也沒有動機去扭曲搜索的結果. Nutch將盡自己最大的努力為用戶提供最好的搜索結果.

Nutch 致力于讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎. 為了完成這一宏偉的目標, Nutch必須能夠做到:

  • 每個月取幾十億網頁
  • 為這些網頁維護一個索引
  • 對索引文件進行每秒上千次的搜索
  • 提供高質量的搜索結果
  • 以最小的成本運作

這是一個巨大的挑戰. 如果你相信它的價值, 請伸出你的援手. 你可以參與開發, 或是提供捐贈.

項目主頁:http://www.baiduhome.net/lib/view/home/1322894399484

 本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!