Nutch簡介
Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
盡管Web搜索是漫游Internet的基本要求, 但是現有web搜索引擎的數目卻在下降. 并且這很有可能進一步演變成為一個公司壟斷了幾乎所有的web搜索為其謀取商業利益.這顯然不利于廣大Internet用戶.
Nutch為我們提供了這樣一個不同的選擇. 相對于那些商用的搜索引擎, Nutch作為開放源代碼搜索引擎將會更加透明, 從而更值得大家信賴. 現在所有主要的搜索引擎都采用私有的排序算法, 而不會解釋為什么一個網頁會排在一個特定的位置. 除此之外, 有的搜索引擎依照網站所付的費用, 而不是根據它們本身的價值進行排序. 與它們不同, Nucth沒有什么需要隱瞞, 也沒有動機去扭曲搜索的結果. Nutch將盡自己最大的努力為用戶提供最好的搜索結果.
Nutch 致力于讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎. 為了完成這一宏偉的目標, Nutch必須能夠做到:
- 每個月取幾十億網頁
- 為這些網頁維護一個索引
- 對索引文件進行每秒上千次的搜索
- 提供高質量的搜索結果
- 以最小的成本運作
本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!