Java開源搜索引擎 Apache Nutch 1.5 發布
Nutch 是一個開源Java 實現的搜索引擎。它提供了我們運行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬蟲。
盡管Web搜索是漫游Internet的基本要求, 但是現有web搜索引擎的數目卻在下降. 并且這很有可能進一步演變成為一個公司壟斷了幾乎所有的web搜索為其謀取商業利益.這顯然 不利于廣大Internet用戶.
Nutch為我們提供了這樣一個不同的選擇. 相對于那些商用的搜索引擎, Nutch作為開放源代碼 搜索引擎將會更加透明, 從而更值得大家信賴. 現在所有主要的搜索引擎都采用私有的排序算法, 而不會解釋為什么一個網頁會排在一個特定的位置. 除此之外, 有的搜索引擎依照網站所付的 費用, 而不是根據它們本身的價值進行排序. 與它們不同, Nucth沒有什么需要隱瞞, 也沒有 動機去扭曲搜索的結果. Nutch將盡自己最大的努力為用戶提供最好的搜索結果.
Nutch 致力于讓每個人能很容易, 同時花費很少就可以配置世界一流的Web搜索引擎. 為了完成這一宏偉的目標, Nutch必須能夠做到:
- 每個月取幾十億網頁
- 為這些網頁維護一個索引
- 對索引文件進行每秒上千次的搜索
- 提供高質量的搜索結果
- 以最小的成本運作
Nutch 每半年發布一個新版本,今天 Apache Nutch 1.5 發布了,該版本包含很多改進,同時升級了 Tika 到 1.1 版本,升級 Hadoop 到 1.0.0 版本,改進 LinkRank 和 WebGraph 元素,提供一些新的插件例如黑名單、過濾以及名字解析等等。
本文由用戶 openkk 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!