Yioop! 0.92 發布,PHP 全文搜索引擎
Yioop! 是一個開源的搜索引擎采用PHP開發,使用MySQL或SQLite 來自存儲數據。
它可以配置抓取任何頁面或指定鏈接地址范圍或對限制URL數量,可用它搭建一個網站的搜索引擎(如Google自定義搜索)。
利用其提供的默認安裝程序,每天可以抓取和索引數百萬的頁面。還可以通過運行更多的爬蟲(支持分布式)增加每天抓取和索引的頁面數。
它支持的索引文件類型包括:HTML, DOC, PNG, JPG, GIF, XML, sitemaps, RSS等。
此外,這個系統還可以通一個基于Web的管理界面來進行控制。
發布說明: This version includes a new hybrid inverted index/suffix tree indexing scheme that should make calculating search results from future crawls faster (doesn't affect old crawls). It can make use of HTTP ETag: and Expire: information when deciding whether to download a URL it has seen before. It also supports the creation of classifiers using active learning. These can be used to label and add scoring information to documents during a crawl. This release includes improvements to the RSS feed news_updater and a segmenter for Chinese