• P4

      基于HITS算法的搜索引擎概述 文檔

    摘要:本文簡要介紹了目前搜索引擎中應用較為廣泛的一種算法——HITS算法。HITS算法是Web結構挖掘中最具有權威性和使用最廣泛的算法。其基本思想是利用頁面之間的引用鏈來挖掘隱含在其中的有用信息(如權威性),具有計算簡單且效率高的特點。HITS算法通過兩個評價權值 - 內容權威度(Authority)和鏈接權威度(Hub)來對網頁質量進行評估。HITS算法認為對每一個網頁應該將其內容權威度和鏈接權威度分開來考慮,在對網頁內容權威度做出評價的基礎上再對頁面的鏈接權威度進行評價,然后給出該頁面的綜合評價。它專注于改善泛指主題檢索的結果,通過一定的計算(迭代計算)方法以得到針對某個檢索提問的最具價值的網頁,即排名最高的authority。

    yuchihuo 2012-05-28   4032   0
    P

    Lucene Code 3.03 中文api文檔 文檔

    Lucene Code 3.03 中文api文檔

    javastu 2012-05-12   422   0
    P648

      搜索引擎核心技術與實現 文檔

    搜索引擎開發實戰:基于Lucene和Solr 。本章首先概要的介紹搜索引擎的總體結構和基本模塊,然后會介紹其中的最核心的模塊:全文檢索的基本原理。為了盡快普及搜索引擎開發技術,本章介紹的搜索引擎結構可以采用開源軟件實現。為了通過實踐來深入了解相關技術,本章中會介紹相關的開發環境。本書介紹的搜索技術使用Java編程語言實現,之所以沒有采用性能可能會更好的C/C++,是希望讀者不僅能夠快速完成相關的開發任務,而且可以把相關實踐作為一個容易上手的游戲。另外,為了集中關注程序的基本邏輯,書中的Java代碼去掉了一些錯誤和異常處理,實際可以運行的代碼可以在本書附帶的光盤中找到。在以后的各章中會深入探索搜索引擎的每個組成模塊。

    lxfsbxh 2012-05-11   790   0
    P21

      文本分類在比價搜索中應用可行性分析 文檔

    文本分類在比價搜索中應用可行性分析

    welldone 2012-04-21   3393   0
    P35

      lucene 初級學習資料 文檔

    lucene是一套Java API,它不是一個獨立的搜索引擎系統,但是你可以使用lucene開發搜索引擎系統。現在我們學習lucene主要是學習如何使用別人開源的東西,來組建自己想要的搜索引擎系統。

    welldone 2012-04-21   4371   0
    Lucene   搜索引擎   HTML   Java   SQL  
    P21

      分布式搜索引擎技術 - Lily 文檔

    Lily以NoSQL技術為主題,是建立在云計算上的內容倉庫(content repository)。它是基于Apache的 HBase(存儲)和Solr(索引/搜索),并提供了大型內容集合存儲與檢索的解決方案。可運用在 門戶網站,內容管理系統,及時搜索,檔案應用,文案管理,等等。<br> Lily的優勢在于她強大的搜索能力,無論是文本匹配還是全文索引,通通都能搞 定。但我覺得Lily在獲取這些優勢的同時付出了相當大的代價,最主要的代價就是系統的復雜性。想想看,為了能夠使用Lily,你需要安裝并維護以下系 統:HDFS, HBase, Zookeeper, SOLR, Lily. 這些系統任何一個都可能讓Operation Team抓狂,更不用說他們混在一起了。

    ykyx00 2012-04-01   5121   0
    P26

      Lucene 的學習 文檔

    通過這幾天的看書和學習,對Lucene有了更進一步的認識,所以總結一下這些天的學習成果把Lucene的學習心得也學出來。提到Lucene很多人都知道這個開源的搜索工具,其魅力也是很大的。它讓我們對搜索引擎的認識不在那么神秘,也不會在覺得百度和google的技術多么的高深沒測,其實其原理都是一樣的,只是他們要做的更好,走的更遠罷了。 Lucene可以對任何的數據做索引和搜索,說這樣的話其實不過分,真的就是這樣,只要你能處理好這些數據,交給Lucene去建立索引它都可以幫你把這些數據給檢索出來,是不是很好玩了。真正好玩的地方還在后面呢。

    sayhix 2012-03-12   2847   0
    P13

      搜索相關筆記(Nutch) 文檔

    Nutch是一個基于Lucene,類似Google的完整網絡搜索引擎解決方案,基于Hadoop的分布式處理模型保證了系統的性能,類似Eclipse的插件機制保證了系統的可客戶化,而且很容易集成到自己的應用之中。Nutch 0.8 完全使用Hadoop重寫了骨干代碼,另有很多地方作了合理化修正,非常值得升級。

    q985962490 2012-02-29   724   0
    P76

      文本信息提取技術概述 文檔

    內容(1)信息提取的含義、目標(2)信息提取技術中若干相關基礎問題(3)(中文)信息提取系統的流程與設計(4)Web信息提取。

    lzp432500 2012-02-23   4125   0
    搜索引擎   HTML   XML   C/C++   Go  
    P4

      solr 分布式部署 文檔

    需求:1. 實現SOLR主,輔服務器更新同步,每次客戶端COMMIT請求都會及時應用在輔服務器上。2. 實現MULTICORE,實際生產環境中往往會有多個搜索應用實例。

    mingzhou 2012-02-15   5649   0
    P51

      Nutch 1.0 源代碼分析 文檔

    Nutch1.0源代碼分析

    228823266 2012-01-17   431   0
    P9

      Nutch 主要類分析 文檔

    org.apache.nutch.crawl.Injector:?1,注入url.txt?2,url標準化?3,攔截url,進行正則校驗(regex-urlfilter.txt)?4,對符URL標準的url進行map對構造url,CrawlDatum,在構造過程中給CrawlDatum初始化得分,分數可影響urlhost的搜索排序,和采集優先級!5,reduce只做一件事,判斷url是不是在crawldb中已經存在,如果存在則直接讀取原來CrawlDatum,如果是新host。

    228823266 2012-01-17   5175   0
    P4

      Nutch 源代碼學習(5)-解讀 Nutch -運行,爬行過程 文檔

    Nutch是一個基于Lucene,類似Google的完整網絡搜索引擎解決方案,基于Hadoop的分布式處理模型保證了系統的性能,類似Eclipse的插件機制保證了系統的可客戶化,而且很容易集成到自己的應用之中。

    228823266 2012-01-17   582   0
    P24

      Lucene 使用心得分享 文檔

    Lucene是apache軟件基金會 jakarta項目組的一個子項目,是一個開放源代碼的全文檢索引擎工具包,即它不是一個完整的全文檢索引擎應用,而是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎,部分文本分析引擎(英文與德文兩種西方語言)。Lucene的目的是為軟件開發人員提供一個簡單易用的工具包,以方便的在目標系統中實現全文檢索的功能,或者是以此為基礎建立起完整的全文檢索引擎。

    liaoxu 2012-01-17   4981   0
    P150

      利用Lucene構建一個簡單的Web搜索程序 文檔

    Lucene入門、 全文檢索的概念,倒排索引的概念、 建立索引、 搜索、 中文分詞的實現、 Nutch入門、 串知識點Html,css,javascript,servlet,jsp,mysql, 介紹MVC的概念、 演示借用一些javascript的成熟的框架實現頁面的特殊效果。例如:rico、 學會使用myeclipse、 熟悉mysql數據庫的用法、 什么時候用lucene、 數據庫大量數據,文本。

    xiaobalu186 2012-01-13   6045   0
    P10

      搜索算法的通用優化方法 文檔

    [BFS][雙向搜索]在bfs算法所能解決的問題當中,有相當一部分,是給你初狀態和末狀態,讓你求一條從初狀態到末狀態的最短路,實際上,bfs的結點產生系統也最適合解決這一類的問題。對于無休止以指數級膨脹的隊列長度,選手們往往束手無策。其實這一類問題,有一個比較難實現,但是卻能很好提高算法效率的辦法,那就是,我們從初始結點開始擴展,每擴展一層(暫時稱它為f1),再從目標結點按照產生系統相反的辦法來擴展結點(稱它為f2),直到f1和f2產生出了相同的結點,把中間路線輸出就可以了。

    yugouai 2012-01-07   3481   0
    P10

      搭建sphiSphinx+MySQL5.1x+SphinxSE+mmseg中文分詞搜索引擎架構 文檔

    Sphinx+MySQL5.1x+SphinxSE+mmseg中文分詞搜索引擎架構搭建手記。研究了一下sphinx,發現真是個好東西,先來幾句廢話,什么是Sphinx?Sphinx是一個在GPLv2下發布的一個全文檢索引擎,一般而言,Sphinx是一個獨立的搜索引擎,意圖為其他應用提供高速、低空間占用、高結果相關度的全文搜索功能。Sphinx可以非常容易的與SQL數據庫和腳本語言集成。當前系統內置MySQL和PostgreSQL數據庫數據源的支持,也支持從標準輸入讀取特定格式的XML數據。通過修改源代碼,用戶可以自行增加新的數據源(例如:其他類型的DBMS的原生支持)。Sphinx的特性高速的建立索引(在當代CPU上,峰值性能可達到10MB/秒);高性能的搜索(在2–4GB的文本數據上,平均每次檢索響應時間小于0.1秒);可處理海量數據(目前已知可以處理超過100GB的文本數據,在單一CPU的系統上可處理100M文檔);

    xlong07 2012-01-05   648   0
    P21

      搜索引擎技術 文檔

    Lily以NoSQL技術為主題,是建立在云計算上的內容倉庫(content repository)。它是基于Apache的 HBase(存儲)和Solr(索引/搜索),并提供了大型內容集合存儲與檢索的解決方案。可運用在 門戶網站,內容管理系統,及時搜索,檔案應用,文案管理,等等。 Lily的優勢在于她強大的搜索能力,無論是文本匹配還是全文索引,通通都能搞 定。但我覺得Lily在獲取這些優勢的同時付出了相當大的代價,最主要的代價就是系統的復雜性。想想看,為了能夠使用Lily,你需要安裝并維護以下系 統:HDFS, HBase, Zookeeper, SOLR, Lily. 這些系統任何一個都可能讓Operation Team抓狂,更不用說他們混在一起了。

    lingmeiwen 2011-12-26   4208   0
    P14

      Sphinx全文索引安裝教程[圖文教程] 文檔

    基本上看看上面的官方教程和中文使用手冊,你應該會安裝和使用Sphix全文索引,當然,還有一些細節,需要不斷的google和baidu,那為了節省大家的時間,就出一個完整的Sphinx安裝教程和結合PHPWIND程序的使用教程(PHPWIND7.5版本支持)。

    long983 2011-12-26   615   0
    P8

      擴展Lucene的索引文件存儲 文檔

    本文主要敘述如何通過引入Commons-VFS項目來擴展Lucene的索引文件存儲方式。在閱讀本文之前,您必須對Lucene有一定的了解,最好是有編寫過Lucene代碼。另外文章中所提到的Lucene如果不做特殊說明指的是Lucene的Java版本。使用過Lucene來做為搜索引擎的朋友知道,Lucene默認的使用文件系統來存儲索引文件。

    franktang 2011-12-26   581   0
    1 2 3 4 5 6 7 8 9 10

    關鍵詞

    最新上傳

    熱門文檔

  • sesese色