• P

    Lucene總結 文檔

    Lucene是一個全文檢索引擎的架構,提供了完整的查詢引擎和索引引擎。Lucene以其方便使用、快速實施以及靈活性受到廣泛的關注。它可以方便地嵌入到各種應用中實現針對應用的全文索引、檢索功能,本總結使用lucene--2.3.2。

    fanhx9 2012-07-30   3409   0
    P12

      nutch1.4 windows下eclipse配置圖文詳解 文檔

    網絡上關于nutch1.4的配置和使用很少,官方網站提供的方法我研究了半天特別麻煩,而且發現弄完后有的依賴包找不到,我決定放棄使用。將這兩天關于nutch1.4配置的另一種方法整理一下僅供參考!如有其它問題歡迎加1277140354一起交流學習!

    cuikaibest 2012-07-24   5363   0
    P10

      lucene 的例子 文檔

    lucene爬數據庫中的數據無非也是查詢數據。所有我們用lucene搜索數據主要有下面幾個步驟:(代碼緊供參考)?

    victorzcs 2012-07-19   3730   0
    P5

      如何測試搜索引擎的索引量大小 文檔

    如何測試搜索引擎的索引量大小背景知識:搜索引擎的質量指標一般包括相關性(Relevance)、時效性(Freshness)、全面性(Comprehensiveness)和可用性(Usability)等四個方面,今天我們要談的索引量就屬于完整性指標的范疇。

    victorzcs 2012-07-19   2541   0
    P54

      基于Solr的搜索引擎研究與實現 文檔

    摘要隨著信息時代的來臨,人們的生活、學習、工作和娛樂已經與信息技術充分的融為一體。隨著群眾對互聯網參與度的增加和企事業單位信息化的逐步深入,信息量也成倍地增長,如何能更好地從浩如煙海的數字信息中快速、精準地查找到需要的信息,成為全國人民的迫切需求。尤其是處于信息化建設道路上的中小企業,如何快速且廉價地開放自己的信息檢索系統,對于企業的成長至關重要。本文介紹了搜索引擎的基本原理,對搜索引擎的一些核心技術進行了介紹與深入的分析;介紹了Lucene搜索引擎工具包的架構及其基本使用;對基于開源搜索引擎包Lucene的搜索框架Solr進行架構、代碼、配置等方面的研究;最后設計并實現了一個基于Solr1.3的簡單可用的多庫搜索引擎。整個設計過程致力于提高管理維護的方便性和可擴展性。

    victorzcs 2012-07-19   5866   0
    P32

      基于Web挖掘的領域本體自動學習 文檔

    本體學習 - Web信息提取的擴展 可以從文本、字典、知識庫、半結構化以及關系模式中等資源中進行 基于文本的本體學習是最具有挑戰性和最有意義的本體學習方式 基于句法分析的方法(如模式匹配法等) 基于統計的方法

    potala 2012-07-16   3169   0
    搜索引擎   Intel   Go  
    P19

      模板化網頁主題信息的提取方法 文檔

    主要內容研究目標相關研究的現狀本文提出的方法---錨點定位法錨點定位法的應用總結研究目標消除“網頁噪音”,提取網頁主題信息實現基于模板的主題提取算法,應用于搜索引擎中相關研究工作的現狀基于啟發知識的分塊方法[1]基于視覺特征的分塊方法[3]基于深入分析網頁標記的解析方法[2]對以上方法的比較三種方法都局限于只通過對一個網頁進行分析分塊,然后找出主題塊。這幾種算法由于過于依賴網頁的結構和內容,因此,對于處理復雜得網頁有一定的困難。

    potala 2012-07-11   499   0
    P21

      一種新型的web頁面分析和內容提取框架 文檔

    針對HTML的半結構化特征和DOM缺乏位置信息的不足,該文提出了一種新型的Web頁面分析和內容提取框架,該框架既包括一種新型的含有位置信息的坐標樹模型,還包括能反映空間關系的圖模型,將HTML文檔轉換為坐標樹,并結合位置特征和空間關系對網頁進行分析和提取內容。

    potala 2012-07-11   3909   0
    P20

      一種基于站點資源的主題提取算法 文檔

    主題提取算法HITS算法描述HITS算法存在的缺陷相關的改進算法HAC算法算法解決的問題算法的描述實驗結果結論HITS算法描述1)Hub網頁和Authority網頁:Hub網頁即是出度高的網頁;Authority網頁即是入度高的網頁;2)好的Hub網頁指向很多好的Authority網頁;而好的Authority網頁會被很多好的Hub網頁指向。

    potala 2012-07-11   383   0
    P24

      基于文檔重排的索引壓縮技術 文檔

    它占用了搜索引擎大部分的存儲空間。隨著互聯網絡上信息量的不斷增加,索引表也在不斷的增大,帶來了許多海量數據存取以及搜索的效率等方面的問題。因此,對索引表進行壓縮,減少空間的占用,能夠更有效地利用內存,從而一定程度上解決存儲空間不足和存取速度緩慢等問題。

    potala 2012-07-09   2825   0
    P19

      全文檢索原理 文檔

    我們生活中的數據總體分為兩種:結構化數據和非結構化數據。 ? 結構化數據:指具有固定格式或有限長度的數據,如數據庫,元數據等。 ? 非結構化數據:指不定長或無固定格式的數據,如郵件,word文檔等。 當然有的地方還會提到第三種,半結構化數據,如XML,HTML等,當根據需要可按結構化數據來處理,也可抽取出純文本按非結構化數據來處理。

    jianhu01 2012-07-01   3204   0
    P36

      全文檢索系統論文 文檔

    本文首先綜述了中文全文檢索中索引構造的相關技術,主要包括索引文件數據結構、索引單位選取和索引壓縮算法。

    jianhu01 2012-07-01   3330   0
    P18

      Lucene3.1 使用教程 文檔

    我們使用Lucene,主要是做站內搜索,即對一個系統內的資源進行搜索。如BBS、BLOG中的文章搜索,網上商店中的商品搜索等。使用Lucene的項目 有Eclipse、Jira等。一般不做互聯網中資源的搜索,因為不易獲取與管理海量資源(專業搜索方向的公司除外)。 所以,學完Lucene后我們就可以為自已的系統增加全文檢索的功能。跟這個學習內容相關的練習為:為“傳智手播客貼吧”增加搜索其中的文章的功能。

    zhezi7 2012-06-19   5101   0
    P49

      中文搜索引擎核心技術揭密:中文分詞 文檔

    目前在中文搜索引擎領域,國內的搜索引擎已經和國外的搜索引擎效果上相差不遠。之所以能形成這樣的局面,有一個重要的原因就在于中文和英文兩種語言自身的書寫方式不同,這其中對于計算機涉及的技術就是中文分詞。什么是中文分詞眾所周知,英文是以詞為單位的,詞和詞之間是靠空格隔開,而中文是以字為單位,句子中所有的字連起來才能描述一個意思。例如,英文句子Iamastudent,用中文則為:“我是一個學生”。計算機可以很簡單通過空格知道student是一個單詞,但是不能很容易明白“學”、“生”兩個字合起來才表示一個詞。

    injurewolf 2012-06-15   752   0
    P84

      Solr 學習筆記 文檔

    Solr 是一種可供企業使用的、基于 Lucene 的搜索服務器,它支持層面搜索、命中醒目顯示和多種輸出格式。在這篇分兩部分的文章中,Lucene Java? 的提交人 Grant Ingersoll 將介紹 Solr 并向您展示如何輕松地將其表現優異的全文本搜索功能加入到 Web 應用程序中。 使用 Apache Solr 可以滿足所有的這些要求,它是一種開放源碼的、基于 Lucene Java 的搜索服務器,易于加入到 Web 應用程序中。Solr 提供了層面搜索、命中醒目顯示并且支持多種輸出格式(包括 XML/XSLT 和 JSON 格式)。它易于安裝和配置,而且附帶了一個基于 HTTP 的管理界面。您可以堅持使用 Solr 的表現優異的基本搜索功能,也可以對它進行擴展從而滿足企業的需要。Solr 還擁有一個活躍的開發者群體,如有需要,您可以隨時向他們尋求幫助。

    ydzkly 2012-06-15   695   0
    P11

      Firtex 索引文件分析 文檔

    索引文件的設計對整個搜索引擎的設計都至關重要,它的結構就能體現出搜索引擎的核心所在,索引文件結構設計好壞會直接體現在這個搜索引擎的性能上,平臺框架的設計也將與它息息相關。如果要深入了解整個搜索引擎,我認為熟悉它的索引文件結構是一個很有必要的工作。我們甚至可以改進索引文件結構以提高系統的性能。

    pp0011011 2012-06-13   2823   0
    P22

      軟件體系結構案例 - 搜索引擎 文檔

    實現對網頁的采集工作。開始時,程序由某一組特定的網頁開始,抽取頁面中的鏈接,同時將訪問過的網頁存儲,如此反復進行,以獲取足夠的網頁。在采集文檔的同時, 記錄各文檔的地址信息、修改時間、文檔長度等狀態信息,用于站點資源的監視和資料庫的更新。在采集過程中,還可以構造適當的啟發策略,來指導機器人的路徑選擇和采集范圍,以減少文檔采集的盲目性。

    flashxing 2012-06-11   492   0
    P18

      Lucene 3.0 教程 文檔

    我們使用Lucene,主要是做站內搜索,即對一個系統內的資源進行搜索。如BBS、BLOG中的文章搜索,網上商店中的商品搜索等。使用Lucene的項目 有Eclipse、Jira等。一般不做互聯網中資源的搜索,因為不易獲取與管理海量資源(專業搜索方向的公司除外)。 所以,學完Lucene后我們就可以為自已的系統增加全文檢索的功能。跟這個學習內容相關的練習為:為“傳智手播客貼吧”增加搜索其中的文章的功能。

    xb6boy 2012-06-06   392   0
    P45

      Lucene開發部署指導手冊 文檔

    本手冊首先介紹了Lucene的概念,詳細描述了簡單快速地將Lucene融入WEBDT運行平臺并進行實際開發的方法,使技術人員對Lucene有一個概要性的框架認識,為下一步開發工作奠定基礎。

    whb0229 2012-06-05   429   0
    P21

      搜索引擎系統學習與開發總結-相生昌 文檔

    現代意義上的搜索引擎的祖先,是1990年由蒙特利爾大學學生Alan Emtage發明的Archie。雖然當時World Wide Web還未出現,但網絡中文件傳輸還是相當頻繁的,而且由于大量的文件散布在各個分散的FTP主機中,查詢起來非常不便,因此Alan Emtage想到了開發一個可以以文件名查找文件的系統,于是便有了Archie。

    Baggio 2012-06-02   2924   0
    1 2 3 4 5 6 7 8 9 10

    關鍵詞

    最新上傳

    熱門文檔

  • sesese色