• P7

      搜索引擎索引原理 文檔

    搜索引擎原理全文索引:根據搜索結果來源的不同,全文搜索引擎可分為兩類:一類擁有自己的網頁抓取、索引、檢索系統(Indexer),有獨立的“蜘蛛”(Spider)程序、或爬蟲(Crawler)、或“機器人”(Robot)程序(這三種稱法意義相同),能自建網頁數據庫,搜索結果直接從自身的數據庫中調用,Google和百度就屬于此類。另一類則是租用其他搜索引擎的數據庫,并按自定的格式排列搜索結果,如Lycos搜索引擎。

    mww8 2015-06-28   5254   0
    P12

      復雜的1秒圖解google搜索技術 文檔

    在你點擊了Google搜索按鈕之后到看到結果這不足1秒鐘的時間內,它做了什么?大家不妨看看谷歌搜索流程圖,這張流程圖展示了每天擁有3億次點擊量的Google搜索按鈕背后搜索引擎在那不到1秒的響應時間內所進行的處理。

    b455 2015-06-18   425   0
    P43

      Building a Real time, Solr-powered Recommendation Engine 文檔

    Overview of Search & Matching Concepts Recommendation Approaches in Solr: Attribute-based Hierarchical Classification Concept-based More-like-this Collaborative Filtering Hybrid Approaches

    cff2 2015-05-17   2675   0
    P43

      Building a Real-time, Solr-powered Recommendation Engine 文檔

    Overview of Search & Matching Concepts Recommendation Approaches in Solr: Attribute-based Hierarchical Classification Concept-based More-like-this Collaborative Filtering Hybrid Approaches Important Considerations & Advanced Capabilities

    xw56 2015-04-30   2120   0
    P23

      Lucene 3.0 實戰 文檔

    全文檢索(Full-Text Retrieval)是指以文本作為檢索對象,找出含有指定詞匯的文本。全面、準確和快速是衡量全文檢索系統的關鍵指標。 關于全文檢索,我們要知道:1,只處理文本。2,不處理語義。3,搜索時英文不區分大小寫。4,結果列表有相關度排序。 在信息檢索工具中,全文檢索是最具通用性和實用性的。

    煙波天客 2015-03-18   2776   0
    P

    Lucene 3.0.0 API 文檔 文檔

    Apache Lucene是一個高性能,功能完整的文本搜索引擎庫。

    gongjinxun 2015-01-02   457   0
    P

    Apache Solr 4.2.0 文檔 文檔

    Apache Solr 是一個高性能,采用Java5開發,基于Lucene的全文搜索服務器。Solr是一個開源的企業級搜索服務器,底層使用易于擴展和修改的Java來實現。服務器通信使用標準的HTTP和XML,所以如果使用Solr了解Java技術會有用卻不是必須的要求。 Solr主要特性有:強大的全文檢索功能,高亮顯示檢索結果,動態集群,數據庫接口和電子文檔(Word,PDF等)的處理。而且Solr具有高度的可擴展,支持分布搜索和索引的復制。

    songhappy 2014-12-17   891   0
    P28

      基于lucene的搜索引擎 文檔

    引言本文用lucene和Heritrix構建了一個Web搜索應用程序Lucene是基于Java的全文信息檢索包,它目前是ApacheJakarta家族下面的一個開源項目。Lucene很強大,但是,無論多么強大的搜索引擎工具,在其后臺,都需要一樣東西來支援它,那就是網絡爬蟲Spider。網絡爬蟲,又被稱為蜘蛛Spider,或是網絡機器人、BOT等,這些都無關緊要,最重要的是要認識到,由于爬蟲的存在,才使得搜索引擎有了豐富的資源。Heritrix是一個純由Java開發的、開源的Web網絡爬蟲,用戶可以使用它從網絡上抓取想要的資源。

    2804915145 2014-11-29   681   0
    P23

      馬超 - 旅游行業垂直搜索的架構 文檔

    旅游行業垂直搜索的挑戰整體架構語義解析&查詢改寫相關性&排序實時數據更新旅游行業垂直搜索的挑戰產品設計上具有較強的引導性,難以滿足目標不明確的用戶需求產品種類繁多,差異化不明顯,用戶選擇難度較大旅游屬于服務行業,服務的價值不能直觀的展現,如何挑選出最具性價比的產品產品價格和庫存,跟日期、地點強相關,數據更新量大挑戰目錄旅游行業垂直搜索的挑戰整體架構語義解析&查詢改寫相關性

    dfwm 2014-10-19   602   0
    P63

      開源企業搜索引擎SOLR的應用教程 文檔

    Apache Solr 是一個開源的搜索服務器,Solr 使用 Java 語言開發,主要基于 HTTP 和 Apache Lucene 實現。定制 Solr 索引的實現方法很簡單,用 POST 方法向 Solr 服務器發送一個描述所有 Field 及其內容的 XML 文檔就可以了。定制搜索的時候只需要發送 HTTP GET 請求即可,然后對 Solr 返回的信息進行重新布局,以產生利于用戶理解的頁面內容布局。Solr 1.3 版本開始支持從數據庫(通過 JDBC)、RSS 提要、Web 頁面和文件中導入數據,但是不直接支持從二進制文件格式中提取內容,比如 MS Office、Adobe PDF 或其他專有格式。[可以通過工具從中提取文本信息然后再導入] 更重要的是,Solr 創建的索引與 Lucene 搜索引擎庫完全兼容。通過對 Solr 進行適當的配置,某些情況下可能需要進行編碼,Solr 可以閱讀和使用構建到其他 Lucene 應用程序中的索引。

    abert 2014-09-18   408   0
    P21

      搜索和大數據 文檔

    搜索是大數據的一大成功應用大數據的一大核心技術是搜索大數據的特性Volume(大量)Variety(多樣)Velocity(高速)Value(價值)搜索是大數據應用Volume大于200BPages,平均20KB/Page,PB以上數據Variety網頁,圖片,視頻,應用,聲音,文本,結構化,半結構化,多媒體,微博,微信,feedVelocityUGC,郵件,貼子,Hadoop,Storm,SparkValue搜索的價值,日志分析,用戶行為,閱讀習慣,流感大數據核心技術:搜索搜索提供了數據處理框架:收集,記錄,清洗,抽取,標注,整合,聚類,表達,分析,建模,解釋搜索將數據去偽存真,有序化搜索讓數據按需可用搜索分析方法和價值搜索流程收集分析索引檢索反饋評估分析:抽取,標注,整合,聚類,表達,分析,建模,解釋Volume技術數據收集:爬蟲數據處理:分而治之,并行(MapReduce)數據存儲:Block,Shard(HDFS)爬蟲(一般)爬蟲(優化)

    uiu33 2014-09-13   3294   0
    P51

      Nutch 源代碼 文檔

    inject操作調用的是nutch的核心包之一crawl包中的類Injector。 inject操作主要作用: 1.? 將URL集合進行格式化和過濾,消除其中的非法URL,并設定URL狀態(UNFETCHED),按照一定方法進行初始化分值; 2. 將URL進行合并,消除重復的URL入口; 3.? 將URL及其狀態、分值存入crawldb數據庫,與原數據庫中重復的則刪除舊的,更換新的。

    n8cx 2014-08-24   3011   0
    P18

      Nutch 安裝使用 文檔

    ?做完之前的實做,已經對hadoop有一定的體驗,然而各位也許心中有些疑問,就是我學了hadoop到底可以用來..?,因此在此介紹一個hadoop的應用,搜尋引擎nutch ?此篇的重點在於 o完整的安裝nutch o用hadoop的角度來架設nutch o解抉中文亂碼問題 o搜尋引擎不只是找網頁內的資料,也能爬到網頁內的檔案(如pdf,msword) o也可運行在多臺node

    n8cx 2014-08-24   3417   0
    P7

      solr 使用安裝介紹 文檔

    前些日子做了個apache solr應用的入門介紹,也在博客記錄下,方便新手看看。以搜索論壇帖子為示例。

    hwz8407 2014-08-15   4110   0
    P8

      Lucene.net基本應用 文檔

    Lucene.net基本應用

    240996650 2014-07-30   2538   0
    P1

      Solr配置詳解 文檔

    Solr配置步驟安裝JDK安裝Tomcat配置Solr,目前最新版本Solr4.4,具體配置如下:(1)解壓Solr4.4,創建Solr目錄。

    240996650 2014-07-30   496   0
    P10

      elasticsearch學習入門 文檔

    這幾年,搜索的開發門檻越來越低,每個語言都有開源的檢索工具包,而且功能越來越全,完整的解決方案也越來越多、越來越好用,比如lucene上就有solr, elasticsearch, sensei等。它們對于絕大部分的需求應該說都覆蓋了,解放了直接在檢索工具包上的開發工作量,讓人可以更多關注業務上的開發。個人比較看好elasticsearch(簡稱ES),ES的使用非常簡單,讓人感覺更多地在使用一個Nosql,而且允許很多插件功能可以自己開發。我們可以很容易通過rest客戶端去測試ES,因此學習起來很容易。

    wuce7758 2014-07-14   7570   0
    P

    Lucene 4.6 API 文檔 文檔

    Lucene是一套用于全文檢索和搜尋的開源程式庫,由Apache軟件基金會支持和提供。Lucene提供了一個簡單卻強大的應用程式接口,能夠做全文索引和搜尋。在Java開發環境里Lucene是一個成熟的免費開源工具。就其本身而言,Lucene是當前以及最近幾年最受歡迎的免費Java資訊檢索程式庫。?人們經常提到資訊檢索程式庫,雖然與搜索引擎有關,但不應該將資訊檢索程式庫與搜索引擎相混淆。?<br> ?全文檢索服務主要由兩大部門構成:索引器及搜索器。索引器主要負責對文件名稱及文件內容進行分詞,并創建索引表。搜索器負責檢索索引表,獲取相關內容信息,并顯示

    guoshun 2014-07-08   546   0
    P5

      Apache Solr 初級教程 文檔

    (介紹、安裝部署、Java接口、中文分詞) Apache Solr 介紹 Solr 是什么?   Solr 是一個開源的企業級搜索服務器,底層使用易于擴展和修改的Java 來實現。服務器通信使用標準的HTTP 和XML,所以如果使用Solr 了解Java 技術會有用卻不是必須的要求。 Solr 主要特性有:強大的全文檢索功能,高亮顯示檢索結果,動態集群,數據庫接口和電子文檔(Word ,PDF 等)的處理。而且Solr 具有高度的可擴展,支持分布搜索和索引的復制。

    ainubis 2014-06-27   5072   0
    P13

      基于搜索引擎優化的策略研究 文檔

    本文從搜索引擎談起,介紹了其工作流程以及出現的一些實際問題,從而提出搜索引擎優化。在介紹了搜索引擎優化定義、目的以及價值后,從搜索引擎優化自身的發展、用戶行為分析、基于Z39.50的元搜索引擎的應用等方面,對搜索引擎優化的策略進行系統的總結,并針對這三種優化策略提出一系列具體的優化方法,搜索引擎技術優化、個性化服務的豐富與完善、大力發展特色搜索引擎等等。最后,對搜索引擎優化的發展前景進行了展望與總結。

    GreenYue 2014-06-08   3842   0
    1 2 3 4 5 6 7 8 9 10

    關鍵詞

    最新上傳

    熱門文檔

  • sesese色