Lucene的分析過程

jopen 13年前發布 | 71K 次閱讀 Lucene 搜索引擎

回顧倒排索引的構建

注：詳細文檔->倒排索引的理論過程見詞項詞典及倒排記錄表

分析操作的使用場景

1.如上，倒排索引的構建階段

2.針對自由文本的查詢階段

QueryParser parser = new QueryParser(Version.LUCENE_36, field, analyzer);

Query query = parser.parse(queryString);

lucene的Analyzer接收表達式queryString中連續的獨立的文本片段，但不會接收整個表達式。

例如：對查詢語句"president obama" + harvard + professor，QueryParser會3次調用分析器，首先是處理文本“president obama”，然后是文本“harvard”，最后處理“professor”。

3.搜索結果中高亮顯示被搜索內容時（即結果摘要-Snippets的生成），也可能會用到分析操作

剖析lucene分析器

抽象類Analyzer

Analyzer類是一個抽象類，是所有分析器的基類。

其主要包含兩個接口，用于生成TokenStream（所謂TokenStream，后面我們會講到，是一個由分詞后的Token 結果組成的流，能夠不斷的得到下一個分成的Token。）。

接口：

1.TokenStream tokenStream(String fieldName, Reader reader)

2.TokenStream reusableTokenStream(String fieldName, Reader reader)

為了提高性能，使得在同一個線程中無需再生成新的TokenStream 對象，老的可以被重用，所以有reusableTokenStream 一說。

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！