Java實現的垂直搜索引擎系統:DDH

wenbinglei 11年前發布 | 37K 次閱讀 DDH 垂直搜索引擎 開源 Java 搜索引擎

DDH垂直搜索引擎,是目前互聯網中唯一可以商業運作的垂直搜索引擎系統,由JAVA語言開發,可以運行在大規模集群中的網絡信息整合系統。DDH整合Nutch(開源搜索引擎系統),UCI(網頁信息抽取系統)和SOLR(企業級搜索應用服務器)。無論從可擴展性,系統的性能方面還是穩定性方面,DDH垂直搜索引擎系統,都可以算的上頂級垂直搜索引擎系統之一。

DDH垂直搜索引擎系統是一個Java實現的垂直搜索引擎系統,是一套整合了Nutch/UCI/SOLR的網絡信息整合系統。借助DDH你可以快速構建多領域的垂直搜索引擎系統。目前DDH整合了Nutch2.2.1+UCI1.0+SOLR4。需要運行在Linux平臺下。

DDH對Nutch做的調整
1: 加入了爬蟲控制。可以根據用戶的需要控制爬蟲的抓取地址和路徑。
2: 加入了信息分類功能。Nutch只對網頁進行抓取,DDH在此基礎上進行了信息分類調整,這樣才能適用于不同的垂直搜索引擎系統。只需要輸入類別編碼,就能對爬蟲進行控制。URL自動識別,大幅度提高了爬取效率。
3: 加入了索引數據分類功能。Nutch只是對網頁進行了文字提取處理,而垂直搜索系統需要在網頁信息抽取的基礎上,指定索引路徑進行提交。而且不符合要求的網頁不會提交給索引,大幅度提高了索引效率。


DDH加入了UCI網頁信息抽取系統
UCI可以對網頁信息進行精確抽取,而且不受目標網頁代碼的限制,特別適合垂直搜索引擎使用。
UCI網頁信息抽取技術,是一種適用于億級數量的智能網頁信息抽取技術,主要適用于互聯網信息整合和搜索引擎中網頁信息的提取。

DDH對Solr的調整
對Solr的schema.xml的用戶定義字段類型及字段的配置文件進行了重新配置,使得適合垂直搜索引擎的使用。并加入了中文分詞功能。
垂直搜索-樓盤信息-運行展示圖.jpg
uci網頁抽取-結果-運行展示圖.jpg

項目主頁:http://www.baiduhome.net/lib/view/home/1375344706624

 本文由用戶 wenbinglei 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!