Java實現的垂直搜索引擎系統:DDH
DDH垂直搜索引擎,是目前互聯網中唯一可以商業運作的垂直搜索引擎系統,由JAVA語言開發,可以運行在大規模集群中的網絡信息整合系統。DDH整合Nutch(開源搜索引擎系統),UCI(網頁信息抽取系統)和SOLR(企業級搜索應用服務器)。無論從可擴展性,系統的性能方面還是穩定性方面,DDH垂直搜索引擎系統,都可以算的上頂級垂直搜索引擎系統之一。
DDH垂直搜索引擎系統是一個Java實現的垂直搜索引擎系統,是一套整合了Nutch/UCI/SOLR的網絡信息整合系統。借助DDH你可以快速構建多領域的垂直搜索引擎系統。目前DDH整合了Nutch2.2.1+UCI1.0+SOLR4。需要運行在Linux平臺下。
DDH對Nutch做的調整
1: 加入了爬蟲控制。可以根據用戶的需要控制爬蟲的抓取地址和路徑。
2: 加入了信息分類功能。Nutch只對網頁進行抓取,DDH在此基礎上進行了信息分類調整,這樣才能適用于不同的垂直搜索引擎系統。只需要輸入類別編碼,就能對爬蟲進行控制。URL自動識別,大幅度提高了爬取效率。
3: 加入了索引數據分類功能。Nutch只是對網頁進行了文字提取處理,而垂直搜索系統需要在網頁信息抽取的基礎上,指定索引路徑進行提交。而且不符合要求的網頁不會提交給索引,大幅度提高了索引效率。
DDH加入了UCI網頁信息抽取系統
UCI可以對網頁信息進行精確抽取,而且不受目標網頁代碼的限制,特別適合垂直搜索引擎使用。
UCI網頁信息抽取技術,是一種適用于億級數量的智能網頁信息抽取技術,主要適用于互聯網信息整合和搜索引擎中網頁信息的提取。
DDH對Solr的調整
對Solr的schema.xml的用戶定義字段類型及字段的配置文件進行了重新配置,使得適合垂直搜索引擎的使用。并加入了中文分詞功能。