phpSplit - PHP 中文分詞包
phpSplit 是一個基于php開發的中文分詞庫。
居于Unicode編碼詞典的php分詞器
-
只適用于php5,必要函數 iconv
-
本程序是使用RMM逆向匹配算法進行分詞的,詞庫需要特別編譯,本類里提供了 MakeDict() 方法
-
簡單操作流程: SetSource -> StartAnalysis -> GetResult
-
對主詞典使用特殊格式進行編碼, 不需要載入詞典到內存操作
使用
-
首先 確保使用php為5.3+
-
安裝composer
composer install
require __DIR__ .'/vendor/autoload.php'; $split = new Split(); var_dump( $split->simple("您好 phpSplit")); $this->assertTrue(True);
array(3) { [0] => string(0) "" [1] => string(6) "您好" [2] => string(8) "phpSplit" }
分詞結果后綴說明
名詞n、時間詞t、處所詞s、方位詞f、數詞m、量詞q、區別詞b、代詞r、動詞v、形容詞a、狀態詞z、副詞d、介詞p、連詞c、助詞u、語氣詞y、嘆詞e、擬聲詞o、成語i、習用語l、簡稱j、前接成分h、后接成分k、語素g、非語素字x、標點符號w
同事增加了以下3類標記 *專有名詞的分類標記,即人名nr,地名ns,團體機關單位名稱nt,其他專有名詞nz; *語素的子類標記,即名語素Ng,動語素Vg,形容語素Ag,時語素Tg,副語素Dg等; *動詞和形容詞的子類標記,即名動詞vn(具有名詞特性的動詞),名形詞an(具有名詞特性的形容詞),副動詞vd(具有副詞特性的動詞),副形詞ad(具有副詞特性的形容詞)
合計約40個左右。
歡迎大家完善
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!