PHP 中文分詞包:phpSplit

jopen 9年前發布 | 36K 次閱讀 phpSplit 中文分詞

phpSplit 是一個基于php開發的中文分詞庫。

居于Unicode編碼詞典的php分詞器

  • 只適用于php5,必要函數 iconv

  • 本程序是使用RMM逆向匹配算法進行分詞的,詞庫需要特別編譯,本類里提供了 MakeDict() 方法

  • 簡單操作流程: SetSource -> StartAnalysis -> GetResult

  • 對主詞典使用特殊格式進行編碼, 不需要載入詞典到內存操作

使用

  • 首先 確保使用php為5.3+

  • 安裝composer

composer install
require __DIR__ .'/vendor/autoload.php';
$split = new Split();
var_dump( $split->simple("您好 phpSplit"));
$this->assertTrue(True);
array(3) {
  [0] =>
  string(0) ""
  [1] =>
  string(6) "您好"
  [2] =>
  string(8) "phpSplit"
}

分詞結果后綴說明

名詞n、時間詞t、處所詞s、方位詞f、數詞m、量詞q、區別詞b、代詞r、動詞v、形容詞a、狀態詞z、副詞d、介詞p、連詞c、助詞u、語氣詞y、嘆詞e、擬聲詞o、成語i、習用語l、簡稱j、前接成分h、后接成分k、語素g、非語素字x、標點符號w

同事增加了以下3類標記 *專有名詞的分類標記,即人名nr,地名ns,團體機關單位名稱nt,其他專有名詞nz; *語素的子類標記,即名語素Ng,動語素Vg,形容語素Ag,時語素Tg,副語素Dg等; *動詞和形容詞的子類標記,即名動詞vn(具有名詞特性的動詞),名形詞an(具有名詞特性的形容詞),副動詞vd(具有副詞特性的動詞),副形詞ad(具有副詞特性的形容詞)

合計約40個左右。

項目主頁:http://www.baiduhome.net/lib/view/home/1448200861473

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!