genius中文分詞

jopen 12年前發布 | 19K 次閱讀中文分詞

genius中文分詞，是基于crf條件隨機場的分組件

Feature

支持pinyin分詞
支持用戶自定義break
支持用戶自定義詞典
支持詞性標注

Install

安裝git: 1) ubuntu or debian apt-get install git 2) fedora or redhat yum install git
升級setuptools: pip install easy_install --upgrade
升級pip: pip install pip --upgrade
pip install genius
通過import genius來引用

Algorithm

采用trie樹進行詞典查找
基于wapiti實現條件隨機場分詞
可以通過genius.loader.ResourceLoader來重載默認的字典

功能 1)：分詞genius.seg_text方法

genius.seg_text函數接受5個參數:
text第一個參數為需要分詞的字符
use_break代表對分詞結構進行打斷處理
use_combine代表是否使用字典進行詞合并
use_tagging代表是否進行詞性標注
use_pinyin_segment代表是否對拼音進行分詞處理

代碼示例( 全功能分詞 )

#encoding=utf-8
import genius

seg_list = genius.seg_text(
    u'中國人民站起來了pinyin',
    use_combine=True,
    use_pinyin_segment=True,
    use_tagging=True)
print '\n'.join(seg_list)

功能 2)：面向索引分詞

genius.seg_keywords方法專門為搜索引擎索引準備，保留歧義分割。
text第一個參數為需要分詞的字符
use_break代表對分詞結構進行打斷處理
use_tagging代表是否進行詞性標注
use_pinyin_segment代表是否對拼音進行分詞處理
由于合并操作與此方法有意義上的沖突，此方法并不提供合并功能；并且如果采用此方法做索引時候，檢索時不推薦genius.seg_text使用use_combine=True參數。

代碼示例

#encoding=utf-8
import genius

seg_list = genius.seg_keywords(u'中國人民站起來了pinyin')
print '\n'.join(seg_list)

項目主頁：http://www.baiduhome.net/lib/view/home/1377158215709

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/lib/view/open1377158215709.html

中文分詞

genius中文分詞

相關經驗

相關資訊

相關文檔

目錄