genius中文分詞
genius中文分詞,是基于crf條件隨機場的分組件
Feature
- 支持pinyin分詞
- 支持用戶自定義break
- 支持用戶自定義詞典
- 支持詞性標注
Install
- 安裝git: 1) ubuntu or debian apt-get install git 2) fedora or redhat yum install git
- 升級setuptools: pip install easy_install --upgrade
- 升級pip: pip install pip --upgrade
- pip install genius
- 通過import genius來引用
Algorithm
- 采用trie樹進行詞典查找
- 基于wapiti實現條件隨機場分詞
- 可以通過genius.loader.ResourceLoader來重載默認的字典
功能 1):分詞genius.seg_text方法
- genius.seg_text函數接受5個參數:
- text第一個參數為需要分詞的字符
- use_break代表對分詞結構進行打斷處理
- use_combine代表是否使用字典進行詞合并
- use_tagging代表是否進行詞性標注
- use_pinyin_segment代表是否對拼音進行分詞處理
代碼示例( 全功能分詞 )
#encoding=utf-8 import genius seg_list = genius.seg_text( u'中國人民站起來了pinyin', use_combine=True, use_pinyin_segment=True, use_tagging=True) print '\n'.join(seg_list)
功能 2):面向索引分詞
- genius.seg_keywords方法專門為搜索引擎索引準備,保留歧義分割。
- text第一個參數為需要分詞的字符
- use_break代表對分詞結構進行打斷處理
- use_tagging代表是否進行詞性標注
- use_pinyin_segment代表是否對拼音進行分詞處理
- 由于合并操作與此方法有意義上的沖突,此方法并不提供合并功能;并且如果采用此方法做索引時候,檢索時不推薦genius.seg_text使用use_combine=True參數。
代碼示例
#encoding=utf-8 import genius seg_list = genius.seg_keywords(u'中國人民站起來了pinyin') print '\n'.join(seg_list)
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!