"結巴"中文分詞的C++版本:CppJieba

jopen 10年前發布 | 80K 次閱讀 中文分詞

簡介

CppJieba是"結巴"中文分詞的C++版本

特性

  • 源代碼都寫進頭文件src/*.hpp里,include即可使用。
  • 支持utf-8, gbk編碼,但是推薦使用utf-8編碼, 因為gbk編碼缺少嚴格測試,慎用。
  • 內置分詞服務server/server.cpp,在linux環境下可安裝使用。
  • 項目自帶較為完善的單元測試,核心功能中文分詞(utf8)的穩定性接受過線上環境檢驗。
  • 支持載自定義用戶詞典。
  • 支持 linux , mac osx 操作系統。
  • 支持 Docker

應用

關于CppJieba的跨語言包裝使用

收到郵件詢問跨語言包裝(ios應用開發)使用的問題,這方面我沒有相關的經驗,建議參考如下python使用cppjieba的項目:

jannson 開發的供 python模塊調用的項目 cppjiebapy , 和相關討論 cppjiebapy_discussion .

NodeJieba

如果有需要在node.js中使用分詞,不妨試一下NodeJieba

simhash

如果有需要在處理中文文檔的的相似度計算,不妨試一下simhash

exjieba

如果有需要在erlang中使用分詞的話,不妨試一下exjieba

jiebaR

如果有需要在R中使用分詞的話,不妨試一下jiebaR

libcppjieba

libcppjieba 是最簡單易懂的CppJieba頭文件庫使用示例。

keyword_server

KeywordServer 50行搭建一個中文關鍵詞抽取服務

ngx_http_cppjieba_module

如果有需要在Nginx中使用分詞模塊的話,不妨試一下ngx_http_cppjieba_module.

線上演示

http://cppjieba-webdemo.herokuapp.com/ (建議使用chrome打開)


項目主頁:http://www.baiduhome.net/lib/view/home/1418465734761

 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!