"結巴"中文分詞的C++版本:CppJieba
簡介
CppJieba是"結巴"中文分詞的C++版本
特性
- 源代碼都寫進頭文件
src/*.hpp
里,include
即可使用。 - 支持
utf-8, gbk
編碼,但是推薦使用utf-8
編碼, 因為gbk
編碼缺少嚴格測試,慎用。 - 內置分詞服務
server/server.cpp
,在linux環境下可安裝使用。 - 項目自帶較為完善的單元測試,核心功能中文分詞(utf8)的穩定性接受過線上環境檢驗。
- 支持載自定義用戶詞典。
- 支持
linux
,mac osx
操作系統。 - 支持
Docker
。
應用
關于CppJieba的跨語言包裝使用
收到郵件詢問跨語言包裝(ios應用開發)使用的問題,這方面我沒有相關的經驗,建議參考如下python使用cppjieba的項目:
jannson 開發的供 python模塊調用的項目 cppjiebapy , 和相關討論 cppjiebapy_discussion .
NodeJieba
如果有需要在node.js
中使用分詞,不妨試一下NodeJieba。
simhash
如果有需要在處理中文文檔的的相似度計算,不妨試一下simhash。
exjieba
如果有需要在erlang
中使用分詞的話,不妨試一下exjieba。
jiebaR
如果有需要在R
中使用分詞的話,不妨試一下jiebaR。
libcppjieba
libcppjieba 是最簡單易懂的CppJieba頭文件庫使用示例。
keyword_server
KeywordServer 50行搭建一個中文關鍵詞抽取服務。
ngx_http_cppjieba_module
如果有需要在Nginx
中使用分詞模塊的話,不妨試一下ngx_http_cppjieba_module.
線上演示
http://cppjieba-webdemo.herokuapp.com/ (建議使用chrome打開)
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!