Ansj 中文分詞
這是一個ictclas的java實現.基本上重寫了所有的數據結構和算法.詞典是用的開源版的ictclas所提供的.并且進行了部分的人工優化
內存中中文分詞每秒鐘大約100萬字(速度上已經超越ictclas)
文件讀取分詞每秒鐘大約30萬字
準確率能達到96%以上
目前實現了.中文分詞. 中文姓名識別 . 用戶自定義詞典
可以應用到自然語言處理等方面,適用于對分詞效果要求搞的各種項目.
如果你第一次下載只想測試測試效果可以調用這個簡易接口
String str = "歡迎使用ansj_seg,(ansj中文分詞)在這里如果你遇到什么問題都可以聯系我.我一定盡我所能.幫助大家.ansj_seg更快,更準,更自由!" ;
System.out.println(ToAnalysis.paser(str));
?[歡迎/, 使用/, ansj/, /, seg/, ,/, (/, ansj/, 中文/, 分詞/, )/, 在/, 這里/, 如果/, 你/, 遇到/, 什么/, 問題/, 都/, 可以/, 聯系/, 我/, 房/, 我/, 一定/, 盡/, 我/, 所/, 能/, ./, 幫助/, 大家/, ./, ansj/, /, seg/, 更/, 快/, ,/, 更/, 準/, ,/, 更/, 自由/, !/]</code></pre>
這是一個簡單的分詞效果,你可以在test目錄中找到他.當然.個別奇異性的處理無法代表整體分詞.僅做參考
[腳下/f, 的/uj, 一大/j, 塊/q, 方磚/n, 地面/n]
[長春/ns, 市長/n, 春節/t, 講話/n]
[結婚/v, 的/uj, 和/c, 尚未/d, 結婚/v, 的/uj]
[結合/v, 成/v, 分子/n, 時/ng]
[旅游/vn, 和/c, 服務/vn, 是/v, 最/d, 好/a, 的/uj]
[鄧穎/nr, 超生/v, 前/f, 最/d, 喜歡/v, 的/uj, 一個/m, 東西/n]
[中國/ns, 航天/n, 官員/n, 應邀/v, 到/v, 美國/ns, 與/p, 太空/s, 總署/n, 官員/n, 開會/v]
[上海/ns, 大學城/n, 書店/n]
[北京/ns, 大/a, 學生/n, 前來/v, 應聘/v]
[中外/j, 科學/n, 名著/n]
[為/p, 人民/n, 服務/vn]
[獨立自主/i, 和/c, 平等互利/l, 的/uj, 原則/n]
[為/p, 人民/n, 辦/v, 公益/n]
[這/r, 事/n, 的/uj, 確定/v, 不/d, 下來/v]
[費孝/nr, 通向/v, 人大常委會/nt, 提交/v, 書面/b, 報告/n]
[aaa/en, 分/q, 事實上/l, 發貨/v, 丨/null, 和/c, 無/v, 哦/e, 喝/vg, 完/v, 酒/n]
[不好意思/a, 清清爽爽/z]
[長春市/ns, 春節/t, 講話/n]
[中華人民共和國/ns, 萬歲/n, 萬歲/n, 萬萬歲/n]
[檢察院/n, 鮑紹/nr, 檢察長/n, 就是/d, 在/p, 世/ng, 諸葛/nr, ./m, 像/v, 諸葛亮/nr, 一樣/u, 聰明/a]
[長春市/ns, 長春/ns, 藥店/n]
[乒乓球拍/n, 賣/v, 完/v, 了/ul]
[計算機/n, 網絡管理員/n, 用/p, 虛擬機/userDefine, 實現/v, 了/ul, 手機/n, 游戲/n, 下載/v, 和/c, 開源/v, 項目/n, 的/uj, 管理/vn, 金山/nz, 毒霸/nz]
[長春市/ns, 長春/ns, 藥店/n]
[胡錦濤/nr, 與/p, 神/n, 九/m, 航天員/n, 首次/m, 實現/v, 天地/n, 雙向/d, 視頻/n, 通話/v]
[mysql/en, 不/d, 支持/v, /null, 同臺/v, 機器/n, 兩個/m, mysql/en, 數據庫/n, 之間/f, 做/v, 觸發器/n]
[孫建/nr, 是/v, 一個/m, 好/a, 人/n, ./m, 他/r, 和/c, 蔡晴/nr, 是/v, 夫妻/n, 兩/m, /null, ,/null, 對于/p, 每/r, 一本/m, 好書/n, 他/r, 都/d, 原意/n, 一一/d, 讀取/v, ../m, 他們/r, 都/d, 很/d, 喜歡/v, 元宵/n, ./m, 康燕/nr, 和/c, 他們/r, 住/v, 在/p, 一起/s, ./m, 我/r, 和/c, 馬春亮/nr, ,/null, 韓鵬飛/nr, 都/d, 是/v, 好/a, 朋友/n, ,/null, 不/d, 知道/v, 什么/r, 原因/n]
[一年/m, 有/v, 三百六十五個/m, 日出/v, /null, 我/r, 送/v, 你/r, 三百六十五個/m, 祝福/vn, /null, 時鐘/n, 每天/r, 轉/v, 了/ul, 一千四百四十圈/m, 我/r, 的/uj, 心/n, 每天/r, 都/d, 藏/v, 著/uz, /null, 一千四百四十多個/m, 思念/v, /null, 每/r, 一天/m, 都/d, 要/v, 祝/v, 你/r, 快快樂樂/z, /null, /null, 每/r, 一分鐘/m, 都/d, 盼望/v, 你/r, 平平安安/z, /null, 吉祥/n, 的/uj, 光/n, 永遠/d, 環繞/v, 著/uz, 你/r, /null, 像/v, 那/r, 旭日東升/l, 燦爛/a, 無比/z, /null]
[學校/n, 學費/n, 要/v, 一次性/d, 交/v, 一千元/m]
[發展/vn, 中國/ns, 家庭/n, 養豬/v, 事業/n]
[安徽省/ns, 是/v, 一個/m, 發展/vn, 中/f, 的/uj, 省/n]
[北京理工大學/nt, 辦事處/n]
[審訊室/n, 里/f, 一直/d, 陪/v, 著/uz, 我們/r, 的/uj, 兩個/m, 警察/n]
[一只/m, 胳膊/n, 兩個/m, 警察/n]
[c/en, 語言/n, 怎么/r, 讀寫/v, ini/en, 文件/n]
[關卡/n, 編輯器/n]
[eclipse/en, /null, 多/m, 項目/n, 依賴/v]
[蒼/nr, 老師/n, 是/v, 一個/m, 好/a, 人/n]
[h/en, 歡/a, h/en, 迎/v, help/en, 使用/v]
[程序員/n, 祝/v, 海林/ns, 和/c, 朱會震/nr, 是/v, 在/p, 孫健/nrfg, 的/uj, 左面/f, 和/c, 右面/f, ./m, 范凱/nr, 在/p, 最/d, 右面/f, ./m, 再/d, 往/p, 左/f, 是/v, 李松/nrfg, 洪/nr]
</code></div>
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!