Java中文分詞器Ansj的使用
以前都是用C++對中文進行分詞,也用過Python的“結巴”分詞,最近用了一下Java的Ansj中文分詞,感覺還不錯。
下面是用Ansj對中文進行分詞的一個簡單例子,希望能對大家有用。
1.下載Ansj的相關jar包
要用Ansj進行中文分詞,必須先下載Ansj的jar包,下載地址可以參考:https://github.com/NLPchina/ansj_seg
2.程序代碼
用Ansj進行中文分詞的簡單代碼如下所示:
import org.ansj.splitWord.analysis.ToAnalysis; public class SplitWordsByAnsj { public static void main(String[] args) { String words = "中國是世界四大文明古國之一,有著悠久的歷史,距今約5000年前,以中原地區為中心開始出現聚落組織進而成國家和朝代,后歷經多次演變和朝代更迭,持續時間較長的朝代有夏、商、周、漢、晉、唐、宋、元、明、清等。中原王朝歷史上不斷與北方游牧民族交往、征戰,眾多民族融合成為中華民族。20世紀初辛亥革命后,中國的君主政體退出歷史舞臺,取而代之的是共和政體。1949年中華人民共和國成立后,在中國大陸建立了人民代表大會制度的政體。中國有著多彩的民俗文化,傳統藝術形式有詩詞、戲曲、書法和國畫等,春節、元宵、清明、端午、中秋、重陽等是中國重要的傳統節日。"; System.out.println(ToAnalysis.parse(words)); } }
3.分詞結果
例子中對那一段中文的分詞結果如下所示:
[中國, 是, 世界, 四, 大, 文明, 古, 國, 之一, ,, 有著, 悠久, 的, 歷史, ,, 距, 今, 約, 5000, 年前, ,, 以, 中原, 地區, 為, 中心, 開始, 出現, 聚落, 組織, 進而, 成, 國家, 和, 朝代, ,, 后, 歷經, 多次, 演變, 和, 朝代, 更迭, ,, 持續, 時間, 較, 長, 的, 朝代, 有, 夏, 、, 商, 、, 周, 、, 漢, 、, 晉, 、, 唐, 、, 宋, 、, 元, 、, 明, 、, 清, 等, 。, 中原, 王朝, 歷史, 上, 不斷, 與, 北方, 游牧, 民族, 交往, 、, 征戰, ,, 眾多, 民族, 融合, 成為, 中華民族, 。, 20, 世紀, 初, 辛亥革命, 后, ,, 中國, 的, 君主, 政體, 退出, 歷史, 舞臺, ,, 取而代之, 的, 是, 共和, 政體, 。, 1949年, 中華人民共和國, 成立, 后, ,, 在, 中國, 大陸, 建立, 了, 人民, 代表大會, 制度, 的, 政體, 。, 中國, 有著, 多, 彩, 的, 民俗, 文化, ,, 傳統, 藝術, 形式, 有, 詩詞, 、, 戲曲, 、, 書法, 和, 國畫, 等, ,, 春節, 、, 元宵, 、, 清明, 、, 端午, 、, 中秋, 、, 重陽, 等, 是, 中國, 重要, 的, 傳統, 節日, 。]來自:http://blog.csdn.net/xiaoguaihai/article/details/41514265
本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!