登錄
注冊
首頁
項目
經驗
代碼
文庫
問答
博客
資訊
中文分詞
(共
60
篇經驗)
0
推薦
28K
瀏覽
新 GitHub 開放項目 FoolNLTK:一個便捷的中文處理工具包
近日?GitHub?用戶?wu.zheng?開源了一個使用雙向?LSTM?構建的中文處理工具包,該工具不僅可以實現分詞、詞性標注和命名實體識別,同時還能使用用戶自定義字典加強分詞的效果。機器之心...
Trudy77W
8年前
算法
中文分詞
0
推薦
16K
瀏覽
10 行 Python 代碼的詞云
詞云又叫文字云,是對文本數據中出現頻率較高的“關鍵詞”在視覺上的突出呈現,形成關鍵詞的渲染形成類似云一樣的彩色圖片,從而一眼就可以領略文本數據的主要表達意思。
HelenWebber
8年前
Python
中文分詞
Python開發
0
推薦
12K
瀏覽
全文搜索:分詞不在需要,按句子索引即可
摘要:一般來說的全文搜索服務,大體是基于字和關鍵詞的,基于語句的全文搜索服務是一個有意思的課題。以文字為最小節點,以語句為分枝,建立語義樹,提供基于語義樹的全文檢索服務。通過對語句進行語義特征編...
jianxiake
9年前
數據庫
中文分詞
機器學習
0
推薦
30K
瀏覽
使用wukong全文搜索引擎
wukong,是一款golang實現的高性能、支持中文分詞的全文搜索引擎。我個人覺得它最大的特點恰恰是不像ElasticSearch那樣龐大和功能完備,而是可以以一個Library的形式快速集成...
zzsyg0306
9年前
搜索引擎
中文分詞
分布式系統
0
推薦
33K
瀏覽
jieba 源碼解析
jieba分詞 是Python 里面幾個比較流行的中文分詞工具之一。為了理解分詞工具的工作原理,以及實現細節對jieba進行了詳細的閱讀。
avqz2354
9年前
中文分詞
Netty
網絡工具包
馬爾科夫模型
0
推薦
7K
瀏覽
Spring之AntPathMatcher
在做uri匹配規則發現這個類,根據源碼對該類進行分析,它主要用來做類URLs字符串匹配;
TanyaBellew
9年前
Spring
中文分詞
JEE框架
0
推薦
111K
瀏覽
直播彈幕審核系統和文本分析技術
作為深受二次元人士歡迎的互動方式,彈幕已經從原來的動漫網站 Acfun?和 bilibili 向各類視頻和直播網站蔓延,但是彈幕存在大量低俗、色情、垃圾廣告、謾罵的內容,數量極為龐大,變形變換極...
NorWheat
9年前
數據挖掘
中文分詞
軟件架構
多媒體處理
0
推薦
12K
瀏覽
11大Java開源中文分詞器的使用方法和分詞效果對比
學會使用11大Java開源中文分詞器。
RozAlford
9年前
開源
Java
中文分詞
Java開發
0
推薦
27K
瀏覽
ElasticSearch 分詞篇:中文分詞
在Elasticsearch中,內置了很多分詞器(analyzers),但默認的分詞器對中文的支持都不是太好。所以需要單獨安裝插件來支持,比較常用的是中科院 ICTCLAS的smartcn和IK...
xnrf3714
9年前
搜索引擎
中文分詞
ElasticSearch
Elastic Search
0
推薦
98K
瀏覽
TF-IDF的原理與應用
TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做詞頻-逆文檔頻率。在文本挖掘(Text Mining)和信息檢索(Informatio...
sunzhe336
9年前
中文分詞
0
推薦
33K
瀏覽
基于mmseg的cjk中文分詞器
ecjkseg4es - ECJKSeg 基于mmseg,添加對最新版本的5.3.1 lucene 和 2.1.1 elastic search 分詞插件的支持。
jopen
9年前
中文分詞
0
推薦
13K
瀏覽
lucene簡單入門
說lucene是Java界的檢索之王,當之無愧。近年來elasticsearch的火爆登場,包括之前的solr及solr cloud,其底層都是lucene。簡單了解lucene,對使用elas...
SteffenM01
9年前
搜索引擎
Lucene
中文分詞
0
推薦
99K
瀏覽
11款開放中文分詞引擎大比拼
在逐漸步入DT(Data Technology)時代的今天,自然語義分析技術越發不可或缺。對于我們每天打交道的中文來說,并沒有類似英文空格的邊界標志。而理解句子所包含的詞語,則是理解漢語語句的第...
moonbigboy
9年前
中文分詞
0
推薦
41K
瀏覽
漫話中文分詞
美國小伙Tom在中國已經半年了,自認為中文已經不錯,就想測試一下自己的水平到底有多高。于是,他收到了下面這樣一份試題,請說出以下題目中兩句話的區別在哪里:
AlysaB34
9年前
中文分詞
0
推薦
11K
瀏覽
Pig + Ansj 統計中文文本詞頻
最近特別喜歡用Pig,有能滿足大部分需求的內置函數(Built In Functions),支持自定義函數(user defined functions, UDF ),能load 純文本、avr...
jopen
10年前
Java
Hadoop
中文分詞
0
推薦
46K
瀏覽
IK分詞器原理與源碼分析
做搜索技術的不可能不接觸分詞器。個人認為為什么搜索引擎無法被數據庫所替代的原因主要有兩點,一個是在數據量比較大的時候,搜索引擎的查詢速度快,第二點在于,搜索引擎能做到比數據庫更理解用戶。第一點好...
jopen
10年前
中文分詞
0
推薦
37K
瀏覽
中文文本處理簡要介紹
作為一個處理自然語言數據的團隊,我們在日常工作中要用到不同的工具來預處理中文文本,比如 Jieba 和 Stanford NLP software 。出于準確性和效率的考慮,我們選擇了Stanf...
jopen
10年前
中文分詞
自然語言處理
0
推薦
16K
瀏覽
Lucene5學習之QueryParser-Query解析器
Lucene已經給我們提供了很多Query查詢器,如PhraseQuery,SpanQuery,那為什么還要提供QueryParser呢?或者說設計QueryParser的目的是什么? Quer...
jopen
10年前
搜索引擎
Lucene
中文分詞
0
推薦
31K
瀏覽
phpSplit - PHP 中文分詞包
phpSplit 是一個基于php開發的中文分詞庫。 居于Unicode編碼詞典的php分詞器 只適用于php5,必要函數 iconv 本程序是使用RMM逆向匹配算法進行分詞的,詞庫需要特別編譯...
jopen
10年前
中文分詞
0
推薦
50K
瀏覽
NodeJieba "結巴"分詞的Node.js版本
nodejieba - "結巴"中文分詞的Node.js版本
jopen
10年前
中文分詞
nodejieba
1
2
3
經驗分享,提升職場影響力
投稿
熱門問答
熱門文檔
sesese色