• 0推薦
    28K 瀏覽

    新 GitHub 開放項目 FoolNLTK:一個便捷的中文處理工具包

    近日?GitHub?用戶?wu.zheng?開源了一個使用雙向?LSTM?構建的中文處理工具包,該工具不僅可以實現分詞、詞性標注和命名實體識別,同時還能使用用戶自定義字典加強分詞的效果。機器之心...
    Trudy77W 8年前   
    0推薦
    16K 瀏覽

    10 行 Python 代碼的詞云

    詞云又叫文字云,是對文本數據中出現頻率較高的“關鍵詞”在視覺上的突出呈現,形成關鍵詞的渲染形成類似云一樣的彩色圖片,從而一眼就可以領略文本數據的主要表達意思。
    0推薦
    12K 瀏覽

    全文搜索:分詞不在需要,按句子索引即可

    摘要:一般來說的全文搜索服務,大體是基于字和關鍵詞的,基于語句的全文搜索服務是一個有意思的課題。以文字為最小節點,以語句為分枝,建立語義樹,提供基于語義樹的全文檢索服務。通過對語句進行語義特征編...
    0推薦
    30K 瀏覽

    使用wukong全文搜索引擎

    wukong,是一款golang實現的高性能、支持中文分詞的全文搜索引擎。我個人覺得它最大的特點恰恰是不像ElasticSearch那樣龐大和功能完備,而是可以以一個Library的形式快速集成...
    0推薦
    33K 瀏覽

    jieba 源碼解析

    jieba分詞 是Python 里面幾個比較流行的中文分詞工具之一。為了理解分詞工具的工作原理,以及實現細節對jieba進行了詳細的閱讀。
    0推薦
    7K 瀏覽

    Spring之AntPathMatcher

    在做uri匹配規則發現這個類,根據源碼對該類進行分析,它主要用來做類URLs字符串匹配;
    0推薦
    111K 瀏覽

    直播彈幕審核系統和文本分析技術

    作為深受二次元人士歡迎的互動方式,彈幕已經從原來的動漫網站 Acfun?和 bilibili 向各類視頻和直播網站蔓延,但是彈幕存在大量低俗、色情、垃圾廣告、謾罵的內容,數量極為龐大,變形變換極...
    0推薦
    12K 瀏覽

    11大Java開源中文分詞器的使用方法和分詞效果對比

    學會使用11大Java開源中文分詞器。
    RozAlford 9年前   
    0推薦
    27K 瀏覽

    ElasticSearch 分詞篇:中文分詞

    在Elasticsearch中,內置了很多分詞器(analyzers),但默認的分詞器對中文的支持都不是太好。所以需要單獨安裝插件來支持,比較常用的是中科院 ICTCLAS的smartcn和IK...
    0推薦
    98K 瀏覽

    TF-IDF的原理與應用

    TF-IDF(Term Frequency-Inverse Document Frequency),中文叫做詞頻-逆文檔頻率。在文本挖掘(Text Mining)和信息檢索(Informatio...
    sunzhe336 9年前   
    0推薦
    33K 瀏覽

    基于mmseg的cjk中文分詞器

    ecjkseg4es - ECJKSeg 基于mmseg,添加對最新版本的5.3.1 lucene 和 2.1.1 elastic search 分詞插件的支持。
    jopen 9年前   
    0推薦
    13K 瀏覽

    lucene簡單入門

    說lucene是Java界的檢索之王,當之無愧。近年來elasticsearch的火爆登場,包括之前的solr及solr cloud,其底層都是lucene。簡單了解lucene,對使用elas...
    0推薦
    99K 瀏覽

    11款開放中文分詞引擎大比拼

    在逐漸步入DT(Data Technology)時代的今天,自然語義分析技術越發不可或缺。對于我們每天打交道的中文來說,并沒有類似英文空格的邊界標志。而理解句子所包含的詞語,則是理解漢語語句的第...
    moonbigboy 9年前   
    0推薦
    41K 瀏覽

    漫話中文分詞

    美國小伙Tom在中國已經半年了,自認為中文已經不錯,就想測試一下自己的水平到底有多高。于是,他收到了下面這樣一份試題,請說出以下題目中兩句話的區別在哪里:
    AlysaB34 9年前   
    0推薦
    11K 瀏覽

    Pig + Ansj 統計中文文本詞頻

    最近特別喜歡用Pig,有能滿足大部分需求的內置函數(Built In Functions),支持自定義函數(user defined functions, UDF ),能load 純文本、avr...
    jopen 10年前   
    0推薦
    46K 瀏覽

    IK分詞器原理與源碼分析

    做搜索技術的不可能不接觸分詞器。個人認為為什么搜索引擎無法被數據庫所替代的原因主要有兩點,一個是在數據量比較大的時候,搜索引擎的查詢速度快,第二點在于,搜索引擎能做到比數據庫更理解用戶。第一點好...
    jopen 10年前   
    0推薦
    37K 瀏覽

    中文文本處理簡要介紹

    作為一個處理自然語言數據的團隊,我們在日常工作中要用到不同的工具來預處理中文文本,比如 Jieba 和 Stanford NLP software 。出于準確性和效率的考慮,我們選擇了Stanf...
    0推薦
    16K 瀏覽

    Lucene5學習之QueryParser-Query解析器

    Lucene已經給我們提供了很多Query查詢器,如PhraseQuery,SpanQuery,那為什么還要提供QueryParser呢?或者說設計QueryParser的目的是什么? Quer...
    jopen 10年前   
    0推薦
    31K 瀏覽

    phpSplit - PHP 中文分詞包

    phpSplit 是一個基于php開發的中文分詞庫。 居于Unicode編碼詞典的php分詞器 只適用于php5,必要函數 iconv 本程序是使用RMM逆向匹配算法進行分詞的,詞庫需要特別編譯...
    jopen 10年前   
    0推薦
    50K 瀏覽

    NodeJieba "結巴"分詞的Node.js版本

    nodejieba - "結巴"中文分詞的Node.js版本
    jopen 10年前   
    1 2 3

    經驗分享,提升職場影響力

    投稿

    熱門問答

      熱門文檔

      • sesese色