非死book開源NLP建模框架PyText,從研究到生產變得更容易
非死book AI Research(FAIR)開源了 NLP 建模框架 PyText。
PyText 是一個基于 PyTorch 構建的深度學習 NLP 建模框架。PyText 通過為模型組件提供簡單且可擴展的接口和抽象,以及使用 PyTorch 的 Caffe2 執行引擎導出模型進行推理的功能,模糊了實驗與大規模部署之間的界限。其預訓練模型包括文本分類、序列標注等。
PyTorch 是一個統一的框架,縮短了從研究到生產的路徑,而基于 PyTorch 的 PyText 則著眼于滿足 NLP 建模的特定需求。
核心特性:
適用于各種 NLP/NLU 任務的生產就緒模型
文本分類
-
Yoon Kim (2014): Convolutional Neural Networks for Sentence Classification
-
Lin et al. (2017): A Structured Self-attentive Sentence Embedding
序列標注
聯合意圖時隙模型(Joint intent-slot model)
上下文意圖-時隙模型(Contextual intent-slot models)
支持在 PyTorch 1.0 中基于新 C10d 后端構建的分布式訓練
可擴展組件,可輕松創建新模型和任務
參考實現和預訓練模型論文:Gupta et al. (2018): Semantic Parsing for Task Oriented Dialog using Hierarchical Representations
支持聯合訓練
項目地址:https://github.com/非死bookresearch/pytext
了解更多:https://code.fb.com/ai-research/pytext-open-source-nlp-framework/