Apache UIMA Java SDK 2.7.0 發布
Apache UIMA Java SDK 2.7.0 發布,該版本包含主要功能增強和 bug 修復,要求 Java 7 或者更新版本。一些變化內容無法向后兼容,但可通過指定運行時的環境變量來優雅升級。詳情請看 README 和 RELEASE_NOTES 文件。 UIMA是一個分析大容量非結構化數據以用于發現與終端用戶相關知識的軟件系統。一個UIMA的例子是輸入普通文本和獨立的實體,包括人、地點、組織;或者關系,包括供職于或位于。
UIMA使得應用分解為多個組件,例如“語言標志”=》“特殊的語言分割”=》“句子邊界檢查”=》“實體檢測(人、地點等)”。每一個組件實現了由框架提供的借口并且通過XML文件的形式提供了自我描述的元數據。框架控制組件及其之間的數據流。組件用Java或者C++書寫;而組件之間的數據流是根據這些語言之間有效地映射而設計的。
UIMA而外的提供了將組件整合成網絡服務的能力并且通過復制一個網絡節點簇之間的處理管道來擴大容量。
Apache UIMA 是UIMA定義的Apache開源實現。我們邀請并鼓勵你們參與應用與實現。
框架中的組件對于Java和C++都是可用的。Java構架支持Java和非Java組件(使用C++框架)。C++架構除了支持使用C/C++書寫注解,而且支持Perl,Python,和TCL注解。UIMA-AS擴展框架支持基于JMS和ActiveMQ的可擴展的能力。
框架支持配置與運行注解組件之間的管道。這些組件的實際工作是分析非結構化信息。使用者可以書寫自己的注解,也可以使用或配置已有的注解。一些注解在這個工程中,其余的在網絡中。
其他的組件包括一個接收REST請求和返回注解結果的簡單服務器以用于其他的網絡服務。
Sandbox是可以將新的想法部署的地方以協作真個工程。
以下是整個UIMA的框架圖。