微軟將開源數據集提高機器的閱讀理解能力

jopen 9年前發布 | 4K 次閱讀微軟

微軟將開源數據集提高機器的閱讀理解能力

12 月 19 日消息，據外媒報道，微軟將發布免費的數據集來幫助機器創建更多的對話。

該數據集名為微軟機器閱讀理解數據集(簡稱 MS MARCO)，包含有 10 萬條英文查詢及對應回答。用來幫助人工智能系統更好地理解人類語言。

微軟合作伙伴集團項目經理 Rangan Majumder 在周五的一篇博客中提到，微軟將免費開放 MS MARCO，并希望能夠與其他機構合作來更好地提高機器的閱讀理解能力。

數據集中的資料來源于必應搜索和 Cortana，并做相應的匿名處理。對問題的回答則是基于互聯網、人類手工編寫以及經過驗證的信息。這些查詢和回復將用于建立深度學習模型。

當前，該數據集將對非商業用途的用戶提供免費下載。同其他人工智能數據集開源計劃類似，微軟也將采用同樣的方式開源 MS MARCO。

其中的一項是 ImageNet，可用于訓練圖像識別算法的圖片標記數據庫。微軟此前在開發圖片識別技術時用到 ImageNet，現在又用該數據庫來強化微軟計算機視覺 API 等產品。如果想了解更多有關 MS MARCO 的信息，可下載其研發團隊發表的論文。該團隊還在進行另外一項挑戰，用 MARCO 的數據來評估訓練模型，而評估腳本也還在研發中。

這項開源計劃也是微軟進一步發展其人工智能的舉重要措。微軟一直以來都在打造基于機器學習和人工智能的 Azure 云平臺，同時在 Office 和 Windows 中也加入了一些人工智能的特性。本周早些時候，微軟推出了 QnA Maker 云服務，用于降低開發者研制問答聊天機器人的難度。

來自: 網易科技

本文由用戶 jopen 自行上傳分享，僅供網友學習交流。所有權歸原作者，若您的權利被侵害，請聯系管理員。

轉載本站原創文章，請注明出處，并保留原始鏈接、圖片水印。

本站是一個以用戶分享為主的開源技術平臺，歡迎各類分享！

本文地址：http://www.baiduhome.net/news/view/3be34cb3

微軟

微軟將開源數據集提高機器的閱讀理解能力

相關資訊

相關經驗

相關文檔

微軟將開源數據集 提高機器的閱讀理解能力

相關資訊

相關經驗

相關文檔

微軟將開源數據集提高機器的閱讀理解能力