維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯

jopen 9年前發布 | 13K 次閱讀 機器學習

維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯

前些時日機器學習的新聞很多,Google 開源其 Tensor FLow 系統,6 天后微軟宣布 DMTK 也要開源,最后連 IBM 也有。如今非營利組織也來湊一角。維基媒體基金會推出物件版本評估服務(Objective Revision Evaluation Service, ORES),希望用機器學習的方式,找出含有惡意意圖的內容增修,糾出像涂鴨、打廣告這種防不勝防的事情。當然,維基基金會做的專案,一定是預設開源發布。

維基基金會采用機器學習的技術,對于群眾貢獻而且是處理文字資料的維基百科相當少見。由維基基金會資深研究科學家 Aaron Halfaker 導入 ORES 演算法,希望能夠透過新的程序腳本找出打廣告、涂鴉、大規模破壞等行為,把寶貴的人力用在實際內容產出和人際溝通上。現行的自動化腳本已經運作很久,得有 新的技術進來刺激技術革新。

以下為 ORES 采用的三種編輯品質管制 AI 和一種條目品質模式 AI,以及布署的維基百科語言:

CONTEXT MODELS
damaging goodfaith reverted wp10
dewiki German Wikipedia     維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯  
enwiki English Wikipedia 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯
eswiki Spanish Wikipedia     維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯  
fawiki Persian Wikipedia 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯  
frwiki French Wikipedia     維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯
hewiki Hebrew Wikipedia     維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯  
idwiki Indonesian Wikipedia     維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯  
itwiki Italian Wikipedia     維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯  
nlwiki Indonesian Wikipedia     維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯  
ptwiki Portuguese Wikipedia 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯  
trwiki Turkish Wikipedia 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯 維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯  
ukwiki Ukranian Wikipedia        
viwiki Vietnamese Wikipedia     維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯  
wikidatawiki Wikidata     維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯

“藉由結合開放資料和開源機器學習演算法,我們的目標是希望讓維基百科的品質監控更加透明、可審計,并且很容易嘗試。”Halfaker 說。“雖然引進 AI 和機器學習來處理大量社交的事情很怪,但我不覺得我們現在做的事情跟先前的軟件更新有什么不同。”

維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯

▲ ORES Logo。(Source:wikimedia

維基基金會此次推出 ORES 預估要對抗編輯人數停滯不前甚至下滑的問題,讓機器學習用來糾出惡意編輯,希望能夠讓寶貴的人力用在刀口,也就是實際的內容生產上。

目前英文維基百科已經有幾個品質管制的自動化工具,盡管很成功維持維基百科的品質,但卻同時提高新手貢獻的障礙,這些自動化工具常常回退新手的編輯,因為新手有時候會出于無心,以及不熟悉編輯語法或工具,不小心移除片段。

維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯,協助抓出惡意編輯

▲ ORES 的破壞預測模型。(Source:維基媒體官方博客截圖

另一方面,引入自動化工具同時也加強新手指導工作,則能緩和老手跟新手的相處問題,老手對維基上的規距較熟悉,老手對沒編輯的新手會看不順眼, 有時候用不知道哪邊翻找來的規章指責新手,或者常會認定新手未照維基方針的內容編寫,是來打廣告、知名度,而嚇跑潛在的貢獻者。用 ORES 能夠讓有經驗的維基編輯,在判斷編輯是否有惡意或廣告意圖時,能夠有客觀的依據,較不會帶有情緒性。

ORES 目前已經在 14 個維基百科語言站啟用,還沒有應用到中文維基百科。現在中文維基百科上也有幾個自動化 AI 的運作,分別偵測單純繁簡轉化、清空整篇文章或章節等破壞行為。

相關鏈接

首圖來源:wikimedia

來自: technews.cn
 本文由用戶 jopen 自行上傳分享,僅供網友學習交流。所有權歸原作者,若您的權利被侵害,請聯系管理員。
 轉載本站原創文章,請注明出處,并保留原始鏈接、圖片水印。
 本站是一個以用戶分享為主的開源技術平臺,歡迎各類分享!