維基百科也要來維基百科也要來機器學習，協助抓出惡意編輯

jopen 10年前發布 | 13K 次閱讀機器學習

維基百科也要來維基百科也要來機器學習，協助抓出惡意編輯，協助抓出惡意編輯

前些時日機器學習的新聞很多，Google 開源其 Tensor FLow 系統，6 天后微軟宣布 DMTK 也要開源，最后連 IBM 也有。如今非營利組織也來湊一角。維基媒體基金會推出物件版本評估服務(Objective Revision Evaluation Service, ORES)，希望用機器學習的方式，找出含有惡意意圖的內容增修，糾出像涂鴨、打廣告這種防不勝防的事情。當然，維基基金會做的專案，一定是預設開源發布。

維基基金會采用機器學習的技術，對于群眾貢獻而且是處理文字資料的維基百科相當少見。由維基基金會資深研究科學家 Aaron Halfaker 導入 ORES 演算法，希望能夠透過新的程序腳本找出打廣告、涂鴉、大規模破壞等行為，把寶貴的人力用在實際內容產出和人際溝通上。現行的自動化腳本已經運作很久，得有新的技術進來刺激技術革新。

以下為 ORES 采用的三種編輯品質管制 AI 和一種條目品質模式 AI，以及布署的維基百科語言：

CONTEXT	MODELS
CONTEXT	`damaging`	`goodfaith`	`reverted`	`wp10`
`dewiki` German Wikipedia
`enwiki` English Wikipedia
`eswiki` Spanish Wikipedia
`fawiki` Persian Wikipedia
`frwiki` French Wikipedia
`hewiki` Hebrew Wikipedia
`idwiki` Indonesian Wikipedia
`itwiki` Italian Wikipedia
`nlwiki` Indonesian Wikipedia
`ptwiki` Portuguese Wikipedia
`trwiki` Turkish Wikipedia
`ukwiki` Ukranian Wikipedia
`viwiki` Vietnamese Wikipedia
`wikidatawiki` Wikidata

“藉由結合開放資料和開源機器學習演算法，我們的目標是希望讓維基百科的品質監控更加透明、可審計，并且很容易嘗試。”Halfaker 說。“雖然引進 AI 和機器學習來處理大量社交的事情很怪，但我不覺得我們現在做的事情跟先前的軟件更新有什么不同。”

維基百科也要來維基百科也要來機器學習，協助抓出惡意編輯，協助抓出惡意編輯

▲ ORES Logo。（Source：wikimedia）

維基基金會此次推出 ORES 預估要對抗編輯人數停滯不前甚至下滑的問題，讓機器學習用來糾出惡意編輯，希望能夠讓寶貴的人力用在刀口，也就是實際的內容生產上。

目前英文維基百科已經有幾個品質管制的自動化工具，盡管很成功維持維基百科的品質，但卻同時提高新手貢獻的障礙，這些自動化工具常常回退新手的編輯，因為新手有時候會出于無心，以及不熟悉編輯語法或工具，不小心移除片段。

維基百科也要來維基百科也要來機器學習，協助抓出惡意編輯，協助抓出惡意編輯

▲ ORES 的破壞預測模型。（Source：維基媒體官方博客截圖）

另一方面，引入自動化工具同時也加強新手指導工作，則能緩和老手跟新手的相處問題，老手對維基上的規距較熟悉，老手對沒編輯的新手會看不順眼，有時候用不知道哪邊翻找來的規章指責新手，或者常會認定新手未照維基方針的內容編寫，是來打廣告、知名度，而嚇跑潛在的貢獻者。用 ORES 能夠讓有經驗的維基編輯，在判斷編輯是否有惡意或廣告意圖時，能夠有客觀的依據，較不會帶有情緒性。

ORES 目前已經在 14 個維基百科語言站啟用，還沒有應用到中文維基百科。現在中文維基百科上也有幾個自動化 AI 的運作，分別偵測單純繁簡轉化、清空整篇文章或章節等破壞行為。

維基百科也要來維基百科也要來機器學習，協助抓出惡意編輯

相關鏈接

相關資訊

相關經驗

相關文檔