維基百科也要來維基百科也要來機器學習,協助抓出惡意編輯
前些時日機器學習的新聞很多,Google 開源其 Tensor FLow 系統,6 天后微軟宣布 DMTK 也要開源,最后連 IBM 也有。如今非營利組織也來湊一角。維基媒體基金會推出物件版本評估服務(Objective Revision Evaluation Service, ORES),希望用機器學習的方式,找出含有惡意意圖的內容增修,糾出像涂鴨、打廣告這種防不勝防的事情。當然,維基基金會做的專案,一定是預設開源發布。
維基基金會采用機器學習的技術,對于群眾貢獻而且是處理文字資料的維基百科相當少見。由維基基金會資深研究科學家 Aaron Halfaker 導入 ORES 演算法,希望能夠透過新的程序腳本找出打廣告、涂鴉、大規模破壞等行為,把寶貴的人力用在實際內容產出和人際溝通上。現行的自動化腳本已經運作很久,得有 新的技術進來刺激技術革新。
以下為 ORES 采用的三種編輯品質管制 AI 和一種條目品質模式 AI,以及布署的維基百科語言:
CONTEXT | MODELS | |||
---|---|---|---|---|
damaging |
goodfaith |
reverted |
wp10 |
|
dewiki German Wikipedia |
![]() |
|||
enwiki English Wikipedia |
![]() |
![]() |
![]() |
![]() |
eswiki Spanish Wikipedia |
![]() |
|||
fawiki Persian Wikipedia |
![]() |
![]() |
![]() |
|
frwiki French Wikipedia |
![]() |
![]() |
||
hewiki Hebrew Wikipedia |
![]() |
|||
idwiki Indonesian Wikipedia |
![]() |
|||
itwiki Italian Wikipedia |
![]() |
|||
nlwiki Indonesian Wikipedia |
![]() |
|||
ptwiki Portuguese Wikipedia |
![]() |
![]() |
![]() |
|
trwiki Turkish Wikipedia |
![]() |
![]() |
![]() |
|
ukwiki Ukranian Wikipedia |
||||
viwiki Vietnamese Wikipedia |
![]() |
|||
wikidatawiki Wikidata |
![]() |
“藉由結合開放資料和開源機器學習演算法,我們的目標是希望讓維基百科的品質監控更加透明、可審計,并且很容易嘗試。”Halfaker 說。“雖然引進 AI 和機器學習來處理大量社交的事情很怪,但我不覺得我們現在做的事情跟先前的軟件更新有什么不同。”
▲ ORES Logo。(Source:wikimedia)
維基基金會此次推出 ORES 預估要對抗編輯人數停滯不前甚至下滑的問題,讓機器學習用來糾出惡意編輯,希望能夠讓寶貴的人力用在刀口,也就是實際的內容生產上。
目前英文維基百科已經有幾個品質管制的自動化工具,盡管很成功維持維基百科的品質,但卻同時提高新手貢獻的障礙,這些自動化工具常常回退新手的編輯,因為新手有時候會出于無心,以及不熟悉編輯語法或工具,不小心移除片段。
▲ ORES 的破壞預測模型。(Source:維基媒體官方博客截圖)
另一方面,引入自動化工具同時也加強新手指導工作,則能緩和老手跟新手的相處問題,老手對維基上的規距較熟悉,老手對沒編輯的新手會看不順眼, 有時候用不知道哪邊翻找來的規章指責新手,或者常會認定新手未照維基方針的內容編寫,是來打廣告、知名度,而嚇跑潛在的貢獻者。用 ORES 能夠讓有經驗的維基編輯,在判斷編輯是否有惡意或廣告意圖時,能夠有客觀的依據,較不會帶有情緒性。
ORES 目前已經在 14 個維基百科語言站啟用,還沒有應用到中文維基百科。現在中文維基百科上也有幾個自動化 AI 的運作,分別偵測單純繁簡轉化、清空整篇文章或章節等破壞行為。
相關鏈接
- Artificial intelligence service gives Wikipedians ‘X-ray specs’ to see through bad edits
- Artificial Intelligence Aims to Make Wikipedia Friendlier and Better
- Wikipedia now has an AI enforcer to filter through joke entries
首圖來源:wikimedia