如何揪出論壇里的罵街黨？維基百科和谷歌聯合開發機器學習算法

jopen 8年前發布 | 9K 次閱讀維基機器學習 Google

最近，來自維基百科和谷歌的 IT 專家，公布了把 AI 用于“節制”維基百科用戶評論的成果——找出哪些用戶在搞人身攻擊，還有他們為什么要在網上罵街。

針對該問題，研究人員開發機器學習算法，分析維基百科在 2015 年收到的的海量評論。這一年，維基百科討論頁面共收到 6300 萬條評論。這些評論存在的本意，是討論如何改進維基百科收錄的各條文章。

這些算法使用 10 萬條包含侮辱性言辭的評論以進行訓練，當然，這樣的樣本規模只能算是偏小的。起初，十名人類員工對這些評論進行分類，以明確用戶評論中都出現了哪些人身攻擊語言方式。舉個例子，該機器學習算法能區別直接人身攻擊（比如“你是個 XX”），第三方人身攻擊（張三是個 XX），以及間接人身攻擊（“張三說李四是 XX”）

研究成果以論文形式發表出來，題目為'Ex Machina: Personal Attacks Seen at Scale'（Ex Machina：大規模人身攻擊）。雷鋒網(公眾號：雷鋒網)得到消息，該論文將在四月份澳大利亞珀斯舉行的的世界互聯網大會上展出。

34 名用戶“貢獻”了 9% 的網上謾罵

如何揪出論壇里的罵街黨？維基百科和谷歌聯合開發機器學習算法

橫坐標軸：總發帖數；豎軸：侮辱性言論比值；黑色：匿名用戶；藍色：注冊用戶

如上圖，匿名用戶發布人身攻擊言論的概率，比注冊用戶高六倍。但發表最多侮辱性言論的，卻是一小撮活躍注冊用戶。

該分析表明，維基百科 43% 的發表言論來自匿名用戶。這些人中的絕大部分并不經常發帖，有的就只發過一次。但平均發表臟話概率比注冊用戶高六倍。但據雷鋒網了解，維基百科注冊用戶比匿名評論用戶多 20 倍，意味著超過半數的人身攻擊言論仍是注冊用戶發表的。

研究人員發現，大多數情況下用戶言論是得體的。80% 的人身攻擊來自于 9000 多名用戶，而這一群體發侮辱性帖子的平均次數少于五次。意味著大多數人只在被激怒后，才開始在網上罵街。

但是，有一個包含 34 名活躍用戶的小群體。研究人員對該群體的打分是“危害指數超過 20”。這 34 個人竟然貢獻了維基百科全部侮辱性言論的近十分之一，準確來說，是 9%。

很明顯，這些人就是網絡世界里所謂的“罵街黨”——那些喜歡上網和人罵戰，把人身攻擊作為日常宣泄、娛樂活動的人。現在的好消息是，新的機器學習算法使得維基百科在用戶群中找出這些人變得更加容易，然后只需要把這幾個人的賬戶封掉，就能一下子減少論壇上 9% 的惡意言論。太劃算了，是不是？這意味著偶爾發表人身攻擊言論的普通用戶不必被封號——大多數只在和人吵起來之后才開罵。這還意味著，維基百科不需要像拉網一樣把全部評論篩一遍，用機器學習檢測侮辱性言辭，而只需把精力放在管理這些極少數的罵街黨上。

論壇維護：人 +AI

如何揪出論壇里的罵街黨？維基百科和谷歌聯合開發機器學習算法