如何揪出論壇裡的駡街黨？維琪百科和谷歌聯合開發機器學習演算法

分類＼數碼
時間＼2017-02-16

最近，來自維琪百科和穀歌的 IT 專家，公佈了把 AI 用於“節制”維琪百科用戶評論的成果——找出哪些用戶在搞人身攻擊，還有他們為什麼要在網上駡街。

針對該問題，研究人員開發機器學習演算法，分析維琪百科在 2015 年收到的的海量評論。這一年，維琪百科討論頁面共收到 6300 萬條評論。這些評論存在的本意，是討論如何改進維琪百科收錄的各條文章。

這些演算法使用 10 萬條包含侮辱性言辭的評論以進行訓練，當然，這樣的樣本規模只能算是偏小的。起初，十名人類員工對這些評論進行分類，以明確用戶評論中都出現了哪些人身攻擊語言方式。舉個例子，該機器學習演算法能區別直接人身攻擊（比如“你是個XX”），協力廠商人身攻擊（張三是個XX），以及間接人身攻擊（“張三說李四是XX”）

研究成果以論文形式發表出來，題目為'Ex Machina: Personal Attacks Seen at Scale'（Ex Machina：大規模人身攻擊）。雷鋒網得到消息，該論文將在四月份澳大利亞珀斯舉行的的世界互聯網大會上展出。

34 名用戶“貢獻”了 9% 的網上謾駡

橫坐標軸：總發帖數；豎軸：侮辱性言論比值；黑色：匿名使用者；藍色：註冊用戶

如上圖，匿名使用者發佈人身攻擊言論的概率，比註冊用戶高六倍。但發表最多侮辱性言論的，卻是一小撮活躍註冊用戶。

該分析表明，維琪百科 43% 的發表言論來自匿名使用者。這些人中的絕大部分並不經常發帖，有的就只發過一次。但平均發表髒話概率比註冊用戶高六倍。但據雷鋒網瞭解，維琪百科註冊用戶比匿名評論用戶多 20 倍，意味著超過半數的人身攻擊言論仍是註冊用戶發表的。

研究人員發現，大多數情況下使用者言論是得體的。

80% 的人身攻擊來自於 9000 多名用戶，而這一群體發侮辱性帖子的平均次數少於五次。

意味著大多數人只在被激怒後，才開始在網上駡街。

但是，有一個包含 34 名活躍用戶的小群體。研究人員對該群體的打分是“危害指數超過 20”。

這 34 個人竟然貢獻了維琪百科全部侮辱性言論的近十分之一

，準確來說，是 9%。

很明顯，這些人就是網路世界裡所謂的“駡街黨”——那些喜歡上網和人罵戰，把人身攻擊作為日常宣洩、娛樂活動的人。現在的好消息是，新的機器學習演算法使得維琪百科在用戶群中找出這些人變得更加容易，然後只需要把這幾個人的帳戶封掉，就能一下子減少論壇上 9% 的惡意言論。太划算了，是不是？這意味著偶爾發表人身攻擊言論的普通用戶不必被封號——大多數隻在和人吵起來之後才開罵。這還意味著，維琪百科不需要像拉網一樣把全部評論篩一遍，用機器學習檢測侮辱性言辭，而只需把精力放在管理這些極少數的駡街黨上。

論壇維護：人+AI

網上罵戰，有時像野火一樣被暫態點著。正因如此，相比能自動決定該遮罩哪個論壇用戶的電腦程式，有時候人類管理員更有用。

論文作者們在結論中說道：

“這些結果說明，圍繞著人身攻擊行為的一系列問題並不好解決。但我們的研究證實，目前只有不到五分之一的人身攻擊行為，會觸發維琪百科違規程序。”

未來，AI 大概會在網站評論管理中起到越來越大的作用。研究人員指出，能自動篩選評論的系統可發揮極大的輔助作用——人類管理員能更清晰地把握用戶談話的健康狀況，並可以更快得發現“有毒”評論內容，在引發更多使用者反感之前採取措施。

via

ibtimes

雷鋒網