穀歌的“邪惡”實驗:當 AI 面臨囚徒困境,是互相攻詰還是相互合作?
近些年來,人工智慧正在一步步走入我們的生活,因此我們必須瞭解這些聰明的“大腦”在面對兩難境地時會如何選擇。為此,穀歌的 DeepMind 團隊專門進行了針對性的實驗,而實驗中的兩款遊戲都是在博弈論的囚徒困境理論的基礎上開發的。
所謂的囚徒困境是兩個被捕的囚徒之間的一種特殊博弈,兩個共謀犯罪的人被關入監獄,不能互相溝通情況。如果兩個人都不揭發對方,則由於證據不確定,每個人都坐牢一年;若一人揭發,而另一人沉默,則揭發者因為立功而立即獲釋,沉默者因不合作而入獄五年;若互相揭發,則因證據確實,二者都判刑兩年。由於囚徒無法信任對方,因此傾向於互相揭發,而不是同守沉默。這一經典理論說明了為什麼在合作對雙方都有利時,保持合作也是困難的。
遊戲 1:紅藍色兩個 AI 收集綠色蘋果
“在現實生活中,無論是合作還是相互攻訐都需要複雜的行為特性,因此 AI 需要掌握執行一系列動作的先後順序。”DeepMind 團隊在博客中寫道。“我們將這一全新設定看作連續的社會困境,並利用深層強化學習訓練過的AI對其進行研究。”
在實驗中,研究人員發現AI會逐漸展示自己理性的一面,在必要時它們會選擇合作。
在第一個名為“Gathering”的遊戲中,參與實驗的 AI 們會在同一區域執行收集蘋果的任務,它們可以尾隨在對手身後用炮彈攻擊它們,被擊中的玩家會短暫出局。不過,這裡有個前提條件,即收集蘋果可以得分,但攻擊它人則不會。
AI被扔在這個遊戲中數千次,直到它們通過深度強化學習學會理性。研究結果表明,這些傢伙有時也會被利益衝昏頭腦。
舉例來說,當某區域有很多蘋果時,AI 們會齊心協力收集蘋果來得高分。一旦蘋果數量下降,它們就會做出抉擇,開始互相攻擊以保護自己的勝利果實。
遊戲 2:需要兩個 AI 緊密配合
第二款遊戲名為 Wolfpack,該遊戲更需要 AI 們的親密合作。AI 們需要在混亂的瓦礫堆中尋找獵物。如果你能抓到自己的獵物就能得分,此外獵物被抓到時如果你離獵物很近,也能得分。
在這款遊戲中,研究人員發現,隨著應對複雜戰略能力的提升,AI 們更傾向於相互合作。
通過以上實驗也讓我們得出一個結論,那就是 AI 會根據自己所處的環境進行抉擇,雖然有時它們會為了自己的利益相互攻訐,但大多數時候它們還是傾向於相互合作。
DeepMind 的研究團隊表示:“這樣的模型讓我們能在類比系統中測試策略和干預措施。”如果一切順利,未來人類對複雜的多因素系統如經濟、交通系統或生態健康都能有一個深刻的把握,因為它們都需要持續的合作。
Via.
Dailymail