穀歌的“邪惡”實驗：當 AI 面臨囚徒困境，是互相攻詰還是相互合作？

分類＼數碼
時間＼2017-02-10

近些年來，人工智慧正在一步步走入我們的生活，因此我們必須瞭解這些聰明的“大腦”在面對兩難境地時會如何選擇。為此，穀歌的 DeepMind 團隊專門進行了針對性的實驗，而實驗中的兩款遊戲都是在博弈論的囚徒困境理論的基礎上開發的。

所謂的囚徒困境是兩個被捕的囚徒之間的一種特殊博弈，兩個共謀犯罪的人被關入監獄，不能互相溝通情況。如果兩個人都不揭發對方，則由於證據不確定，每個人都坐牢一年；若一人揭發，而另一人沉默，則揭發者因為立功而立即獲釋，沉默者因不合作而入獄五年；若互相揭發，則因證據確實，二者都判刑兩年。由於囚徒無法信任對方，因此傾向於互相揭發，而不是同守沉默。這一經典理論說明了為什麼在合作對雙方都有利時，保持合作也是困難的。

遊戲 1：紅藍色兩個 AI 收集綠色蘋果

“在現實生活中，無論是合作還是相互攻訐都需要複雜的行為特性，因此 AI 需要掌握執行一系列動作的先後順序。”DeepMind 團隊在博客中寫道。“我們將這一全新設定看作連續的社會困境，並利用深層強化學習訓練過的AI對其進行研究。”

在實驗中，研究人員發現AI會逐漸展示自己理性的一面，在必要時它們會選擇合作。

在第一個名為“Gathering”的遊戲中，參與實驗的 AI 們會在同一區域執行收集蘋果的任務，它們可以尾隨在對手身後用炮彈攻擊它們，被擊中的玩家會短暫出局。不過，這裡有個前提條件，即收集蘋果可以得分，但攻擊它人則不會。

AI被扔在這個遊戲中數千次，直到它們通過深度強化學習學會理性。研究結果表明，這些傢伙有時也會被利益衝昏頭腦。

舉例來說，當某區域有很多蘋果時，AI 們會齊心協力收集蘋果來得高分。一旦蘋果數量下降，它們就會做出抉擇，開始互相攻擊以保護自己的勝利果實。

遊戲 2：需要兩個 AI 緊密配合

第二款遊戲名為 Wolfpack，該遊戲更需要 AI 們的親密合作。AI 們需要在混亂的瓦礫堆中尋找獵物。如果你能抓到自己的獵物就能得分，此外獵物被抓到時如果你離獵物很近，也能得分。

在這款遊戲中，研究人員發現，隨著應對複雜戰略能力的提升，AI 們更傾向於相互合作。

通過以上實驗也讓我們得出一個結論，那就是 AI 會根據自己所處的環境進行抉擇，雖然有時它們會為了自己的利益相互攻訐，但大多數時候它們還是傾向於相互合作。

DeepMind 的研究團隊表示：“這樣的模型讓我們能在類比系統中測試策略和干預措施。”如果一切順利，未來人類對複雜的多因素系統如經濟、交通系統或生態健康都能有一個深刻的把握，因為它們都需要持續的合作。

Via.

Dailymail