淘新聞

兩個 AI 一起工作,它們會合作還是互鬥?Google 給出了答案

兩個或者多個 AI 在工作時,如果有利益相關,或是目標出現衝突,它們會選擇鬥爭還是合作?

隨著人工智慧 AI 的不斷發展,人們對它能力的擔憂和期待也越來越多。Google 旗下的 Deepmind 也在研究不同環境中 AI 們的具體行為。

2 月 10 日,Google Deepmind 部門公佈了一項研究結果,人工智慧在測試後出現了這樣一種情況:AI 會根據其所在環境來改變自己的行動,這與人類的一些社會行為相似。

Google 通過兩個不同的遊戲來測試 AI 的個體行為,一個遊戲名為“Gathering”,另一個則為“Wolfpack”。

另一個遊戲“Wolfpack” 則是一個捕獵遊戲,玩家要在到處都是障礙的環境裡捕捉獵物,當兩個 AI 獵人都接近獵物並最終捕獲獵物時,他們都可以得分。

Deepmind 部門的研究員讓 AI 來參與這兩個遊戲,並重複實驗上千次來確保結果的隨機性。

結果表明,在“Gathring”遊戲裡,如果蘋果數量夠多,兩個計算能力相近的 AI 玩家會選擇和平相處,各自不斷拿走蘋果;一旦蘋果數量減少,AI 們就變得好鬥了,它們會用鐳射標記對方,為自己贏得更多搶蘋果的機會。

遊戲視頻截圖,綠色代表蘋果,數量少時 AI 會發出黃色光束標記對方

並且,如果兩個 AI 的計算能力不同,能力較強者好鬥性更強,不論蘋果數量多少,它都傾向于選擇標注對方,增加自己的勝算。

這一結果與博弈論裡的囚徒困境理論中的多種情境相近(囚徒困境是博弈論的非零和博弈中具代表性的例子,反映個人最佳選擇並非團體最佳選擇。或者說在一個群體中,個人做出理性選擇卻往往導致集體的非理性)。

Deepmind 研究員認為,不管是和平共處共同收集蘋果,還是通過阻礙對手贏取更多蘋果,AI 都會在具體情境下學會更符合它們“期待”的行為。當剩餘資源減少,AI 會採取更為激進的策略,通過把對手擊敗踢出局來贏得所有蘋果。

在 “Wolfpack”遊戲裡,AI 則傾向於通過合作來完成狩獵行動,且計算能力更強者選擇這種做法的情況更多。這與“Gathring”遊戲的情況是相反的。

遊戲視頻截圖,紅色的捕獵者 AI 會通過合作抓捕獵物

在 Deepmind 看來,人工智慧會根據具體情境改變行為方式,這與人類類似。而人工智慧也可以在某些具體任務裡,特別是合作能帶來更大收益的情況下,達成合作,從而取得行動的最佳效果。

蘋果越少,好鬥性越強;獨狼抓住獵物的比例越大,群體利益越低

在 Deepmind 的博客內容裡,科學家喬爾·Z·勒博(Joel Z Leibo)說:“這類研究將幫助我們更好地理解和控制複雜多人工智慧系統的行為,例如在解決經濟、交通和環境問題的過程中。”

題圖自:businessinsider