兩個 AI 一起工作，它們會合作還是互鬥？Google 給出了答案

兩個或者多個 AI 在工作時，如果有利益相關，或是目標出現衝突，它們會選擇鬥爭還是合作？

隨著人工智慧 AI 的不斷發展，人們對它能力的擔憂和期待也越來越多。Google 旗下的 Deepmind 也在研究不同環境中 AI 們的具體行為。

2 月 10 日，Google Deepmind 部門公佈了一項研究結果，人工智慧在測試後出現了這樣一種情況：AI 會根據其所在環境來改變自己的行動，這與人類的一些社會行為相似。

Google 通過兩個不同的遊戲來測試 AI 的個體行為，一個遊戲名為“Gathering”,另一個則為“Wolfpack”。

另一個遊戲“Wolfpack” 則是一個捕獵遊戲，玩家要在到處都是障礙的環境裡捕捉獵物，當兩個 AI 獵人都接近獵物並最終捕獲獵物時，他們都可以得分。

Deepmind 部門的研究員讓 AI 來參與這兩個遊戲，並重複實驗上千次來確保結果的隨機性。

結果表明，在“Gathring”遊戲裡，如果蘋果數量夠多，兩個計算能力相近的 AI 玩家會選擇和平相處，各自不斷拿走蘋果；一旦蘋果數量減少，AI 們就變得好鬥了，它們會用鐳射標記對方，為自己贏得更多搶蘋果的機會。

遊戲視頻截圖，綠色代表蘋果，數量少時 AI 會發出黃色光束標記對方

並且，如果兩個 AI 的計算能力不同，能力較強者好鬥性更強，不論蘋果數量多少，它都傾向于選擇標注對方，增加自己的勝算。

這一結果與博弈論裡的囚徒困境理論中的多種情境相近（囚徒困境是博弈論的非零和博弈中具代表性的例子，反映個人最佳選擇並非團體最佳選擇。或者說在一個群體中，個人做出理性選擇卻往往導致集體的非理性）。

Deepmind 研究員認為，不管是和平共處共同收集蘋果，還是通過阻礙對手贏取更多蘋果，AI 都會在具體情境下學會更符合它們“期待”的行為。當剩餘資源減少，AI 會採取更為激進的策略，通過把對手擊敗踢出局來贏得所有蘋果。

在 “Wolfpack”遊戲裡，AI 則傾向於通過合作來完成狩獵行動，且計算能力更強者選擇這種做法的情況更多。這與“Gathring”遊戲的情況是相反的。

遊戲視頻截圖，紅色的捕獵者 AI 會通過合作抓捕獵物

在 Deepmind 看來，人工智慧會根據具體情境改變行為方式，這與人類類似。而人工智慧也可以在某些具體任務裡，特別是合作能帶來更大收益的情況下，達成合作，從而取得行動的最佳效果。

蘋果越少，好鬥性越強；獨狼抓住獵物的比例越大，群體利益越低

在 Deepmind 的博客內容裡，科學家喬爾·Z·勒博（Joel Z Leibo）說：“這類研究將幫助我們更好地理解和控制複雜多人工智慧系統的行為，例如在解決經濟、交通和環境問題的過程中。”

題圖自：businessinsider