自AI戰勝電競選手後,美國開始提取腦波訓練軍事機器人
李浩然 / 何渝婷編譯
2020-02-07 11:25

(示意圖/取自pixabay)

如同前陣子美軍使用無人機對伊朗的斬首行動證明,現代戰爭即將進入無人時代一樣。美國在軍事技術和思想上,一直都走在世界的最前沿。

日前,被稱為互聯網發源地的美國DARPA(國防高級研究計劃局)已經開始了關於AI在軍事決策領域的研究。

用策略遊戲培訓AI

通過外媒的報導,我們得知來自紐約州立大學水牛城分校人工智慧學院的工程師,已經獲得了DARPA的資助。他們通過創造一個類似星際爭霸或者Stellaris(恆星戰役)的遊戲,並採集玩家在其中的大腦活動和反應,並用這些數據訓練AI 。

(Deep Mind 決策過程)

與Alpha Go下圍棋不同,類似星際爭霸的RTS遊戲,在策略和操作的複雜度上要更高,這類遊戲需要玩家協調採集資源、建造建築、選擇進攻策略,甚至還要操控每一個士兵的進行精細運動,而且這一切都是在擁有「戰爭迷霧」,也就是在沒有完全資訊的條件下進行的。

很顯然,此類遊戲比起簡單的棋類策略,與真實的戰場環境更加接近。在這種資訊不對稱的環境中訓練出來的AI,更容易在資訊錯綜複雜的戰場中,做出合理的判斷。

監測腦波,向AI展示人類決策過程

可能有人要問,這和之前Google團隊針對星際爭霸2開發的Deep Mind有什麼區別。與Deep Mind目的是獲得勝利不同,DARPA想觀察人類在類似場景中的判斷和決策,並用機器學習算法進行梳理,訓練出可以相互協調的機器人。

(Deep Mind眼中的遊戲)

為了達成這個目的,DARPA要求所有在紐約州立大學水牛城分校玩新策略遊戲的玩家,佩戴檢測腦波圖(EEG)的頭盔。在觀察玩家在遊戲中策略操作的同時,研究者可以對照腦波圖,觀察玩家在策略選擇時的大腦活動。

與此同時,研究人員還配置了特殊的超高速攝影鏡頭,用來追蹤玩家的眼球運動。配合遊戲畫面,觀察人類在決策時的直覺反應。

為什麼DARPA要做這樣的研究?

對於DARPA來說,他們並不想要一個只會執行任務的機器人,他們需要一群機器人互相配合,自己根據當前掌握的資訊進行規劃,並有策略的完成任務。

如果在策略執行中遇到阻礙,也能適時改變策略。比如說在高度複雜的環境中(天氣、地理環境、敵我動態)展開多達250個單位(空中與地面機器人)的任務協作。這時突然出現煙霧導致可見性喪失,AI控制的機器人同樣能改變策略,繼續完成任務。

(未來的無人機蜂群作戰)

只有達到了這樣的水平,AI在軍事領域的應用才能派上用場。

但從目前來看,當前的AI都是在相對確定的環境下訓練的,但真實環境往往是複雜而資訊缺乏的。在這種環境中決策,AI需要根據已知的資訊進行推理。目前,AI在這方面還處於新生狀態。

(美軍微型無人機「蜂群」演示  圖片來自:美國國防部影片截圖)

這個研究的意義就是讓人類成為老師,在遊戲中向AI展現人類長期演化而來的直覺,並通過監測腦波,向AI展示人類如何對接受的資訊進行處理,從而讓AI產生上下文推理的能力,並最終學會總體策略的制定。

(完成任務後「蜂群」繞圈飛行  圖片來自:美國國防部影片截圖)

我們知道,人類之所以在進化路上生存下來,就是因為人類不僅有個體決策,還有指導人類完成任務的總體策略。所以如果想要AI完成人類的工作,指導AI相互配合併制定總體決策就勢在必行。

結語

過去,機器是輔助人類工作的工具,必須由人來操控。

後來,人類為工具編好了執行流程,讓工具可以按照流程自動工作。

現在,機器通過機器學習和神經網路算法,能夠執行簡單的判斷和決策任務。

未來,人類將賦予機器群體策略能力,人類下達任務不再需要給每個機器具體任務,我們只需要給定一個目標,AI將會制定整體策略,並將任務分配給每一台由獨立AI控制的機器,通過合作完成任務。

從總體來看,這是人類的一大技術進步。只是從歷史角度看,這種技術通常都會先用在軍事行動中。

還是那句老話:技術不分善惡,只在用途。如果這種技術成為現實,希望它永遠不要用於戰爭。

本文為愛范兒授權刊登,原文標題為「在 AI 戰勝電競選手後,美國開始提取腦電波訓練軍事機器人