DeepMind的智慧體,竟能在開放式任務環境中自我進化!
吳彤 / 何渝婷編譯
2021-08-11 13:40

DeepMind又在製造「小人」了!

這群小人就是英國人工智慧實驗室製造出的「智慧體」,不過只可以在遊戲中看到。之前以4:1力挫世界圍棋冠軍李世石的AlphaGo,就是這家實驗室訓練的智慧體。

但你可能不知道的是,DeepMind還訓練過象棋棋手、足球球員、電競玩家,甚至提出「人工生命」的言論。

最近的這群智慧體,竟然能直接跳過數據填食,在開放式的任務環境中自我進化。

此前的AlphaGo和AlphaStar,能力再強,也只能在各自的遊戲裡釋放大招,超出自己的遊戲範圍立馬完蛋。而這批小人卻能在不同的遊戲裡,游刃有餘地完成任務,展現出超強的適應能力。難道人工智慧要邁出適應力的「頑疾」了嗎?

在一個搶奪高地金字塔的任務裡,兩個不同顏色的小人能力值相當。都沒有跳躍功能的它們,開始「發脾氣」亂扔東西。混亂中,竟把其中一塊板子「扔」成了樓梯,長驅直入,任務完成!

多次實驗發現,這些小人可以復現這種方法,難道這群智慧體有了記憶?

不僅如此,小人還學會了「相對運動」,像是「我上不去,你下來」,藉助板子直接把目標扒拉下來了! 甚至為了贏得比賽,多個小人學會了互相配合,團體成長力頻頻上漲。

這種在虛擬遊戲中自我進化的智慧體,僅僅需要人為搭建一個任務環境,設計大量的任務目標,利用加強深度學習的方法,一步一步打通關,最終成為一個「十八般武藝」的智慧體。

沒有樣本也沒有經驗,這些智慧體究竟如何進化,零樣本學習方式是否意味著這些智慧體已經具備了基本的「自學意識」?

社會達爾文主義的訓練場

相比之前做出的AI足球場,這批智慧體的訓練場更像一個遊戲「社會」,裡面有無數個遊戲房間,每個房間的遊戲按照競爭性、平衡性、可選性、探索難度四個緯度進行區分。

不管是哪種任務,這批智慧體都只能從最簡單的開始,一步步解鎖更複雜的遊戲,這也導致整個遊戲更像一個虛擬社會。

這些無需大數據集訓練出來的智慧體,每玩一次遊戲就成長一次,在與各種環境的互動和「獎勵」中,成長為一個更通用的智慧體,也更類似於人工「生命」。

能讓智慧體自我進化的關鍵,在於正確設計初始智慧和進化規則。一開始是非常簡單的,所有的複雜結構都是進化而來,就像嬰兒做不了生孩子的事,佈置任務的核心是不要超出智慧體自身的改進能力。

根據DeepMind的說法,每個AI智慧體會在4000個遊戲房間中,玩大約70萬個獨特的遊戲,並在340萬個任務中經歷了2000億個訓練步驟。

1億個步驟相當於大約30分鐘的訓練。按照這種訓練方法,41天就能訓練出一群「成年」智慧體。

它還是不會思考

DeepMind表示:「單個AI智慧體可以開發智慧來實現多個目標,而不僅僅是一個目標。」

AI智慧體新科技公司Pathmind的CEO Chris Nicholson也說到,它學到的技能可以舉一反三。例如,智慧體學習抓取和操縱物體,就能完成敲錘子或鋪床的任務。

而DeepMind正在用編程為AI智慧體在這個世界上設定目標,而這些AI智慧體正在學習如何掌握它們。

但是南加州大學電腦科學副教授Sathyanaraya Raghavachary表示,這些智慧體並不能定義為「生命」,尤其是關於智慧體擁有身體感覺、時間意識以及理解目標的幾個結論。

「即使是我們人類也沒有完全意識到我們的身體,更不用說那些人工智慧了。」他講到,一個活躍的身體對於大腦不可或缺,大腦要放在合適的身體意識和空間位置裡進化,如果AI智慧體能夠理解它們的任務,何必需要2000億步的模擬訓練來達到最佳結果。

總體而言,這個虛擬環境訓練出來的AI智慧體只是和以往的「大同小異」。

從理論到現實的路還很長

狹義的人工智慧是「複製人類行為的元素」,在電腦中執行某種任務。例如實現對圖像進行分類、定位照片中的對象、定義對象之間的邊界等等。

這些系統旨在執行特定任務,而不具有解決問題的一般能力。

相比之下,Deepmind使用的「通用人工智慧」有時也被稱為人類級別的人工智慧,因為它可以理解上下文、潛台詞和社會線索,甚至被認為可能完全超過人類。

但是正如行為主義和認知主義之間的對抗,智慧體是否具有解決問題的能力,並不能單純地考慮統計的結果。善於「事後解釋」任何觀察到的行為,在實驗室之外,都無法「預測」哪些行動即將發生。

本文為雷鋒網授權刊登,原文標題為「DeepMind的智能體成精了,還學會「發脾氣」了?