在即將舉行的MineRL競賽中,AI工程師,研究人員等將獲得4天的時間來開發(fā)能夠通過挖掘在流行的Minecraft游戲中找到鉆石的AI。問題在于參與者將有800萬步訓(xùn)練他們創(chuàng)建的AI來尋找鉆石。這比目前訓(xùn)練AI模型所需的時間短。因此,參與者必須提出新的工程解決方案才能完成任務(wù)。
在最近的比賽中,人工智能在戰(zhàn)略游戲《星際爭霸2》中擊敗了人類。為了提高挑戰(zhàn)水平,現(xiàn)在需要AI在Minecraft中完成任務(wù)。《星際爭霸II》有明確的目標,可以分解為合理的步驟,然后將其用于訓(xùn)練AI程序。另一方面,《我的世界》是一款大型的開放世界的沙盒游戲,要分解成清晰合理的步驟要困難得多。因此,為Minecraft訓(xùn)練AI程序要復(fù)雜得多。培訓(xùn)步驟的上限為800萬,從而增加了復(fù)雜性。
目前,用于AI的培訓(xùn)方法是強化學習。工廠中的機械臂通過這種方法進行訓(xùn)練。強化學習需要大量的計算機處理能力來進行訓(xùn)練,其中數(shù)千臺計算機被鏈接在一起進行學習。
為了克服強化學習的缺點,研究人員正在開發(fā)模仿學習系統(tǒng),在該系統(tǒng)中訓(xùn)練AI程序以模仿人類通過觀察進行學習的行為。
選擇Minecraft是因為它很受歡迎,因為培訓(xùn)數(shù)據(jù)很容易獲得。實際上,組織者招募了Minecraft玩家來創(chuàng)建各種工具并打破常規(guī)。收集了超過6000萬個可以在游戲中采取的動作示例,這些視頻可以播放1000小時的視頻。所有這些都移交給了參與者以培訓(xùn)他們的AI。
Minecraft允許玩家從簡單的構(gòu)建塊中構(gòu)建復(fù)雜的結(jié)構(gòu)。創(chuàng)建結(jié)構(gòu)的過程可以分解為不同的階段,參與者可以將其用作進度的標記。
模仿學習將使AI能夠吸收所有數(shù)據(jù),在其中尋找模式,并對游戲做出一些假設(shè),這將構(gòu)成其知識的基線。