訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭

編輯:好困拉燕袁榭
【新智元導讀】2022年6月 , OpenAI發表論文稱用「視頻預訓練模型」 , 讓AI學會了在「我的世界」里從頭開始造石鎬 。
最近 , 似乎早已把GPT拋在腦后的OpenAI又整了個新活 。
在經過海量無標注視頻以及一點點標注過的數據訓練之后 , AI終于學會了在「我的世界」(Minecraft)里制作鉆石鎬 。
而整套流程需要一個骨灰級玩家至少20分鐘的時間才能完成 , 總計要操作24000次 。
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
這個東西吧 , 看似簡單 , 但對AI來說卻非常困難 。
7歲小孩看10分鐘就能學會
對于最簡單的木鎬 , 讓人類玩家從頭開始學過程并不太難 。
一個死宅不到3分鐘用單個視頻就能教會下一個 。
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
演示視頻全長2分52秒
然而 , 鉆石鎬的制作就復雜多了 。
不過即便如此 , 一個7歲小孩也只需看上十分鐘的演示視頻 , 就能學會了 。
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
這個任務的難點 , 主要在如何挖到鉆石礦 。
過程大概可以概括為12個步驟:先徒手刨下像素塊「木頭」 , 再由原木合成木塊 , 木塊制作木棍 , 木棍制作工坊裝具臺 , 工臺造木鎬 , 木鎬敲石塊 , 石塊加木棍做石鎬 , 石鎬打造煉爐 , 煉爐加工鐵礦 , 鐵礦熔鑄鐵錠 , 鐵錠制作鐵鎬 , 鐵鎬去挖鉆石 。
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
現在 , 壓力來到了AI這邊 。
正巧 , CMU、OpenAI、DeepMind、MicrosoftResearch等機構自2019年起 , 就搞了一個相關的比賽——MineRL 。
參賽選手需要自研出一個「自主從零開始打造工具、自動尋找并挖掘鉆石礦」的人工智能體 , 而獲勝條件也很簡單—最快者勝出 。
結果如何?
在首屆MineRL比賽結束之后 , 「7歲小孩看10分鐘視頻就學會 , AI用了8百萬步還搞不定」 , 可是上了Nature雜志的 。
數據雖多 , 但我用不上啊
「我的世界」作為沙盒建筑游戲 , 其玩家策略、游戲內虛擬環境的高開放性 , 特別適合作為各種AI模型學習、決策能力的測試場和試金石 。
而且作為一款「國民級」的游戲 , 想在網上找到和「我的世界」相關的視頻簡直易如反掌 。
然而 , 不管是搭建教程 , 還是炫耀自己的作品 , 從某種程度上來說都只是在畫面上呈現出的結果 。
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
換句話說 , 看視頻的人只能知道up主干了個啥 , 干的怎么樣 , 但沒法知道是怎么干的 。
更具體點 , 電腦屏幕上呈現出來的只是結果 , 而操作步驟是up主在鍵盤上的不停點擊 , 以及鼠標的不停移動 , 這部分是看不到的 。
甚至 , 連這個過程都是經過剪輯的 , 人看了估計都學不會 , 更別說AI了 。
雪上加霜的是 , 不少玩家抱怨在游戲里刨木頭的枯燥度 , 太像做作業完成任務 。 結果一波更新之后 , 有不少工具可以直接白撿……這下 , 連數據都不好找了 。
而OpenAI想要讓AI學會玩兒「我的世界」 , 就必須找到一個辦法 , 能夠讓這些海量的未標注的視頻數據派上用場 。
視頻預訓練模型——VPT
于是 , VPT應運而出 。
訓練7萬小時后,OpenAI的模型竟然學會在「我的世界」里刨木頭
文章圖片
論文地址:https://cdn.openai.com/vpt/Paper.pdf

相關經驗推薦