付费一级毛片国产片_日韩在线视频网站免费_久青草18在线观看视频_亚洲免费在线观看高清_国产亚洲新视频观看视频_h成年同人动漫在线观看网站_亚洲性爱视频网址_国产成人精品免费av_架起白鹿撞击臀部_偷偷鲁2023丫丫久久

模擬現(xiàn)實(shí)場景 專家喜歡用游戲訓(xùn)練 AI

《經(jīng)濟(jì)學(xué)人》日前撰文稱,人工智能專家之所以喜歡用視頻游戲來訓(xùn)練算法,是因?yàn)樗梢阅M現(xiàn)實(shí)生活中的各種場景,降低訓(xùn)練成本,而且可以幫助他們更好地理解人工智能甚至自然智能的底層原理。

以下為編譯整理的原文內(nèi)容:

去年,普林斯頓大學(xué)計(jì)算機(jī)學(xué)家阿瑟·菲力珀維茨(Artur Filipowicz)在處理停止標(biāo)志時(shí)碰到了一個(gè)問題。菲力珀維茨博士當(dāng)時(shí)正在教汽車如何識別和解讀周圍的世界,使之可以在沒有人類幫助的情況下自動駕駛。

要實(shí)現(xiàn)這一目標(biāo),就必須能夠識別停止標(biāo)志。所以,他希望訓(xùn)練一套合適的算法。這種訓(xùn)練需要向算法(或者運(yùn)行算法的電腦)展示許多停止標(biāo)志的圖片,而且要涵蓋多種不同的環(huán)境:新標(biāo)志、舊標(biāo)志;干凈的標(biāo)志、弄臟的標(biāo)志;被卡車或建筑物部分遮擋的標(biāo)志;陽光明媚、陰雨綿綿、霧氣蒙蒙的環(huán)境里的標(biāo)志;白天、傍晚和夜間的標(biāo)志。

要從圖庫中獲取所有圖片并非易事,而要親自跑出去逐一拍攝更是非常困難。于是,菲力珀維茨決定向《俠盜獵車手5》求助——這是該系列游戲的最新力作。

由于真實(shí)地刻畫了犯罪和暴力行為,使得《俠盜獵車手5》成為了一款頗具爭議的作品——但在菲力珀維茨看來,這卻是個(gè)理想的訓(xùn)練場,因?yàn)槔锩嬉舶芏嗾鎸?shí)的停止標(biāo)志。通過對這款游戲軟件進(jìn)行調(diào)整,他得以從中分離出成千上萬的停止標(biāo)志圖片,而且涵蓋各種各樣的環(huán)境,使得他開發(fā)的算法可以充分吸收這些信息。

像菲力珀維茨這樣的例子并不少見,很多人工智能專業(yè)的學(xué)生都對視頻游戲頗為鐘愛。之所以出現(xiàn)這種情況,有很多原因。菲力珀維茨這樣的人把游戲當(dāng)成現(xiàn)實(shí)世界的預(yù)備訓(xùn)練場。還有的人則是看中了不同的游戲所需的不同認(rèn)知技能,因而認(rèn)為游戲可以幫助他們理解如何把智能問題分解成一個(gè)個(gè)易于掌控的模塊。但也有一些人融合了這兩種模式,認(rèn)為游戲可以幫助他們開發(fā)適當(dāng)?shù)娜斯ぶ悄芾碚摚踔量梢杂脕斫忉屪匀恢悄堋?/span>

模擬現(xiàn)實(shí)

但要實(shí)現(xiàn)這些目標(biāo),首先要對游戲進(jìn)行調(diào)整,才能直接讓其他電腦程序直接運(yùn)行,而不是同時(shí)讓人關(guān)注屏幕上的各種動作。例如,通過在其中植入一個(gè)名為“Deep Drive”的軟件,便可將《俠盜獵車手5》從一個(gè)采集道路標(biāo)志的圖片庫,變成無人駕駛汽車模擬器。

這樣一來,便可讓這些汽車的駕駛和導(dǎo)航系統(tǒng)獲得控制權(quán)——與直接上路測試相比,這種測試方式成本更低,也更為安全。

游戲公司也開始意識到這一點(diǎn)。例如,微軟2015年6月啟動了Project Malmo,這是一個(gè)以微軟最近收購的熱門游戲《我的世界》為基礎(chǔ)打造的人工智能開發(fā)平臺。2016年11月,作為策略游戲《星際爭霸2》的開發(fā)商,動視暴雪也宣布與谷歌(微博)旗下DeepMind展開合作。

第二個(gè)月,在版權(quán)所有者的允許下,獲得私人資助的舊金山研究機(jī)構(gòu)OpenAI推出了Universe。這款軟件可以免費(fèi)使用,里面包含了數(shù)百款可以直接使用適當(dāng)?shù)某绦蜻\(yùn)行的游戲。Universe里包含很多暢銷游戲,既有《傳送門2》這樣的大制作,也有《Bubble Hit Pony Parade》和《Hames the Space Zebra》這種物美價(jià)廉的游戲。

微軟啟動Project Malmo的目的是教給人工智能軟件如何與人進(jìn)行配合。為了達(dá)到這個(gè)目的,該項(xiàng)目負(fù)責(zé)人凱特加·霍夫曼(Katja Hofman)試圖使用《我的世界》開發(fā)一個(gè)高級個(gè)人助手。她的目標(biāo)是開發(fā)一款能夠預(yù)測人類意圖的軟件,從而幫助其達(dá)成目的。

《我的世界》不像現(xiàn)實(shí)世界那么復(fù)雜,但其復(fù)雜程度已經(jīng)足夠吸引人工智能專家的注意,因而成為了一個(gè)完美的測試場。例如,霍夫曼博士和她的同事就在使用這款游戲訓(xùn)練電腦,使之與人類選手配合抓住虛擬豬。由于機(jī)器無法理解手寫指令,所以只能通過觀察人類的游戲方式來學(xué)習(xí)。

然而,視頻游戲在人工智能領(lǐng)域的作用可不只是訓(xùn)練無人駕駛技術(shù)。事實(shí)上,由于不同的游戲需要不同的技能,因此研究人員便可借此加深對智能的理解。2015年,DeepMind發(fā)表了一篇論文,闡述了該公司的研究人員如何訓(xùn)練人工神經(jīng)網(wǎng)絡(luò)(這是一種大致模擬生物大腦的程序)運(yùn)行雅達(dá)利上世紀(jì)七八十年代發(fā)布的幾十款不同的游戲。

對神經(jīng)網(wǎng)絡(luò)來說,有的游戲較難掌握,有的相對容易?!禕reakout》有點(diǎn)像單人版網(wǎng)球,玩起來相對容易。目標(biāo)是用彈球擊中漂浮的磚塊。玩家可以做兩件事情:向左或向右移動球拍。如果失敗,就會立刻受到懲罰(丟球就會少一條命)。類似地,如果成功也會立刻得到獎(jiǎng)勵(lì)(每打中一個(gè)磚塊都可以加分)。

由于規(guī)則簡單,而且可以立刻獲得反饋,所以很適合DeepMind的神經(jīng)網(wǎng)絡(luò)。它玩《Breakout》的水平很高,甚至達(dá)到專業(yè)人類游戲測試員的10倍。

其他游戲沒有那么簡單。在《Montezuma’s Revenge》游戲中,目標(biāo)是找到藏在危險(xiǎn)金字塔深處的寶藏。為了完成任務(wù),玩家必須首先達(dá)成很多目標(biāo),例如找到鑰匙打開門。這種游戲的反饋不像《Breakout》那么快——鑰匙可能在一個(gè)地方,但要打開門卻要跑到更遠(yuǎn)的另外一個(gè)地方。不僅如此,還需要完成數(shù)以千計(jì)的動作后才能獲得最終的獎(jiǎng)勵(lì)——找到寶藏。

這就意味著神經(jīng)網(wǎng)絡(luò)很難建立因果關(guān)系。與《Breakout》的優(yōu)異表現(xiàn)相比,人工智能在《Montezuma’s Revenge》游戲中幾乎沒有取得進(jìn)步。

自那之后,DeepMind研究人員便調(diào)整了算法,加強(qiáng)系統(tǒng)對事物的好奇心,通過更大的獎(jiǎng)勵(lì)鼓勵(lì)其展開探索和實(shí)驗(yàn)。這樣一來,它就更有可能發(fā)現(xiàn)那些無法立刻顯現(xiàn)出效果的一流策略。

這種方式不僅限于掌握虛擬世界的各種技巧,還可以應(yīng)用到現(xiàn)實(shí)世界。例如,DeepMind的算法已經(jīng)應(yīng)用到谷歌的數(shù)據(jù)中心,并且成功將能耗降低了40%。事實(shí)上,完全可以將這樣的任務(wù)當(dāng)做游戲看待。要降低數(shù)據(jù)中心的能耗,神經(jīng)網(wǎng)絡(luò)可以對冷卻液泵和和負(fù)載分布等設(shè)置進(jìn)行調(diào)整,同時(shí)密切關(guān)注能源使用狀況?!暗梅帧痹降停砻餍Ч胶?。

遷移學(xué)習(xí)

在現(xiàn)階段,通過調(diào)整游戲程序來降低數(shù)據(jù)中心的能源預(yù)算,就像從頭教給人工智能如何玩一款新游戲一樣。這是因?yàn)镈eepMind的原始神經(jīng)網(wǎng)絡(luò)一次只能運(yùn)行一款游戲。例如,為了理解《Breakout》,它必須忘記自己掌握的《Space Invaders》游戲的內(nèi)容。

這種健忘癥是人工神經(jīng)網(wǎng)絡(luò)的特性——也是它區(qū)別于人類大腦的關(guān)鍵。這種神經(jīng)網(wǎng)絡(luò)由虛擬神經(jīng)組成,它們通過系統(tǒng)性調(diào)整這些虛擬神經(jīng)之間的連接強(qiáng)度進(jìn)行學(xué)習(xí)。如果改變需要學(xué)習(xí)的任務(wù),之前的連接網(wǎng)絡(luò)就會逐漸被替換。

但現(xiàn)在,正如他們在今年3月發(fā)表的一篇論文中所說,DeepMind的程序員已經(jīng)克服了這個(gè)問題,使得神經(jīng)網(wǎng)絡(luò)可以像人腦一樣同時(shí)掌握多款游戲。這便向著“遷移學(xué)習(xí)”邁出了一步——遷移學(xué)習(xí)指的是把一種背景下學(xué)會的行為模式應(yīng)用到另外一個(gè)背景中,這是當(dāng)今人工智能研究領(lǐng)域的熱門話題。

就像展示好奇心和延后獎(jiǎng)勵(lì)一樣,遷移學(xué)習(xí)對人類來說毫無難度,但機(jī)器卻很難掌握。于是,游戲又一次在研究中扮演了重要角色。

例如,紐約大學(xué)的朱利安·托格流斯(Julian Togelius)組織了一場名為“普通視頻游戲人工智能競賽”的挑戰(zhàn)賽:參加者必須開發(fā)一款會玩10款不同視頻游戲的程序,而且要具備一定的能力。值得一提的是,無論是程序本身還是負(fù)責(zé)開發(fā)的程序員,之前都不能接觸過這些游戲。這就要求軟件掌握許多技能,包括規(guī)劃、探索、決策等,而且還要懂得使用這些能力來解決之前沒有遇到的問題。

但即便是掌握了遷移學(xué)習(xí)能力,構(gòu)建有用的人工智能仍然是一項(xiàng)繁瑣的任務(wù)。研究人員希望掌握一套基礎(chǔ)理論,以便能夠系統(tǒng)性地實(shí)現(xiàn)這一目標(biāo)。其中一種候選理論名為“體驗(yàn)認(rèn)知”,該理論認(rèn)為,不應(yīng)該從一開始就給程序設(shè)計(jì)智能,而是應(yīng)該完全通過體驗(yàn)來學(xué)習(xí)。

霍夫曼特別支持這種方法。她認(rèn)為,視頻游戲是探索這種想法的完美平臺。之前關(guān)于體驗(yàn)認(rèn)知的研究是在1980年代進(jìn)行的,當(dāng)時(shí)是在機(jī)器人身上配置傳感器,讓其通過四處跑動和偶然碰到各種事情來了解現(xiàn)實(shí)世界的運(yùn)作方式。當(dāng)時(shí)的研究人員在這方面的確取得了一定的成功,但在擴(kuò)大試驗(yàn)規(guī)模時(shí)卻遇到問題。

DeepMind的大衛(wèi)·西爾沃(David Silver)表示:“機(jī)器人有齒輪、轉(zhuǎn)輪和發(fā)動機(jī),以及各種高精度零件,所以需要花費(fèi)很多時(shí)間來維護(hù)?!?/span>

簡化過程

視頻游戲可以簡化這一過程。虛擬世界的虛擬機(jī)器人沒有重量,也沒有傳動部件,所以無需維護(hù)。如果要對規(guī)格進(jìn)行調(diào)整,也不需要把它拆開,只需要敲擊幾下鍵盤即可完成。

環(huán)境也可以輕易調(diào)整。改變迷宮路徑不再需要大動干戈,一臺電腦便可同時(shí)運(yùn)行數(shù)千個(gè)模擬程序,使得虛擬機(jī)器人一遍一遍地嘗試任務(wù),不斷學(xué)習(xí)。這種大規(guī)模測試也讓研究人員得以監(jiān)督和理解學(xué)習(xí)過程。如果使用的是真正的機(jī)器,根本無法達(dá)到這種效果。

DeepMind創(chuàng)始人戴密斯·哈薩比斯(Demis Hassabit)認(rèn)為,關(guān)鍵是確保虛擬機(jī)器人不能作弊。一定要讓它完全根據(jù)虛擬傳感器所能收集的信息來采取行動。不能在模擬場景上開后門。如果這些機(jī)器人想要適應(yīng)《Montezuma’s Revenge》里的金字塔或者《俠盜獵車手》里的虛擬城市,就必須搞清楚自己所處的位置和周圍的狀況,而不能向電腦詢問相關(guān)信息。DeepMind在教程序玩游戲時(shí)就采取了這種方法。

通過這種方法研究體驗(yàn)認(rèn)知是對人工智能游戲方式的合理總結(jié)。這似乎也是比較恰當(dāng)?shù)囊环N方式。無論是狗還是人,任何一種智能生物年輕的時(shí)候都會通過玩來構(gòu)建類似于“體驗(yàn)認(rèn)知”的東西。進(jìn)化過程并沒有計(jì)算機(jī)作為輔助,但無論是在人工世界還是自然世界中,這種活動的出發(fā)點(diǎn)都是為了讓“玩家”學(xué)會應(yīng)對最大的游戲——那就是現(xiàn)實(shí)。

上一篇:

下一篇:

相關(guān)新聞

微信客服
微信客服
電話

13928227857

返回頂部
我公司專業(yè)生產(chǎn)各種標(biāo)準(zhǔn)電動平臺,電動缸,伺服控制系統(tǒng)等。部分產(chǎn)品現(xiàn)貨供應(yīng),歡迎廣大客戶前來訂購!