現(xiàn)現(xiàn)在,經(jīng)由歷久的研討試驗(yàn)證實(shí),無(wú)模子深度強(qiáng)化進(jìn)修在視頻游戲、模仿機(jī)械人把持和活動(dòng)等范疇具有優(yōu)越的機(jī)能表示。但是,盡人皆知,當(dāng)與情況的交互時(shí)光無(wú)限的情形下,無(wú)模子辦法的表示其實(shí)不佳,就像年夜多半實(shí)際世界中的機(jī)械人義務(wù)一樣。在本文中,我們研討了若何可以或許將應(yīng)用soft Q-learning練習(xí)的最年夜熵戰(zhàn)略運(yùn)用于實(shí)際世界中的機(jī)械人把持義務(wù)。這類辦法之所以可以或許在實(shí)際世界中的運(yùn)用重要得益于soft Q-learning的兩個(gè)主要特點(diǎn):起首,soft Q-learning可以經(jīng)由過(guò)程進(jìn)修具有表達(dá)性的基于能量的模子所表現(xiàn)的戰(zhàn)略(energy-based models),從而進(jìn)修多形式摸索戰(zhàn)略。其次,我們展現(xiàn)了經(jīng)由過(guò)程soft Q-learning所進(jìn)修的戰(zhàn)略可以構(gòu)成新戰(zhàn)略,而且終究戰(zhàn)略的最優(yōu)性可以依據(jù)組合戰(zhàn)略之間的不合來(lái)界定。這類組合性為實(shí)際世界的把持義務(wù)供給了一個(gè)特殊有價(jià)值的對(duì)象,個(gè)中,經(jīng)由過(guò)程對(duì)現(xiàn)有的技巧停止組合進(jìn)而結(jié)構(gòu)出新的戰(zhàn)略,可以在從零開(kāi)端的練習(xí)中供給效力上的年夜幅進(jìn)步。我們的試驗(yàn)評(píng)價(jià)成果注解,相較于以往的無(wú)模子深度強(qiáng)化進(jìn)修辦法,soft Q-learning具有更高的樣本效力,而且可以對(duì)模仿和實(shí)際世界的義務(wù)履行組合性。
我們,應(yīng)用一種稱為soft Q-learning的最年夜熵強(qiáng)化進(jìn)修算法,對(duì)Sawyer機(jī)械人停止練習(xí)使其可以或許將樂(lè)高積木疊加在一路。從零開(kāi)端對(duì)一個(gè)戰(zhàn)略停止練習(xí)須要不到兩個(gè)小時(shí)的時(shí)光,而且已進(jìn)修事物戰(zhàn)略攪擾(左圖)具有很強(qiáng)的魯棒性。我們還展現(xiàn)了該若何將學(xué)到的戰(zhàn)略組合起來(lái)構(gòu)成新的復(fù)合技巧,例如在避開(kāi)樂(lè)高積木塔的情形下停止堆疊操作(右圖)。
具有表達(dá)性的通用目標(biāo)函數(shù)近似器(如神經(jīng)收集),與可用于獲得龐雜行動(dòng)戰(zhàn)略的通用目標(biāo)無(wú)模子強(qiáng)化進(jìn)修算法的交集,無(wú)望完成普遍的機(jī)械人行動(dòng)的主動(dòng)化:強(qiáng)化進(jìn)修供給了用于推理序列決議計(jì)劃的情勢(shì)主義,而年夜型神經(jīng)收集供給了表征,準(zhǔn)繩上,可以用于應(yīng)用起碼的手工工程來(lái)來(lái)表現(xiàn)任何行動(dòng)。但是,經(jīng)由理論證實(shí),將具有多層神經(jīng)收集表現(xiàn)(即深度強(qiáng)化進(jìn)修)的無(wú)模子強(qiáng)化進(jìn)修算法運(yùn)用于實(shí)際世界中的機(jī)械人掌握成績(jī),這一進(jìn)程長(zhǎng)短常艱苦的:無(wú)模子辦法的樣本龐雜性相當(dāng)高,而且因?yàn)槟暌谷萘亢瘮?shù)近似器的包涵性,龐雜性還將進(jìn)一步進(jìn)步。在以往的研討中,專家們?cè)噲D經(jīng)由過(guò)程在多個(gè)機(jī)械人上并行化進(jìn)修來(lái)減緩這些成績(jī),好比應(yīng)用實(shí)例演示[,或模仿練習(xí),并依附準(zhǔn)確的模子完成向?qū)嶋H世界的遷徙。一切這些辦法都帶有附加的假定和局限性。那末,我們能否可以設(shè)計(jì)出一種無(wú)模子強(qiáng)化進(jìn)修算法,這類算法可以或許在不依附模仿、演示或多個(gè)機(jī)械人的情形下,直接對(duì)實(shí)際世界中的多層神經(jīng)收集模子停止高效練習(xí)?
我們假定,基于以下兩點(diǎn)性質(zhì),最年夜熵道理可認(rèn)為現(xiàn)實(shí)的、實(shí)際世界的深度強(qiáng)化進(jìn)修供給一個(gè)有用的框架。起首,最年夜熵戰(zhàn)略經(jīng)由過(guò)程玻爾茲曼散布(Boltzmann distribution)表達(dá)了一個(gè)隨機(jī)戰(zhàn)略,供給了一種內(nèi)涵的、明智的摸索戰(zhàn)略,它,其能量對(duì)應(yīng)于reward-to-go或Q函數(shù)。此散布為一切操作分派一個(gè)非零幾率,但希冀報(bào)答更高的操作更能夠被采樣。是以,該戰(zhàn)略將主動(dòng)把摸索引向報(bào)答更高的區(qū)域。這類特征可以被看做是摸索和開(kāi)辟的軟組合,在現(xiàn)實(shí)運(yùn)用中長(zhǎng)短常無(wú)益的,由于它供給了比貪心摸索(greedy exploration)更多的構(gòu)造,而且正如我們?cè)囼?yàn)所展現(xiàn)的那樣,這年夜年夜進(jìn)步了樣本的龐雜性。其次,正如我們?cè)谖恼轮兴宫F(xiàn)的那樣,自力練習(xí)的最年夜熵戰(zhàn)略可以經(jīng)由過(guò)程增長(zhǎng)Q函數(shù)而其組合在一路,從而為歸并后的嘉獎(jiǎng)函數(shù)發(fā)生一個(gè)新的戰(zhàn)略,該戰(zhàn)略被證實(shí)近乎于響應(yīng)的最優(yōu)戰(zhàn)略。在現(xiàn)實(shí)運(yùn)用中,掌握器的可組合性尤其主要,而這在尺度強(qiáng)化進(jìn)修中是弗成能的。在這些運(yùn)用中,反復(fù)應(yīng)用曩昔的經(jīng)歷可以極年夜地進(jìn)步義務(wù)的樣本效力(這些義務(wù)可以天然地分化為更簡(jiǎn)略的子成績(jī))。例如,拾取和放置的戰(zhàn)略可以分化為(1)達(dá)到指定的X坐標(biāo)(2)達(dá)到指定的Y坐標(biāo)(3)躲避妨礙。是以,這類可分化的戰(zhàn)略可以分三個(gè)階段進(jìn)修,每一個(gè)階段發(fā)生一個(gè)子戰(zhàn)略,而這些此戰(zhàn)略隨后可以在須要與情況停止交互的情形下停止離線組合。
對(duì)兩個(gè)自力的戰(zhàn)略停止練習(xí),從而響應(yīng)地推進(jìn)圓柱到橙色線和藍(lán)色線。黑色圓圈顯示了針對(duì)響應(yīng)戰(zhàn)略的圓柱達(dá)到終究地位的樣本。當(dāng)戰(zhàn)略組合在一路時(shí),生成的戰(zhàn)略會(huì)進(jìn)修將圓柱體推到線的下穿插點(diǎn)(綠色圓圈表現(xiàn)終究地位)。沒(méi)有來(lái)自情況的附加樣本用于對(duì)組合戰(zhàn)略停止練習(xí)。組合戰(zhàn)略進(jìn)修知足兩個(gè)原始目的,而不是簡(jiǎn)略地均勻終究圓柱地位。
本文的重要進(jìn)獻(xiàn)是在最新提出的soft Q-learning(SQL)算法的基本上,提出了一種應(yīng)用具有表達(dá)性的神經(jīng)收集戰(zhàn)略進(jìn)修機(jī)械人操作技巧的進(jìn)修框架。我們證實(shí)了,該進(jìn)修框架為進(jìn)修各類機(jī)械人技巧供給了一種有用的機(jī)制,而且在現(xiàn)實(shí)機(jī)械人體系的樣本效力方面優(yōu)于今朝最早進(jìn)的無(wú)模子深度強(qiáng)化進(jìn)修辦法。我們的試驗(yàn)成果注解,在很年夜的水平上,SQL的機(jī)能要遠(yuǎn)遠(yuǎn)優(yōu)于深度肯定性戰(zhàn)略梯度(DDPG)和歸一化優(yōu)勢(shì)函數(shù)(NAF),這些算法曩昔曾被用于應(yīng)用神經(jīng)收集摸索實(shí)際世界中的無(wú)模子機(jī)械人進(jìn)修。我們還演示了對(duì)SQL算法的全新的擴(kuò)大,即應(yīng)用它對(duì)之前進(jìn)修過(guò)的技巧停止組合。我們提出了一個(gè)關(guān)于組合戰(zhàn)略和組合嘉獎(jiǎng)函數(shù)最優(yōu)戰(zhàn)略之間差異的實(shí)際界線,它實(shí)用于SQL和其他基于軟優(yōu)化的強(qiáng)化進(jìn)修辦法。在試驗(yàn)中,我們應(yīng)用最年夜熵戰(zhàn)略在模仿范疇和物理范疇的組合性,展現(xiàn)了分歧技巧的魯棒性進(jìn)修,而且在樣本效力方面超出了現(xiàn)有的最早進(jìn)的辦法。
當(dāng)在Sawyer機(jī)械人長(zhǎng)進(jìn)行練習(xí)以將其末尾履行器挪動(dòng)到特定地位時(shí),DDPG(綠色)、NAF(白色)和SQL(藍(lán)色)的進(jìn)修曲線。SQL的進(jìn)修速度比其他辦法快很多。我們還經(jīng)由過(guò)程將希冀的地位銜接到不雅察向量(橙色)以練習(xí)SQL到達(dá)隨機(jī)采樣的末尾履行器地位。SQL學(xué)會(huì)盡快處理這個(gè)義務(wù)。SQL曲線顯示10個(gè)輪數(shù)中的挪動(dòng)均勻值。
在本文中,我們商量了若何將soft Q-learning擴(kuò)大到實(shí)際世界中的機(jī)械人操作義務(wù)中,既可以進(jìn)修單個(gè)操作義務(wù),也能夠進(jìn)修可以或許構(gòu)成新戰(zhàn)略的組合義務(wù)。我們的試驗(yàn)注解,實(shí)質(zhì)下去說(shuō),soft Q-learning的機(jī)能要遠(yuǎn)遠(yuǎn)優(yōu)于無(wú)模子深度強(qiáng)化進(jìn)修。在模仿達(dá)到義務(wù)中,soft Q-learning具有比NAF更好的機(jī)能,個(gè)中包含多個(gè)戰(zhàn)略組合以達(dá)到新地位的情形。除此以外,在Sawyer機(jī)械人停止評(píng)價(jià)的真實(shí)世界義務(wù)的履行中,soft Q-learning的機(jī)能上勝過(guò)DDPG。該辦法具有更好的穩(wěn)固性和收斂性,而且經(jīng)由過(guò)程soft Q-learning取得的對(duì)Q函數(shù)停止組合的才能可使其在實(shí)際世界的機(jī)械人場(chǎng)景中特殊有效,個(gè)中針對(duì)每一個(gè)新嘉獎(jiǎng)身分組合的新戰(zhàn)略停止再練習(xí)是耗時(shí)且昂貴的。
在不到兩個(gè)小時(shí)的時(shí)光里,便可以學(xué)會(huì)一個(gè)樂(lè)高堆疊戰(zhàn)略。進(jìn)修到的戰(zhàn)略對(duì)攪擾聚于很強(qiáng)的魯棒性:當(dāng)機(jī)械人被推動(dòng)到一個(gè)與典范軌跡完整分歧的狀況后,它可以或許恢復(fù)并勝利地將樂(lè)高積木堆在一路。
在研討最年夜熵戰(zhàn)略的可組合性時(shí),我們推導(dǎo)出了組合戰(zhàn)略與組合嘉獎(jiǎng)函數(shù)的最優(yōu)戰(zhàn)略之間誤差的界線。這一界線注解熵值較高的戰(zhàn)略能夠更輕易停止組合。在將來(lái),一項(xiàng)成心義的研討偏向是探訪這一束縛對(duì)組合性的影響。例如,我們能否可以推導(dǎo)出一個(gè)可運(yùn)用于組合Q函數(shù)的修改,以削減誤差?答復(fù)如許的成績(jī),會(huì)使得從先前練習(xí)過(guò)的構(gòu)建塊中創(chuàng)立新的機(jī)械人技巧變得加倍現(xiàn)實(shí),這使得機(jī)械人更輕易取得經(jīng)由過(guò)程強(qiáng)化進(jìn)修所學(xué)到的年夜量行動(dòng)。