現(xiàn)現(xiàn)在,經(jīng)由歷久的研討試驗證實,無模子深度強化進修在視頻游戲、模仿機械人把持和活動等范疇具有優(yōu)越的機能表示。但是,盡人皆知,當與情況的交互時光無限的情形下,無模子辦法的表示其實不佳,就像年夜多半實際世界中的機械人義務(wù)一樣。在本文中,我們研討了若何可以或許將應(yīng)用soft Q-learning練習的最年夜熵戰(zhàn)略運用于實際世界中的機械人把持義務(wù)。這類辦法之所以可以或許在實際世界中的運用重要得益于soft Q-learning的兩個主要特點:起首,soft Q-learning可以經(jīng)由過程進修具有表達性的基于能量的模子所表現(xiàn)的戰(zhàn)略(energy-based models),從而進修多形式摸索戰(zhàn)略。其次,我們展現(xiàn)了經(jīng)由過程soft Q-learning所進修的戰(zhàn)略可以構(gòu)成新戰(zhàn)略,而且終究戰(zhàn)略的最優(yōu)性可以依據(jù)組合戰(zhàn)略之間的不合來界定。這類組合性為實際世界的把持義務(wù)供給了一個特殊有價值的對象,個中,經(jīng)由過程對現(xiàn)有的技巧停止組合進而結(jié)構(gòu)出新的戰(zhàn)略,可以在從零開端的練習中供給效力上的年夜幅進步。我們的試驗評價成果注解,相較于以往的無模子深度強化進修辦法,soft Q-learning具有更高的樣本效力,而且可以對模仿和實際世界的義務(wù)履行組合性。
我們,應(yīng)用一種稱為soft Q-learning的最年夜熵強化進修算法,對Sawyer機械人停止練習使其可以或許將樂高積木疊加在一路。從零開端對一個戰(zhàn)略停止練習須要不到兩個小時的時光,而且已進修事物戰(zhàn)略攪擾(左圖)具有很強的魯棒性。我們還展現(xiàn)了該若何將學到的戰(zhàn)略組合起來構(gòu)成新的復(fù)合技巧,例如在避開樂高積木塔的情形下停止堆疊操作(右圖)。
具有表達性的通用目標函數(shù)近似器(如神經(jīng)收集),與可用于獲得龐雜行動戰(zhàn)略的通用目標無模子強化進修算法的交集,無望完成普遍的機械人行動的主動化:強化進修供給了用于推理序列決議計劃的情勢主義,而年夜型神經(jīng)收集供給了表征,準繩上,可以用于應(yīng)用起碼的手工工程來來表現(xiàn)任何行動。但是,經(jīng)由理論證實,將具有多層神經(jīng)收集表現(xiàn)(即深度強化進修)的無模子強化進修算法運用于實際世界中的機械人掌握成績,這一進程長短常艱苦的:無模子辦法的樣本龐雜性相當高,而且因為年夜容量函數(shù)近似器的包涵性,龐雜性還將進一步進步。在以往的研討中,專家們試圖經(jīng)由過程在多個機械人上并行化進修來減緩這些成績,好比應(yīng)用實例演示[,或模仿練習,并依附準確的模子完成向?qū)嶋H世界的遷徙。一切這些辦法都帶有附加的假定和局限性。那末,我們能否可以設(shè)計出一種無模子強化進修算法,這類算法可以或許在不依附模仿、演示或多個機械人的情形下,直接對實際世界中的多層神經(jīng)收集模子停止高效練習?
我們假定,基于以下兩點性質(zhì),最年夜熵道理可認為現(xiàn)實的、實際世界的深度強化進修供給一個有用的框架。起首,最年夜熵戰(zhàn)略經(jīng)由過程玻爾茲曼散布(Boltzmann distribution)表達了一個隨機戰(zhàn)略,供給了一種內(nèi)涵的、明智的摸索戰(zhàn)略,它,其能量對應(yīng)于reward-to-go或Q函數(shù)。此散布為一切操作分派一個非零幾率,但希冀報答更高的操作更能夠被采樣。是以,該戰(zhàn)略將主動把摸索引向報答更高的區(qū)域。這類特征可以被看做是摸索和開辟的軟組合,在現(xiàn)實運用中長短常無益的,由于它供給了比貪心摸索(greedy exploration)更多的構(gòu)造,而且正如我們試驗所展現(xiàn)的那樣,這年夜年夜進步了樣本的龐雜性。其次,正如我們在文章中所展現(xiàn)的那樣,自力練習的最年夜熵戰(zhàn)略可以經(jīng)由過程增長Q函數(shù)而其組合在一路,從而為歸并后的嘉獎函數(shù)發(fā)生一個新的戰(zhàn)略,該戰(zhàn)略被證實近乎于響應(yīng)的最優(yōu)戰(zhàn)略。在現(xiàn)實運用中,掌握器的可組合性尤其主要,而這在尺度強化進修中是弗成能的。在這些運用中,反復(fù)應(yīng)用曩昔的經(jīng)歷可以極年夜地進步義務(wù)的樣本效力(這些義務(wù)可以天然地分化為更簡略的子成績)。例如,拾取和放置的戰(zhàn)略可以分化為(1)達到指定的X坐標(2)達到指定的Y坐標(3)躲避妨礙。是以,這類可分化的戰(zhàn)略可以分三個階段進修,每一個階段發(fā)生一個子戰(zhàn)略,而這些此戰(zhàn)略隨后可以在須要與情況停止交互的情形下停止離線組合。
對兩個自力的戰(zhàn)略停止練習,從而響應(yīng)地推進圓柱到橙色線和藍色線。黑色圓圈顯示了針對響應(yīng)戰(zhàn)略的圓柱達到終究地位的樣本。當戰(zhàn)略組合在一路時,生成的戰(zhàn)略會進修將圓柱體推到線的下穿插點(綠色圓圈表現(xiàn)終究地位)。沒有來自情況的附加樣本用于對組合戰(zhàn)略停止練習。組合戰(zhàn)略進修知足兩個原始目的,而不是簡略地均勻終究圓柱地位。
本文的重要進獻是在最新提出的soft Q-learning(SQL)算法的基本上,提出了一種應(yīng)用具有表達性的神經(jīng)收集戰(zhàn)略進修機械人操作技巧的進修框架。我們證實了,該進修框架為進修各類機械人技巧供給了一種有用的機制,而且在現(xiàn)實機械人體系的樣本效力方面優(yōu)于今朝最早進的無模子深度強化進修辦法。我們的試驗成果注解,在很年夜的水平上,SQL的機能要遠遠優(yōu)于深度肯定性戰(zhàn)略梯度(DDPG)和歸一化優(yōu)勢函數(shù)(NAF),這些算法曩昔曾被用于應(yīng)用神經(jīng)收集摸索實際世界中的無模子機械人進修。我們還演示了對SQL算法的全新的擴大,即應(yīng)用它對之前進修過的技巧停止組合。我們提出了一個關(guān)于組合戰(zhàn)略和組合嘉獎函數(shù)最優(yōu)戰(zhàn)略之間差異的實際界線,它實用于SQL和其他基于軟優(yōu)化的強化進修辦法。在試驗中,我們應(yīng)用最年夜熵戰(zhàn)略在模仿范疇和物理范疇的組合性,展現(xiàn)了分歧技巧的魯棒性進修,而且在樣本效力方面超出了現(xiàn)有的最早進的辦法。
當在Sawyer機械人長進行練習以將其末尾履行器挪動到特定地位時,DDPG(綠色)、NAF(白色)和SQL(藍色)的進修曲線。SQL的進修速度比其他辦法快很多。我們還經(jīng)由過程將希冀的地位銜接到不雅察向量(橙色)以練習SQL到達隨機采樣的末尾履行器地位。SQL學會盡快處理這個義務(wù)。SQL曲線顯示10個輪數(shù)中的挪動均勻值。
在本文中,我們商量了若何將soft Q-learning擴大到實際世界中的機械人操作義務(wù)中,既可以進修單個操作義務(wù),也能夠進修可以或許構(gòu)成新戰(zhàn)略的組合義務(wù)。我們的試驗注解,實質(zhì)下去說,soft Q-learning的機能要遠遠優(yōu)于無模子深度強化進修。在模仿達到義務(wù)中,soft Q-learning具有比NAF更好的機能,個中包含多個戰(zhàn)略組合以達到新地位的情形。除此以外,在Sawyer機械人停止評價的真實世界義務(wù)的履行中,soft Q-learning的機能上勝過DDPG。該辦法具有更好的穩(wěn)固性和收斂性,而且經(jīng)由過程soft Q-learning取得的對Q函數(shù)停止組合的才能可使其在實際世界的機械人場景中特殊有效,個中針對每一個新嘉獎身分組合的新戰(zhàn)略停止再練習是耗時且昂貴的。
在不到兩個小時的時光里,便可以學會一個樂高堆疊戰(zhàn)略。進修到的戰(zhàn)略對攪擾聚于很強的魯棒性:當機械人被推動到一個與典范軌跡完整分歧的狀況后,它可以或許恢復(fù)并勝利地將樂高積木堆在一路。
在研討最年夜熵戰(zhàn)略的可組合性時,我們推導出了組合戰(zhàn)略與組合嘉獎函數(shù)的最優(yōu)戰(zhàn)略之間誤差的界線。這一界線注解熵值較高的戰(zhàn)略能夠更輕易停止組合。在將來,一項成心義的研討偏向是探訪這一束縛對組合性的影響。例如,我們能否可以推導出一個可運用于組合Q函數(shù)的修改,以削減誤差?答復(fù)如許的成績,會使得從先前練習過的構(gòu)建塊中創(chuàng)立新的機械人技巧變得加倍現(xiàn)實,這使得機械人更輕易取得經(jīng)由過程強化進修所學到的年夜量行動。