谷歌DADS算法助力智能體實現(xiàn)多樣化行為發(fā)現(xiàn)
近年來強化學習的高速發(fā)展已經(jīng)證明監(jiān)督強化學習可以在真實世界中處理包括任意物體的抓取、靈巧的運動等復(fù)雜的任務(wù)。然而利用精心設(shè)計的獎勵函數(shù)來教會智能體進行復(fù)雜的行為卻面臨著顯著的局限性。一方面在設(shè)計損失函數(shù)上需要大量的工程性工作,對于大量任務(wù)來說幾乎是不可能的。另一方面針對真實環(huán)境設(shè)計獎勵,其復(fù)雜性不僅來自于獎勵函數(shù)本身,同時還需要一系列的環(huán)境基礎(chǔ)設(shè)施(額外的傳感器)或手工標注的目標狀態(tài)來進行輔助。這種獎勵函數(shù)工程方式顯示了智能體學習復(fù)雜行為的過程,而無監(jiān)督學習的出現(xiàn)為這一問題提供了潛在的解決思路。
在監(jiān)督強化學習中,來自環(huán)境的外部獎勵將引導(dǎo)智能體學習期待的行為,強化對環(huán)境進行期待的行為改造。而在非監(jiān)督強化學習中,整體則利用內(nèi)在的獎勵函數(shù)(例如嘗試環(huán)境中不同事物的好奇心)來生成訓練信號,從而可以獲得更為廣泛的任務(wù)無關(guān)的技能行為。內(nèi)部獎勵函數(shù)可以繞過外部獎勵函數(shù)特有的工程問題,在無需額外設(shè)計的情況下適用于更廣泛更通用的任務(wù)上去。雖然已經(jīng)有很多研究人員聚焦于實現(xiàn)非監(jiān)督強化學習的不同手段,但這是一個嚴重欠約束的問題,沒有環(huán)境獎勵函數(shù)的引導(dǎo)是很難學習到有用的行為的。那么主體和環(huán)境間交互的有效特性是否可以幫助發(fā)現(xiàn)更好的行為(技能)呢?
這篇文章中將介紹關(guān)于非監(jiān)督強化學習的最新研究。在DADS(Dynamics-Aware Unsupervised Discovery of Skills)方法中為非監(jiān)督學習引入了可預(yù)測的優(yōu)化目標,將技能的基礎(chǔ)特性視為可以對環(huán)境帶來可預(yù)測的改變,基于這一觀點開發(fā)出了非監(jiān)督強化學習技能發(fā)現(xiàn)算法,并在模擬實驗中展示了其廣泛適應(yīng)性。隨后研究人員還改進了樣本效率,展示了非監(jiān)督技能發(fā)現(xiàn)對于真實世界的可行性。
左圖表示隨機不可預(yù)測的行為,右圖描述了在可預(yù)測環(huán)境中的系統(tǒng)性運動。本研究的目標在于學習像右圖一樣潛在的有用行為而無需獎勵函數(shù)工程。
DADS概覽
DADS設(shè)計了一個內(nèi)部獎勵函數(shù)來鼓勵主體發(fā)現(xiàn)可預(yù)測、多樣性的技能。在以下兩種情況下內(nèi)部獎勵函數(shù)值很高:
(a).不同技能對于環(huán)境的改變不同(鼓勵多樣性);
(b).給定技能在環(huán)境的造成的改變是可預(yù)測的(可預(yù)測性)。由于DADS無法從環(huán)境中獲取任何獎勵,技能優(yōu)化的多樣性可以使得智能體抓住盡可能多的潛在有效行為。
為了判斷技能是否具有可預(yù)測性,文章中又訓練技能動力學網(wǎng)絡(luò),在給定當前狀態(tài)和執(zhí)行技能后來預(yù)測環(huán)境狀態(tài)的改變。技能動力學網(wǎng)絡(luò)對于環(huán)境狀態(tài)的預(yù)測越好,對于技能就越是可預(yù)測的。DADS定義的內(nèi)部獎勵可以利用任何傳統(tǒng)的強化學習算法來最大化。
DADS的概覽圖
這套算法使得多個不同的主體可以通過與環(huán)境純粹的無獎勵交互來發(fā)現(xiàn)可預(yù)測的技能。DADS與先前的算法不同,可以拓展到高維度的連續(xù)控制環(huán)境中,例如人形機器人、模擬雙足機器人等。由于DADS可適應(yīng)多種環(huán)境,可用于在方向性的環(huán)境中定位、操控和運動。下圖展示了一些實驗中的例子。
旋轉(zhuǎn)跳躍、人形仿真的不同步態(tài)、旋轉(zhuǎn)目標的不同方法。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-9.1立即下載>> 【限時下載】ADI中國三十周年感恩回饋助力企業(yè)升級!
-
即日-9.16點擊進入 >> 【限時福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進算力新選擇 | 2025華為算力場景發(fā)布會暨北京xPN伙伴大會成功舉辦
- 3 宇樹機器人撞人事件的深度剖析:六維力傳感器如何成為人機安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨角獸:給機器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實用主義
- 7 騰訊 Q2 財報亮眼:AI 已成第二增長曲線
- 8 谷歌吹響AI沖鋒號,AI還有哪些機會
- 9 蘋果把身家押在Siri上:一場輸不起的自我革命
- 10 共探合作新機遇!江門市新會區(qū)(深圳)“AI + 機器人” 產(chǎn)業(yè)對接會成功舉辦