谷歌DADS算法助力智能體實現(xiàn)多樣化行為發(fā)現(xiàn)
利用模型動力學實現(xiàn)基于模型的控制
DADS不僅可以發(fā)現(xiàn)可預測的潛在有用模型,同時允許高效地將學習到的技能應用于下游任務中去。DADS可以利用學習到的技能動力學來預測每個技能的狀態(tài)轉移,預測的狀態(tài)轉移可以被銜接起來模擬任意技能的完整狀態(tài)軌跡,而無需在環(huán)境中執(zhí)行。因此我們可以模擬不同技能的軌跡,并為給定的任務選擇最高獎勵的技能;谀P偷囊(guī)劃方法具有很高的樣本效率并無需額外的訓練。相較于先前的方法是一個重要的進步,無需針對學習到的技能在環(huán)境中進行額外的訓練。
利用智能體發(fā)現(xiàn)的技能,就可以在無需額外實驗的情況下遍歷任意檢查點。上圖顯示了主體在檢查點間的遍歷情況。
真實實驗
為了驗證算法的有效性,研究人員針對這一算法提出了簡化版本off-DADS,通過離線學習對算法和系統(tǒng)上的改進,使得模型可以利用從不同策略下收集的數(shù)據(jù)來改進當前策略。特別是對于先前數(shù)據(jù)的復用將顯著提升強化學習算法的樣本效率。在改進的離線策略基礎上,研究人員從隨機初始化策略開始訓練了小四足機器人,在沒有任何環(huán)境獎勵和手工探索策略的情況下,通過DADS定義的內部獎勵實現(xiàn)了多種步態(tài)和方向性運動。
這種新穎的非監(jiān)督學習技能發(fā)現(xiàn)方法可以在將來被用于更為廣泛的真實世界任務中,在最小化人類工作的情況下適應廣泛場景和任務需求。未來研究人員們將在狀態(tài)表示和技能發(fā)現(xiàn)間進行更為深入的研究,并探索將高級的運動規(guī)劃和底層的控制進行分離的技能探索策略。如果想要了解詳細信息,

請輸入評論內容...
請輸入評論/評論長度6~500個字
最新活動更多
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進算力新選擇 | 2025華為算力場景發(fā)布會暨北京xPN伙伴大會成功舉辦
- 3 宇樹機器人撞人事件的深度剖析:六維力傳感器如何成為人機安全的關鍵屏障
- 4 清華跑出具身智能獨角獸:給機器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實用主義
- 7 騰訊 Q2 財報亮眼:AI 已成第二增長曲線
- 8 谷歌吹響AI沖鋒號,AI還有哪些機會
- 9 蘋果把身家押在Siri上:一場輸不起的自我革命
- 10 共探合作新機遇!江門市新會區(qū)(深圳)“AI + 機器人” 產(chǎn)業(yè)對接會成功舉辦