亚洲AV无码专区亚洲AV蜜芽 ,亚洲精品无码在线看,天天日天天干天天操初女

當(dāng)前位置： OFweek 人工智能網(wǎng) > 機(jī)器學(xué)習(xí) > 正文

谷歌提出非監(jiān)督強(qiáng)化學(xué)習(xí)新方法助力智能體發(fā)現(xiàn)多樣化可預(yù)測新技能

2020-06-05 11:37

將門創(chuàng)投

利用模型動力學(xué)實(shí)現(xiàn)基于模型的控制

DADS不僅可以發(fā)現(xiàn)可預(yù)測的潛在有用模型，同時允許高效地將學(xué)習(xí)到的技能應(yīng)用于下游任務(wù)中去。可以利用學(xué)習(xí)到的技能動力學(xué)來預(yù)測每個技能的狀態(tài)轉(zhuǎn)移，預(yù)測的狀態(tài)轉(zhuǎn)移可以被銜接起來模擬任意技能的完整狀態(tài)軌跡，而無需在環(huán)境中執(zhí)行。因此我們可以模擬不同技能的軌跡，并為給定的任務(wù)選擇最高獎勵的技能�；谀Ｐ偷囊�(guī)劃方法具有很高的樣本效率并無需額外的訓(xùn)練。相較于先前的方法是一個重要的進(jìn)步，無需針對學(xué)習(xí)到的技能在環(huán)境中進(jìn)行額外的訓(xùn)練。

利用智能體發(fā)現(xiàn)的技能，就可以在無需額外實(shí)驗(yàn)的情況下遍歷任意檢查點(diǎn)。上圖顯示了主體在檢查點(diǎn)間的遍歷情況。

真實(shí)實(shí)驗(yàn)

為了驗(yàn)證算法的有效性，研究人員針對這一算法提出了簡化版本off－DADS，通過離線學(xué)習(xí)對算法和系統(tǒng)上的改進(jìn)，使得模型可以利用從不同策略下收集的數(shù)據(jù)來改進(jìn)當(dāng)前策略。特別是對于先前數(shù)據(jù)的復(fù)用將顯著提升強(qiáng)化學(xué)習(xí)算法的樣本效率。在改進(jìn)的離線策略基礎(chǔ)上，研究人員從隨機(jī)初始化策略開始訓(xùn)練了小四足機(jī)器人，在沒有任何環(huán)境獎勵和手工探索策略的情況下，通過DADS定義的內(nèi)部獎勵實(shí)現(xiàn)了多種步態(tài)和方向性運(yùn)動。

這種新穎的非監(jiān)督學(xué)習(xí)技能發(fā)現(xiàn)方法可以在將來被用于更為廣泛的真實(shí)世界任務(wù)中，在最小化人類工作的情況下適應(yīng)廣泛場景和任務(wù)需求。未來研究人員們將在狀態(tài)表示和技能發(fā)現(xiàn)間進(jìn)行更為深入的研究，并探索將高級的運(yùn)動規(guī)劃和底層的控制進(jìn)行分離的技能探索策略。

<上一頁 1 2

本地收藏打印推薦給朋友

聲明： 本文由入駐維科號的作者撰寫，觀點(diǎn)僅代表作者本人，不代表OFweek立場。如有侵權(quán)或其他問題，請聯(lián)系舉報。

發(fā)表評論

共0條評論，0人參與

立即登錄即可訪問所有OFweek服務(wù)

忘記密碼

其他方式

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

暫無評論

暫無評論

圖片新聞

最新發(fā)布

最新活動更多

11月28日
立即下載>> 【白皮書】精準(zhǔn)洞察無線掌控——283FC智能自檢萬用表
12月5日
立即投票>> 【評選】維科杯·OFweek 2025（第十屆）物聯(lián)網(wǎng)行業(yè)年度評選
12月9日
立即報名>> 恩智浦創(chuàng)新技術(shù)峰會
【深圳專場】
立即報名 >> 12月16-17日 AMD 嵌入式峰會
12月19日
立即報名>> 【線下會議】OFweek 2025（第十屆）物聯(lián)網(wǎng)產(chǎn)業(yè)大會
精彩回顧
立即查看>> 【工程師系列】汽車電子技術(shù)在線大會

一周熱點(diǎn) 月點(diǎn)擊榜

企業(yè)服務(wù) 廣告服務(wù) 獵頭服務(wù) 薪酬報告

人工智能獵頭職位更多

銷售總監(jiān)（光器件）北京市/海淀區(qū)
光器件物理工程師北京市/海淀區(qū)
封裝工程師北京市/海淀區(qū)
激光研發(fā)工程師北京市/昌平區(qū)
激光器高級銷售經(jīng)理上海市/虹口區(qū)
結(jié)構(gòu)工程師廣東省/深圳市
光器件研發(fā)工程師福建省/福州市
技術(shù)專家廣東省/江門市
高級軟件工程師廣東省/深圳市
自動化高級工程師廣東省/深圳市

掃碼關(guān)注公眾號
OFweek人工智能網(wǎng)
獲取更多精彩內(nèi)容

文章糾錯

x

_*文字標(biāo)題：

_*糾錯內(nèi)容：

聯(lián)系郵箱：

_*驗(yàn) 證碼：

看不清，點(diǎn)擊換一張

粵公網(wǎng)安備 44030502002758號

感谢您访问我们的网站，您可能还对以下资源感兴趣：

久久国产老熟女

欧美精品成人a在线观看亚洲熟妇av一区二区三区宅男亚洲AV成人无码网站… 欧美天天摸天天添人人喊_女人男人做性全过程视频_久久久久国色AV免费观看性色_2022老司机久久精品