RSS 2020 | 在目標(biāo)、動(dòng)力學(xué)和意圖不確定下的隱含信念空間運(yùn)動(dòng)規(guī)劃
二、問(wèn)題規(guī)范化
該論文考慮的是如下圖所示的POMDP 問(wèn)題:系統(tǒng)處于連續(xù)的狀態(tài)-動(dòng)作-觀測(cè)空間中,而系統(tǒng)的狀態(tài)轉(zhuǎn)移除了受到上一時(shí)刻的狀態(tài)和動(dòng)作影響,還由一個(gè)離散的隱變量z 決定,而每一時(shí)刻的觀測(cè)量則由當(dāng)前時(shí)刻的系統(tǒng)狀態(tài)以及隱變量共同決定。其中隱變量z 可用于表示系統(tǒng)中不確定性的不同模態(tài),如旁側(cè)車(chē)輛駕駛者的性格、不同行進(jìn)路線(xiàn)的路況、路面的物理狀況等。
對(duì)隱變量z 的不同可能性的置信度b(z),我們可以通過(guò)如下定義進(jìn)行更新。
問(wèn)題的最終目標(biāo)是對(duì)行為策略π 進(jìn)行優(yōu)化,從而使得累計(jì)損失函數(shù)值 J 達(dá)到最低。
其中l(wèi) 和lf分別為根據(jù)置信度b 加權(quán)平均得到的過(guò)程損失函數(shù)和最終損失函數(shù)。由該公式取最優(yōu)行為策略π* 后得出的值函數(shù)V 可以表示成貝爾曼方程形式,進(jìn)行遞歸處理。
三、方 法
論文提出了一種新的微分動(dòng)態(tài)規(guī)劃(DDP)算法,Partially Observable Differential Dynamic Programming (PODDP),可用于解決連續(xù)空間下的POMDP 問(wèn)題。與一般的iLQG/DDP 算法相似,PODDP 也把流程分為了前向過(guò)程(Forward Pass)和后向過(guò)程(Backward Pass),并對(duì)動(dòng)作序列進(jìn)行迭代優(yōu)化。
1. 前向過(guò)程在前向過(guò)程進(jìn)行前,動(dòng)作序列U = { u0, u1, …, uT-1 } 需要預(yù)先給定。在初始化的前向過(guò)程中,一般使用隨機(jī)生成的動(dòng)作序列,或者通過(guò)某些前導(dǎo)知識(shí)有規(guī)律地生成動(dòng)作序列。在此后的過(guò)程中,將使用前一次優(yōu)化得到的動(dòng)作序列,進(jìn)行迭代優(yōu)化。
在確定性系統(tǒng)中,由于狀態(tài)轉(zhuǎn)移過(guò)程是確定的,故給定的動(dòng)作序列將衍生出一條鏈?zhǔn)降臓顟B(tài)序列。但在我們考慮的系統(tǒng)中,由于多模態(tài)不確定性的存在,類(lèi)比于離散空間下的POMDP 問(wèn)題,每一個(gè)節(jié)點(diǎn)都可以根據(jù)隱變量z 的不同取值可能性,延伸出多個(gè)分支,最終形成一個(gè)樹(shù)狀的軌跡推演,即軌跡樹(shù)(trajectory tree),如上圖所示。
為了更直觀地理解,我們可以考慮一個(gè)公路上的變道場(chǎng)景。如下圖,我們的汽車(chē)(紅色)希望變道到左側(cè)車(chē)道,可是左側(cè)車(chē)道上已經(jīng)有一輛車(chē)了。我們?cè)谶M(jìn)行軌跡優(yōu)化的時(shí)候,將未來(lái)可能獲得的關(guān)于旁側(cè)車(chē)輛駕駛者性格的觀測(cè)納入考慮當(dāng)中,對(duì)方可能是合作性格的,也可能是激進(jìn)性格的,這兩種性格分別對(duì)應(yīng)兩個(gè)不同的模態(tài)。在向前推演的時(shí)候,根據(jù)這兩種不同模態(tài)的最大似然值進(jìn)行分支,獲得軌跡推演樹(shù)。每一條從根節(jié)點(diǎn)到葉節(jié)點(diǎn)的完整支路對(duì)應(yīng)一條可能發(fā)生的軌跡。
2. 后向過(guò)程為了對(duì)軌跡樹(shù)進(jìn)行優(yōu)化,我們首先定義值函數(shù)擾動(dòng)方程Qt以描述在某一時(shí)刻t 下系統(tǒng)狀態(tài)和動(dòng)作的擾動(dòng)對(duì)值函數(shù)的影響。

發(fā)表評(píng)論
登錄
手機(jī)
驗(yàn)證碼
立即登錄即可訪(fǎng)問(wèn)所有OFweek服務(wù)
還不是會(huì)員?免費(fèi)注冊(cè)
忘記密碼請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
即日-9.1立即下載>> 【限時(shí)下載】ADI中國(guó)三十周年感恩回饋助力企業(yè)升級(jí)!
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
精彩回顧立即查看>> 【在線(xiàn)研討會(huì)】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
-
精彩回顧立即查看>> 【在線(xiàn)會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
-
精彩回顧立即查看>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專(zhuān)題
- 1 傳魏建軍與賈躍亭合作,長(zhǎng)城汽車(chē)出海美國(guó)
- 2 黃仁勛:與雷軍長(zhǎng)期合作,共探AI智駕
- 3 阿里首位程序員,“掃地僧”多隆已離職
- 4 DeepSeek R2加持,中國(guó)AI與芯片產(chǎn)業(yè)迎來(lái)新一輪協(xié)同進(jìn)化
- 5 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 6 六大國(guó)產(chǎn)大模型,誰(shuí)是最強(qiáng)“金融分析師”?|錦緞評(píng)測(cè)
- 7 2025年第一支10倍股,來(lái)了!
- 8 募資39.85億元!寒武紀(jì)押注大模型芯片與軟件平臺(tái)
- 9 國(guó)內(nèi)免費(fèi)版Deep Research上線(xiàn),秘塔AI深度研究嘗試重塑知識(shí)工作范式
- 10 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億