訂閱
糾錯(cuò)
加入自媒體

沒有地圖,純視覺自動(dòng)駕駛就只能摸瞎嗎?

最近在一篇討論高精度地圖的文章中,有位小伙伴提到一個(gè)非常有趣的觀點(diǎn)“如果人在陌生的目的地,只依托純視覺(眼睛)去辨別道路,若沒有導(dǎo)航,就只能摸瞎”。對于純視覺自動(dòng)駕駛來說,是否也是如此?

圖片源自:網(wǎng)絡(luò)

人和機(jī)器用“視覺”導(dǎo)航的差異

在討論這個(gè)話題前,先簡單聊聊什么是“純視覺”。所謂“純視覺”,就是只用攝像頭(單目或多目)來完成感知的方案。不管是把圖像直接送入一個(gè)端到端的神經(jīng)網(wǎng)絡(luò)輸出控制指令,還是把圖像先做目標(biāo)檢測/語義分割/深度估計(jì)再走傳統(tǒng)規(guī)劃,這類方案都強(qiáng)調(diào)將攝像頭作為主傳感器,甚至唯一的傳感器。

攝像頭的優(yōu)勢其實(shí)很明顯,其信息豐富(顏色、紋理、文字、標(biāo)志),成本低,分辨率高,便于人工標(biāo)注和語義理解。但攝像頭對光線敏感、受能見度影響大、難以直接測量精確距離與速度(尤其是遠(yuǎn)距物體)。

圖片源自:網(wǎng)絡(luò)

如果一個(gè)人在陌生城市,只有雙眼和一輛車,確實(shí)會覺得“瞎摸”,但人并非只靠眼睛去辨別路況。人有長期記憶(熟悉的街區(qū))、語言社交能力(問路)、抽象推理(理解路牌、交通規(guī)則)、以及對場景的常識推斷(哪條路更可能通向城中心)。人還能容忍不確定性并主動(dòng)采取探測行為(減速、靠邊觀察、試探轉(zhuǎn)彎)。

機(jī)器要復(fù)制這些能力,光靠一幀圖像是不夠的,但連續(xù)的視頻、多時(shí)序推理、學(xué)習(xí)到的場景模型以及外部信息(如高清地圖、定位)可以代替人類的記憶與推理能力。簡而言之,人類在陌生城市走路,若沒有導(dǎo)航,并不僅是純視覺,而是會有多種信息融合和主動(dòng)探索,這也正是自動(dòng)駕駛中會采用多傳感器、多信息源來補(bǔ)償攝像頭不足的原因。

純視覺能做到什么?

純視覺的作用不容小覷,很多車企都圍繞成視覺方案,開發(fā)出自動(dòng)駕駛系統(tǒng)。借助深度學(xué)習(xí),攝像頭其實(shí)可以做很強(qiáng)的語義理解,完成識別車輛、行人、交通標(biāo)志和信號燈,判斷車道線,分割出可通行區(qū)域等任務(wù)。

通過時(shí)序信息(連續(xù)幀)和已學(xué)得的運(yùn)動(dòng)模型,可以估計(jì)自車的運(yùn)動(dòng)(視覺里程計(jì)/VO)和相對深度(單目深度估計(jì)或雙目/立體匹配)。把這些能力組合起來,純視覺系統(tǒng)可以在相對良好的光照、天氣條件下完成感知-預(yù)測-規(guī)劃閉環(huán),尤其是在結(jié)構(gòu)化環(huán)境(如高速公路、城市主干道)和限定的操作設(shè)計(jì)域(ODD)內(nèi)表現(xiàn)會非常不錯(cuò)。

但是純視覺能做到并不意味著純視覺可以完全替代其他傳感器,攝像頭在夜間或極低照度環(huán)境、強(qiáng)逆光、雨雪霧等能見度差的天氣、反光或平坦無紋理表面(比如大面積光滑地面或光禿的雪面)、遮擋嚴(yán)重的復(fù)雜交叉口和遠(yuǎn)距離小物體的預(yù)警(比如遠(yuǎn)處突然出現(xiàn)的行人或小型車輛)等場景下表現(xiàn)不盡如人意。

圖片源自:網(wǎng)絡(luò)

單目相機(jī)還存在尺度不確定性的問題(即僅靠圖像難以知道物體絕對距離),雖然借助運(yùn)動(dòng)恢復(fù)結(jié)構(gòu)或?qū)W習(xí)可以部分解決,但精度、魯棒性與雷達(dá)/激光雷達(dá)相比仍有差距。此外,攝像頭對光學(xué)欺騙(比如反射、投影、極端對比)比較敏感,容易被異常光照或極端場景“迷惑”。這些局限會直接關(guān)系到安全冗余的設(shè)計(jì),當(dāng)感知變得不可靠時(shí),系統(tǒng)必須要么降級(限制速度、主動(dòng)停車),要么需依賴其他傳感器。

其實(shí)現(xiàn)在很多技術(shù)方案中都是采用“冗余與互補(bǔ)”的策略。攝像頭擅長語義與長距離視覺細(xì)節(jié),毫米波雷達(dá)擅長在雨雪霧中測量相對速度并具備穿透性能,激光雷達(dá)在構(gòu)建精確三維幾何上更可靠。

多數(shù)成熟的自動(dòng)駕駛系統(tǒng)會選擇多傳感器融合以覆蓋更廣的ODD。當(dāng)然,也有技術(shù)方案一致在推動(dòng)“攝像頭主導(dǎo)”或“攝像頭優(yōu)先”的路線,靠大量場景數(shù)據(jù)訓(xùn)練、嚴(yán)格限制運(yùn)行域并設(shè)計(jì)詳盡的降級策略來保證安全。

純視覺能否替代地圖和定位?

回到今天的主題,其實(shí)這位小伙伴強(qiáng)調(diào)是導(dǎo)航(地圖)對于純視覺的重要性。地圖和定位解決的是“我在哪兒”和“目標(biāo)在那里”的問題。純視覺可以進(jìn)行相對定位(通過視覺里程計(jì)或視覺SLAM),甚至可以做基于圖像匹配的全局定位(視覺定位/視覺數(shù)據(jù)庫檢索)。

但想真正將自動(dòng)駕駛應(yīng)用到車輛上,絕對定位是必不可少的,絕對定位(高精GNSS、車輛坐標(biāo)在地圖上的精確投影)在諸如狹窄車道、復(fù)雜交叉口和需要精確軌跡跟蹤的場景中會起到關(guān)鍵性作用。

圖片源自:網(wǎng)絡(luò)

地圖(尤其是輕量級矢量地圖或路網(wǎng)信息)給規(guī)劃提供的其實(shí)是語義與先驗(yàn)信息,它能顯著減少在線推理的負(fù)擔(dān)并提高安全邊界。純視覺可以替代一部分地圖功能,但要做到在任何場景下不用地圖、只靠攝像頭安全行駛,是非常困難的。

既然純視覺可以替代一部分的地圖功能,那如何將其能力推到極限?現(xiàn)在其實(shí)有多個(gè)方案,在推動(dòng)這一想法。自監(jiān)督深度與視覺里程計(jì)算法能在沒有密集標(biāo)注的情況下學(xué)到深度和運(yùn)動(dòng);多視角與時(shí)序融合能改善遠(yuǎn)距深度估計(jì);利用神經(jīng)場景表示(如NeRF類思想)或大模型的視覺理解可以讓系統(tǒng)在見過類似場景時(shí)更好地推斷未觀測的部分;此外,把攝像頭輸出轉(zhuǎn)換為BEV表示、與軌跡預(yù)測結(jié)合、并在規(guī)劃層引入不確定性建模,能讓純視覺系統(tǒng)的決策更可靠。

最后的話

純視覺并不是萬能的,但能力不容小覷,其在語義理解和成本效益上有明顯優(yōu)勢,在受控場景中可以承擔(dān)很大一部分工作;但在面對極端光照、惡劣天氣、遠(yuǎn)距預(yù)警和絕對定位需求時(shí),攝像頭的物理和算法局限依然明顯。智駕最前沿以為,智駕安全不是僅靠單一感覺,而是需要靠多源信息與嚴(yán)謹(jǐn)?shù)墓こ虂肀WC。

-- END --

       原文標(biāo)題 : 沒有地圖,純視覺自動(dòng)駕駛就只能摸瞎嗎?

聲明: 本文由入駐維科號的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報(bào)。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個(gè)字

您提交的評論過于頻繁,請輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評論

暫無評論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號