訂閱
糾錯(cuò)
加入自媒體

端到端在自動(dòng)駕駛中起到什么作用?

隨著自動(dòng)駕駛技術(shù)的發(fā)展,端到端憑借其獨(dú)特優(yōu)勢(shì),被越來越多企業(yè)所推崇。所謂端到端,就是把從傳感器(比如攝像頭、雷達(dá))到車輛動(dòng)作(轉(zhuǎn)向、油門、剎車)這條鏈條交給學(xué)習(xí)模型去“整體”學(xué)會(huì),而不是把問題拆成一大堆由人寫規(guī)則的子模塊。端到端分為狹義端到端與廣義端到端,狹義端到端指通過單一神經(jīng)網(wǎng)絡(luò)將原始信號(hào)直接映射為控制指令;廣義端到端則更強(qiáng)調(diào)信息在流程中盡可能保持原始形態(tài)、減少人為壓縮,并通過數(shù)據(jù)驅(qū)動(dòng)實(shí)現(xiàn)整體目標(biāo),即使中間仍存在部分工程接口。

狹義端到端自動(dòng)駕駛架構(gòu)(單一神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)感知、決策規(guī)劃、控制)

 廣義端到端自動(dòng)駕駛架構(gòu)(神經(jīng)網(wǎng)絡(luò)模型實(shí)現(xiàn)感知與決策規(guī)劃,不包括控制模塊)

 廣義端到端自動(dòng)駕駛架構(gòu)(感知和決策規(guī)劃使用神經(jīng)網(wǎng)絡(luò),模塊之間仍有人工設(shè)計(jì)的數(shù)據(jù)接口)

用更直白的話來理解,傳統(tǒng)自動(dòng)駕駛像把一輛車拆成感知、定位、預(yù)測(cè)、規(guī)劃、控制幾個(gè)模塊,每個(gè)模塊單獨(dú)優(yōu)化再接在一起;端到端的想法是,讓一張大網(wǎng)學(xué)會(huì)從輸入到輸出的整體映射,用數(shù)據(jù)告訴它“這樣做就是好”的標(biāo)準(zhǔn),而不是每一步都由工程師給出規(guī)則,然后根據(jù)規(guī)則去完成操作。

感知那塊到底發(fā)生了什么變化?

在早期的自動(dòng)駕駛系統(tǒng)中,感知任務(wù)主要集中于二維或三維檢測(cè),其目標(biāo)是識(shí)別圖像中的物體(如車輛、行人、車道線),并將這些帶有標(biāo)簽的邊界框提供給下游模塊。然而,這種以“框”為核心的數(shù)據(jù)形式,與后續(xù)的路徑規(guī)劃模塊之間存在語義隔閡。

近年來,一種主流趨勢(shì)是將多攝像頭、多傳感器的數(shù)據(jù)統(tǒng)一投影到一個(gè)共同的“鳥瞰圖”(BEV)空間中。BEV通過將不同視角的信息融合進(jìn)一個(gè)統(tǒng)一的、具備空間一致性的坐標(biāo)系,極大地便利了路徑規(guī)劃與動(dòng)態(tài)信息的融合。因此,BEV的普及實(shí)質(zhì)上重塑了感知與規(guī)劃之間的接口,使其更易于被端到端的學(xué)習(xí)模型所理解與利用。

但BEV仍是二維的,缺乏高度信息。于是有方案提出把表示能力往三維擴(kuò)展,引入“占用網(wǎng)絡(luò)”(Occupancy,簡(jiǎn)稱OCC)這樣的稠密時(shí)空?qǐng)霰硎。占用網(wǎng)絡(luò)不是簡(jiǎn)單地提供“這里有個(gè)車”這樣的數(shù)據(jù),而是把“某個(gè)空間點(diǎn)在未來若干幀里被什么占著、有多大概率被占著”等數(shù)據(jù)給厘清出,它把時(shí)間維、空間維和不確定性都納進(jìn)來,對(duì)動(dòng)態(tài)交互的建模更友好。

現(xiàn)階段,“世界模型”的概念越來越火熱,其核心思想是構(gòu)建一個(gè)能夠重建并推演世界動(dòng)態(tài)的模型,讓系統(tǒng)不僅能“看到現(xiàn)在”,還能“想象未來會(huì)發(fā)生什么”。世界模型既能用于生成訓(xùn)練數(shù)據(jù)(彌補(bǔ)真實(shí)長(zhǎng)尾樣本短缺),也能在決策時(shí)作為內(nèi)部仿真器來評(píng)估不同動(dòng)作的后果。世界模型不僅是感知/認(rèn)知能力升級(jí)的工具,也是端到端訓(xùn)練和驗(yàn)證的重要補(bǔ)充,但也要注意,如果世界模型生成的數(shù)據(jù)與真實(shí)世界分布差別太大,也會(huì)誤導(dǎo)訓(xùn)練。

端到端自動(dòng)駕駛架構(gòu)演進(jìn)示意圖

決策層怎么學(xué)?

完成環(huán)境感知后,如何將決策規(guī)劃交由學(xué)習(xí)模型,主要有幾種路徑,其一是模仿學(xué)習(xí),通過擬合人類駕駛數(shù)據(jù)來快速獲得基礎(chǔ)能力,但泛化性不足,在偏離示范數(shù)據(jù)時(shí)表現(xiàn)不佳;其二是強(qiáng)化學(xué)習(xí),通過試錯(cuò)學(xué)得魯棒策略,但依賴仿真環(huán)境以規(guī)避現(xiàn)實(shí)風(fēng)險(xiǎn);結(jié)合二者優(yōu)勢(shì)的路徑也頗為常見,先用模仿學(xué)習(xí)初始化模型,再通過強(qiáng)化學(xué)習(xí)在仿真中優(yōu)化長(zhǎng)期收益。報(bào)告將這些方法均視為實(shí)現(xiàn)端到端決策的候選方案。

世界模型在決策層扮演著關(guān)鍵角色,它能夠基于當(dāng)前狀態(tài),在模型內(nèi)部生成多種合理的未來場(chǎng)景,從而輔助決策模塊進(jìn)行“前瞻性思考”。這意味著系統(tǒng)無需在現(xiàn)實(shí)世界中反復(fù)試錯(cuò),而是可以在其內(nèi)部模擬環(huán)境中評(píng)估不同動(dòng)作的潛在后果,進(jìn)而選擇更安全、更有效的策略。這一機(jī)制對(duì)于處理長(zhǎng)尾和極端場(chǎng)景具有重要價(jià)值,但若生成場(chǎng)景與真實(shí)世界分布存在顯著偏差,也可能引入決策風(fēng)險(xiǎn),因此必須審慎使用生成數(shù)據(jù)。

此外,還有一種折中路徑,便是“模塊化端到端”。該方案在感知端使用神經(jīng)網(wǎng)絡(luò)輸出豐富的中間表征(如BEV特征或時(shí)空占用場(chǎng)),而在決策與控制層則保留或并行運(yùn)行一個(gè)相對(duì)輕量且可解釋的模型。模塊之間通過特征向量進(jìn)行交互,而非依賴人類可讀的標(biāo)簽。這種方式在工程實(shí)踐中更易于驗(yàn)證與調(diào)試,因此被不少國內(nèi)廠商視為當(dāng)前階段向全端到端系統(tǒng)過渡的可行方案。

工程上必須面對(duì)的硬問題有哪些?

想將端到端自動(dòng)駕駛從技術(shù)推導(dǎo)走向大規(guī)模量產(chǎn),必須跨越數(shù)據(jù)、算力、驗(yàn)證、可解釋性與持續(xù)學(xué)習(xí)等一系列現(xiàn)實(shí)瓶頸。這些挑戰(zhàn)共同構(gòu)成了當(dāng)前技術(shù)落地的主要門檻,也決定了產(chǎn)業(yè)競(jìng)爭(zhēng)的焦點(diǎn)與節(jié)奏。

端到端模型對(duì)數(shù)據(jù)的規(guī)模、質(zhì)量及長(zhǎng)尾場(chǎng)景覆蓋度均有極高要求。與語言模型可依賴海量公開文本不同,自動(dòng)駕駛需依賴大量真實(shí)行車視頻、車輛狀態(tài)及對(duì)應(yīng)的人類駕駛行為數(shù)據(jù),且必須覆蓋夜間、雨雪、施工區(qū)、臨時(shí)障礙物等稀有場(chǎng)景。特斯拉目前在數(shù)據(jù)規(guī)模上就具備領(lǐng)先優(yōu)勢(shì),其通過影子模式、自動(dòng)標(biāo)注與回放訓(xùn)練構(gòu)建了高效的數(shù)據(jù)閉環(huán)系統(tǒng)。

端到端訓(xùn)練還遵循“規(guī)模法則”,更大的模型、更多的數(shù)據(jù)與更長(zhǎng)的訓(xùn)練時(shí)間通常帶來性能提升,這推動(dòng)了對(duì)大規(guī)模云端GPU集群的投入。車端與云端算力作為自動(dòng)駕駛行業(yè)關(guān)鍵競(jìng)爭(zhēng)要素,車端需滿足低延遲與高可靠性,而云端則承擔(dān)大規(guī)模訓(xùn)練任務(wù),目前多數(shù)團(tuán)隊(duì)需依賴千卡級(jí)別的訓(xùn)練資源。

驗(yàn)證是端到端需要面對(duì)的另一大難題。端到端系統(tǒng)難以僅通過傳統(tǒng)離線指標(biāo)評(píng)估真實(shí)表現(xiàn)。開環(huán)(離線)評(píng)估通過對(duì)比模型輸出與人類軌跡,雖簡(jiǎn)便但缺乏交互性檢驗(yàn);閉環(huán)(在線)仿真可測(cè)試系統(tǒng)的交互與恢復(fù)能力,但構(gòu)建高保真、覆蓋長(zhǎng)尾場(chǎng)景的仿真環(huán)境本身即為挑戰(zhàn)?赏ㄟ^構(gòu)建融合離線評(píng)估、閉環(huán)仿真與真實(shí)世界影子測(cè)試/漸進(jìn)推送的驗(yàn)證體系,世界模型雖可部分填補(bǔ)長(zhǎng)尾數(shù)據(jù)空白,但其生成偏差帶來的驗(yàn)證風(fēng)險(xiǎn)不容忽視。

 在線/閉環(huán)測(cè)試與離線/開環(huán)測(cè)試的主要特點(diǎn)與優(yōu)缺點(diǎn)

可解釋性與災(zāi)難性遺忘是端到端不可不避免的兩個(gè)問題。端到端模型天然具有“黑盒”屬性,工程落地與監(jiān)管合規(guī)均要求理解“模型為何做出特定決策”,尤其在事故或異常情況下需具備追溯能力。對(duì)于這個(gè)問題可以應(yīng)對(duì)的策略包括并聯(lián)視覺語言模型(將中間表征轉(zhuǎn)化為可讀描述)、模塊化檢查點(diǎn)設(shè)計(jì),以及在訓(xùn)練中引入規(guī)則約束等。在災(zāi)難性遺忘方面,當(dāng)模型使用新數(shù)據(jù)微調(diào)以改進(jìn)特定復(fù)雜場(chǎng)景時(shí),可能削弱原有能力,實(shí)踐中已出現(xiàn)版本回退案例。對(duì)此的緩解手段包括舊樣本回放、權(quán)重固化等技術(shù)。

技術(shù)方向上的差異

在技術(shù)路徑選擇上,行業(yè)呈現(xiàn)出不同的演進(jìn)策略。特斯拉堅(jiān)持純視覺方案,基于BEV+Transformer+占用網(wǎng)絡(luò)構(gòu)建單一端到端模型,依托海量影子模式數(shù)據(jù)和回放訓(xùn)練機(jī)制實(shí)現(xiàn)快速迭代。而國內(nèi)主流廠商如華為、小鵬、理想等則普遍采用“模塊化端到端”或“雙系統(tǒng)”架構(gòu),在追求性能上限的同時(shí),保留系統(tǒng)的可解釋性與應(yīng)急處理能力。

需要明確的是,技術(shù)落地不僅需要前沿的理念,更依賴扎實(shí)的工程化基礎(chǔ)。其中,數(shù)據(jù)閉環(huán)的效率、算力部署的規(guī)模與驗(yàn)證體系的完備性,共同構(gòu)成了端到端系統(tǒng)能否穩(wěn)定落地并持續(xù)演進(jìn)的關(guān)鍵支撐。正因如此,“數(shù)據(jù)+算力”才是端到端競(jìng)爭(zhēng)的核心要素,這也是為何具備資源優(yōu)勢(shì)的頭部企業(yè),在端到端落地的進(jìn)程中能夠保持明顯的先發(fā)優(yōu)勢(shì)。

最后的話

端到端自動(dòng)駕駛的實(shí)現(xiàn)依賴于完整的技術(shù)鏈條,感知層面從傳統(tǒng)檢測(cè)向BEV和時(shí)空占用網(wǎng)絡(luò)演進(jìn),為決策提供更豐富的環(huán)境表征;決策層面結(jié)合模仿學(xué)習(xí)、強(qiáng)化學(xué)習(xí)和世界模型推演,使系統(tǒng)具備預(yù)測(cè)與規(guī)劃能力;工程落地則依靠數(shù)據(jù)閉環(huán)、算力集群和多重驗(yàn)證體系作為支撐,同時(shí)必須解決模型可解釋性與災(zāi)難性遺忘等現(xiàn)實(shí)挑戰(zhàn)。當(dāng)前技術(shù)發(fā)展仍受數(shù)據(jù)質(zhì)量與算力規(guī)模的關(guān)鍵制約,這也決定了端到端系統(tǒng)從概念驗(yàn)證到量產(chǎn)落地的實(shí)際進(jìn)程。

-- END --

       原文標(biāo)題 : 端到端在自動(dòng)駕駛中起到什么作用?

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)