訂閱
糾錯(cuò)
加入自媒體

不止E2E:AI大模型正開啟自動(dòng)駕駛的“具身智能”時(shí)代

在自動(dòng)駕駛技術(shù)日新月異的今天,我們正站在一個(gè)關(guān)鍵的十字路口。從早期模塊化的“感知-定位-規(guī)劃-控制”系統(tǒng),到特斯拉引領(lǐng)的端到端(E2E)學(xué)習(xí),再到如今融合了視覺、語言和動(dòng)作(VLA)的具身智能趨勢(shì),每一次范式轉(zhuǎn)變都預(yù)示著自動(dòng)駕駛能力的巨大飛躍。

本文將深入探討這些演進(jìn)路徑,剖析它們各自的優(yōu)勢(shì)與挑戰(zhàn),并展望VLA模型如何引領(lǐng)我們邁向更安全、更通用、更人性化的智能駕駛未來。

1.模塊化時(shí)代:從規(guī)則到智能駕駛的初探自動(dòng)駕駛系統(tǒng)早期是怎么搞的?基本是模塊化設(shè)計(jì),分成了感知、定位、規(guī)劃、控制四大塊。這就像搭積木,每個(gè)模塊都有自己的活兒,目的就是讓自動(dòng)駕駛這事兒好落地,也就是Rule based(基于規(guī)則)時(shí)代。大家寫規(guī)則、驗(yàn)證模塊,一切看起來井井有條。

但問題也來了:感知、預(yù)測(cè)和規(guī)劃這些模塊之間,很容易出現(xiàn)誤差累積和信息丟失。

最經(jīng)典的模塊化例子就是通用的Super Cruise。它用CNN視覺算法識(shí)別車道線、物體,再結(jié)合高精地圖和RTK定位,最后融合起來做路徑規(guī)劃和控制,實(shí)現(xiàn)了智能駕駛。

中國(guó)新勢(shì)力們的“Pilot”一代,像2019年蔚來的 NIO Pilot和小鵬的 XPilot,都屬于這種。直到現(xiàn)在,大部分高速領(lǐng)航輔助還是這個(gè)路子,畢竟方案成熟,性價(jià)比高。

當(dāng)時(shí),像 Mobileye和英偉達(dá) Xavier這些只有幾到30TOPS算力的小芯片,就已經(jīng)撐起了智駕行業(yè)的一片天。

2.端到端(E2E):特斯拉開創(chuàng)的新紀(jì)元端到端(E2E)駕駛策略徹底顛覆了傳統(tǒng)。它直接把原始傳感器數(shù)據(jù)映射到控制指令,跳過了那些手工編寫的規(guī)則代碼和模塊化流程。

E2E本質(zhì)上是個(gè)視覺到行動(dòng)(VA)系統(tǒng)。視覺輸入可以來自攝像頭或激光雷達(dá),行動(dòng)輸出通常是未來的軌跡或控制信號(hào)。特斯拉FSD就是E2E的典型代表。它通過BEV(鳥瞰圖)和Occ(占用網(wǎng)絡(luò))等技術(shù),聯(lián)合時(shí)空一體的端到端大模型,打通了從視覺到執(zhí)行的鏈條,形成了數(shù)據(jù)閉環(huán)。有了影子數(shù)據(jù)配合General World Model(通用世界模型)生成數(shù)據(jù),實(shí)現(xiàn)了E2E大模型的閉環(huán)訓(xùn)練和算法迭代。

不過,從2023年起,特斯拉就不再公開FSD的算法結(jié)構(gòu)了。所以現(xiàn)在FSD到底怎么搞的,我們只能靠猜,或者少數(shù)業(yè)內(nèi)人士才清楚。在國(guó)內(nèi),隨著2024年智能駕駛開始“進(jìn)城”,無窮無盡的復(fù)雜場(chǎng)景讓規(guī)則化設(shè)計(jì)忙不過來了。這時(shí),英偉達(dá)的256TOPS Orin X大算力芯片及時(shí)送來“神助攻”,行業(yè)開始轉(zhuǎn)向特斯拉那種更集成的端到端方案。把感知、預(yù)測(cè)、規(guī)劃模塊整合到一個(gè)統(tǒng)一框架里,主要是為了促進(jìn)跨模塊的特征級(jí)信息流,確保數(shù)據(jù)高效閉環(huán)。但學(xué)術(shù)界發(fā)現(xiàn),傳統(tǒng)E2E算法在訓(xùn)練數(shù)據(jù)超過一定量后,收益會(huì)遞減,而且不同場(chǎng)景類型下的性能差異很大。

這些表明,光靠數(shù)據(jù)堆砌,不足以實(shí)現(xiàn)L4級(jí)以上的自動(dòng)駕駛能力?偟膩碚f,端到端學(xué)習(xí)確實(shí)大大縮短了原始傳感器輸入到控制決策的距離,但仍有兩大持續(xù)挑戰(zhàn):語義脆弱:對(duì)人類世界的語言和符號(hào)信息(比如路牌、警笛聲),在罕見或快速變化的場(chǎng)景下容易失效。推理不透明:可解釋性差,很難進(jìn)行安全審計(jì)和驗(yàn)證。模型升級(jí)后,只能通過一次次模型刷機(jī)、試駕才能知道有沒有回退,有沒有效果。

3.VLM:當(dāng)大語言模型遇見自動(dòng)駕駛2022年底,OpenAI開啟的GPT時(shí)代讓我們瞬間見識(shí)了大語言模型(LLM)的強(qiáng)大,當(dāng)時(shí)LLM就像核武器一樣高端不可及。但到了2024、2025年,Meta的LLaMA、深度求索的Deepseek、阿里的Qwen等大量開源多模態(tài)LLM出現(xiàn),讓大家心里癢癢,躍躍欲試想把它引入汽車智駕行業(yè)。LLM和VLM(視覺語言模型)通過在共享嵌入空間內(nèi)統(tǒng)一感知和自然語言推理,提供了一種有希望的解決方案。

所以,把語言模式和駕駛?cè)蝿?wù)結(jié)合起來,為增強(qiáng)自動(dòng)駕駛系統(tǒng)的感知推理能力、可解釋性和泛化能力,提供了新的方向。這其中的核心是大規(guī)模多模態(tài)預(yù)訓(xùn)練。它能讓模型獲得常識(shí)性關(guān)聯(lián)(比如,看到文字標(biāo)牌/路口就該減速;聽到警笛就該讓;看到潮汐車道/公交車道就知道何時(shí)能進(jìn)何時(shí)不能進(jìn)等),而傳統(tǒng)的E2E任務(wù)標(biāo)簽往往會(huì)忽略這些。雖然大型基礎(chǔ)模型對(duì)常識(shí)推理和極端情況理解很有用,但把它集成到駕駛系統(tǒng)也有缺點(diǎn):空間感知能力差、數(shù)值輸出模糊,以及規(guī)劃延遲增加。學(xué)術(shù)界有很多論文研究用VLM來增強(qiáng)E2E智能駕駛,但產(chǎn)業(yè)界目前只有理想汽車進(jìn)行了落地探索。理想采用了雙系統(tǒng)架構(gòu),把知識(shí)蒸餾后的離線VLM作為“慢系統(tǒng)”,給“快系統(tǒng)”端到端系統(tǒng)提供反饋或輔助信號(hào)。

畢竟,兩塊加起來才504TOPS的Orin X芯片,跑這類大語言模型還是有點(diǎn)吃力,即使是蒸餾縮小后的。

4.VLA:具身智能開啟的駕駛新范式隨著人工智能的發(fā)展,具身智能機(jī)器人產(chǎn)品不像汽車那樣對(duì)安全敏感,各種實(shí)驗(yàn)機(jī)會(huì)推動(dòng)了機(jī)器人產(chǎn)業(yè)的蓬勃發(fā)展。而將視覺、語言和動(dòng)作統(tǒng)一在一個(gè)框架內(nèi),已經(jīng)成為具身智能機(jī)器人領(lǐng)域的一個(gè)趨勢(shì)。同樣是應(yīng)用于人類物理世界的AI,汽車產(chǎn)業(yè)自然也受到了具身智能最新進(jìn)展的啟發(fā)——開始采用VLA(視覺-語言-動(dòng)作)。

VLA利用在互聯(lián)網(wǎng)規(guī)模的視覺和語言數(shù)據(jù)上預(yù)訓(xùn)練的基礎(chǔ)模型,在各個(gè)領(lǐng)域和基準(zhǔn)上都展現(xiàn)出強(qiáng)大的泛化能力。此外,VLA還聯(lián)合推理視覺、語言和動(dòng)作,融合了文本和軌跡輸出、長(zhǎng)視域記憶、符號(hào)安全檢查以及多模態(tài)擴(kuò)散規(guī)劃,開啟了VLA的新范式。更重要的是,VLA支持語言(指令/問答)交互,也就是說,它真的有可能實(shí)現(xiàn)把自動(dòng)駕駛當(dāng)作你的專屬“司機(jī)師傅”:直接導(dǎo)航命令:“在下一個(gè)路口左轉(zhuǎn)”、“停在紅色車輛后面”,能聽懂基本指令。

隨著系統(tǒng)成熟,用戶或代理可以提問:“現(xiàn)在變道安全嗎?”或者“這里的限速是多少?”——實(shí)現(xiàn)了交互式態(tài)勢(shì)感知,環(huán)境查詢變得可能。進(jìn)一步的進(jìn)展引入了任務(wù)級(jí)語言規(guī)范,比如解釋交通規(guī)則、解析高級(jí)目標(biāo),或者理解自然語言表達(dá)的地圖約束。甚至可以轉(zhuǎn)向多輪對(duì)話、推理鏈(比如,思路鏈提示)。還可以采用工具增強(qiáng)的語言界面,支持更豐富的推理形式,并與人類的決策過程保持一致。當(dāng)然,目前這些VLA語言交互都還只是實(shí)驗(yàn)室理論成功項(xiàng)目,絕大部分都還沒有量產(chǎn)。

但這些進(jìn)步,代表著從以感知為中心的VLM流程,向行動(dòng)感知、可解釋、指令遵循的多模態(tài)代理VLA的決定性轉(zhuǎn)變,為更安全、更通用、更人性化的自動(dòng)駕駛鋪平了道路。2025年,英偉達(dá)的下一代邊緣算力芯片Thor,幾經(jīng)推遲后,終于有一塊720TOPS的Thor U有望推出,它將能跑VLA!瞬間點(diǎn)燃了2025年中國(guó)汽車VLA的落地戰(zhàn)役。當(dāng)然,目前理想、小鵬、元戎等明確表示將量產(chǎn),但都處于非常早期。VLA的技術(shù)細(xì)節(jié)主要有三大核心模塊:視覺編碼器:采用自監(jiān)督模型如DINOv2、CLIP,結(jié)合BEV投影和LiDAR融合技術(shù)。語言處理器:大語言模型(如LLaMA、Qwen、Vicuna、GPT等),通常通過LoRA等輕量化技術(shù)優(yōu)化。動(dòng)作解碼器:包括自回歸token、擴(kuò)散規(guī)劃器、分層控制器(高層策略→PID/MPC控制)。

VLA在智能駕駛應(yīng)用方面仍非常早期。學(xué)術(shù)界將VLA模型在智駕方面的發(fā)展歸納為四個(gè)主要階段:Pre-VLA:語言作為解釋器LLM解碼器用自然語言解釋駕駛場(chǎng)景或推薦操作,但實(shí)際車輛控制還是由傳統(tǒng)模塊(PID控制器等)處理。無需直接輸出控制。例如,它會(huì)拍一張前置攝像頭圖像,生成文本描述或高級(jí)操作標(biāo)簽(“減速”、“左轉(zhuǎn)”),然后輸入給車輛控制。所以,它叫Pre-VLA。目前蔚來汽車的NWM(世界模型)有點(diǎn)類似,其“停車場(chǎng)自主尋路”功能就采用了類似方案:前攝像頭在停車場(chǎng)尋找箭頭指示牌,生成標(biāo)簽,車控接收并執(zhí)行。

模塊化VLA:語言模型從被動(dòng)的場(chǎng)景描述者,變成了模塊化架構(gòu)中主動(dòng)的規(guī)劃組件,有點(diǎn)像國(guó)內(nèi)發(fā)明的兩段式端到端概念:VLM + Action,Action是拆開的。例如采用混合專家架構(gòu),如“超車專家”或“走走停停專家”,利用語言提示根據(jù)上下文動(dòng)態(tài)選擇子規(guī)劃器。理想汽車宣傳的VLA“語言控制MoE”等概念,似乎也類似此類。統(tǒng)一端到端VLA(如EMMA):?jiǎn)我痪W(wǎng)絡(luò)直接映射多模態(tài)輸入到控制或軌跡輸出,國(guó)內(nèi)叫法可以稱為一段式VLA。Waymo的EMMA應(yīng)該是統(tǒng)一的端到端VLA,它將多模態(tài)數(shù)據(jù)(視覺、激光雷達(dá)甚至4D毫米波雷達(dá))統(tǒng)一輸入,聯(lián)合執(zhí)行物體檢測(cè)和運(yùn)動(dòng)規(guī)劃。但學(xué)術(shù)界也指出,端到端VLA的局限在于長(zhǎng)程推理和復(fù)雜多步規(guī)劃能力有限。推理增強(qiáng)型VLA:語言模型處于控制閉環(huán)的核心,同時(shí)支持長(zhǎng)時(shí)記憶和鏈?zhǔn)酵评。這樣它能在輸出動(dòng)作之前進(jìn)行解釋、預(yù)測(cè)并執(zhí)行長(zhǎng)遠(yuǎn)推理,真正實(shí)現(xiàn)代理司機(jī)的概念。

目前汽車自動(dòng)駕駛產(chǎn)業(yè)界,小鵬提起了類似VLA能力,但根據(jù)發(fā)布信息,這應(yīng)該是“期貨”、實(shí)驗(yàn)室和廣告信息,上車不會(huì)早于明年初。畢竟,長(zhǎng)推理、帶記憶的VLA面臨兩大問題:車載大算力需求和CoT(思考鏈)推理延遲。

5.尾聲:基礎(chǔ)模型與世界模型

關(guān)注智能駕駛算法軟件發(fā)展的朋友,可能還聽過兩個(gè)熱詞:“基礎(chǔ)模型(FM)”和“世界模型(WM)”。

基礎(chǔ)模型,你可以理解為VLA模型中多模態(tài)感知推理模塊的“母模型”。它最原始是在云端訓(xùn)練,基本都是科技大廠的東西,汽車行業(yè)應(yīng)用都是在此基礎(chǔ)上進(jìn)行微調(diào)和特殊化訓(xùn)練。例如,現(xiàn)在小鵬和理想的基座模型基本都采用了阿里的通義千問。

具體,可以看三圖看懂自動(dòng)駕駛基礎(chǔ)模型 Foundation Models這篇

世界模型,本文中特斯拉和蔚來的NWM分別代表了世界模型的兩大作用:一是構(gòu)建物理虛擬世界用于仿真;二就是類似基礎(chǔ)模型用于智能駕駛算法。

具體可以看世界模型 World Model 101這篇

其實(shí),這兩個(gè)詞都是為了方便宣傳和理解。它們的相同點(diǎn)都是通識(shí)大模型,能理解人類物理世界,并具備推理能力;不同點(diǎn)只是應(yīng)用和角度不一樣罷了。

最后縱觀自動(dòng)駕駛技術(shù)的發(fā)展歷程,我們清晰地看到了從模塊化設(shè)計(jì)的工程化探索,到端到端(E2E)學(xué)習(xí)的集成化突破,再到如今視覺-語言-動(dòng)作(VLA)模型所代表的具身智能新范式。當(dāng)前,我們正處于 VLA技術(shù)從實(shí)驗(yàn)室走向量產(chǎn)的早期階段,算力需求和推理延遲是亟待解決的實(shí)際問題。然而,隨著英偉達(dá)等芯片廠商提供更強(qiáng)大的邊緣計(jì)算能力,以及蔚來、理想、小鵬等廠商的積極自研大算力芯片和探索,基于大語言模型的VLA有望成為下一代智能駕駛的核心驅(qū)動(dòng)力,真正將自動(dòng)駕駛汽車打造成為我們專屬的“AI司機(jī)”。

參考文章以及圖片

自動(dòng)駕駛視覺-語言-動(dòng)作模型綜述ppt版本和pdf版本 - 江思聰1 *、黃子林4 *、錢康安2 *、羅子昂2、朱天澤2、鐘陽3、唐一紅1、孔夢(mèng)琳1、王云龍2、焦斯文3、葉浩 3 、盛子豪4、趙新2、托普溫2 、鄭 富2、陳斯凱4、 Kun Jiang 2 , 6 , Diiange Yang 2 , 6 , Seongjin Choi 5 , Lijun Sun 1 1加拿大麥吉爾大學(xué) 2中國(guó)清華大學(xué) 3小米集團(tuán) 4美國(guó)威斯康星大學(xué)麥迪遜分校 5美國(guó)明尼蘇達(dá)大學(xué)雙城分校 6清華大學(xué)智能綠色汽車與出行國(guó)家重點(diǎn)實(shí)驗(yàn)室

       原文標(biāo)題 : 不止E2E:AI大模型正開啟自動(dòng)駕駛的“具身智能”時(shí)代

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)