訂閱
糾錯
加入自媒體

VLA與世界模型會讓自動駕駛汽車走多遠(yuǎn)?

在一個雨夜的十字路口,你開車行駛到路中央,前方是一輛猶豫不決的電動車,左側(cè)有一臺打著轉(zhuǎn)向燈的出租車,右后方突然閃過一束遠(yuǎn)光燈。這時候你會怎么做?經(jīng)驗豐富的司機往往會迅速分析,電動車可能突然橫穿,出租車大概率要并線,后車逼得太緊不能急剎,最穩(wěn)妥的辦法是先減速,給前后左右都留出余地。看似幾秒鐘的決定,實際上包含了感知、預(yù)測、推理和取舍。

可如果把同樣的場景交給自動駕駛呢?傳統(tǒng)的系統(tǒng)更多是基于規(guī)則和簡單預(yù)測,它能看見電動車、檢測出租車、識別遠(yuǎn)光燈,卻未必能像人類一樣“想明白”這些信號背后的意圖和邏輯。于是,車子要么顯得過度保守停在原地,要么冒進地沖出去,最終都和人類駕駛的直覺一定會有差距。也正因為如此,行業(yè)開始追問,能不能讓車也擁有“理解和推理”的能力?答案正是近年來興起的VLA(視覺—語言—動作模型)和世界模型。

其實過去十年,自動駕駛的發(fā)展像坐過山車一樣起伏。早期技術(shù)方案覺得靠感知、預(yù)測、規(guī)劃、控制的模塊化體系,把規(guī)則寫全,把數(shù)據(jù)堆夠,就能讓汽車自動開起來。但隨著項目規(guī)模擴大,越來越多從業(yè)者意識到,這套方法天然有天花板。模塊化的鏈條太長,每個環(huán)節(jié)之間的信息丟失嚴(yán)重,人工接口讓系統(tǒng)難以聯(lián)合優(yōu)化,即使投入海量人力,也難以覆蓋長尾復(fù)雜場景。VLA和世界模型的出現(xiàn),讓車子不只是“執(zhí)行規(guī)則”,而是像人一樣“理解和推理”。

VLA的邏輯:從“會看”到“會想”

VLA的本質(zhì)是把自動駕駛從單純的數(shù)據(jù)驅(qū)動,逐步引向知識驅(qū)動。過去的端到端嘗試大多直接把圖像輸入和車輛動作輸出綁定在一起,中間缺乏解釋能力。而VLA則引入了多模態(tài)大模型的優(yōu)勢,把視覺、點云、地圖、傳感器信息都編碼進一個統(tǒng)一的語義空間,再通過語言模型來進行邏輯推理和高層決策。換句話說,它讓車不只是會“看”,更會“想”。視覺編碼器負(fù)責(zé)從圖像或點云中提取特征,對齊模塊把這些特征映射到語言空間,語言模型則像人腦的“推理區(qū)”,根據(jù)上下文和邏輯得出結(jié)論,最后生成器把這種高層意圖轉(zhuǎn)換成車輛可以執(zhí)行的軌跡或動作?梢哉f,VLA就是把人類駕駛的認(rèn)知流程,第一次較完整地搬進了機器世界。

VLA模型的總體架構(gòu),包含編碼器、解碼器和輸出動作

要讓VLA真正工作起來,有三塊技術(shù)難點是繞不開的。首先是三維特征的表達。車面對的是一個三維世界,二維的圖像信息遠(yuǎn)遠(yuǎn)不夠。近年來被頻繁提到的3D Gaussian Splatting技術(shù),正是為了解決這一問題。它用一系列高斯分布來顯式表示三維點,不僅比傳統(tǒng)的體素網(wǎng)格節(jié)省算力,還能達到實時渲染的水平。相比之下,像NeRF那樣的隱式場景表示雖然能渲染得極其逼真,但計算量過大,幾乎不可能放在車端使用。3D GS在效率和真實感之間找到了平衡,因此被很多團隊作為中間特征的候選方案。不過,它也有短板,比如對初始點云的質(zhì)量非常依賴,這意味著在采集數(shù)據(jù)階段就要保證精度,否則渲染結(jié)果會受到較大影響。但從整體趨勢來看,3D GS已經(jīng)成為讓車能更“立體”地理解世界的重要一步。

3D GS與其余三維重建技術(shù)的區(qū)別

第二個難點是記憶與長時序推理。駕駛是一項連續(xù)任務(wù),不是單幀的反應(yīng)動作。車需要記住前方幾秒鐘的交通參與者行為,才能判斷對方是要超車、掉頭還是直行。然而傳統(tǒng)Transformer在處理長序列時開銷太大,窗口一旦超過幾千步,計算就變得不可承受,同時信息還容易被稀釋掉。為了解決這個問題,有技術(shù)引入了稀疏注意力和動態(tài)記憶模塊。稀疏注意力通過只關(guān)注關(guān)鍵位置,顯著降低了計算復(fù)雜度,而動態(tài)記憶則像外掛的存儲器,把歷史中的關(guān)鍵信息提取、保存,在需要時重新調(diào)出。這種方式讓模型既能處理長時依賴,又不會在車端算力有限的環(huán)境下崩潰。像是小米的QT-Former就在長時記憶上做了優(yōu)化,理想的Mind架構(gòu)同樣在探索類似的思路,說明這已經(jīng)成了產(chǎn)業(yè)界的共識。

小米QT-Former模型架構(gòu)

第三個難點是推理效率。車端的算力和功耗都有限,不可能像云端一樣無限堆GPU。于是量化、蒸餾、裁剪等傳統(tǒng)模型壓縮手段,成了落地必備。理想采用GPTQ等后訓(xùn)練量化方法,把大模型縮小到能實時運行的程度,同時探索混合專家模型MOE,通過只激活部分專家的方式來減少開銷。這樣的架構(gòu)既能保持大模型的能力,又不會讓推理速度拖慢整個系統(tǒng)。智駕最前沿以為,未來車端的大模型必然是“稀疏+量化”的形態(tài),否則在能耗和成本上都不現(xiàn)實。

世界模型:虛擬世界里的試煉場

如果說VLA是車子的“大腦”,那么世界模型就是它的“訓(xùn)練場”。因為現(xiàn)實世界的數(shù)據(jù)再多,也不可能覆蓋所有情況,更不能無限試錯。高保真的世界模型能生成各種道路場景,補充長尾數(shù)據(jù),還能提供一個低成本、安全的閉環(huán)環(huán)境,讓模型在虛擬世界里反復(fù)學(xué)習(xí)。理想的DriveDreamer4D就是一個典型案例,它能生成新軌跡視頻并和真實數(shù)據(jù)對齊,用來擴展數(shù)據(jù)集;ReconDreamer則通過漸進式數(shù)據(jù)更新來減少長距離生成里的假象;OLiDM針對激光雷達數(shù)據(jù)稀缺的問題,用擴散模型來生成點云。這些名字看起來很學(xué)術(shù),但本質(zhì)上都是在做一件事,用虛擬的方式去還原真實世界的復(fù)雜性,讓模型提前適應(yīng)未來可能遇到的情況。

在訓(xùn)練范式上,VLA和世界模型也發(fā)生了很多變化。過去大家依賴行為克隆,即讓模型模仿人類駕駛,但這種方法在遇到?jīng)]見過的情況時往往會失效,F(xiàn)在更多采用三階段閉環(huán),先用行為克隆做起步,保證模型有個基礎(chǔ),再用逆強化學(xué)習(xí)從專家數(shù)據(jù)中學(xué)習(xí)獎勵函數(shù),最后通過世界模型里的強化學(xué)習(xí)不斷迭代優(yōu)化。這種方式讓模型不僅會模仿,還能自己探索更優(yōu)解,逐漸超越人類示范的水平。

產(chǎn)業(yè)視角:車企為何搶跑?

把大語言模型放到自動駕駛里并不是把車變成聊天機器人那么簡單。VLA的核心在于“多模態(tài)”和“動作生成”,視覺編碼器要能把圖像、視頻、甚至點云編碼成對語言友好的中間表示;對齊模塊要把這些視覺表示映射到語言空間;語言模型承擔(dān)長時的推理和決策;解碼器則把高層意圖細(xì)化成車輛可執(zhí)行的低層動作或者軌跡。其實汽車的任務(wù)比較單一,就是開車,場景也相對有規(guī)則,道路標(biāo)線、交通燈、車輛行為都有明確約束。再加上車企自帶海量車隊和數(shù)據(jù)收集能力,這使得VLA更容易在車上形成規(guī)模效應(yīng)。這也是為什么國內(nèi)外廠商紛紛入局的原因。Waymo早期推出了EMMA系統(tǒng),算是奠定了方向;國內(nèi)理想正在構(gòu)建完整的Mind架構(gòu),小米在量產(chǎn)車中測試QT-Former,小鵬在嘗試端到端引入大模型,華為則在MDC平臺上為未來預(yù)留了大模型接口。不同公司路線各異,但目標(biāo)是一致的,讓車子具備更強的理解和推理能力。

EMMA模型架構(gòu)

寫在最后

總的來說,VLA與世界模型的結(jié)合,標(biāo)志著自動駕駛正在經(jīng)歷一次認(rèn)知層面的升級。它們不僅僅是算法改良,而是范式的轉(zhuǎn)變,從“能看會開”走向“能想會推理”。這條路當(dāng)然不輕松,三維表征、記憶機制、算力約束和仿真保真度,每一項都是難題。但隨著架構(gòu)逐步成熟、世界模型越來越逼真、閉環(huán)訓(xùn)練越發(fā)完善,我們有理由相信,未來的自動駕駛不只是冷冰冰的感知與控制機器,而是一個能理解環(huán)境、能解釋行為、能與人類邏輯對接的“駕駛智能體”。誰能最先把這些技術(shù)變成大規(guī)模落地的體驗,誰就能在下一階段的競爭中拔得頭籌。

-- END --

原文標(biāo)題 : VLA與世界模型,會讓自動駕駛汽車走多遠(yuǎn)?

聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請聯(lián)系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內(nèi)容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關(guān)注公眾號
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯
    x
    *文字標(biāo)題:
    *糾錯內(nèi)容:
    聯(lián)系郵箱:
    *驗 證 碼:

    粵公網(wǎng)安備 44030502002758號