訂閱
糾錯(cuò)
加入自媒體

吳新宙帶領(lǐng)英偉達(dá)沖刺自動(dòng)駕駛L4背后的VLA大模型算法

2023年8月,吳新宙算是在中國(guó)L2+智能輔助駕駛競(jìng)爭(zhēng)頂峰--輔助駕駛進(jìn)城之后離開小鵬汽車加入英偉達(dá)。2024年1月,特斯拉推出FSD V12 Beta端到端版本,智能輔助駕駛算法進(jìn)入“端到端”階段。隨即中國(guó)代表了全球輔助駕駛市場(chǎng)全面擁抱了端到端。

不過(guò),此時(shí)的自動(dòng)駕駛領(lǐng)域中,吳新宙帶領(lǐng)的英偉達(dá)自動(dòng)駕駛好像已經(jīng)淹沒在端到端自動(dòng)駕駛+高端芯片自研的自動(dòng)駕駛競(jìng)賽中,甚至英偉達(dá)4月份的GTC上也不過(guò)一分鐘過(guò)一下老生常談的車端方案和云端訓(xùn)練硬件,而吳新宙自己主導(dǎo)的專項(xiàng)GTC演講,雖然有VLM,但產(chǎn)品路線圖也沒看到什么新意。

到了,今年10月的GTC,我們之前文章《英偉達(dá) GTC 2025:6G通訊、量子計(jì)算、L4自動(dòng)駕駛方面三大全新產(chǎn)品技術(shù)》也分享了,黃仁勛機(jī)竟然花了五分鐘廣告其L4 Robotaxi要點(diǎn)和成績(jī)。

與 Uber 合作,從2027年開始會(huì)有10萬(wàn)輛采用英偉達(dá)方案的自動(dòng)駕駛車輛。Lucid、奔馳、Stellantis 等主機(jī)廠和十幾家自動(dòng)駕駛開發(fā)公司采用英偉達(dá)的L4軟硬方案。

于是,吳新宙應(yīng)該是帶領(lǐng)英偉達(dá)找到了沖刺L4新征程的方向,這個(gè)沖刺新征程背后除了英偉達(dá)的AI硬件,還有一種新的VLA軟件。

很多人會(huì)說(shuō),為什么不是世界模型?這是最前沿的,確實(shí)世界模型是最前沿的,可是理論世界的兩大世界模型的領(lǐng)軍人物L(fēng)i feifei還在搖旗吶喊demo階段,Yann LeCun剛從Meta失業(yè),所以怎么可能真的世界模型就能上應(yīng)用呢!

當(dāng)前大家講的世界模型不過(guò)依然是通過(guò)LLM將物理世界語(yǔ)言化和圖形化的模型,與VLA是同一個(gè)分支。而真正找到3D世界+時(shí)間的隱式表達(dá)token的世界模型還在實(shí)驗(yàn)室尋找中。

最近英偉達(dá)公布了其名為 Alpamayo-R1 的VLA模型一些思路和想法,應(yīng)該就是英偉達(dá)推進(jìn)L4落地的一些方法和實(shí)踐,應(yīng)該屬于當(dāng)前技術(shù)產(chǎn)品化的最先進(jìn)方向。

所以,本文就從VLA當(dāng)前結(jié)構(gòu)和挑戰(zhàn),英偉達(dá)L4 VLA 算法結(jié)構(gòu),英偉達(dá)L4 VLA數(shù)據(jù)標(biāo)注和訓(xùn)練方法來(lái)分享解析這個(gè)VLA算法。

當(dāng)前VLA結(jié)構(gòu)的挑戰(zhàn)

熟悉我們之前VLA的文章朋友們肯定知道,VLA可以通過(guò)語(yǔ)言模型來(lái)進(jìn)行理解和推理人類世界,這樣將智能輔助駕駛相比之前純粹的端到端有了以下幾個(gè)優(yōu)點(diǎn):

通過(guò)明確的反事實(shí)推理和運(yùn)行時(shí)安全交叉檢查及監(jiān)控,提高了安全性。

通過(guò)提供人類可讀的決策原理,提高了可解釋性。

可作為可驗(yàn)證的獎(jiǎng)勵(lì),用于提高長(zhǎng)尾性能,提供了更豐富的訓(xùn)練信號(hào)。

VLM/VLA 已被幾家頭部應(yīng)用于自動(dòng)駕駛,不過(guò),雖然都叫VLA,但是當(dāng)前不少VLA可能本質(zhì)還是一個(gè)VA:

也就是大多為反應(yīng)性地操作而沒有明確推理,難以泛化到需要反事實(shí)推理的模糊或長(zhǎng)時(shí)域場(chǎng)景。

此外,簡(jiǎn)單的將自動(dòng)駕駛的推理視為純粹的自然語(yǔ)言處理(NLP)問(wèn)題,會(huì)忽略駕駛需要豐富的3D和物理空間知識(shí):車道幾何、交通規(guī)則、智能體交互和動(dòng)態(tài)約束。

于是,英偉達(dá)的自動(dòng)駕駛VLA模型 Alpamayo-R1 采用以下創(chuàng)新方法來(lái)

開發(fā)了一個(gè)結(jié)構(gòu)化的因果鏈(CoC)標(biāo)注框架,該框架生成以決策為基礎(chǔ)、具有因果關(guān)聯(lián)的推理痕跡,并通過(guò)混合的人工參與和自動(dòng)標(biāo)注流程支持可擴(kuò)展的高質(zhì)量數(shù)據(jù)生成。

采用了基于流匹配(flow matching)的擴(kuò)散型行動(dòng)專家軌跡解碼器,以高效地生成連續(xù)的、多模態(tài)軌跡規(guī)劃,這些規(guī)劃與語(yǔ)言推理輸出對(duì)齊,并滿足實(shí)時(shí)推理要求。

采用多階段訓(xùn)練策略,基于 Cosmos-Reason VLM 主干,注入行動(dòng)模態(tài)進(jìn)行軌跡預(yù)測(cè),通過(guò)在 CoC 數(shù)據(jù)上進(jìn)行監(jiān)督微調(diào)(SFT)來(lái)激發(fā)推理能力,并采用強(qiáng)化學(xué)習(xí)(RL)來(lái)提升推理質(zhì)量、推理-行動(dòng)一致性及軌跡質(zhì)量。

通過(guò)以上方式來(lái)達(dá)到VLA的真正效果,能夠真正推理,能夠真正理解一些駕駛的3D空間知識(shí)。

英偉達(dá)L4 VLA 模型結(jié)構(gòu)

其實(shí)所有的 VLA就是一種端到端架構(gòu)。英偉達(dá)AR1也不例外,系統(tǒng)處理多攝像頭、多時(shí)間步觀察作為視覺輸入,可選擇性地增強(qiáng)語(yǔ)音文本輸入,如用戶命令和高級(jí)導(dǎo)航指令。所有輸入都被 Token 化為統(tǒng)一的多模態(tài) Token 序列,然后由 Cosmos-Reason 這個(gè)VLM主干處理。

VLM 主干:Cosmos-Reason是英偉達(dá)自己的VLM,在AR1 VLA模型中這個(gè)VLM模型經(jīng)過(guò)了2.47萬(wàn)個(gè)專注于駕駛場(chǎng)景的視頻 VQA (Visual Question Answering,視覺問(wèn)答)樣本訓(xùn)練微調(diào)成為了一個(gè)駕駛Physical AI VLM。

當(dāng)前來(lái)講 VLM模型算是易得,但是好的數(shù)據(jù)難求,英偉達(dá)AR1讓他每一個(gè)動(dòng)作和行為都有明確的推理和解釋,微調(diào)訓(xùn)練的數(shù)據(jù)就必須要有這些東西。

所以,英偉達(dá) AR1整理和標(biāo)注好2.47萬(wàn)個(gè)駕駛的視頻和問(wèn)答推理,來(lái)微調(diào)這個(gè)VLM。2.47萬(wàn)個(gè)視頻包含描述和問(wèn)答推理,這是個(gè)巨大的工作量,后文我們有分享英偉達(dá)數(shù)據(jù)標(biāo)注方法。

有了這個(gè)特調(diào)的VLM,那么VLA另外兩個(gè)重要的事情就是把輸入的視覺和語(yǔ)言進(jìn)行編碼進(jìn)入VLM,另一方面就是把VLM吐出來(lái)的東西解碼成運(yùn)動(dòng)軌跡。

輸入的視覺編碼 (Vision Encoding),對(duì)于自動(dòng)駕駛來(lái)講,計(jì)算的成本是有限的,所以VLM 中的視覺編碼器必須產(chǎn)生盡可能少的 Token,同時(shí)保留相關(guān)的語(yǔ)義信息,以實(shí)現(xiàn)車載部署。英偉達(dá)AR1研究過(guò)和采用的方法是:

單個(gè)攝像頭單幀編碼,例如,對(duì)于 448x280 像素的圖像,此過(guò)程為每張圖像生成 160 個(gè) Token。由于自動(dòng)駕駛車輛通常使用 6 到 10 個(gè)攝像頭,單圖像 Token 化產(chǎn)生的 Token 數(shù)量會(huì)隨攝像頭數(shù)量線性增加,從而妨礙實(shí)時(shí)推理。

多攝像頭單幀同步編碼,可以采用 3D 歸納偏置的方法使 Token 數(shù)量與攝像頭的數(shù)量和分辨率解耦。例如,對(duì)于 7 攝像頭設(shè)置,只需 288 個(gè) Token 即可表示一個(gè)時(shí)間步的觀察結(jié)果。

多攝像頭視頻編碼:對(duì)來(lái)自多個(gè)時(shí)間步的攝像頭觀察序列進(jìn)行直接編碼,壓縮率為高達(dá) 20 倍(相比單圖像 Token 化),同時(shí)保持或甚至改善下游駕駛指標(biāo)。

顯然英偉達(dá)AR1 應(yīng)該是應(yīng)用了多攝像頭同步編碼的方式,來(lái)節(jié)省算力需求,畢竟車端部署,算力和實(shí)時(shí)性是最大的約束,誰(shuí)能算的快算的準(zhǔn)是AI的要求。

當(dāng)然還有語(yǔ)音文本的模態(tài),這個(gè)輸入對(duì)于VLM就是信手拈來(lái),畢竟原生就是LLM。

輸出的軌跡解碼 (Trajectory Decoding),英偉達(dá)AR1結(jié)合了離散軌跡 Token(在 VLM 內(nèi)部學(xué)習(xí))與行動(dòng)專家(action-expert)的策略。

一般VLA的VLM內(nèi)部吐出的是基于車輛的位置軌跡,但是,這種原始位置(x, y)路徑點(diǎn)空間訓(xùn)練模型容易受到傳感器噪聲的影響,后面在平滑處理,最后帶來(lái)更多不準(zhǔn)確的信息。

因此,英偉達(dá)AR1提出了單輪動(dòng)態(tài)學(xué)(unicycle dynamics) 控制的行動(dòng)表示。x和y表示鳥瞰圖(BEV)平面中的位置航點(diǎn),θ表示偏航角,v表示速度,k表示曲率,a表示加速度。并將這些參數(shù)映射到VLM中,共用一套Token。

最后,行動(dòng)專家使用 Flow Matching 框架和我們之前文章分享的Diffusion 擴(kuò)散模型一樣,兩者都致力于將噪聲轉(zhuǎn)化為結(jié)構(gòu)化數(shù)據(jù),也就最后輸出自動(dòng)駕駛輸出的控車信息。

這樣,使得推理和軌跡共享一個(gè)共同的 Token 空間,允許 VLM 通過(guò)標(biāo)準(zhǔn)下一 Token 預(yù)測(cè)緊密耦合因果解釋與車輛行為。

同時(shí),F(xiàn)low Matching 提供了計(jì)算效率,生成連續(xù)軌跡的速度比自回歸采樣 128 個(gè)離散 Token 快得多,從而實(shí)現(xiàn)了實(shí)時(shí)推理。

英偉達(dá)L4 VLA 數(shù)據(jù)標(biāo)注和訓(xùn)練方法

所以,英偉達(dá)AR1 VLA模型將VLA模型組合的更緊密了,有點(diǎn)像流水線從原材料到包裝發(fā)運(yùn)到在一條產(chǎn)線上。

有了流水線,那么如何訓(xùn)練和組織原材料(數(shù)據(jù))成為模型成功最重要的因素。

英偉達(dá)AR1 的推理和軌跡共享一個(gè)共同的 Token 空間就必須讓之前訓(xùn)練的數(shù)據(jù)結(jié)構(gòu)發(fā)生變化。推理數(shù)據(jù)必須與自我軌跡緊密相關(guān),才能使推理 VLA 模型能夠解釋駕駛行動(dòng)的原因并提高其軌跡性能。

而數(shù)據(jù)的產(chǎn)生就是標(biāo)注。

Alpamayo-R1 模型訓(xùn)練的標(biāo)注框架將每個(gè)數(shù)據(jù)樣本分解為三個(gè)結(jié)構(gòu)化組件:駕駛決策、因果因素(關(guān)鍵組件) 和組合推理痕跡。

自動(dòng)駕駛決策的分類表,它定義了模型必須學(xué)習(xí)的各種縱向和橫向駕駛動(dòng)作及其具體的含義。

關(guān)鍵組件,是模型生成因果基礎(chǔ)解釋(CoC 推理)時(shí)必須引用的“證據(jù)”

最后就是輸出組合的推理痕跡,它強(qiáng)調(diào)了在識(shí)別出駕駛決策和關(guān)鍵場(chǎng)景組件后,如何將其語(yǔ)言化并組織成連貫、具有因果邏輯的解釋。

有了這些規(guī)則,同時(shí)在實(shí)際標(biāo)注時(shí)候,為了確保訓(xùn)練數(shù)據(jù)的高質(zhì)量和實(shí)用性,標(biāo)注時(shí)候需要考慮:

因果覆蓋,因果正確性

同時(shí)這是為了實(shí)現(xiàn)標(biāo)注經(jīng)濟(jì)性,聚焦于最關(guān)鍵、最直接的因素 。例如,如果汽車停了下來(lái),是因?yàn)榍败噭x車(近端原因),而不是因?yàn)榍懊嬗幸粋(gè)紅燈(背景條件);

最后是,決策最小化: 確保只在決策發(fā)生變化時(shí)才生成新的推理軌跡,從而提高數(shù)據(jù)效率和模型的注意力集中度。

有了這標(biāo)注的三個(gè)結(jié)構(gòu)組件規(guī)則和方法論,接下來(lái)就是標(biāo)注。

但,標(biāo)注之前是確定應(yīng)該在何時(shí)標(biāo)記這些推理數(shù)據(jù)。因?yàn)椋⒎敲總(gè)視頻片段都值得標(biāo)注;只有在可觀察因素與自車隨后的決策之間能建立明確因果聯(lián)系的時(shí)刻,才會(huì)觸發(fā)標(biāo)注。因此,數(shù)據(jù)管理是數(shù)據(jù)標(biāo)注框架的一個(gè)關(guān)鍵方面,它涉及到識(shí)別這些關(guān)鍵的推理時(shí)刻。

英偉達(dá)AR1 每個(gè)數(shù)據(jù)的原始片段包含 20 秒的數(shù)據(jù),并且可以生成多個(gè)訓(xùn)練樣本(因?yàn)樵谟?xùn)練和評(píng)估中都配置使用 2 秒歷史來(lái)預(yù)測(cè) 6 秒未來(lái))。

有了視頻數(shù)據(jù)之后,英偉達(dá)AR1的數(shù)據(jù)采用人工和自動(dòng)標(biāo)注。

人工標(biāo)注,采用兩階段流程:

階段 I (0-2 s):在可觀察的歷史窗口內(nèi)識(shí)別關(guān)鍵組件,以防止因果混淆。

階段 II (0-8 s):選擇關(guān)鍵幀后的第一個(gè)駕駛決策,并撰寫 CoC 推理痕跡,僅引用階段 I 中確定的因果因素。我們實(shí)施了嚴(yán)格的 QA 流程來(lái)最大化標(biāo)注質(zhì)量。

自動(dòng)標(biāo)注:使用最先進(jìn)的 VLM(如 GPT-5 (OpenAI, 2025))進(jìn)行離線自動(dòng)標(biāo)注。該流程將世界知識(shí)蒸餾到結(jié)構(gòu)化的 CoC 標(biāo)注中。自動(dòng)標(biāo)注 VLM 被提示使用 2 秒的歷史視頻來(lái)識(shí)別關(guān)鍵組件。

這就形成了訓(xùn)練最關(guān)鍵的數(shù)據(jù)。有了數(shù)據(jù)之后才能喂入模型訓(xùn)練。

當(dāng)前VLA模型的訓(xùn)練算是統(tǒng)一標(biāo)配了,之前文章《揭秘小鵬自動(dòng)駕駛「基座模型」和 「VLA大模型」》也分享過(guò)類似的訓(xùn)練流程。

VLM 訓(xùn)練就是通用VLM,當(dāng)前的多模態(tài)大模型類似,所以不講。

先,Pre-Training注入動(dòng)作模態(tài) (Injecting Action Modality) — 對(duì)應(yīng) Pre-Training, 使視覺語(yǔ)言模型 (VLM) 能夠預(yù)測(cè)車輛控制輸出。當(dāng)然這里需要匹配上文講到的一個(gè)基于流匹配 (flow matching) 的動(dòng)作專家 (action-expert)。這樣一個(gè)初始的擁有執(zhí)行和預(yù)測(cè)駕駛軌跡的能力的VLA模型構(gòu)建完成。

之后,SFT提升推理能力 (Improving Reasoning Capability) — 對(duì)應(yīng) SFT,提高模型的推理能力,使其能夠生成因果基礎(chǔ)的解釋來(lái)支持駕駛決策。這里就需要上文講到的在2.47萬(wàn)的CoC 數(shù)據(jù)集,在它上進(jìn)行有監(jiān)督微調(diào) (SFT)。

這樣VLA可以生成因果基礎(chǔ)的解釋,使模型能夠提供可解釋且更好的駕駛決策。

最后,RL 的強(qiáng)化學(xué)習(xí)后訓(xùn)練,構(gòu)建獎(jiǎng)勵(lì)模型,來(lái)強(qiáng)化人類想要的東西,英偉達(dá)AR1 利用大型推理模型的反饋來(lái)精煉推理質(zhì)量。最終將推理軌跡與實(shí)際執(zhí)行的動(dòng)作對(duì)齊。最終VLA模型產(chǎn)生可解釋且安全的駕駛行為,并優(yōu)化整體軌跡質(zhì)量。

利用大型推理模型進(jìn)行推理評(píng)分,利用DeepSeek-R1 作為推理批評(píng)家,對(duì) VLA 生成的推理痕跡質(zhì)量提供可擴(kuò)展、高質(zhì)量的反饋。評(píng)估行為一致性和因果推理質(zhì)量。鼓勵(lì)模型生成不僅描述正確駕駛行為,而且保持因果忠實(shí)性的推理。

數(shù)據(jù)集CoC-行動(dòng)一致性:CoC-動(dòng)作一致性獎(jiǎng)勵(lì)通過(guò)將模型的語(yǔ)言輸出(推理)與其物理輸出(動(dòng)作)進(jìn)行硬性、基于規(guī)則的匹配,確保了模型的解釋性和可靠性,是實(shí)現(xiàn)可信賴自主駕駛的關(guān)鍵環(huán)節(jié)。

低級(jí)軌跡質(zhì)量,也就是輸出運(yùn)動(dòng)控制: 確保生成的運(yùn)動(dòng)軌跡在物理上可行、舒適且安全。主要是三個(gè)方面:軌跡曲線平滑類人。碰撞懲罰和加加速度(Jerk)懲罰,以懲罰突然或不舒服的運(yùn)動(dòng)。這些項(xiàng)將模型的學(xué)習(xí)錨定到類人、安全和舒適的運(yùn)動(dòng)。

這樣基本就完成了整個(gè)VLA的構(gòu)建,后續(xù)模型升級(jí)就是根據(jù)回傳的極端場(chǎng)景進(jìn)行修復(fù)和優(yōu)化。

寫在最后

吳新宙,確實(shí)是個(gè)人才,進(jìn)入英偉達(dá)時(shí)候算是高位接盤,在L2+這么卷的市場(chǎng)已經(jīng)很難有建樹,到現(xiàn)在,用最前沿能到手的技術(shù)開辟了一個(gè)L4戰(zhàn)場(chǎng),算是給職業(yè)生涯接上了另外一棒。

而對(duì)于算法,VLA在當(dāng)前大語(yǔ)言模型應(yīng)用成熟,空間智能還在實(shí)驗(yàn)室的背景下,確實(shí)是實(shí)現(xiàn)自動(dòng)駕駛產(chǎn)品化的最優(yōu)解。

而不管如何數(shù)據(jù)和數(shù)據(jù)處理能力成為人工智能算法軟件的核心。

參考文章以及圖片

Alpamayo-R1: Bridging Reasoning and Action Prediction for Generalizable Autonomous Driving in the Long Tail - 英偉達(dá)

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-

       原文標(biāo)題 : 吳新宙帶領(lǐng)英偉達(dá)沖刺自動(dòng)駕駛L4背后的VLA大模型算法

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)