訂閱
糾錯(cuò)
加入自媒體

揭秘小鵬自動(dòng)駕駛「基座模型」和 「VLA大模型」

2025年的CVPR自動(dòng)駕駛 Workshop上,小鵬汽車的Liu Xianming先生做了一篇名為《Scaling up Autonomous Driving via Large Foundation Models》的演講。

之前,網(wǎng)絡(luò)上有不少小鵬此次CVPR的 VLA演講信息,但那些是別人想讓你看到的廣告推文。本文根據(jù)Liu Xianming的演講內(nèi)容,深度挖掘小鵬輔助駕駛/自動(dòng)駕駛“基礎(chǔ)模型”和VLA大模型的方法論。

提出基礎(chǔ)模型的概念

開(kāi)頭Liu Xianming先生引用特斯拉前人工智能總監(jiān)、OpenAI 研究員 Andrej Karpathy提出的軟件時(shí)代三階段概念(具體可以點(diǎn)擊之前文章《特斯拉前人工智能負(fù)責(zé)人 Andrej Karpathy最新演講談 AI和 LLM》分享的內(nèi)容),引出小鵬VLA的基礎(chǔ)模型概念。

自動(dòng)駕駛軟件1.0模型時(shí)代就是十年前,大家都在忙于T字形路口等場(chǎng)景,主要依賴于點(diǎn)云和CPU上的集群處理來(lái)檢測(cè)障礙物,并編寫(xiě)大量硬編碼的啟發(fā)式規(guī)則來(lái)進(jìn)行操控。在這種情況下,整個(gè)棧是由簡(jiǎn)單的規(guī)則定義的時(shí)代。

大約六七年前軟件2.0開(kāi)始,隨著檢測(cè)和視覺(jué)技術(shù)越來(lái)越成熟,人們開(kāi)始用機(jī)器學(xué)習(xí)模型替換感知和預(yù)測(cè)部分。但大部分棧仍然包含硬編碼規(guī)則。

現(xiàn)在就是3.0時(shí)代了,稱之為“AI模型即軟件”。自動(dòng)駕駛可以用數(shù)據(jù)迭代軟件,這個(gè)時(shí)候整個(gè)軟件轉(zhuǎn)換為AI模型,并基于以數(shù)據(jù)為中心的方法進(jìn)行迭代。

Liu Xianming表示,目前,小鵬正處于將整個(gè)自動(dòng)駕駛軟件棧構(gòu)建為端到端AI模型來(lái)駕駛汽車的階段。

下一階段,Xianming表示他們需要探索未來(lái)如何發(fā)展,基于“規(guī)模定律”(scaling law)。但 scaling law要的是大量的數(shù)據(jù),但小鵬表示對(duì)于自動(dòng)駕駛領(lǐng)域,他們并不受數(shù)據(jù)限制,因?yàn)樾※i可以每天從數(shù)十萬(wàn)輛真實(shí)世界的車輛中收集大量數(shù)據(jù)。

所以,小鵬將利用這些數(shù)據(jù)訓(xùn)練一個(gè)非常大的視覺(jué)模型,作為“工廠”。一旦有了這個(gè)模型,就可以將其蒸餾到較小的硬件上,部署到車輛中。

小鵬將這個(gè)原型定義為“軟件3.0”,總體的概念是,大數(shù)據(jù)構(gòu)建一個(gè)基礎(chǔ)模型,就可以不要管三維空間中的先驗(yàn)知識(shí)和空間問(wèn)題,這又有點(diǎn)像世界模型的概念,然后可以將這個(gè)模型部署到車端。

當(dāng)然這里涉及到深度裁剪、量化、蒸餾基礎(chǔ)模型,使模型能在更小的車端硬件上部署。這是小鵬對(duì)下一代自動(dòng)駕駛的理念。

內(nèi)外循環(huán),實(shí)現(xiàn)自動(dòng)駕駛

有了基礎(chǔ)模型這個(gè)理論基礎(chǔ)之后,小鵬創(chuàng)建了一個(gè)“內(nèi)循環(huán)”概念,為每個(gè)模型創(chuàng)建訓(xùn)練流,便于擴(kuò)展數(shù)據(jù),然后進(jìn)行再訓(xùn)練和SFT(監(jiān)督微調(diào))以持續(xù)提升模型性能。最后,將基礎(chǔ)模型進(jìn)行蒸餾,將模型壓縮成更小的版本并部署到汽車中。

“外循環(huán)”,就是數(shù)據(jù)驅(qū)動(dòng),一旦將模型部署到設(shè)備上,數(shù)十萬(wàn)輛車就成為現(xiàn)實(shí)世界中的數(shù)據(jù)采樣器,持續(xù)采樣數(shù)據(jù)進(jìn)行訓(xùn)練。

這個(gè)外循環(huán)即根據(jù)返回?cái)?shù)據(jù)持續(xù)訓(xùn)練,或者有些人稱之為“協(xié)同訓(xùn)練”(co-training)。不斷地重復(fù)這個(gè)過(guò)程,直到性能足夠好以達(dá)到L4級(jí)自動(dòng)駕駛。

這幾天何小鵬在IAA 2025慕尼黑車展(了解2025慕尼黑車展點(diǎn)擊《IAA 2025 慕尼黑車展:中國(guó)汽車軍團(tuán)們,從“貿(mào)易出口”到“勢(shì)不可擋”》)上也表示力爭(zhēng)在2026年實(shí)現(xiàn)L4級(jí)智駕車型量產(chǎn),估計(jì)也是基于這個(gè)方法論的基礎(chǔ)。

模型訓(xùn)練方法

眼尖的朋友從演講PPT中可以看到,小鵬在上半年是奔著 VLA模型架構(gòu)的方向跑的。

所以這個(gè)模型的訓(xùn)練方法就是

首先是拿一個(gè) VLM模型,其實(shí)行業(yè)內(nèi)都清楚基本上這個(gè)原始的 VLM模型就是阿里的Qwen。

然后基于這個(gè)模型,采用小鵬整理的駕駛數(shù)據(jù)進(jìn)行預(yù)訓(xùn)練、對(duì)齊,也就是視覺(jué)模型的預(yù)訓(xùn)練。

下圖就是小鵬數(shù)據(jù)分類好的預(yù)訓(xùn)練數(shù)據(jù),可以看出將交通數(shù)據(jù)分為:

靜態(tài)交通元素,例如道路

動(dòng)態(tài)交通參與者,車等

點(diǎn)到點(diǎn)的軌跡數(shù)據(jù)

占用,應(yīng)該是用來(lái)訓(xùn)Occ網(wǎng)絡(luò)的數(shù)據(jù)

交通燈 TSL,交通信號(hào)燈

交通流 TFL,車流信息

下面就是交通流 TFL的數(shù)據(jù)舉例子,可用看到圖片信息基本上就是把交通信息語(yǔ)意化,也就是這個(gè)圖片在交通場(chǎng)景中代表啥意思。

有了對(duì)交通流的理解,下一步就是CoT(Chain-of-Thought 思維鏈),基于對(duì)場(chǎng)景流的理解進(jìn)行思維推理,小鵬做了四步:

對(duì)齊,提供基本駕駛知識(shí),例如紅燈停

CoT SFT(監(jiān)督訓(xùn)練)。

強(qiáng)化學(xué)習(xí)CoT。

考慮延遲的CoT SFT。

最后一點(diǎn)是,所有的思維鏈最后的結(jié)果都是要輸出動(dòng)作。動(dòng)作不是某種語(yǔ)言或文本輸出,而是以“動(dòng)作token”的形式描述。小鵬將動(dòng)作分解為縱向動(dòng)作和橫向動(dòng)作,包括加速、停止等

最終VLM識(shí)別場(chǎng)景,推理,產(chǎn)生出車輛運(yùn)動(dòng)的動(dòng)作。

所以,可以認(rèn)為這個(gè)預(yù)訓(xùn)練就是對(duì)通用的 VLM進(jìn)行專業(yè)的交通訓(xùn)練,讓模型輸入視圖,輸出動(dòng)作,訓(xùn)練出一個(gè)小鵬智能輔助駕駛可用的 VLA模型。

第二部分,有了基本的動(dòng)作訓(xùn)練之后就是監(jiān)督微調(diào)(Supervised Fine-tuning, SFT)。因?yàn)樯疃葘W(xué)習(xí)只處理數(shù)據(jù)的統(tǒng)計(jì)均值。但開(kāi)車有很多專用指令,例如導(dǎo)航,或者進(jìn)行非常舒適的剎車。所以小鵬將SFT建模為一種“指令遵循”任務(wù)。整理和篩選出Good case 好數(shù)據(jù),用這些數(shù)據(jù)進(jìn)行專門指令訓(xùn)練。這個(gè)部分基本就輸出了一個(gè)可用的VLA模型。

之后是后期訓(xùn)練(post-training),這是針對(duì)指令跟隨或指令反射的微調(diào)函數(shù)。主要解決的事長(zhǎng)尾案例,采用的方法是強(qiáng)化學(xué)習(xí)。

強(qiáng)化學(xué)習(xí)就是建立一個(gè)獎(jiǎng)勵(lì)模型,然后進(jìn)行獎(jiǎng)勵(lì),讓模型都遵循相同的行動(dòng)。最終,對(duì)于自動(dòng)駕駛來(lái)說(shuō),強(qiáng)化學(xué)習(xí)使得駕駛更安全。為了更安全地駕駛,小鵬設(shè)計(jì)了三個(gè)獎(jiǎng)勵(lì):安全,不碰撞;其次是效率,不卡殼,最后是合規(guī)也就是遵守交通規(guī)則,比如交通燈。

最終經(jīng)過(guò)總體的三個(gè)階段,從VLM對(duì)齊預(yù)訓(xùn)練,到VLM+動(dòng)作和進(jìn)行監(jiān)督微調(diào)形成可用的VLA,最后進(jìn)行獎(jiǎng)懲強(qiáng)化學(xué)習(xí)生成可用的VLA。

寫(xiě)在最后

小鵬輔助駕駛/自動(dòng)駕駛的思路是在云端構(gòu)建一個(gè) VLA的基礎(chǔ)模型,然后進(jìn)行蒸餾剪枝和微調(diào)訓(xùn)練部署到車端。

其實(shí)這個(gè)論文透露了兩個(gè)思路,一個(gè)是基礎(chǔ)模型蒸餾上車的思路,這個(gè)思路應(yīng)該比較妙,可以加速開(kāi)發(fā)和快速不同算力平臺(tái)部署,但前提條件是要有大算力和高質(zhì)量的數(shù)據(jù)。

另外一個(gè)思路是VLA,VLA的概念真的很濫了,通過(guò)本文看就是VLA的開(kāi)頭肯定是要有一個(gè)基礎(chǔ)成熟的LLM作為底座,然后基于他去針對(duì)交通駕駛行為訓(xùn)。

其實(shí)這兩個(gè)思路對(duì)于自動(dòng)駕駛行業(yè)來(lái)講,透露的是底層算法和架構(gòu)都相通,唯一拉開(kāi)大家差距的是高質(zhì)量數(shù)據(jù),大算力以及強(qiáng)大算法產(chǎn)品化和工程落地能力。

*未經(jīng)準(zhǔn)許嚴(yán)禁轉(zhuǎn)載和摘錄-

       原文標(biāo)題 : 揭秘小鵬自動(dòng)駕駛「基座模型」和 「VLA大模型」

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)