訂閱
糾錯(cuò)
加入自媒體

具身智能VLA困于“數(shù)據(jù)泥潭”,靠人類活動(dòng)視頻數(shù)據(jù)能否破局?

前言

盡管當(dāng)前的視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型已展現(xiàn)出顯著進(jìn)展,但其在新場(chǎng)景和與復(fù)雜物體交互中的性能會(huì)顯著下降,在遵循指令方面落后于像LLaVA 這樣的大型多模態(tài)模型(LMM)。

這種局限性源于現(xiàn)有VLA模型對(duì)存在固有仿真到現(xiàn)實(shí)差距(Sim-to-Real Gap)的合成數(shù)據(jù)或缺乏多樣性的有限規(guī)模的實(shí)驗(yàn)室遙操作演示數(shù)據(jù)的依賴,導(dǎo)致其難以勝任高靈巧度操作任務(wù),且在新場(chǎng)景中泛化能力有限。

1)合成數(shù)據(jù):雖有研究者們嘗試?yán)梅抡嫫鳙@取低成本合成數(shù)據(jù),但其有限多樣性與未解決的仿真-現(xiàn)實(shí)差異,仍阻礙著靈巧手的實(shí)際部署。

2)遙操作數(shù)據(jù):該類數(shù)據(jù)的規(guī)模與互聯(lián)網(wǎng)級(jí)別的大型多模態(tài)模型(LMMs)訓(xùn)練數(shù)據(jù)相比,存在數(shù)個(gè)數(shù)量級(jí)的差距,這使得具身智能陷入了持續(xù)的 “數(shù)據(jù)泥潭”。對(duì)于靈巧手而言,這種數(shù)據(jù)稀缺問(wèn)題尤為突出 —— 由于操作復(fù)雜性和硬件成本的限制,迫使大多數(shù)VLA模型只能局限于適配簡(jiǎn)易夾爪。然而,這些末端執(zhí)行器自由度有限,無(wú)法實(shí)現(xiàn)精細(xì)的手指控制,因此無(wú)法完成復(fù)雜交互所需的精確協(xié)調(diào)或微妙的力調(diào)節(jié)。

具身智能面臨的數(shù)據(jù)難題該如何突破呢?由北京大學(xué)、中國(guó)人民大學(xué)以及北京智在無(wú)界科技有限公司(BeingByond)聯(lián)合發(fā)表的論文《Being-H0: Vision-Language-Action Pretraining from Large-Scale Human Videos》提出了值得參考和借鑒的思路。

論文指出:為突破數(shù)據(jù)瓶頸,人類活動(dòng)視頻為VLA訓(xùn)練提供新路徑 —— 具備海量真實(shí)世界數(shù)據(jù)且與現(xiàn)實(shí)差異極小。盡管已有研究采用隱式學(xué)習(xí)方法(如對(duì)比學(xué)習(xí)、掩碼自編碼、潛動(dòng)作建模)增強(qiáng)機(jī)器人技能,但這些方法的學(xué)習(xí)機(jī)制與遷移效果仍不明確。

值得注意的是,此類方法未能復(fù)現(xiàn)LLM/LMM領(lǐng)域的性能躍升,例如視覺(jué)指令微調(diào)在LLM/LMM領(lǐng)域展現(xiàn)的突破性效果。這種差距可能源于數(shù)據(jù)結(jié)構(gòu)的根本差異 —— 在大型語(yǔ)言模型和大型多模態(tài)模型中,預(yù)訓(xùn)練數(shù)據(jù)與下游訓(xùn)練數(shù)據(jù)具有同構(gòu)性,因此文本推理與語(yǔ)言任務(wù)能無(wú)縫適配,視覺(jué)-文本理解能力也能自然遷移至多模態(tài)任務(wù)。

相比之下,在VLA中卻呈現(xiàn)出異構(gòu)性—— 文本/二維視覺(jué)輸入與具有本體感知需求的三維動(dòng)作空間之間存在顯著差距。

因此,研究人員分析了視覺(jué)指令調(diào)優(yōu)的成功因素,并提出了物理指令調(diào)優(yōu)這一新范式來(lái)訓(xùn)練了靈巧視覺(jué)-語(yǔ)言-動(dòng)作模型——Being-H0。

該模型將人手確立為下游操作的通用基準(zhǔn)(也就是說(shuō),將人手作為“基礎(chǔ)操控器”),使機(jī)器人能從網(wǎng)絡(luò)視頻學(xué)習(xí)多樣化技能。據(jù)悉,這是首次通過(guò)大規(guī)模人類視頻的顯式動(dòng)作建模,預(yù)訓(xùn)練可擴(kuò)展、強(qiáng)泛化能力的VLA模型。

如下圖所示,物理指令調(diào)優(yōu)范式包含三個(gè)關(guān)鍵組成部分:人類視頻驅(qū)動(dòng)的VLA預(yù)訓(xùn)練、面向三維推理的物理空間對(duì)齊以及針對(duì)機(jī)器人任務(wù)的后訓(xùn)練適配。

Being-H0模型物理指令調(diào)優(yōu)的三個(gè)關(guān)鍵組成部分

備注:文本分詞器(text tokenizer)和視覺(jué)編碼器(visual encoder)在預(yù)訓(xùn)練和后訓(xùn)練階段是共享的。對(duì)于預(yù)訓(xùn)練以及手部運(yùn)動(dòng)/ 平移任務(wù),Being-H0 以自回歸方式生成輸出。對(duì)于后訓(xùn)練以及下游操作任務(wù),Being-H0 引入了一組可學(xué)習(xí)的查詢向量作為動(dòng)作塊進(jìn)行預(yù)測(cè)。

同時(shí),本論文還提出部件級(jí)動(dòng)作Token化技術(shù),通過(guò)毫米級(jí)重建精度建模精準(zhǔn)手部軌跡。另外,為支撐此框架,研究人員構(gòu)建了統(tǒng)一數(shù)據(jù)整備管線,整合了涵蓋動(dòng)作捕捉數(shù)據(jù)、VR交互記錄、純RGB視頻在內(nèi)的數(shù)據(jù),形成包含數(shù)百萬(wàn)動(dòng)作驅(qū)動(dòng)型指令實(shí)例的大規(guī)模數(shù)據(jù)集 - UniHand。

一、物理指令調(diào)優(yōu)的三個(gè)關(guān)鍵組成部分

Being-H0模型物理指令調(diào)優(yōu)過(guò)程

通過(guò)統(tǒng)一物理指令微調(diào),搭建起了人類視頻數(shù)據(jù)集與機(jī)器人操作之間的橋梁。

1)圖左側(cè):部件級(jí)運(yùn)動(dòng)Token化 —— 將連續(xù)的手部運(yùn)動(dòng)轉(zhuǎn)換為離散Token。物理空間對(duì)齊通過(guò)坐標(biāo)系對(duì)齊和MANO參數(shù)化,統(tǒng)一異構(gòu)數(shù)據(jù)源 —— 從視頻中的人類手部演示(數(shù)據(jù)集)到真實(shí)機(jī)器人數(shù)據(jù),為預(yù)訓(xùn)練和后訓(xùn)練監(jiān)督創(chuàng)建一致的表征。

2)圖中間:在預(yù)訓(xùn)練階段—— 將視覺(jué)-文本參數(shù) Θv,t 擴(kuò)展以納入運(yùn)動(dòng)參數(shù)Θm,使統(tǒng)一序列內(nèi)的視覺(jué)、文本和運(yùn)動(dòng)Token能夠?qū)崿F(xiàn)多頭注意力交互。用藍(lán)色表示視覺(jué)和文本注意力,紅色表示運(yùn)動(dòng)注意力,黃色表示跨模態(tài)注意力。

3)圖右側(cè):擴(kuò)展階段展示了注意力機(jī)制如何適配預(yù)訓(xùn)練的跨模態(tài)依賴關(guān)系(Attnv,t|m),隨后是后訓(xùn)練階段,其中納入動(dòng)作參數(shù)Θa,生成具有參數(shù)Θa,v,t|m的最終VLA模型,用于下游機(jī)器人任務(wù)。綠色部分表示動(dòng)作注意力。

1. 預(yù)訓(xùn)練

現(xiàn)有的大型多模態(tài)模型(LMMs)在多模態(tài)推理方面表現(xiàn)出色,但在適配為用于操作任務(wù)的視覺(jué)-語(yǔ)言-動(dòng)作模型(VLAs)時(shí)表現(xiàn)欠佳。原因在于預(yù)訓(xùn)練數(shù)據(jù)與下游任務(wù)數(shù)據(jù)之間存在根本性不匹配。

為彌合這一差距,研究人員利用人類與機(jī)器人操作器在結(jié)構(gòu)上的相似性,引入了手部運(yùn)動(dòng)生成預(yù)訓(xùn)練。該預(yù)訓(xùn)練方法是將人手視為理想的操作器,而機(jī)器人操作器則被視作人手的簡(jiǎn)化版本。

預(yù)訓(xùn)練使用一個(gè)多模態(tài)數(shù)據(jù)集:D = {(v, t, m)}來(lái)訓(xùn)練基礎(chǔ)VLA,使其能夠根據(jù)視覺(jué)輸入和語(yǔ)言指令預(yù)測(cè)手部運(yùn)動(dòng)。

其中v 代表視覺(jué)輸入, t 代表語(yǔ)言指令, m = {θ, rrot, τ, β} 代表基于 MANO 模型參數(shù)化的運(yùn)動(dòng)數(shù)據(jù)(包括關(guān)節(jié)角度 θ, 手腕旋轉(zhuǎn) rrot, 平移 τ, 和手部形狀 β)。每個(gè)樣本都被視為一個(gè)指令-執(zhí)行對(duì){XQ, XA},并通過(guò)以下優(yōu)化目標(biāo)進(jìn)行訓(xùn)練:

其中Θ 表示基礎(chǔ)模型,XA = {y} 包含來(lái)自文本和運(yùn)動(dòng)模態(tài)的目標(biāo)詞元。該統(tǒng)一框架支持靈活的任務(wù)定義,包括:視覺(jué)到動(dòng)作生成、動(dòng)作描述生成以及面向多樣化手-物交互場(chǎng)景的多模態(tài)條件生成。

1)模型架構(gòu)

Being-H0 基于預(yù)訓(xùn)練的大型多模態(tài)模型(LMM)構(gòu)建,采用 InternVL3 架構(gòu) 。主干網(wǎng)絡(luò)包含兩大部分:一個(gè)是基于預(yù)訓(xùn)練的 InternViT-300M 作為視覺(jué)編碼器,以及一個(gè)2層的多層感知器(MLP)作為投影器。在每個(gè)時(shí)間步,模型會(huì)處理圖像-文本對(duì)輸入,以預(yù)測(cè)手部運(yùn)動(dòng)序列。

采用動(dòng)態(tài)高分辨率策略,將輸入圖像分割為多個(gè)圖像塊,同時(shí)保持寬高比以最大限度減少失真,從而保留精細(xì)的視覺(jué)細(xì)節(jié)。

另外,將手部運(yùn)動(dòng)視為一種“外語(yǔ)”,以促進(jìn)其與大型多模態(tài)模型的無(wú)縫整合。在預(yù)訓(xùn)練階段,手部運(yùn)動(dòng)Token生成器會(huì)將連續(xù)的運(yùn)動(dòng)特征量化為離散嵌入。為將運(yùn)動(dòng)Token整合到大型多模態(tài)模型主干中,通過(guò)運(yùn)動(dòng)碼本中的 K個(gè)離散編碼擴(kuò)展了模型的詞匯表。此外,還引入了兩個(gè)特殊Token和,用于標(biāo)記運(yùn)動(dòng)塊的邊界。

2)手部運(yùn)動(dòng)Token化

運(yùn)動(dòng)Token化器旨在將原始運(yùn)動(dòng)序列中包含T幀的手部特征 M = {m, m, ..., m_T} 編碼為⌈T/α⌉個(gè)維度為 d 的Token嵌入,其中α 表示時(shí)間下采樣率。

a.運(yùn)動(dòng)特征

使用三維模型MANO來(lái)表示手部姿態(tài),其參數(shù)化為 m = {θ, rrot, τ, β}。在本文中,探索了五種備選表示方式:

MANO-D51:每幀手部運(yùn)動(dòng)被編碼為 m∈R¹,包含θ∈R15×3、rrot∈ R³ 和τ∈R³,其中θ和 rrot 以軸角形式表示。

MANO-D99:每幀手部運(yùn)動(dòng)被編碼為 m∈R。與 MANO-D51 不同,該特征采用 6D旋轉(zhuǎn)(θ∈R15×6和rrot∈R)而非軸角形式。

MANO-D109:在 MANO-D99 的基礎(chǔ)上進(jìn)行擴(kuò)展,額外納入了形狀參數(shù) β ∈ R10。

MANO-D114:在 MANO-D51 的基礎(chǔ)上進(jìn)行擴(kuò)展,增加了關(guān)節(jié)位置 j∈R21×3。注意,關(guān)節(jié)位置僅在重建訓(xùn)練中作為輔助特征,而在評(píng)估和推理階段,僅使用51 維參數(shù)。

MANO-D162:與 MANO-D114 類似,在MANO-D99的基礎(chǔ)上增加了關(guān)節(jié)位置 j∈R21×3。

論文中提到:6D旋轉(zhuǎn)特征在手指關(guān)節(jié)旋轉(zhuǎn)的重建質(zhì)量上表現(xiàn)更優(yōu),而軸角特征在腕部姿態(tài)重建方面效果更好。研究人員將這一現(xiàn)象歸因于手部不同部位的結(jié)構(gòu)特點(diǎn)—— 腕部通常表現(xiàn)出幅度較大但更為簡(jiǎn)單的旋轉(zhuǎn),軸角表示法的簡(jiǎn)潔性和計(jì)算效率使其在此處更具優(yōu)勢(shì)。相比之下,手指旋轉(zhuǎn)涉及更精細(xì)的細(xì)節(jié),而6D旋轉(zhuǎn)表示法的連續(xù)性和數(shù)值穩(wěn)定性能夠更好地捕捉這些細(xì)節(jié)。

盡管由于腕部姿態(tài)誤差的主導(dǎo)影響,使用軸角特征時(shí)整體重建誤差更低,但研究人員最終為手部運(yùn)動(dòng)Token生成器選擇了6D旋轉(zhuǎn)特征,因?yàn)樗?Being-H0 的訓(xùn)練中表現(xiàn)更優(yōu)。

一個(gè)可能的解釋是,大型多模態(tài)模型(LMMs)相對(duì)容易學(xué)習(xí)腕部姿態(tài)模式,而對(duì)精細(xì)的手指運(yùn)動(dòng)進(jìn)行建模則面臨更大挑戰(zhàn)。因此,在該研究中,選擇 MANO-D162 作為手部運(yùn)動(dòng)的特征。

另外,研究人員打算在未來(lái)的工作中探索腕部使用軸角特征與手指使用6D旋轉(zhuǎn)特征的組合方式。

b.分組殘差量化

運(yùn)動(dòng)Token生成器的精度對(duì)生成的手部運(yùn)動(dòng)質(zhì)量以及所學(xué)到的運(yùn)動(dòng)先驗(yàn)知識(shí)在下游操作任務(wù)中的可遷移性都有著關(guān)鍵影響。為確保最佳性能,研究人員精心設(shè)計(jì)了一款專門(mén)用于手部運(yùn)動(dòng)的Token生成器。其架構(gòu)基于分組殘差量化器變分自編碼器(GRQ-VAE)構(gòu)建,如下圖所示。

基于GRQ的部件級(jí)手部運(yùn)動(dòng)Token化

c.部件級(jí)運(yùn)動(dòng)Token生成器

鑒于腕部參數(shù)重建的復(fù)雜性高于手指運(yùn)動(dòng),研究人員為腕部和手指參數(shù)分別設(shè)計(jì)了Token生成器,使每個(gè)Token生成器能夠更好地對(duì)部件級(jí)特征進(jìn)行建模。

具體而言,手部運(yùn)動(dòng)特征m = {θ, rrot, τ, β} 被分解為用于全局姿態(tài)和精確定位的腕部運(yùn)動(dòng) {rrot, τ},以及用于精細(xì)操作的手指運(yùn)動(dòng) {θ, β}。

這種部件級(jí)Token化不僅改進(jìn)了特征建模,還提供了明確的Token語(yǔ)義,使大型多模態(tài)模型(LMM)主干能夠更好地捕捉結(jié)構(gòu)化的手部動(dòng)態(tài)。使用部件級(jí)Token生成器時(shí),腕部損失 Lwrist 將被省略。

3)多模態(tài)整合

與傳統(tǒng)的大型語(yǔ)言模型(LLMs)一樣,采用下一個(gè) token 預(yù)測(cè)的方式來(lái)生成輸出。Being-H0 通過(guò)將三種模態(tài) ——RGB視覺(jué)、文本和手部運(yùn)動(dòng) —— 統(tǒng)一token化(轉(zhuǎn)換為離散 token)來(lái)進(jìn)行處理。

文本的處理方式遵循大型語(yǔ)言模型的常規(guī)做法,下面詳細(xì)闡述另外兩種模態(tài)(視覺(jué)和手部運(yùn)動(dòng))的處理過(guò)程。

a.視覺(jué)Token

視覺(jué)輸入需經(jīng)過(guò)專門(mén)處理,以應(yīng)對(duì)可變分辨率圖像與動(dòng)態(tài)內(nèi)容復(fù)雜度的挑戰(zhàn)。給定輸入圖像后,首先采用動(dòng)態(tài)分塊策略,根據(jù)圖像內(nèi)容復(fù)雜度生成N 個(gè)圖像塊。

參照InternVL 的設(shè)計(jì),該分塊策略包含縮略圖生成以保留全局上下文:始終保留一個(gè)下采樣版本 Ithumb(像素混洗比例為0.5)與細(xì)節(jié)圖像塊并行處理。

視覺(jué)處理過(guò)程:首先使用視覺(jué)編碼器從這些圖像塊中提取特征,然后通過(guò)MLP 層將特征投影到統(tǒng)一的嵌入空間中。

視覺(jué)Token使用邊界標(biāo)記 和 包裹序列,而 作為動(dòng)態(tài)占位符Token,在處理過(guò)程中被實(shí)際視覺(jué)嵌入實(shí)時(shí)替換。

b.運(yùn)動(dòng)Token

運(yùn)動(dòng)數(shù)據(jù)在整合到token 流中之前,會(huì)先進(jìn)行量化處理。對(duì)于表示為M的運(yùn)動(dòng)特征序列,運(yùn)動(dòng) tokenizer 會(huì)將其量化為離散 token 序列 {mi}。

運(yùn)動(dòng)序列通過(guò)邊界標(biāo)記和構(gòu)建結(jié)構(gòu),形成每秒128個(gè) token的運(yùn)動(dòng)塊。這種結(jié)構(gòu)表示確保運(yùn)動(dòng)信息在 token 流中具有清晰的界限,同時(shí)保持與Transformer 架構(gòu)的兼容性。

多模態(tài)融合: 該模型通過(guò)統(tǒng)一的token空間處理所有模態(tài),采用共享的嵌入層和注意力機(jī)制。在融合過(guò)程中,視覺(jué)token會(huì)替換 占位符,而運(yùn)動(dòng)token則作為結(jié)構(gòu)化塊插入到文本序列中。

由此生成一個(gè)組合token序列 S = {si},其中每個(gè)元素si可能代表文本、視覺(jué)或動(dòng)作內(nèi)容。注意力機(jī)制在跨模態(tài)間同步運(yùn)作:對(duì)于拼接后的多模態(tài)隱藏狀態(tài)Hv,t,m = [Hv;Ht;Hm](分別代表視覺(jué)、文本和運(yùn)動(dòng)嵌入),通過(guò)共享投影權(quán)重矩陣計(jì)算查詢(Query)、鍵(Key)、值(Value):

其中,W {Q,K,V} 表示權(quán)重矩陣。此架構(gòu)支持直接跨模態(tài)注意力機(jī)制,使模型能夠捕捉模態(tài)間的深層依賴關(guān)系,例如將視覺(jué)觀測(cè)關(guān)聯(lián)到特定手部運(yùn)動(dòng),或?qū)⒄Z(yǔ)言指令錨定到運(yùn)動(dòng)序列。

預(yù)訓(xùn)練階段,在原始視覺(jué)-文本參數(shù) Θv,t 的基礎(chǔ)上擴(kuò)展,納入了運(yùn)動(dòng)參數(shù)Θm,通過(guò)共享注意力機(jī)制實(shí)現(xiàn)對(duì)三種模態(tài)的統(tǒng)一處理。模型通過(guò)在視覺(jué)觀測(cè)與語(yǔ)言指令的整體上下文中預(yù)測(cè)離散運(yùn)動(dòng)Token,學(xué)習(xí)生成連貫的運(yùn)動(dòng)序列。

物理指令調(diào)優(yōu)過(guò)程

2. 物理空間對(duì)齊

上述所提到的預(yù)訓(xùn)練方法旨在彌合視覺(jué)-動(dòng)作之間的鴻溝以構(gòu)建一個(gè)基礎(chǔ)視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA),但它面臨著超越標(biāo)準(zhǔn)視覺(jué)指令調(diào)優(yōu)的獨(dú)特對(duì)齊挑戰(zhàn)。

關(guān)鍵難點(diǎn)源于以下三個(gè)方面:

(1)來(lái)自多源的視覺(jué)輸入在相機(jī)內(nèi)參上存在差異,且是在動(dòng)態(tài)世界坐標(biāo)系下捕獲的數(shù)據(jù);

(2)模型的主干網(wǎng)絡(luò)使用二維視覺(jué)-文本預(yù)訓(xùn)練進(jìn)行初始化,致使其缺乏關(guān)鍵的三維空間先驗(yàn)知識(shí);

(3)視頻數(shù)據(jù)中缺失人類憑直覺(jué)就能理解的力、摩擦力等基本物理屬性。

與生物視覺(jué)系統(tǒng)通過(guò)具身經(jīng)驗(yàn)自然形成三維感知不同,該論文中通過(guò)物理空間對(duì)齊來(lái)顯式地校準(zhǔn)這些不同的數(shù)據(jù)源:將觀測(cè)結(jié)果統(tǒng)一到一致的坐標(biāo)系中,并逐步“灌輸”三維推理能力和物理理解能力。

為了構(gòu)建一個(gè)足夠大規(guī)模的靈巧人類手部動(dòng)作視頻數(shù)據(jù)集,需要從各種數(shù)據(jù)集和公開(kāi)來(lái)源收集樣本。然而,這種方法會(huì)導(dǎo)致相機(jī)系統(tǒng)存在差異,給有效的預(yù)訓(xùn)練帶來(lái)挑戰(zhàn)。此外,現(xiàn)有的語(yǔ)言-多模態(tài)模型(LMMs)的3D感知能力有限。

為緩解這一問(wèn)題,該論文中引入了物理空間對(duì)齊技術(shù) —— 這是一個(gè)統(tǒng)一的工具包,可將不同相機(jī)拍攝的視頻映射到一致的物理空間中,同時(shí)融3D空間推理和物理屬性(若有),以增強(qiáng)跨數(shù)據(jù)集的幾何一致性和感知一致性。

接下來(lái)介紹論文中提到的兩種物理空間對(duì)齊策略:弱透視投影對(duì)齊和視角不變的動(dòng)作分布平衡。

1)弱透視投影對(duì)齊

不同數(shù)據(jù)源的相機(jī)系統(tǒng)存在固有差異,導(dǎo)致3D空間的投影不一致。盡管人類能夠直觀地感知深度并估計(jì)手部與物體之間的抓取距離,但在這類多源數(shù)據(jù)集上訓(xùn)練的模型往往難以將圖像投影準(zhǔn)確映射到實(shí)際3D場(chǎng)景中,從而在3D空間推理中產(chǎn)生誤差。

為緩解這一問(wèn)題,研究人員建立了統(tǒng)一的弱透視相機(jī)空間,確保從2D視覺(jué)內(nèi)容到共享3D參考框架的一致性對(duì)齊。這種方法能為相似深度的物體維持統(tǒng)一的像素尺度,減輕因相機(jī)內(nèi)參不同造成的不一致性。

2)視角不變的動(dòng)作分布平衡

培養(yǎng)模型穩(wěn)健的指令遵循能力,需要對(duì)指令微調(diào)數(shù)據(jù)進(jìn)行細(xì)致的預(yù)處理,以確保數(shù)據(jù)分布的平衡性,對(duì)于物理指令微調(diào)而言尤其如此。

如果數(shù)據(jù)集中某一種相機(jī)配置占主導(dǎo)地位,可能會(huì)給3D感知系統(tǒng)帶來(lái)偏差,最終限制模型在未見(jiàn)過(guò)的相機(jī)設(shè)置中的泛化能力。

為緩解這一問(wèn)題,研究人員提出了一種新穎的分布平衡策略,對(duì)小規(guī)模數(shù)據(jù)源的視頻-動(dòng)作對(duì)進(jìn)行增強(qiáng),避免它們被大規(guī)模數(shù)據(jù)源的樣本所掩蓋。在平衡過(guò)程中,在不改變相機(jī)視角和位置的前提下,調(diào)整手部姿態(tài)分布。重要的是,該方法保留了來(lái)自不同數(shù)據(jù)源的動(dòng)作之間的弱透視一致性,確保連貫的3D理解。

3)其它

除上述兩種策略外,該論文還提出了一種觀點(diǎn):整合更豐富的物理線索能進(jìn)一步提升模型對(duì)空間和物理環(huán)境的理解。例如,融入視覺(jué)深度信息、觸覺(jué)反饋或其他多感官信號(hào),可為人類活動(dòng)提供更具扎實(shí)依據(jù)且更貼合實(shí)際的表征。這些模態(tài)能從不同角度補(bǔ)充物理交互和3D結(jié)構(gòu)的信息,而僅靠2D視覺(jué)輸入,這些信息往往模糊不清或表述不足。

這種多感官整合可解決純視覺(jué)方法固有的根本性局限。例如,RGB-D 傳感器提供的深度信息能消除弱透視投影帶來(lái)的空間模糊性;觸覺(jué)反饋可捕捉關(guān)鍵的接觸動(dòng)態(tài)、握力和材料屬性,這些在視覺(jué)觀察中不可見(jiàn),但對(duì)成功完成操作至關(guān)重要;物體交互產(chǎn)生的音頻信號(hào)能進(jìn)一步區(qū)分視覺(jué)上相似但物理過(guò)程不同的操作策略,比如區(qū)分輕柔放置和用力按壓動(dòng)作。

這些增強(qiáng)的對(duì)齊策略能構(gòu)建更穩(wěn)健的表征,更精準(zhǔn)地捕捉人類在操作任務(wù)中自然具備的豐富物理理解能力。

對(duì)于規(guī)模規(guī)模更大,更多樣化的數(shù)據(jù)集,整合此類多模態(tài)物理線索對(duì)于彌合人類演示數(shù)據(jù)與機(jī)器人在各種真實(shí)場(chǎng)景中可靠部署之間的差距,將變得愈發(fā)重要。

3. 后訓(xùn)練

經(jīng)過(guò)預(yù)訓(xùn)練和物理空間對(duì)齊后,基礎(chǔ)VLA模型具備了全面的視覺(jué)-語(yǔ)言-動(dòng)作理解能力,但還需要適應(yīng)特定的機(jī)器人操作任務(wù)。

后訓(xùn)練階段將模型參數(shù)從Θv,t,m 擴(kuò)展至Θa,v,t|m,納入了動(dòng)作參數(shù)Θa,使其能夠直接實(shí)現(xiàn)機(jī)器人控制,同時(shí)利用預(yù)訓(xùn)練過(guò)程中學(xué)習(xí)到的豐富多模態(tài)表征。

物理指令調(diào)優(yōu)過(guò)程

人類手部與機(jī)器人靈巧手/夾爪之間的運(yùn)動(dòng)學(xué)差異,使得基礎(chǔ) VLA 模型及其動(dòng)作 token 無(wú)法直接遷移使用。研究人員采用基于非自回歸 MLP 的投影方法來(lái)彌合這一差距。

Being-H0模型物理指令調(diào)優(yōu)的三個(gè)關(guān)鍵組成部分

采用VLA主干網(wǎng)絡(luò)作為預(yù)訓(xùn)練編碼器,通過(guò)輕量級(jí)MLP投影頭(fp)將靈巧手的本體感知狀態(tài)投射到其嵌入空間中。該本體感知嵌入與視覺(jué)-文本Token結(jié)合,形成統(tǒng)一上下文(ctx) ,實(shí)現(xiàn)對(duì)感官輸入、語(yǔ)言指令和當(dāng)前物理構(gòu)型的協(xié)同推理。

在動(dòng)作生成方面,使用一組可學(xué)習(xí)的查詢 token {q1, ..., qNa},這些 token在預(yù)訓(xùn)練編碼器中關(guān)注上述上下文信息,同時(shí),通過(guò)一個(gè)回歸策略頭 MLP(fr)將預(yù)訓(xùn)練編碼器的輸出轉(zhuǎn)換為可執(zhí)行的靈巧姿態(tài)。

訓(xùn)練后階段的目標(biāo)是通過(guò)模仿學(xué)習(xí)來(lái)復(fù)現(xiàn)專家演示。這種方法能有效將預(yù)訓(xùn)練的基礎(chǔ)VLA模型升級(jí)為可生成機(jī)器人可執(zhí)行控制指令的模型,同時(shí)保留跨模態(tài)推理能力,并支持多項(xiàng)任務(wù),例如:從視覺(jué)-文本輸入生成動(dòng)作、基于文本對(duì)觀察到的動(dòng)作進(jìn)行描述,以及通過(guò)特定領(lǐng)域微調(diào)實(shí)現(xiàn)機(jī)器人控制適配。

二、UniHand: 手部動(dòng)作指令數(shù)據(jù)集

1. 數(shù)據(jù)集來(lái)源

1)數(shù)據(jù)集來(lái)源于三個(gè)主要渠道:

動(dòng)作捕捉數(shù)據(jù)集:這類數(shù)據(jù)集包含來(lái)自受控環(huán)境(如工作室、實(shí)驗(yàn)室)中多視角動(dòng)作捕捉系統(tǒng)的高精度3D標(biāo)注,但其多樣性往往有限。例如,OAKINK2提供了多視角、以物體為中心的真實(shí)世界雙手操作記錄。

VR錄制數(shù)據(jù)集:這類數(shù)據(jù)集利用VR設(shè)備(如蘋(píng)果 Vision Pro),通過(guò)校準(zhǔn)相機(jī)和基于SLAM 的跟蹤技術(shù),在約束較少的環(huán)境中捕捉自然的手部-物體交互,同時(shí)保持可靠的3D真值。例如,EgoDex,其中包含多達(dá)194項(xiàng)家庭操作任務(wù),如系鞋帶和疊衣服。

偽標(biāo)注數(shù)據(jù)集:利用現(xiàn)成的手部動(dòng)作預(yù)測(cè)器,從真實(shí)場(chǎng)景視頻中生成偽3D標(biāo)簽。盡管這類數(shù)據(jù)集噪聲較多,但在可擴(kuò)展性和多樣性方面表現(xiàn)出色 。例如,Taste-Rob包含約10萬(wàn)個(gè)從固定視角錄制的第一視角視頻,且配有對(duì)齊的語(yǔ)言指令。

UniHand 數(shù)據(jù)集整合了 11 個(gè)來(lái)源的信息,不僅包含詳盡的手部動(dòng)作標(biāo)注,還配有對(duì)應(yīng)的 RGB觀測(cè)數(shù)據(jù)。該數(shù)據(jù)集規(guī)模龐大,共涵蓋超過(guò) 44萬(wàn)個(gè)任務(wù)軌跡,包含1.3億余幀畫(huà)面與1100多小時(shí)的視頻內(nèi)容。

受計(jì)算成本限制,研究人員從UniHand中抽取了250萬(wàn)個(gè)指令數(shù)據(jù)點(diǎn)用于預(yù)訓(xùn)練。這一子集是基于平衡采樣策略選取的,以確保任務(wù)類型和數(shù)據(jù)來(lái)源的多樣性,并將其稱為 UniHand-2.5M,據(jù)悉,這是目前規(guī)模最大的第一視角手部動(dòng)作數(shù)據(jù)集。

UniHand-2.5M 數(shù)據(jù)集

備注:左側(cè)表示來(lái)自不同數(shù)據(jù)源類型的場(chǎng)景和任務(wù);中間表示不同數(shù)據(jù)源、數(shù)據(jù)類型及時(shí)長(zhǎng)的分布情況;右側(cè)表示不同數(shù)據(jù)類型的樣本。

UniHand數(shù)據(jù)集信息統(tǒng)計(jì)

備注:#Inst 指的是用于該研究所生成的指令樣本數(shù)量。

2. 數(shù)據(jù)整備流程

1)手部姿態(tài)標(biāo)準(zhǔn)化

模型將手部動(dòng)作視為3D信號(hào),學(xué)習(xí)從2D視覺(jué)觀測(cè)到3D空間坐標(biāo)的顯式映射,以確保幾何精度和視覺(jué)-語(yǔ)義一致性。為解決不同數(shù)據(jù)集間動(dòng)作標(biāo)簽的異質(zhì)性問(wèn)題,需要通過(guò)手部姿態(tài)標(biāo)準(zhǔn)化來(lái)整合不同數(shù)據(jù)源。

對(duì)于包含動(dòng)作捕捉或SLAM跟蹤標(biāo)簽的數(shù)據(jù)集,直接提取其MANO參數(shù)形式的標(biāo)注 。當(dāng)僅存在3D手部關(guān)節(jié)位置時(shí),通過(guò)基于梯度的優(yōu)化方法推導(dǎo)出相應(yīng)的MANO 參數(shù)。若數(shù)據(jù)集完全缺乏 3D手部姿態(tài)或關(guān)節(jié)標(biāo)注,則利用 HaMer進(jìn)行逐幀姿態(tài)估計(jì),以保持一致的動(dòng)作語(yǔ)義。

為提升HaMer 輸出結(jié)果的可靠性,通過(guò)識(shí)別姿態(tài)不連續(xù)性來(lái)檢測(cè)并糾正左右手匹配錯(cuò)誤,隨后采用時(shí)間插值法填補(bǔ)微小缺口。此外,擬合過(guò)程中還融入了關(guān)節(jié)角度約束和時(shí)間平滑正則化,以確保手部動(dòng)作在物理上合理且連貫。

2)任務(wù)描述標(biāo)簽

為了在視覺(jué)、語(yǔ)言和動(dòng)作之間建立堅(jiān)實(shí)的語(yǔ)義關(guān)聯(lián),引入了一個(gè)結(jié)構(gòu)化的分層標(biāo)注框架,該框架對(duì)動(dòng)作語(yǔ)義進(jìn)行了豐富,克服了現(xiàn)有數(shù)據(jù)集中文本標(biāo)簽稀疏或不精確的問(wèn)題。此框架提供詳細(xì)且一致的文本描述,使VLA 模型能夠有效對(duì)齊視覺(jué)輸入、自然語(yǔ)言指令和量化的手部動(dòng)作表征。

為實(shí)現(xiàn)結(jié)構(gòu)化覆蓋,將每個(gè)視頻分割為不重疊的片段,每個(gè)片段最長(zhǎng)為10秒,確保每個(gè)片段都能捕捉任務(wù)的一個(gè)明確階段。然后,以2FPS的頻率對(duì)幀進(jìn)行采樣,并利用Gemini-2.5-Flash-Lite在兩個(gè)時(shí)間層級(jí)生成標(biāo)注:在片段層級(jí),生成祈使句指令和簡(jiǎn)潔摘要,描述整體的手部活動(dòng)和物體交互;

在更精細(xì)的每秒層級(jí),將每個(gè)片段進(jìn)一步劃分為重疊的1秒窗口,為其標(biāo)注精確的指令和描述,詳細(xì)說(shuō)明接觸狀態(tài)、物體屬性、手部部位以及相對(duì)于相機(jī)視角的動(dòng)作軌跡。

為保證清晰度和完整性,對(duì)全局的雙手動(dòng)作和單個(gè)手的動(dòng)作分別進(jìn)行標(biāo)注,同時(shí)捕捉雙邊和單邊描述。這種多尺度標(biāo)注策略確保了全面且一致的覆蓋,在統(tǒng)一框架中架起了高層級(jí)任務(wù)目標(biāo)與細(xì)粒度手-物交互之間的橋梁。

3)指令數(shù)據(jù)生成

基于系統(tǒng)性的標(biāo)注成果,構(gòu)建了指令跟隨訓(xùn)練數(shù)據(jù),旨在為基礎(chǔ)VLA模型明確建立豐富的視覺(jué)-語(yǔ)言-動(dòng)作對(duì)齊關(guān)系。為此,所設(shè)計(jì)的指令任務(wù)聚焦于手部動(dòng)作理解的多個(gè)關(guān)聯(lián)層面,包括手部軌跡與視覺(jué)上下文的時(shí)空對(duì)齊、精確的物體屬性與接觸狀態(tài)、清晰的動(dòng)作意圖,以及高層級(jí)指令與細(xì)粒度動(dòng)作步驟之間的一致性。

遵循這些原則,針對(duì)三種互補(bǔ)的任務(wù)類型開(kāi)發(fā)了訓(xùn)練數(shù)據(jù):

(1)指令性動(dòng)作生成:模型學(xué)習(xí)在場(chǎng)景圖像和任務(wù)指令的約束下,生成逐步的動(dòng)作序列;

(2)運(yùn)動(dòng)轉(zhuǎn)譯:要求模型將運(yùn)動(dòng)序列和視覺(jué)線索轉(zhuǎn)換為描述手-物交互的語(yǔ)言文本;

(3)基于上下文的運(yùn)動(dòng)預(yù)測(cè):讓模型根據(jù)先前的動(dòng)作歷史、當(dāng)前的場(chǎng)景觀測(cè)以及可選的指令或任務(wù)目標(biāo),預(yù)測(cè)后續(xù)的動(dòng)作序列。

在實(shí)現(xiàn)過(guò)程中,為每種任務(wù)類型設(shè)計(jì)了約20個(gè)基礎(chǔ)模板,并利用 Gemini-2.5-Pro 生成多樣化的指令變體。每個(gè)模板都明確包含目標(biāo)時(shí)長(zhǎng)規(guī)格,使模型能夠處理不同的時(shí)間粒度和序列長(zhǎng)度。通過(guò)基于規(guī)則的實(shí)例化,向這些模板中填充關(guān)聯(lián)指令、動(dòng)作token 和明確的長(zhǎng)度約束。

為確保訓(xùn)練集中視覺(jué)視角分布的平衡性,采用視角不變動(dòng)作分布平衡方法來(lái)增強(qiáng)數(shù)據(jù);谶@一平衡后的數(shù)據(jù)集,生成了超過(guò)1.65億個(gè)高質(zhì)量指令對(duì),涵蓋多個(gè)時(shí)間尺度、用手配置和操作場(chǎng)景,并通過(guò)系統(tǒng)性質(zhì)量檢查確保語(yǔ)義連貫性。

為進(jìn)一步平衡訓(xùn)練數(shù)據(jù)中數(shù)據(jù)源和任務(wù)類型的分布,從完整數(shù)據(jù)集中抽取了250萬(wàn)個(gè)實(shí)例的子集,該子集對(duì)任務(wù)類別和數(shù)據(jù)來(lái)源的覆蓋更為均衡。

對(duì)于數(shù)據(jù)集UniHand-2.5M,從視角平衡數(shù)據(jù)中生成的樣本比例下圖所示。這種統(tǒng)一設(shè)計(jì)為模型提供了穩(wěn)健的監(jiān)督,使其能夠?qū)W習(xí)視覺(jué)、語(yǔ)言與結(jié)構(gòu)化動(dòng)作之間的一致性映射,包括雙手和單手的手-物交互。

UniHand-2.5M數(shù)據(jù)集中的樣本比例

總之,這種結(jié)構(gòu)化的多尺度標(biāo)注框架確保了對(duì)高層級(jí)任務(wù)目標(biāo)和細(xì)粒度手-物交互的全面且一致的覆蓋,為下游建模和分析提供了豐富的動(dòng)作數(shù)據(jù)。

三、核心問(wèn)題與解決方案

1. 兩個(gè)核心問(wèn)題

1)大規(guī)模人類活動(dòng)視頻能否支持靈巧視覺(jué)-語(yǔ)言-動(dòng)作模型的預(yù)訓(xùn)練,使其能夠顯式地理解并模仿人類動(dòng)作——類似于GPT-3通過(guò)大規(guī)模預(yù)訓(xùn)練學(xué)習(xí)語(yǔ)言的方式?

2)這種預(yù)訓(xùn)練模型能否通過(guò)后訓(xùn)練適配,有效地將其能力遷移到機(jī)器人操作任務(wù)中?

為解決這些問(wèn)題,必須克服若干關(guān)鍵挑戰(zhàn)。下面,論文中分析了這些難點(diǎn)并概述相應(yīng)的解決方案。

2. 解決方案

1)預(yù)訓(xùn)練數(shù)據(jù)整備

自然語(yǔ)言處理(NLP)和計(jì)算機(jī)視覺(jué)(CV)領(lǐng)域相比,當(dāng)前的視覺(jué)-語(yǔ)言-動(dòng)作模型(VLAs)面臨著嚴(yán)重的數(shù)據(jù)稀缺問(wèn)題。盡管存在如 Open X-Embodiment 和 AgiBot 等數(shù)據(jù)集,但其規(guī)模仍比現(xiàn)有的多模態(tài)基準(zhǔn)數(shù)據(jù)集小幾個(gè)數(shù)量級(jí),并且主要關(guān)注末端執(zhí)行器控制,由于硬件成本而忽略了細(xì)粒度的手指協(xié)調(diào)動(dòng)作。

人類活動(dòng)視頻可能有助于解決這一問(wèn)題,但其潛力尚未被充分利用,因?yàn)榇蠖鄶?shù)方法主要側(cè)重于隱式對(duì)齊(例如,GR00T N1.5 的隱動(dòng)作優(yōu)化(潛在動(dòng)作優(yōu)化),且其益處尚未得到證實(shí)。

最近,一些工作開(kāi)始基于實(shí)驗(yàn)室采集數(shù)據(jù)集探索文本到運(yùn)動(dòng)生成,這些數(shù)據(jù)集具有精確標(biāo)注。然而,這些數(shù)據(jù)受限于其規(guī)模小,因此缺乏多樣性和泛化能力。相反,野外采集數(shù)據(jù)集(例如Ego4D)能夠提供規(guī)模優(yōu)勢(shì),但這些數(shù)據(jù)集存在相機(jī)不一致性和運(yùn)動(dòng)粒度問(wèn)題。

該論文中通過(guò)MANO參數(shù)標(biāo)準(zhǔn)化和弱透視對(duì)齊,系統(tǒng)性地整合了這些異構(gòu)數(shù)據(jù)源,構(gòu)建了一個(gè)涵蓋 150 多個(gè)任務(wù)、時(shí)長(zhǎng)超過(guò)1000小時(shí)的統(tǒng)一數(shù)據(jù)集。

2)精確手部動(dòng)作量化

該研究將手部動(dòng)作視為一種“外語(yǔ)”,但引出了一個(gè)關(guān)鍵問(wèn)題:“離散動(dòng)作Token能否保持動(dòng)作預(yù)測(cè)所需的足夠精度?” 盡管以往的研究表明,量化會(huì)破壞姿態(tài)連續(xù)性并損失精度,但通過(guò)其精心設(shè)計(jì),基于矢量量化(VQ)的Token生成器實(shí)現(xiàn)了毫米級(jí)的重建精度。

具體而言,利用一維卷積編碼器對(duì)連續(xù)的MANO動(dòng)作序列 M∈RT×D 進(jìn)行離散化處理,生成特征圖z∈R⌈T/α⌉×d,過(guò)程如下:

其中,T 表示幀數(shù),α 為時(shí)間下采樣率。動(dòng)作Token mi∈{, ..., } 由和分隔,形成連貫的動(dòng)作塊,以確保在統(tǒng)一的大型多模態(tài)模型(LMM)中與文本實(shí)現(xiàn)無(wú)縫整合。

3)統(tǒng)一跨模態(tài)推理

為了建模視覺(jué)觀測(cè)、語(yǔ)言指令和手部動(dòng)作之間的復(fù)雜關(guān)系,研究人員將所有模態(tài)數(shù)據(jù)處理為統(tǒng)一的Token序列 S = {si},其中每個(gè)Token si 可代表文本、視覺(jué)或動(dòng)作信息。視覺(jué)Token用于替換 < IMG_CONTEXT > 占位符,而動(dòng)作Token則在序列中構(gòu)成連貫的塊結(jié)構(gòu)。

跨模態(tài)交互通過(guò)共享注意力機(jī)制實(shí)現(xiàn),其中查詢Qv,t,m、鍵Kv,t,m 和值Vv,t,m 均由拼接后的狀態(tài)Hv,t,m = [Hv;Ht;Hm] 計(jì)算得出。這使得模型能夠?qū)W習(xí)豐富的多模態(tài)依賴關(guān)系:將視覺(jué)場(chǎng)景映射到操作策略、將語(yǔ)言指令與精確的手指動(dòng)作關(guān)聯(lián),以及將時(shí)間動(dòng)作模式與任務(wù)目標(biāo)對(duì)齊。

4)自適應(yīng)機(jī)器人控制遷移

盡管預(yù)訓(xùn)練的基礎(chǔ)視覺(jué)-語(yǔ)言-動(dòng)作模型(VLA)能夠生成連續(xù)運(yùn)動(dòng)并保持廣泛的能力,但由于運(yùn)動(dòng)學(xué)不匹配、自由度差異和物理約束等問(wèn)題,將人類手部動(dòng)作直接遷移到下游操縱器仍面臨挑戰(zhàn)。

為驗(yàn)證從大規(guī)模人類視頻中學(xué)習(xí)的有效性,該論文采用了一種基于多層感知器(MLP)的簡(jiǎn)單投影方法 —— 使用一組固定的可學(xué)習(xí)查詢作為下游操縱器的動(dòng)作塊。

結(jié)語(yǔ)

Being-H0是一種基于大規(guī)模人類視頻訓(xùn)練、具備高擴(kuò)展性與樣本高效性的靈巧操作型視覺(jué)-語(yǔ)言-動(dòng)作(VLA)模型。其創(chuàng)新性在于采用物理指令微調(diào)范式,包含:預(yù)訓(xùn)練、物理空間對(duì)齊和后訓(xùn)練。

該研究解決了從人類演示視頻中學(xué)習(xí)靈巧操作的四大關(guān)鍵挑戰(zhàn):

預(yù)訓(xùn)練數(shù)據(jù)整備:通過(guò)MANO參數(shù)標(biāo)準(zhǔn)化與投影對(duì)齊技術(shù),系統(tǒng)集成異構(gòu)數(shù)據(jù)源。

手部動(dòng)作量化:所提出的分組殘差量化方案在實(shí)現(xiàn)毫米級(jí)重建精度的同時(shí),無(wú)縫銜接語(yǔ)言模型,實(shí)現(xiàn)動(dòng)作與語(yǔ)言的同構(gòu)處理。

跨模態(tài)推理:將多模態(tài)信號(hào)統(tǒng)一到自回歸序列中,構(gòu)建連接視覺(jué)場(chǎng)景→操作策略、語(yǔ)言指令→精準(zhǔn)手指動(dòng)作的復(fù)雜跨模態(tài)依賴。

機(jī)器人控制遷移:通過(guò)物理指令微調(diào),克服人手與機(jī)械手的運(yùn)動(dòng)學(xué)差異,有效遷移預(yù)訓(xùn)練多模態(tài)表征。

同時(shí),該論文的研究為基于人類視頻的大規(guī)模機(jī)器人操作學(xué)習(xí)奠定了基礎(chǔ),并指出以下未來(lái)研究方向:

深化物理空間對(duì)齊:通過(guò)融合深度感知信息與觸覺(jué)反饋,提升從人類演示到機(jī)器人控制的遷移能力,增強(qiáng)操作技能的物理合理性。

拓展復(fù)雜場(chǎng)景應(yīng)用:將Being-H0模型延伸至工具使用、多物體交互及長(zhǎng)程推理場(chǎng)景,開(kāi)辟更具挑戰(zhàn)性的研究前沿。

融合仿真與強(qiáng)化學(xué)習(xí):結(jié)合仿真環(huán)境與強(qiáng)化學(xué)習(xí)框架,實(shí)現(xiàn)更魯棒的策略學(xué)習(xí)及更安全的現(xiàn)實(shí)世界部署。

       原文標(biāo)題 : 具身智能VLA困于“數(shù)據(jù)泥潭”,靠人類活動(dòng)視頻數(shù)據(jù)能否破局?

聲明: 本文由入駐維科號(hào)的作者撰寫(xiě),觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)