訂閱
糾錯(cuò)
加入自媒體

第二彈!MIT何愷明團(tuán)隊(duì)再發(fā)重磅成果VARC:ARC原來(lái)是個(gè)視覺(jué)問(wèn)題!性能匹敵人類水平

作者:Keya Hu、Kaiming He等

解讀:AI生成未來(lái)
圖 1:ARC 基準(zhǔn)(上圖)由許多不同的任務(wù)組成,其中每個(gè)任務(wù)都有少量(如 2-4 個(gè))測(cè)試樣本。本文提出了視覺(jué) ARC (VARC) 框架,從計(jì)算機(jī)視覺(jué)角度將 ARC 問(wèn)題視為圖像到圖像的翻譯問(wèn)題(下圖)。在這幅圖中,三個(gè)任務(wù)的基本概念可以被人類大致描述為"反射"(左)、"對(duì)稱"(中)和 "重力"(右)。這些概念與自然界和物理世界密切相關(guān)。圖 1:ARC 基準(zhǔn)(上圖)由許多不同的任務(wù)組成,其中每個(gè)任務(wù)都有少量(如 2-4 個(gè))測(cè)試樣本。本文提出了視覺(jué) ARC (VARC) 框架,從計(jì)算機(jī)視覺(jué)角度將 ARC 問(wèn)題視為圖像到圖像的翻譯問(wèn)題(下圖)。在這幅圖中,三個(gè)任務(wù)的基本概念可以被人類大致描述為"反射"(左)、"對(duì)稱"(中)和 "重力"(右)。這些概念與自然界和物理世界密切相關(guān)。

亮點(diǎn)直擊

范式轉(zhuǎn)移:打破了將 ARC(抽象推理語(yǔ)料庫(kù))視為語(yǔ)言或邏輯符號(hào)問(wèn)題的傳統(tǒng),首次將其成功構(gòu)建為純粹的計(jì)算機(jī)視覺(jué)(CV)問(wèn)題。

VARC 框架:提出了 Vision ARC (VARC) 框架,通過(guò)圖像到圖像翻譯(Image-to-Image Translation)的方式解決推理問(wèn)題,證明了標(biāo)準(zhǔn)視覺(jué)模型(如 ViT)也能進(jìn)行抽象概念學(xué)習(xí)。

卓越性能:僅使用 18M(1800萬(wàn))參數(shù)的模型,在 ARC-1 基準(zhǔn)測(cè)試中達(dá)到了 54.5% 的準(zhǔn)確率,通過(guò)集成可達(dá) 60.4%,匹敵人類平均水平,且大幅超越了其他不依賴大規(guī)模預(yù)訓(xùn)練的遞歸/符號(hào)模型。

解決的問(wèn)題

抽象推理語(yǔ)料庫(kù) (ARC) 是衡量機(jī)器智能抽象推理能力的重要基準(zhǔn)。

現(xiàn)有局限:當(dāng)前主流方法多依賴大語(yǔ)言模型(LLMs)或復(fù)雜的遞歸推理模型。LLM 依賴海量互聯(lián)網(wǎng)文本數(shù)據(jù),且?guī)в姓Z(yǔ)言偏置;遞歸模型雖然不需要大規(guī)模預(yù)訓(xùn)練,但通常設(shè)計(jì)復(fù)雜。

核心洞察:現(xiàn)有的研究忽視了 ARC 的視覺(jué)本質(zhì)。ARC 中的許多概念(如對(duì)稱、重力、物體連續(xù)性、反射)本質(zhì)上是視覺(jué)和物理規(guī)律,人類也是通過(guò)視覺(jué)觀察來(lái)解決這些謎題的。本工作旨在驗(yàn)證是否可以直接通過(guò)視覺(jué)模型解決 ARC 問(wèn)題,而不依賴顯式的語(yǔ)言中間體。

提出的方案

本工作提出了 VARC (Vision ARC) 框架:

視覺(jué)形式化:將 ARC 任務(wù)建模為從輸入網(wǎng)格到輸出網(wǎng)格的圖像翻譯問(wèn)題(類似語(yǔ)義分割)。

“畫布”與幾何變換:為了引入視覺(jué)歸納偏置(Inductive Biases),將輸入放置在一個(gè)固定大小的“畫布”上,并應(yīng)用隨機(jī)的縮放(Scale)平移(Translation)增強(qiáng)。這迫使模型學(xué)習(xí)空間不變性和尺度不變性。

標(biāo)準(zhǔn)視覺(jué)架構(gòu):直接使用標(biāo)準(zhǔn)的 Vision Transformer (ViT) 或 U-Net 作為主干網(wǎng)絡(luò),從零開始訓(xùn)練(不使用預(yù)訓(xùn)練權(quán)重)。

測(cè)試時(shí)訓(xùn)練 (TTT) :利用 ARC 任務(wù)“少樣本”(Few-shot)的特性,在推理階段利用測(cè)試任務(wù)提供的少量示例對(duì)模型進(jìn)行快速微調(diào)。

 應(yīng)用的技術(shù)點(diǎn)

Vision Transformer (ViT) :作為核心推理引擎,利用 Patch Embedding 和 Self-Attention 處理全局依賴。

2D 位置編碼 (2D Positional Embedding) :為了保留網(wǎng)格的二維空間結(jié)構(gòu),使用了可分離的 2D 位置編碼,這對(duì)視覺(jué)推理至關(guān)重要。

測(cè)試時(shí)訓(xùn)練 (Test-Time Training, TTT) :一種元學(xué)習(xí)策略,在推理時(shí)通過(guò)梯度下降適應(yīng)新任務(wù)。

數(shù)據(jù)增強(qiáng) (Data Augmentation) :特制的網(wǎng)格縮放和隨機(jī)平移,模擬物理世界的視覺(jué)變化。

集成學(xué)習(xí) (Ensembling) :結(jié)合多個(gè)模型的預(yù)測(cè)結(jié)果以提升魯棒性。

達(dá)到的效果

ARC-1 準(zhǔn)確率:?jiǎn)文P停╒iT-18M)達(dá)到 54.5% ;集成后達(dá)到 60.4% 。

對(duì)比結(jié)果:在同類“從頭訓(xùn)練”(不使用額外數(shù)據(jù))的模型中,性能顯著優(yōu)于最佳的遞歸模型(如 HRM, TRM)。

人類水平:結(jié)果與 ARC 報(bào)告的人類平均水平相當(dāng),縮小了機(jī)器與人類在抽象視覺(jué)推理上的差距。

效率:相比于動(dòng)輒數(shù)十億參數(shù)的 LLM,VARC 僅需極小的參數(shù)量(18M)即可實(shí)現(xiàn)極具競(jìng)爭(zhēng)力的推理能力。

將 ARC 視為視覺(jué)問(wèn)題

ARC 問(wèn)題定義 (ARC Problem Definition)

ARC 基準(zhǔn)包含數(shù)百個(gè)極少樣本(very few-shot,例如 2 到 4 個(gè)樣本)的推理任務(wù)。每個(gè)任務(wù)由  表示,包含一個(gè)獨(dú)特的底層轉(zhuǎn)換規(guī)則,將輸入  映射到輸出 。這里, 和  均為最大尺寸為  的 2D 網(wǎng)格,其中每個(gè)位置具有  種不同顏色索引中的一種(例如,)。ARC 問(wèn)題的定義如圖 3 所示。

圖 3 ARC 問(wèn)題定義。ARC 是許多不同任務(wù)的集合。。圖 3 ARC 問(wèn)題定義。ARC 是許多不同任務(wù)的集合。對(duì)于每個(gè)任務(wù),都會(huì)給出幾個(gè)(如個(gè))演示對(duì)(),并要求模型從中推斷輸出。訓(xùn)練集是個(gè)任務(wù)的集合,可用于模型訓(xùn)練。測(cè)試集包含個(gè)新任務(wù):新任務(wù)的演示對(duì)只在推理時(shí)給出,模型根據(jù)這些演示對(duì)對(duì)進(jìn)行推理。

任務(wù) :“任務(wù)”是 ARC 中的基本單元。每個(gè)任務(wù)包含少量演示示例。對(duì)于演示對(duì) , 和  對(duì)模型都是已知的。本文將任務(wù)  的演示集表示為:,其中  是對(duì)的數(shù)量(例如, 為 2 到 4)。每個(gè)任務(wù)  還包含少量推理示例,表示為:( 為 1 或 2)。在推理時(shí),僅給定演示對(duì)  和一個(gè)輸入 ,要求模型推斷出期望的輸出 。

訓(xùn)練集 :訓(xùn)練集由用于離線訓(xùn)練模型(即在給定新任務(wù)之前)的多個(gè)任務(wù)組成。本文將訓(xùn)練集表示為:,其中  是任務(wù)數(shù)量(在 ARC-1 中為 400)。遵循標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)協(xié)議,任何  的  中的樣本都可用于訓(xùn)練。訓(xùn)練集中的“推理”樣本,即任何任務(wù)  的 ,僅用于驗(yàn)證訓(xùn)練過(guò)程。

測(cè)試集 :測(cè)試集是新任務(wù)的集合,這些任務(wù)在離線訓(xùn)練期間未被見過(guò)。本文將測(cè)試集表示為:,包含  個(gè)不同的測(cè)試任務(wù)。注意,任何測(cè)試任務(wù)都是一個(gè)“完整”且新的任務(wù):即對(duì)于任何 ,也存在一個(gè)演示集 ,并且  中的對(duì)  在推理時(shí)會(huì)提供給模型。模型應(yīng)利用  來(lái)推斷該新任務(wù)中給定  的輸出。 推理時(shí)  中新  對(duì)的存在允許執(zhí)行測(cè)試時(shí)訓(xùn)練 (Test-Time Training, TTT) ,本文采納并將在后文討論這一方法。

圖像到圖像翻譯

基于這些定義,本文將每個(gè)任務(wù)上的推理制定為圖像到圖像的翻譯問(wèn)題。將該問(wèn)題框架化為逐像素分類,類似于語(yǔ)義分割問(wèn)題。

形式上,本文學(xué)習(xí)一個(gè)由  參數(shù)化的神經(jīng)網(wǎng)絡(luò) 。網(wǎng)絡(luò)  接收?qǐng)D像  作為輸入,并以與任務(wù)  相關(guān)的任務(wù) Token (Task Token) 為條件。任務(wù) Token 表示為依賴于  的可學(xué)習(xí)嵌入。 的輸出是一個(gè)網(wǎng)格,其中每個(gè)位置代表一個(gè)分類分布。總體目標(biāo)函數(shù)簡(jiǎn)單地是逐像素交叉熵?fù)p失:

這里, 表示真實(shí)值  與網(wǎng)絡(luò)輸出之間的逐像素交叉熵?fù)p失。

視覺(jué)建模

以前關(guān)于 ARC 的方法通常在離散值 Token 空間中操作,這是受語(yǔ)言模型設(shè)計(jì)的啟發(fā)。在本文的圖像到圖像翻譯公式中,我們探索了為視覺(jué)開發(fā)的原生設(shè)計(jì)。

畫布 :雖然將原始  網(wǎng)格視為  圖像是直截了當(dāng)?shù),但本文提出了更靈活的變換,以便以類似于自然圖像的方式表示它。 本文定義了“畫布”的概念。畫布具有預(yù)定義且足夠大的尺寸,例如 。原始輸入被變換并放置在此畫布上。這種公式自然地適應(yīng)了平移和縮放增強(qiáng),這是在視覺(jué)中引入平移和縮放不變性的常見策略,將在下文中討論。本文將畫布的背景設(shè)置為額外的背景顏色,即第  種顏色。

當(dāng)應(yīng)用 Vision Transformer (ViT) 模型(下文討論)時(shí),如果我們天真地將每個(gè)原始像素視為一個(gè) Token,則只有  個(gè)不同的 Token。相比之下,本文的畫布公式支持一組更大的局部、圖塊級(jí)(Patch-level)配置。例如,對(duì)于  的圖塊大小(見圖 5),單個(gè)圖塊可以包含多種顏色,原則上具有指數(shù)級(jí)大的基數(shù) 。這一公式對(duì)于提高泛化性能非常重要。

平移和縮放不變性 。“畫布”的概念使我們能夠靈活地應(yīng)用平移和縮放增強(qiáng),這在標(biāo)準(zhǔn)視覺(jué)模型中是至關(guān)重要的。這些數(shù)據(jù)增強(qiáng)鼓勵(lì)模型學(xué)習(xí)對(duì)基于視覺(jué)世界的幾何變換具有不變性的底層映射。形式上,我們執(zhí)行:

縮放增強(qiáng) :給定一個(gè)原始輸入,我們通過(guò)一個(gè)整數(shù)縮放比例  隨機(jī)調(diào)整其大小,將每個(gè)原始像素復(fù)制為 (見圖 4,左)。這類似于自然圖像中的最近鄰插值。然而,需要注意的是,ARC 中的“顏色”并不對(duì)應(yīng)現(xiàn)實(shí)世界的顏色,因此執(zhí)行其他插值(如雙線性插值)是沒(méi)有意義的。

平移增強(qiáng) :給定縮放后的網(wǎng)格,我們將其隨機(jī)放置在固定大小的畫布上。我們確保所有像素都是可見的。見圖 4(右)。

我們通過(guò)經(jīng)驗(yàn)表明,這些視覺(jué)先驗(yàn)對(duì)于泛化到未見過(guò)的任務(wù)至關(guān)重要。

Vision Transformer 。給定一個(gè)隨機(jī)放置了輸入的畫布,我們通過(guò)一個(gè)標(biāo)準(zhǔn)視覺(jué)模型執(zhí)行圖像到圖像的翻譯。默認(rèn)情況下,我們使用 ViT。

ViT 的原理是基于 Patch(圖塊)的 Transformer。形式上,輸入畫布被劃分為非重疊的 Patch(例如 ),通過(guò)線性嵌入進(jìn)行投影,加上位置嵌入,然后由堆疊的 Transformer 塊進(jìn)行處理。該模型有一個(gè)線性投影層作為輸出,對(duì)每個(gè) Patch 執(zhí)行逐像素分類。注意,與每個(gè)原始像素具有連續(xù)值的自然圖像不同,在本文例子中,原始像素具有離散值。因此,在 Patch 化之前,我們首先將每個(gè)像素的離散索引映射為一個(gè)可學(xué)習(xí)的連續(xù)值嵌入。

從概念上講,Patch 化可以被視為卷積的一種特殊形式。像卷積一樣,它結(jié)合了視覺(jué)中的幾個(gè)關(guān)鍵歸納偏置:最顯著的是局部性(即對(duì)附近的像素進(jìn)行分組)和平移不變性(即跨位置的權(quán)重共享)。

2D 位置嵌入 。與通常被建模為 1D 序列的語(yǔ)言數(shù)據(jù)不同,圖像本質(zhì)上是 2D 的。如果我們天真地將嵌入的 Patch 視為 1D 序列,這種 2D 結(jié)構(gòu)可能會(huì)丟失。我們通過(guò)經(jīng)驗(yàn)表明,顯式地進(jìn)行 2D 位置建模是必不可少的。

形式上,我們采用可分離的 2D 位置嵌入,遵循 [11] 的方法:對(duì)于具有  個(gè)通道的位置嵌入,我們使用前半部分通道嵌入水平坐標(biāo),使用分通道嵌入垂直坐標(biāo)。這既可以應(yīng)用于用于編碼絕對(duì)位置的加性位置嵌入,也可以應(yīng)用于相對(duì)位置的編碼(例如 RoPE)。

替代方案:卷積網(wǎng)絡(luò) 。除 ViT 外,也研究了更經(jīng)典的視覺(jué)架構(gòu),即卷積神經(jīng)網(wǎng)絡(luò)。具體來(lái)說(shuō),我們采用 U-Net 模型,這是一種分層卷積網(wǎng)絡(luò)。原始 U-Net 正是為了分割這種圖像到圖像的翻譯問(wèn)題而提出的,使其成為我們所考慮問(wèn)題的天然候選者。

兩階段訓(xùn)練

我們采用兩階段訓(xùn)練范式來(lái)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)的參數(shù)。

離線訓(xùn)練 (Offline training) 。此階段應(yīng)用于整個(gè)訓(xùn)練集 。它是針對(duì)所有  的演示數(shù)據(jù)  進(jìn)行的。我們針對(duì)所有  個(gè)訓(xùn)練任務(wù)(例如 )聯(lián)合訓(xùn)練一個(gè)模型 ,基于方程 (1) 中的損失函數(shù)。除了每個(gè)任務(wù)擁有自己的任務(wù)條件 Token 外,所有任務(wù)共享相同的參數(shù)。我們不使用訓(xùn)練任務(wù)(即 )的推理集  來(lái)訓(xùn)練模型。這些集合僅用于驗(yàn)證。

測(cè)試時(shí)訓(xùn)練 (TTT) 。給定測(cè)試集中單個(gè)新的、未見過(guò)的任務(wù) ,我們通過(guò)測(cè)試時(shí)訓(xùn)練執(zhí)行推理。在推理時(shí),我們被給定 ,其中輸入和輸出均可訪問(wèn);模型需要對(duì)該新任務(wù)  中給定的  進(jìn)行預(yù)測(cè)。隨后的測(cè)試時(shí)訓(xùn)練及推理過(guò)程可以抽象地視為一個(gè)函數(shù) 。

對(duì)每個(gè)新任務(wù)  獨(dú)立地執(zhí)行測(cè)試時(shí)訓(xùn)練。它擁有一個(gè)新的任務(wù) Token,其參數(shù)被隨機(jī)初始化。由于  中的演示對(duì)非常少(例如 2 到 4 個(gè)),我們也執(zhí)行數(shù)據(jù)增強(qiáng)。

總之,在推理時(shí),模型從離線訓(xùn)練的狀態(tài)初始化,僅針對(duì)單個(gè)新任務(wù)  通過(guò)測(cè)試時(shí)訓(xùn)練進(jìn)行微調(diào),然后對(duì)  執(zhí)行推理。由于  中的新演示對(duì)非常少,即使使用了數(shù)據(jù)增強(qiáng),這個(gè)測(cè)試時(shí)訓(xùn)練過(guò)程仍然相當(dāng)快(例如,在單塊 GPU 上每個(gè)任務(wù) 70 秒)。圖 6 可視化了測(cè)試時(shí)訓(xùn)練的效果。

圖 6.測(cè)試時(shí)間訓(xùn)練的效果。(頂部):當(dāng)前任務(wù)的演示示例。(左下):推理示例 xinfer。(右下):在測(cè)試時(shí)間的訓(xùn)練過(guò)程中,xinfer 的預(yù)測(cè)逐漸變得更加準(zhǔn)確,最終模型生成了正確的預(yù)測(cè)。圖 6.測(cè)試時(shí)間訓(xùn)練的效果。(頂部):當(dāng)前任務(wù)的演示示例。(左下):推理示例 xinfer。(右下):在測(cè)試時(shí)間的訓(xùn)練過(guò)程中,xinfer 的預(yù)測(cè)逐漸變得更加準(zhǔn)確,最終模型生成了正確的預(yù)測(cè)。

推理 (Inference)

在測(cè)試時(shí)訓(xùn)練之后,將  應(yīng)用于  以獲得最終預(yù)測(cè)。這個(gè)過(guò)程類似于經(jīng)典的識(shí)別問(wèn)題。因此,采用了受識(shí)別方法啟發(fā)的后處理策略。

單視圖推理 。給定  和單個(gè)“視圖”(即給定縮放和平移),我們將  放置在畫布上并應(yīng)用  來(lái)預(yù)測(cè)輸出。由于原始網(wǎng)格中的一個(gè)輸出位置可能由畫布上的多個(gè)像素預(yù)測(cè)(例如,由于重新縮放;見圖 5),我們?cè)谠撐恢猛ㄟ^(guò)平均池化聚合所有預(yù)測(cè)(來(lái)自 Softmax 輸出)。

圖 5.VARC 中的 ViT 架構(gòu)。輸入內(nèi)容被隨機(jī)放置在畫布上,然后被視為自然圖像,由標(biāo)準(zhǔn) ViT 根據(jù)任務(wù)標(biāo)記進(jìn)行處理。圖 5.VARC 中的 ViT 架構(gòu)。輸入內(nèi)容被隨機(jī)放置在畫布上,然后被視為自然圖像,由標(biāo)準(zhǔn) ViT 根據(jù)任務(wù)標(biāo)記進(jìn)行處理。

多視圖推理 。整合來(lái)自多個(gè)視圖的預(yù)測(cè)是一種常見做法(例如,見 AlexNet)。類似地,我們采用多視圖推理來(lái)提高準(zhǔn)確性,其中視圖通過(guò)不同的增強(qiáng)進(jìn)行采樣。由于與測(cè)試時(shí)訓(xùn)練的成本相比,多視圖推理的成本可以忽略不計(jì),因此使用許多視圖實(shí)際上幾乎是免費(fèi)的。我們使用 510 個(gè)隨機(jī)視圖(細(xì)節(jié)見附錄)。來(lái)自不同視圖的預(yù)測(cè)通過(guò)多數(shù)投票(majority voting)進(jìn)行整合。

(腳注 2:在多數(shù)投票中,兩個(gè)輸出網(wǎng)格僅在整個(gè)網(wǎng)格完全相同時(shí)才被視為“一致”。獲勝者是與最大數(shù)量的其他輸出網(wǎng)格“一致”的網(wǎng)格。)

Pass@2 準(zhǔn)確率 。ARC 基準(zhǔn)默認(rèn)采用 pass@2 準(zhǔn)確率指標(biāo):即,可以產(chǎn)生兩個(gè)不同的解決方案用于評(píng)估,如果其中一個(gè)正確,則認(rèn)為該任務(wù)正確。為了支持這一指標(biāo),我們?cè)诙嘁晥D推理中采用多數(shù)投票,并保留前 2 個(gè)出現(xiàn)頻率最高的輸出解決方案。

實(shí)現(xiàn)細(xì)節(jié)

畫布 (Canvas) 。在我們表現(xiàn)最好的模型中,畫布大小為 。在 ViT 的情況下,圖塊(patch)大小為 ,導(dǎo)致序列長(zhǎng)度為 。對(duì)于縮放增強(qiáng),隨機(jī)采樣一個(gè)整數(shù)縮放比例,使得縮放后的網(wǎng)格不大于畫布大小。對(duì)于平移增強(qiáng),隨機(jī)采樣左上角,但要滿足放置的圖像完全可見的約束。

離線訓(xùn)練 。使用標(biāo)準(zhǔn)的 ARC-1 訓(xùn)練集  進(jìn)行訓(xùn)練:它有 400 個(gè)任務(wù),每個(gè)任務(wù)有 2-4 個(gè)演示對(duì)。遵循 ARC 上的常見做法,我們還使用 RE-ARC 集擴(kuò)展本文訓(xùn)練集,我們從中為每個(gè)任務(wù)采樣 1,000 個(gè)額外的演示對(duì)。合在一起,本文完整訓(xùn)練集大約有 40 萬(wàn)個(gè)樣本對(duì)。我們?cè)陔x線訓(xùn)練中應(yīng)用平移和縮放增強(qiáng)。

測(cè)試時(shí)訓(xùn)練 (Test-time training) 。給定測(cè)試集中的一個(gè)未見任務(wù) ,我們?cè)?nbsp; 中有 2-4 個(gè)樣本對(duì)。為了使測(cè)試時(shí)訓(xùn)練更可行,我們還將單個(gè)任務(wù)  增強(qiáng)為多個(gè)輔助任務(wù)。我們通過(guò)使用現(xiàn)有 ARC 方法中的標(biāo)準(zhǔn)增強(qiáng)來(lái)做到這一點(diǎn):翻轉(zhuǎn)、旋轉(zhuǎn)(90°、180° 或 270°)和顏色排列。我們將這些測(cè)試時(shí)訓(xùn)練增強(qiáng)中的每一個(gè)視為一個(gè)輔助任務(wù),每個(gè)任務(wù)分配一個(gè)任務(wù)嵌入。我們還在測(cè)試時(shí)訓(xùn)練中應(yīng)用平移和縮放增強(qiáng),但我們不將它們視為新的輔助任務(wù)(假設(shè)所有輔助任務(wù)都是平移和縮放不變的)。

實(shí)驗(yàn)結(jié)果

實(shí)驗(yàn)主要在 ARC-1 基準(zhǔn)上進(jìn)行。報(bào)告了 pass@2 準(zhǔn)確率(以下簡(jiǎn)稱“準(zhǔn)確率”),單位為百分比(%)。為了支持 pass@2 評(píng)估,我們采用多視圖推理。我們還報(bào)告了 ARC-2上的最終結(jié)果。

在 ARC-1 評(píng)估集(即 )上評(píng)估本文模型。這個(gè)集合在概念上是一個(gè)測(cè)試集(見圖 3),但其真實(shí)標(biāo)簽僅可用于計(jì)算準(zhǔn)確率。

視覺(jué)先驗(yàn)

圖 7 總結(jié)了視覺(jué)先驗(yàn)的效果,從一個(gè)沒(méi)有該圖中其他組件的基線 (a) 開始。這些先驗(yàn)共同帶來(lái)了 27.7 分的增益,其中基于畫布的設(shè)計(jì) (c→f) 帶來(lái)了 11.5 分的增益。我們討論這些組件如下。

2D 位置嵌入 。從 1D 位置嵌入擴(kuò)展到其 2D 對(duì)應(yīng)物是有益的:見圖 7(b)(c)。這在 (b) 絕對(duì)和 (c) 相對(duì)位置嵌入中均被觀察到。 為了在更強(qiáng)的基線上展示這種效果,我們將圖 7(f) 中的 2D RoPE 替換為 1D RoPE,并觀察到 3.5 分的下降,從 54.5 降至 51.0。

Patch 化 (Patchification) 。本文方法的一個(gè)關(guān)鍵設(shè)計(jì)原則是將輸入準(zhǔn)備為自然圖像。這使得 Token 集合從非常有限的大。ɡ 10)擴(kuò)展到指數(shù)級(jí)大的數(shù)量。條目圖 7(d-f) 都受益于此設(shè)計(jì)。

在圖 7(d) 中,我們從  畫布上的  Patch 推進(jìn)到  畫布上的  Patch。這樣做不會(huì)增加 Transformer 的計(jì)算成本。在這個(gè)消融實(shí)驗(yàn) (d) 中,縮放比例固定為 。因此,如果我們限制每個(gè)  Patch 僅覆蓋一個(gè)原始像素,它就等同于  畫布上的  Patch 對(duì)應(yīng)物。因此,為了確保有意義的比較,我們不施加此約束,允許每個(gè)  Patch 覆蓋多種顏色。這可以解釋為畫布上的單像素平移增強(qiáng)。 即便如此, Patch 化導(dǎo)致了 2.4 分的顯著增益,從 43.0 提高到 45.4;見圖 7(c,d)。盡管只有微小的單像素增強(qiáng),每個(gè) Patch 仍可覆蓋多種顏色(如在自然圖像中),這極大地豐富了學(xué)習(xí)的數(shù)據(jù)空間。

平移和縮放增強(qiáng) 。在圖像識(shí)別中,即使是能力極強(qiáng)的網(wǎng)絡(luò)架構(gòu)仍然極大地受益于平移和縮放增強(qiáng)。我們?cè)?ARC 中得出了類似的觀察結(jié)果。見圖 7(e,f)。

在圖 7(e) 中,我們?cè)诋嫴忌蠎?yīng)用完全靈活的平移增強(qiáng)。與圖 7(d) 中的“單像素”增強(qiáng)相比,此設(shè)置產(chǎn)生了額外的 2.9 分增益(從 45.4 到 48.3)。在圖 7(f) 中,我們進(jìn)一步應(yīng)用了由畫布概念啟用的縮放增強(qiáng)。縮放增強(qiáng)產(chǎn)生了 6.2 分的實(shí)質(zhì)性增益。與可以通過(guò) Patch 化(即卷積的一種特殊形式)部分解決的平移不變性不同,ViT 架構(gòu)幾乎沒(méi)有關(guān)于尺度不變性的歸納偏置。這可以解釋為什么縮放增強(qiáng)產(chǎn)生了實(shí)質(zhì)性的增益。

其他消融實(shí)驗(yàn)

ViT 對(duì)比 U-Net 。在表 1 中,我們比較了 ViT 與 U-Net(一種卷積網(wǎng)絡(luò))。我們?cè)u(píng)估了每種架構(gòu)的三種模型尺寸。盡管 ViT 一致地表現(xiàn)更好,但所有 U-Net 變體都達(dá)到了不錯(cuò)的準(zhǔn)確率,表明這個(gè)問(wèn)題也可以通過(guò)經(jīng)典的視覺(jué)主干網(wǎng)絡(luò)有效地解決。

可擴(kuò)展性 。在圖 8 中,我們展示了具有不同深度和寬度的 ViT。在這個(gè)范圍內(nèi),本文方法展示了良好的可擴(kuò)展性:增加深度和/或?qū)挾葧?huì)由于更好的擬合而導(dǎo)致更高的準(zhǔn)確率。超過(guò)這個(gè)范圍可能會(huì)導(dǎo)致在當(dāng)前設(shè)置下的過(guò)擬合,如表 1 中 66M ViT 模型所示。我們觀察到這個(gè)較大的模型實(shí)現(xiàn)了更高的訓(xùn)練準(zhǔn)確率,表明未來(lái)的研究應(yīng)關(guān)注泛化。

測(cè)試時(shí)訓(xùn)練 (TTT) 策略 。在圖 9中,研究了有無(wú)離線訓(xùn)練的 TTT,以及針對(duì)每個(gè)測(cè)試任務(wù)聯(lián)合執(zhí)行 TTT 與獨(dú)立執(zhí)行 TTT 的對(duì)比。

正如預(yù)期的那樣,離線訓(xùn)練極大地提高了 TTT 的性能,表明關(guān)于視覺(jué)世界的常識(shí)可以從訓(xùn)練集中學(xué)到。也注意到,即使沒(méi)有離線訓(xùn)練,本文 TTT 策略也能達(dá)到不俗的準(zhǔn)確率 (26.4),表明這個(gè)基準(zhǔn)測(cè)試中的一些任務(wù)可以在“白板”(tabula rasa,即從零開始)狀態(tài)下解決。這一結(jié)果在類似設(shè)置下優(yōu)于 [36] 中的結(jié)果。

令人驚訝的是,為每個(gè)測(cè)試任務(wù)獨(dú)立執(zhí)行 TTT 比在所有測(cè)試任務(wù)上聯(lián)合執(zhí)行 TTT 產(chǎn)生的性能要好得多(高出約 10 分),即使后者依賴于更強(qiáng)的假設(shè),即所有測(cè)試任務(wù)一次性均可用(通常情況下,不能假設(shè)多個(gè)未見任務(wù)會(huì)一次性全部呈現(xiàn))。我們假設(shè)過(guò)度訓(xùn)練測(cè)試任務(wù)可能會(huì)導(dǎo)致模型遺忘在離線訓(xùn)練期間獲得的知識(shí)。

單視圖對(duì)比多視圖推理 。如前所述,我們默認(rèn)采用多視圖推理。為了完整性,也檢查了單視圖推理的準(zhǔn)確率。由于單視圖推理無(wú)法產(chǎn)生多個(gè)預(yù)測(cè),比較 pass@1 準(zhǔn)確率。見表 2。

單視圖推理具有 35.9 的不錯(cuò)的 pass@1 準(zhǔn)確率;多視圖推理進(jìn)一步提升至 49.8,這要?dú)w功于多數(shù)投票。與典型的計(jì)算機(jī)視覺(jué)應(yīng)用(如語(yǔ)義分割)不同,在 ARC 中,即使單個(gè)像素上的錯(cuò)誤也會(huì)導(dǎo)致整個(gè)預(yù)測(cè)不正確。這可能解釋了這里看到的巨大增益。

系統(tǒng)級(jí)比較

在表 3 中,在 ARC-1 和 ARC-2 上與領(lǐng)先的基于 LLM 或遞歸模型的結(jié)果進(jìn)行了比較。(本文 ARC-2 模型僅在 ARC-1 數(shù)據(jù)集上訓(xùn)練,并在 ARC-2 集合上進(jìn)行測(cè)試時(shí)訓(xùn)練和推理。)

本文模型與一些在報(bào)告結(jié)果時(shí)最強(qiáng)大的 LLM 相比毫不遜色:包括 Deepseek、Claude、o3 和 GPT-5(注意到,鑒于 LLM 的快速進(jìn)展,這些模型在本論文公開時(shí)可能會(huì)有更強(qiáng)的結(jié)果)。LLM 在互聯(lián)網(wǎng)規(guī)模的數(shù)據(jù)上進(jìn)行預(yù)訓(xùn)練,有些可能還包含包括圖像在內(nèi)的多模態(tài)數(shù)據(jù)。本文方法不依賴此類數(shù)據(jù),并且使用的模型小幾個(gè)數(shù)量級(jí)。

在僅在 ARC 數(shù)據(jù)上從頭訓(xùn)練的受控設(shè)置中,本文方法大幅超越了遞歸模型:HRM和 TRM 。我們具有 18M 參數(shù)的 VARC 在 ARC-1 上比 TRM 高出約 10 分,相對(duì)提升超過(guò) 20%。注意,一旦測(cè)試時(shí)訓(xùn)練完成,本文模型執(zhí)行完全的前饋推理,推理中不涉及遞歸。

遵循視覺(jué)中的經(jīng)典集成實(shí)踐(例如,AlexNet),集成了一個(gè) ViT 和一個(gè) U-Net,每個(gè)都進(jìn)行了四次測(cè)試時(shí)訓(xùn)練。這樣做將本文結(jié)果提升至 60.4。這一結(jié)果縮小了與報(bào)告的平均人類表現(xiàn) (60.2) 的差距。

可視化與分析

除了數(shù)值指標(biāo)外,我們還提供了額外的定性結(jié)果,以幫助揭示模型的行為。更多的可視化結(jié)果請(qǐng)參閱附錄。

注意力模式 。圖 10 展示了本文 ViT 模型在一個(gè)測(cè)試任務(wù)中的注意力模式。這些注意力圖顯示,本文模型能夠正確推理源像素與其要復(fù)制的目標(biāo)像素之間的關(guān)系。

圖 11 可視化了另一個(gè)測(cè)試任務(wù)的逐層注意力圖。逐層圖是該層中所有像素平均后的 Softmax 注意力圖:它揭示了在該層中哪些像素受到了最多的關(guān)注。在這個(gè)任務(wù)中,不同的層表現(xiàn)出不同的專長(zhǎng):有些層關(guān)注要被復(fù)制的像素,而有些層關(guān)注沿八個(gè)方向的目標(biāo)線。

任務(wù)嵌入的 t-SNE 。本文模以任務(wù) Token 為條件,并通過(guò)學(xué)習(xí)得到的嵌入來(lái)表示每個(gè)任務(wù)。在 ARC-1 的 400 個(gè)訓(xùn)練任務(wù)中,本文模型在離線訓(xùn)練中學(xué)習(xí)了 400 個(gè)不同的任務(wù)嵌入。通過(guò) t-SNE 將這 400 個(gè)嵌入可視化在 2D 空間中(見圖 12)。每個(gè)點(diǎn)對(duì)應(yīng)一個(gè)任務(wù)。

有趣的是,我們觀察到任務(wù)嵌入空間中鄰近的點(diǎn)表現(xiàn)出相似的語(yǔ)義。例如,圖 12 左上角顯示了兩個(gè)與著色相關(guān)的任務(wù);左下角顯示了兩個(gè)與廣義邏輯運(yùn)算(即 AND/OR/XOR)相關(guān)的任務(wù)。這種可視化表明,本文方法試圖學(xué)習(xí)不同任務(wù)之間的關(guān)系,這對(duì)于抽象和推理來(lái)說(shuō)是一種本質(zhì)能力。

總結(jié)

Vision ARC (VARC) ,這是一個(gè)將抽象推理語(yǔ)料庫(kù) (ARC) 重新構(gòu)建為視覺(jué)問(wèn)題的框架。與目前占主導(dǎo)地位的以語(yǔ)言為中心的方法不同,本文證明了標(biāo)準(zhǔn)視覺(jué)架構(gòu)(如 Vision Transformers)配合圖像到圖像的翻譯公式,在抽象推理方面非常有效。 通過(guò)引入“畫布”表示、幾何數(shù)據(jù)增強(qiáng)和測(cè)試時(shí)訓(xùn)練,VARC 在不依賴任何外部數(shù)據(jù)或預(yù)訓(xùn)練的情況下,在 ARC-1 上實(shí)現(xiàn)了SOTA性能。本文結(jié)果挑戰(zhàn)了抽象推理需要復(fù)雜的符號(hào)邏輯或大規(guī)模語(yǔ)言模型的普遍觀點(diǎn),并表明視覺(jué)處理是智能的一個(gè)基本組成部分。

本文希望這項(xiàng)工作能鼓勵(lì)社區(qū)重新審視視覺(jué)在通用人工智能中的作用,并探索視覺(jué)模型在傳統(tǒng)感知任務(wù)之外的推理能力。ARC 不僅僅是一個(gè)謎題集合;它是一個(gè)視覺(jué)世界,應(yīng)該用視覺(jué)的眼睛來(lái)看待。

參考文獻(xiàn)

[1] ARC Is a Vision Problem!

       原文標(biāo)題 : 第二彈!MIT何愷明團(tuán)隊(duì)再發(fā)重磅成果VARC:ARC原來(lái)是個(gè)視覺(jué)問(wèn)題!性能匹敵人類水平

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場(chǎng)。如有侵權(quán)或其他問(wèn)題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字

您提交的評(píng)論過(guò)于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無(wú)評(píng)論

暫無(wú)評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)