五月天激情综合,无码精品人妻一区二区三区人妻斩,成人网站免费

當(dāng)前位置： OFweek 人工智能網(wǎng) > 其他 > 正文

Meta 與牛津大學(xué)合作論文：從語言預(yù)訓(xùn)練中揭開 LLM 視覺先驗的起源

2025-11-17 15:28

來源： OFweek人工智能網(wǎng)

大型語言模型 (LLM) 盡管僅基于文本進行訓(xùn)練，卻意外地能夠發(fā)展出豐富的視覺先驗。這些先驗使得模型能夠利用相對少量的多模態(tài)數(shù)據(jù)來解鎖潛在的視覺能力，從而完成視覺任務(wù)。在某些情況下，甚至無需任何圖像即可執(zhí)行視覺任務(wù)。

Meta 與牛津大學(xué)研究團隊近日發(fā)布的一篇論文表示，LLM 的潛在視覺推理能力主要通過基于推理中心數(shù)據(jù)（例如代碼、數(shù)學(xué)、學(xué)術(shù)）的預(yù)訓(xùn)練而發(fā)展，并且會逐步擴展。這種從語言預(yù)訓(xùn)練中獲得的推理先驗具有可遷移性，并且普遍適用于視覺推理。

基于這個發(fā)現(xiàn)，Meta 提出了一種以數(shù)據(jù)為中心的視覺感知 LLM 預(yù)訓(xùn)練方案，并在 1T token 規(guī)模的預(yù)訓(xùn)練中進行了驗證。

以下是論文的主要亮點。

研究與發(fā)現(xiàn)

在預(yù)訓(xùn)練的過程中，團隊僅使用了一套解碼器的 Transformer 模型，這些模型嚴格遵循 Llama-3 架構(gòu)，涵蓋五種模型規(guī)模參數(shù)。這些模型針對不同數(shù)量的 token 進行訓(xùn)練，token 數(shù)量最多達到 1T。

這些研究探討了模型和數(shù)據(jù)規(guī)模、數(shù)據(jù)源、視覺世界和推理數(shù)據(jù)混合等基本變量的影響。

模型和數(shù)據(jù)大小的影響

研究表明，VQA 性能與模型和數(shù)據(jù)規(guī)模呈正相關(guān)。然而，這種正相關(guān)關(guān)系在所有視覺能力中并不統(tǒng)一。

模型大小和預(yù)訓(xùn)練數(shù)據(jù)大小通常都會帶來更強的下游多模態(tài)性能。這對于整體平均 VQA 來說是正確的。然而，仔細觀察不同的 VQA 類別會發(fā)現(xiàn)明顯的細微差別。通用 VQA 和知識 VQA 的性能表現(xiàn)出類似的擴展趨勢，隨著模型和數(shù)據(jù)大小的增加而持續(xù)提高。與此形成鮮明對比的是，OCR 和圖表 VQA 對模型大小的敏感度遠高于數(shù)據(jù)量；模型之間的性能差距明顯更大。

預(yù)訓(xùn)練數(shù)據(jù)源的影響

除此之外，特定類別的語言預(yù)訓(xùn)練數(shù)據(jù)可以增強最終 MLLM 中的某些視覺能力。特別是與推理和視覺世界相關(guān)的數(shù)據(jù)，可以顯著提高以視覺為中心的任務(wù)性能。

結(jié)果顯示，下游多模態(tài)性能因預(yù)訓(xùn)練數(shù)據(jù)源的不同而存在顯著差異。這種差異表明，不同類別的文本數(shù)據(jù)導(dǎo)致了截然不同且不均勻的視覺先驗。值得注意的是，在以視覺為中心的 VQA 任務(wù)中，出色的性能與兩類數(shù)據(jù)高度相關(guān)：一類是以推理為中心（例如代碼、數(shù)學(xué)、學(xué)術(shù)）的數(shù)據(jù)，另一類是富含視覺世界描述的語料庫（例如藝術(shù)、美食）。

推理和視覺數(shù)據(jù)比例的影響

團隊發(fā)現(xiàn)，少量有關(guān)視覺世界的數(shù)據(jù)至關(guān)重要，但其貢獻很快就會飽和。相反，增加預(yù)訓(xùn)練組合中以推理為中心的數(shù)據(jù)的比例會逐步增強視覺能力，性能提升率最高可達 75%。

增加以推理為中心的數(shù)據(jù)的比例會帶來顯著的性能提升，其優(yōu)勢在達到 75% 后趨于穩(wěn)定。這表明強大的推理基礎(chǔ)對于提升視覺能力至關(guān)重要。相比之下，明確描述視覺世界的數(shù)據(jù)呈現(xiàn)出收益迅速遞減的趨勢，只有少量此類數(shù)據(jù)對于建立基線至關(guān)重要。

討論和假設(shè)

Meta 還提出三個關(guān)鍵假設(shè)，分別關(guān)于感知先驗的結(jié)構(gòu)、推理的普遍性以及數(shù)據(jù)結(jié)構(gòu)在跨模態(tài)匹配中的作用。

感知先驗是多層次的嗎？

之前的分析表明，感知先驗的起源是彌散的，在多樣化的數(shù)據(jù)中表現(xiàn)得最為明顯。這種先驗是一種統(tǒng)一的能力，還是具有更細粒度的特征？

結(jié)果表明，感知先驗確實與尺度相關(guān)。一個可能的解釋是，多樣化、非結(jié)構(gòu)化文本包含海量詞匯，這種文本豐富性迫使模型學(xué)習(xí)對細粒度視覺概念敏感的表征，而這種能力在識別大型、明顯的物體時并不那么重要。

推理能力是否是一種通用的、跨模態(tài)的技能，并且在預(yù)訓(xùn)練階段就已習(xí)得？

團隊認為，LLM 從文本中獲得的推理能力并不局限于語言領(lǐng)域。通過對以推理為中心的數(shù)據(jù)進行預(yù)訓(xùn)練，模型可以學(xué)習(xí)抽象的、可推廣的邏輯、結(jié)構(gòu)和組合性原則。

結(jié)果顯示，LLM 從文本中學(xué)習(xí)到的推理能力可以遷移到視覺領(lǐng)域。團隊觀察到一個明顯的趨勢：隨著以推理為中心的數(shù)據(jù)比例的增加，模型生成的視覺推理不僅邏輯上更加合理，篇幅也顯著增加。例如，將代碼推理數(shù)據(jù)的比例從 0% 提高到 100%，邏輯合理性從 4.52% 提升到 9.52%，推理深度也增加了六倍多。

語言數(shù)據(jù)結(jié)構(gòu)是否能驅(qū)動視覺數(shù)據(jù)的表征一致性？

團隊提出語言數(shù)據(jù)的結(jié)構(gòu)特性可以部分驅(qū)動與視覺數(shù)據(jù)的表征一致性的假設(shè)。

結(jié)果表明，LLMvision 對齊分數(shù)總體呈現(xiàn)正向但非單調(diào)的趨勢。隨著結(jié)構(gòu)化推理數(shù)據(jù)比例的增加，對齊得分通常會提高，這表明從抽象結(jié)構(gòu)中學(xué)習(xí)可以形成更一致的潛在空間。然而，這種趨勢在 75% 的比例下達到峰值，然后在 100% 時下降。這可能是因為純粹基于推理數(shù)據(jù)訓(xùn)練的模型學(xué)習(xí)了抽象結(jié)構(gòu)，但缺乏來自其他文本類型所需的詞匯來有效地將其映射到不同的視覺概念上，從而阻礙了最終的對齊。

參考資料：https://arxiv.org/pdf/2509.26625