訂閱
糾錯(cuò)
加入自媒體

頂刊TPAMI 2025!一個(gè)模型搞定所有!多模態(tài)跟蹤“全能王”UM-ODTrack橫空出世

作者:Yaozong Zheng等

解讀:AI生成未來

亮點(diǎn)直擊

1.為視覺跟蹤領(lǐng)域提供了首個(gè)通用的視頻級(jí)模態(tài)感知跟蹤模型。UM-ODTrack 僅需訓(xùn)練一次,即可使用相同的架構(gòu)和參數(shù)實(shí)現(xiàn)多任務(wù)推理,包括 RGB-T/D/E 跟蹤任務(wù)。

2.對(duì)于視頻級(jí)關(guān)聯(lián),引入了兩種時(shí)序令牌傳播注意力機(jī)制,將目標(biāo)的判別性特征壓縮到一個(gè)令牌序列中。該令牌序列作為提示來指導(dǎo)未來幀的推理,從而避免了復(fù)雜的在線更新策略。

3.對(duì)于多模態(tài)感知,提出了兩種新穎的門控感知器,能夠自適應(yīng)地學(xué)習(xí)跨模態(tài)的潛在表示,有助于我們模型的多任務(wù)統(tǒng)一訓(xùn)練和推理。圖 1.跟蹤方法比較。(a) 基于稀疏采樣和圖像對(duì)匹配的離線圖像級(jí)跟蹤方法。(b) 基于視頻序列采樣和時(shí)序標(biāo)記傳播的在線視頻級(jí)跟蹤方法。(c) 基于單次訓(xùn)練和單任務(wù)推理(即一個(gè)模型對(duì)一個(gè)任務(wù),一對(duì)一)的多模態(tài)跟蹤方法 [62]、[64]-[66]。(d) 基于單次訓(xùn)練和多任務(wù)推理(即一個(gè)模型對(duì)多個(gè)任務(wù),一對(duì)多)的通用模態(tài)感知跟蹤模型。

圖 1.跟蹤方法比較。(a) 基于稀疏采樣和圖像對(duì)匹配的離線圖像級(jí)跟蹤方法。(b) 基于視頻序列采樣和時(shí)序標(biāo)記傳播的在線視頻級(jí)跟蹤方法。(c) 基于單次訓(xùn)練和單任務(wù)推理(即一個(gè)模型對(duì)一個(gè)任務(wù),一對(duì)一)的多模態(tài)跟蹤方法 [62]、[64]-[66]。(d) 基于單次訓(xùn)練和多任務(wù)推理(即一個(gè)模型對(duì)多個(gè)任務(wù),一對(duì)多)的通用模態(tài)感知跟蹤模型。

總結(jié)速覽

解決的問題

1.采樣稀疏性: 傳統(tǒng)跟蹤器主要采用“圖像對(duì)”(一個(gè)參考幀,一個(gè)搜索幀)的稀疏采樣策略,無法充分利用視頻中豐富的時(shí)序上下文信息,難以準(zhǔn)確分析目標(biāo)的動(dòng)態(tài)運(yùn)動(dòng)狀態(tài)。

2.關(guān)聯(lián)局限性: 傳統(tǒng)的特征匹配/融合方法側(cè)重于目標(biāo)的外觀相似性,缺乏連續(xù)、密集的跨幀關(guān)聯(lián)。現(xiàn)有方法即使引入多幀,其時(shí)空關(guān)系也僅限于選定的幀范圍內(nèi),未能實(shí)現(xiàn)視頻級(jí)別的信息關(guān)聯(lián)。

3.模型專一性: 現(xiàn)有的多模態(tài)跟蹤方法普遍采用“一個(gè)模型對(duì)應(yīng)一個(gè)任務(wù)”(一對(duì)一)的學(xué)習(xí)范式。這導(dǎo)致需要為不同模態(tài)組合(如RGB-T, RGB-D)訓(xùn)練和維護(hù)多個(gè)獨(dú)立模型,訓(xùn)練負(fù)擔(dān)重,且模型間缺乏兼容性和泛化能力。

提出的方案

提出了 UM-ODTrack 的通用視頻級(jí)別多模態(tài)感知跟蹤模型,其核心創(chuàng)新點(diǎn)包括:

1.視頻級(jí)別采樣: 將模型輸入從“圖像對(duì)”擴(kuò)展到“視頻序列”級(jí)別,使模型能夠從更全局的視角理解視頻內(nèi)容。

2.在線密集時(shí)序令牌學(xué)習(xí): 將目標(biāo)跟蹤重新定義為令牌序列傳播任務(wù),設(shè)計(jì)了兩種簡單有效的在線密集時(shí)序令牌關(guān)聯(lián)機(jī)制,以自回歸的方式在視頻流中傳播目標(biāo)的外觀和運(yùn)動(dòng)軌跡信息。

3.模態(tài)可擴(kuò)展感知: 設(shè)計(jì)了一種通用的模態(tài)感知跟蹤流程,通過兩個(gè)新穎的門控感知器,利用門控注意力機(jī)制自適應(yīng)學(xué)習(xí)跨模態(tài)表征。

一次性訓(xùn)練范式: 采用一次性訓(xùn)練方案,將學(xué)習(xí)到的多種模態(tài)的潛在表征壓縮到同一套模型參數(shù)中,實(shí)現(xiàn)一個(gè)模型支持多種跟蹤任務(wù)(RGB, RGB-T, RGB-D, RGB-E)的推理。

應(yīng)用的技術(shù)

1.視頻序列建模: 將視頻序列視為連續(xù)句子,借鑒語言建模思想進(jìn)行上下文理解。

2.時(shí)序令牌關(guān)聯(lián)注意力機(jī)制: 提出了串聯(lián)時(shí)序令牌注意力分離時(shí)序令牌注意力兩種機(jī)制,用于在線傳播和關(guān)聯(lián)時(shí)序信息。

3.門控注意力機(jī)制: 在條件門控感知器門控模態(tài)可擴(kuò)展感知器中應(yīng)用,以自適應(yīng)地融合和學(xué)習(xí)跨模態(tài)特征。

4.一次性/統(tǒng)一多任務(wù)學(xué)習(xí): 通過一次性訓(xùn)練,使單一模型學(xué)習(xí)共享的視覺-語義特征空間,同時(shí)尊重不同任務(wù)的異質(zhì)性,實(shí)現(xiàn)多任務(wù)推理。

達(dá)到的效果

1.性能提升: 在七個(gè)可見光跟蹤基準(zhǔn)和五個(gè)多模態(tài)跟蹤基準(zhǔn)上進(jìn)行了大量實(shí)驗(yàn),結(jié)果表明UM-ODTrack達(dá)到了最新的SOTA性能

2.信息利用優(yōu)化: 提純后的令牌序列可作為后續(xù)視頻幀推理的時(shí)序提示,利用過去信息指導(dǎo)未來推理,實(shí)現(xiàn)了信息的有效傳遞和利用。

3.模型效率與泛化性: 一次性訓(xùn)練方案不僅減輕了訓(xùn)練負(fù)擔(dān),還通過共享參數(shù)和跨任務(wù)學(xué)習(xí)提升了模型的表征能力,實(shí)現(xiàn)了從“一對(duì)一”到“一對(duì)多”的范式轉(zhuǎn)變,使模型更具通用性和靈活性。

方法

A. 架構(gòu)設(shè)計(jì)

UM-ODTrack,通用的視頻級(jí)模態(tài)感知框架它支持各種跟蹤任務(wù),包括 RGB、RGB+熱成像、RGB+深度和 RGB+事件跟蹤。

下圖2和圖3是用于視頻級(jí)多模態(tài)跟蹤的 UM-ODTrack 框架的概覽。將整個(gè)視頻建模為一個(gè)連續(xù)序列,并以自回歸的方式逐幀解碼目標(biāo)實(shí)例的定位。首先,提出了一種新穎的視頻序列采樣策略,專門設(shè)計(jì)用于滿足視頻級(jí)模型的輸入要求(原則1:視頻級(jí)采樣)。然后,提出了一種新穎的模態(tài)標(biāo)記器,以共享編碼的方式對(duì)不同的模態(tài)源進(jìn)行標(biāo)記化。隨后,為了捕獲視頻序列中目標(biāo)實(shí)例的時(shí)空軌跡信息,我們引入了兩種簡單而有效的時(shí)序令牌關(guān)聯(lián)注意力機(jī)制(原則2:視頻級(jí)關(guān)聯(lián))。此外,引入了兩個(gè)強(qiáng)大的門控感知器來自適應(yīng)地學(xué)習(xí)跨模態(tài)的通用視覺表示,從而提高模型在不同跟蹤場景下的泛化能力(原則3:模態(tài)可擴(kuò)展)。

基于上述建模技術(shù),將獲得一個(gè)通用的模態(tài)感知跟蹤模型,該模型可以使用相同的模型架構(gòu)和參數(shù)同時(shí)推理多個(gè)子跟蹤任務(wù)。以下各節(jié)將給出詳細(xì)描述。

B. 視頻級(jí)多模態(tài)跟蹤公式化

本文的重點(diǎn)在于構(gòu)建一個(gè)通用的視頻級(jí)多模態(tài)跟蹤框架。為了全面理解 UM-ODTrack 框架,有必要描述視頻級(jí)多模態(tài)跟蹤的概念。 首先,回顧一下先前主流的圖像對(duì)匹配跟蹤方法。給定一對(duì)視頻幀,即一個(gè)參考幀  和一個(gè)搜索幀 ,主流視覺跟蹤器  被公式化為

其中  表示當(dāng)前搜索幀的預(yù)測邊界框坐標(biāo)。如果  是傳統(tǒng)的卷積孿生跟蹤器,它會(huì)經(jīng)歷三個(gè)階段,即特征提取、特征融合和邊界框預(yù)測。而如果  是transformer  跟蹤器,它僅包含一個(gè)骨干網(wǎng)絡(luò)和一個(gè)預(yù)測頭網(wǎng)絡(luò),其中骨干網(wǎng)絡(luò)集成了特征提取和融合的過程。

一個(gè)transformer跟蹤器接收一系列不重疊的圖像塊(每個(gè)圖像塊的分辨率為 )作為輸入。這意味著一個(gè)二維的參考-搜索圖像對(duì)需要通過一個(gè)塊嵌入層來生成多個(gè)一維圖像令牌序列 ,其中  是令牌維度,,且 。然后,這些一維圖像令牌被連接起來并加載到一個(gè)  層的transformer編碼器中,進(jìn)行特征提取和關(guān)系建模。每個(gè)transformer層  包含一個(gè)多頭注意力機(jī)制和一個(gè)多層感知機(jī)。這里,我們將第  個(gè)transformer層的前向過程公式化如下:

其中  表示由第  個(gè)transformer層生成的參考-搜索圖像對(duì)的拼接令牌序列,而  表示當(dāng)前第  個(gè)transformer層生成的令牌序列。

使用上述建模方法,我們可以構(gòu)建一個(gè)簡潔優(yōu)雅的跟蹤器來實(shí)現(xiàn)逐幀跟蹤。然而,這種建模方法有兩個(gè)明顯的缺點(diǎn):

1.所構(gòu)建的跟蹤器僅專注于幀內(nèi)目標(biāo)匹配,缺乏建立跨幀關(guān)聯(lián)的能力,而這種能力對(duì)于跨視頻流跟蹤對(duì)象是必需的。

2.所構(gòu)建的跟蹤器僅限于單模態(tài)跟蹤場景,由于領(lǐng)域特定知識(shí)的偏差,缺乏快速擴(kuò)展到多模態(tài)跟蹤的能力。因此,這些限制阻礙了視頻級(jí)多模態(tài)跟蹤算法的研究。

在這項(xiàng)工作中,旨在緩解這些挑戰(zhàn),并為通用視頻級(jí)模態(tài)感知跟蹤算法提出一種新的設(shè)計(jì)范式。首先,我們將跟蹤框架的輸入從圖像對(duì)級(jí)別擴(kuò)展到視頻級(jí)別以進(jìn)行時(shí)序建模。然后,引入一個(gè)時(shí)序令牌序列 ,旨在傳播視頻序列中目標(biāo)實(shí)例的外觀、時(shí)空位置和軌跡信息。形式上,我們將視頻級(jí)跟蹤公式化如下:

其中  表示長度為  的 RGB 參考幀序列,而  表示長度為  的 RGB 搜索幀序列。通過這樣的設(shè)置,構(gòu)建了一個(gè)視頻級(jí)跟蹤框架,它接收任意長度的視頻片段來建模目標(biāo)對(duì)象的時(shí)空軌跡關(guān)系。

此外,為了提高視頻級(jí)跟蹤器的通用模態(tài)感知能力,我們將其擴(kuò)展到多模態(tài)跟蹤領(lǐng)域。首先,將輸入從單模態(tài)范圍擴(kuò)展到多模態(tài)范圍。接著,使用一個(gè)包含 RGB 編碼器和 D/T/E 編碼器的共享通用模態(tài)編碼器,分別用于提取和融合 RGB 視頻片段和輔助視頻片段。隨后,設(shè)計(jì)了兩個(gè)新穎的門控感知器來學(xué)習(xí)跨模態(tài)的通用潛在表示。定義如下:

其中  表示來自輔助模態(tài)的長度為  的參考幀序列,而  表示來自輔助模態(tài)的長度為  的搜索幀序列。 是來自輔助模態(tài)的時(shí)序令牌。我們將在下一節(jié)更詳細(xì)地描述所提出的核心模塊。

C. 視頻序列采樣策略

大多數(shù)現(xiàn)有跟蹤器通常在一個(gè)短時(shí)間間隔內(nèi)(例如50、100或200幀間隔)對(duì)單模態(tài)圖像對(duì)進(jìn)行采樣。然而,這種采樣方法帶來了一個(gè)潛在的限制,因?yàn)檫@些跟蹤器無法捕捉被跟蹤目標(biāo)的長期運(yùn)動(dòng)變化,從而限制了跟蹤算法在長期場景中的魯棒性。同時(shí),它們無法從多個(gè)模態(tài)的視角感知目標(biāo)的實(shí)時(shí)狀態(tài)。 為了從長期視頻序列中獲取更豐富的目標(biāo)實(shí)例的多模態(tài)時(shí)空軌跡信息,我們偏離了傳統(tǒng)的短期圖像對(duì)采樣方法,并提出了一種新的視頻序列采樣策略。具體來說,在訓(xùn)練階段,我們建立一個(gè)更大的采樣間隔,并在該間隔內(nèi)隨機(jī)提取多個(gè)視頻幀,以形成任何模態(tài)和任何長度的視頻片段(, )。盡管這種采樣方法可能看起來簡單,但它使我們能夠近似整個(gè)視頻序列的內(nèi)容。這對(duì)于視頻級(jí)多模態(tài)跟蹤建模至關(guān)重要。

D. 模態(tài)標(biāo)記器

直觀地說,考慮到來自不同模態(tài)(即深度、熱紅外和事件)的輸入幀的可變性,傳統(tǒng)方法是為每種模態(tài)設(shè)計(jì)單獨(dú)的標(biāo)記器。這使得不同的輸入幀能夠被轉(zhuǎn)換為具有相同序列格式的令牌向量。相反,考慮到不同模態(tài)間可能存在共享的語義信息,我們將深度、熱紅外和事件數(shù)據(jù)視為統(tǒng)一的視覺表示。設(shè)計(jì)了一個(gè)共享的模態(tài)標(biāo)記器,以將來自不同模態(tài)的數(shù)據(jù)統(tǒng)一轉(zhuǎn)換為相同的一維序列。對(duì)于包含深度、熱紅外和事件等多種模態(tài)信息的視覺輸入,我們采用單個(gè)二維卷積層作為統(tǒng)一標(biāo)記器。隨后,利用一個(gè)基于transformer的通用模態(tài)編碼器來處理這些令牌。

E. 門控感知器

由于基礎(chǔ)視覺跟蹤器的模態(tài)感知能力有限,一旦在RGB跟蹤基準(zhǔn)上進(jìn)行訓(xùn)練,它就無法輕易適應(yīng)復(fù)雜的多模態(tài)跟蹤場景。因此,我們?cè)O(shè)計(jì)了兩個(gè)簡單而有效的模塊,即條件門控和門控模態(tài)可擴(kuò)展感知器,如圖3所示,以自適應(yīng)地學(xué)習(xí)通用的跨模態(tài)表示。

條件門控。為了在共享的通用模態(tài)編碼器中實(shí)現(xiàn)多模態(tài)表示學(xué)習(xí),我們?cè)诿總(gè)編碼器層之間以殘差方式添加了條件門控模塊。在條件門控模塊中,可見光特征和相應(yīng)的輔助特征(即深度、熱和事件)沿著通道維度進(jìn)行跨模態(tài)對(duì)齊,以補(bǔ)充來自其他模態(tài)的豐富細(xì)節(jié)。然后,對(duì)齊后的多模態(tài)表示由條件門控模塊進(jìn)行門控,以促進(jìn)模態(tài)間的交叉學(xué)習(xí)。

條件門控模塊可以規(guī)范化為以下方程:

其中和  表示在特定模態(tài)下從第t個(gè)視頻幀提取的可見光模態(tài)特征和輔助模態(tài)特征。 是一個(gè)用于縮放維度的嵌入層。 是一個(gè)門控網(wǎng)絡(luò)。它根據(jù)模態(tài)源之間的質(zhì)量動(dòng)態(tài)控制多模態(tài)跟蹤的表示學(xué)習(xí),該質(zhì)量通過一個(gè)兩層感知機(jī)和一個(gè)門控激活函數(shù)進(jìn)行評(píng)估。 代表?xiàng)l件門控模塊的輸出特征。值得注意的是,最后一個(gè)條件門控網(wǎng)絡(luò)層的學(xué)習(xí)參數(shù)被初始化為零,使其輸出能夠與基礎(chǔ)視覺跟蹤器的輸出相匹配,從而有助于提高訓(xùn)練穩(wěn)定性。

門控模態(tài)可擴(kuò)展感知器。在執(zhí)行通用模態(tài)編碼器之后,可以獲得一個(gè)可見光特征 ,一個(gè)輔助特征 ,一個(gè)可見光時(shí)序令牌序列 ,以及一個(gè)輔助模態(tài)時(shí)序令牌序列 。來自不同模態(tài)的兩個(gè)時(shí)序令牌,其特征空間分布反映了同一目標(biāo)對(duì)象跨多個(gè)模態(tài)源的外觀和運(yùn)動(dòng)軌跡信息。因此,我們?cè)O(shè)計(jì)了一種基于門控注意力機(jī)制的新型模態(tài)可擴(kuò)展感知器,以進(jìn)一步增強(qiáng)對(duì)多模態(tài)跟蹤場景的感知。具體來說,學(xué)習(xí)到的多模態(tài)表示與兩個(gè)時(shí)序模態(tài)令牌進(jìn)行交叉注意力計(jì)算,以從多個(gè)視圖構(gòu)建通用的模態(tài)依賴關(guān)系。這種多模態(tài)關(guān)系可以表示為以下公式:

其中  表示一個(gè)多模態(tài)交叉注意力層,以前一個(gè)輸入作為查詢,后一個(gè)作為鍵和值。 表示一個(gè)多模態(tài)前饋網(wǎng)絡(luò)層。 是 GMP 模塊中 UM-Attn 操作的輸出特征。 是 GMP 模塊中門控操作的輸出特征。 代表 GMP 模塊的輸出特征。通過采用這種新穎的門控注意力機(jī)制,我們的 UM-ODTrack 能夠自適應(yīng)地將多模態(tài)信息聚合到一個(gè)共享的視覺-語義特征空間中,有效提高了我們跟蹤器的模態(tài)感知能力,從而首次實(shí)現(xiàn)了真正通用的模態(tài)跟蹤。

F. 時(shí)序令牌關(guān)聯(lián)注意力機(jī)制

不采用復(fù)雜的視頻transformer作為編碼視頻內(nèi)容的基礎(chǔ)框架,而是從一個(gè)新的視角進(jìn)行設(shè)計(jì),利用簡單的 2D transformer架構(gòu),即 2D ViT。 為了構(gòu)建一個(gè)優(yōu)雅的實(shí)例級(jí)幀間關(guān)聯(lián)機(jī)制,必須擴(kuò)展原始的 2D 注意力操作,以提取和整合視頻級(jí)特征。在我們的方法中,我們基于壓縮-傳播的概念設(shè)計(jì)了兩種時(shí)序令牌注意力機(jī)制,即拼接令牌注意力機(jī)制和分離令牌注意力機(jī)制,如下圖4(左)所示。其核心設(shè)計(jì)在于向注意力操作中注入額外信息,例如更多的視頻序列內(nèi)容和時(shí)序令牌向量,使它們能夠提取更豐富的目標(biāo)實(shí)例的時(shí)空軌跡信息。

在圖4(a)中,原始的注意力操作通常采用圖像對(duì)作為輸入,其中建模它們關(guān)系的過程可以表示為 。在這種范式下,跟蹤器只能在每個(gè)圖像對(duì)內(nèi)部進(jìn)行獨(dú)立交互,建立有限的時(shí)序相關(guān)性。在圖4(b)中,所提出的拼接令牌注意力機(jī)制將輸入擴(kuò)展到前述的視頻序列,從而能夠?qū)鐜臅r(shí)空關(guān)系進(jìn)行密集建模。受語言通過拼接形成上下文特性的啟發(fā),我們同樣應(yīng)用拼接操作來為視頻序列建立上下文。其公式可以表示為:

其中  是第  個(gè)視頻幀的時(shí)序令牌序列。 表示令牌間的拼接操作。,  和  是拼接后特征令牌的時(shí)空線性投影。

另一方面,當(dāng)執(zhí)行多模態(tài)跟蹤任務(wù)時(shí),當(dāng)前的時(shí)序令牌關(guān)聯(lián)注意力機(jī)制也同樣適用。具體來說,與可見光時(shí)序令牌類似,多模態(tài)時(shí)序令牌  是一個(gè)用零初始化的向量,用于在多模態(tài)跟蹤場景中提取目標(biāo)實(shí)例的外觀和時(shí)空定位信息。公式表示如下:

值得注意的是,本文為每個(gè)視頻幀引入了一個(gè)時(shí)序令牌,旨在存儲(chǔ)采樣視頻序列的目標(biāo)軌跡信息。換句話說,我們將目標(biāo)的當(dāng)前時(shí)空軌跡信息壓縮到一個(gè)令牌向量中,該向量用于傳播到后續(xù)視頻幀。

一旦目標(biāo)信息被時(shí)序令牌提取,以自回歸的方式將令牌向量從第  幀傳播到第  幀,如圖4(右)所示。首先,將第  幀的時(shí)序令牌  添加到第  幀的空令牌  上,得到更新后的第  幀的內(nèi)容令牌 ,隨后將其作為輸入傳播到后續(xù)幀。形式上,可見光和多模態(tài)跟蹤的傳播過程為:

值得注意的是,我們?yōu)槊總(gè)視頻幀引入了一個(gè)時(shí)序令牌,旨在存儲(chǔ)采樣視頻序列的目標(biāo)軌跡信息。換句話說,我們將目標(biāo)的當(dāng)前時(shí)空軌跡信息壓縮到一個(gè)令牌向量中,該向量用于傳播到后續(xù)視頻幀。

一旦目標(biāo)信息被時(shí)序令牌提取,我們以自回歸的方式將令牌向量從第  幀傳播到第  幀,如圖4(右)所示。首先,將第  幀的時(shí)序令牌  添加到第  幀的空令牌  上,得到更新后的第  幀的內(nèi)容令牌 ,隨后將其作為輸入傳播到后續(xù)幀。形式上,可見光和多模態(tài)跟蹤的傳播過程為:

其中  是第  幀輔助模態(tài)視頻幀的時(shí)序令牌序列。 是第  幀輔助模態(tài)視頻幀的空令牌。

在這種新的設(shè)計(jì)范式中,可以使用時(shí)序令牌作為推斷下一幀的提示,利用過去的信息來指導(dǎo)未來的推斷。此外,我們的模型通過在線令牌傳播隱式地傳播目標(biāo)實(shí)例的外觀、定位和軌跡信息。這顯著提高了視頻級(jí)框架的跟蹤性能。

另一方面,如圖4(c)所示,所提出的分離令牌注意力機(jī)制將注意力操作分解為三個(gè)子過程:參考幀之間的自信息聚合、參考幀與搜索幀之間的跨信息聚合,以及時(shí)序令牌與視頻序列之間的跨信息聚合。這種分解在一定程度上提高了模型的計(jì)算效率,同時(shí)令牌關(guān)聯(lián)遵循上述流程。

與在線更新的討論:大多數(shù)先前的跟蹤算法結(jié)合在線更新方法來訓(xùn)練時(shí)空跟蹤模型,例如添加額外的得分質(zhì)量分支或 IoU 預(yù)測分支。它們通常需要復(fù)雜的優(yōu)化過程和更新決策規(guī)則。與這些方法相比,我們通過利用令牌序列的在線迭代傳播,避免了復(fù)雜的在線更新策略,使我們能夠?qū)崿F(xiàn)更高效的模型表示和計(jì)算。

G. 一次性訓(xùn)練與通用推理

預(yù)測頭。對(duì)于預(yù)測頭網(wǎng)絡(luò)的設(shè)計(jì),采用傳統(tǒng)的分類頭和邊界框回歸頭來實(shí)現(xiàn)期望的結(jié)果。分別通過三個(gè)子卷積網(wǎng)絡(luò)獲得預(yù)測的分類得分圖 、邊界框尺寸  和偏移量尺寸 。

一次性訓(xùn)練。如果一個(gè)單一的神經(jīng)網(wǎng)絡(luò)模型能夠同時(shí)跨多個(gè)任務(wù)進(jìn)行推理,它將呈現(xiàn)出顯著的優(yōu)勢。這不僅減少了需要為每個(gè)領(lǐng)域手工設(shè)計(jì)具有適當(dāng)歸納偏置的模型,還增加了可用訓(xùn)練數(shù)據(jù)的數(shù)量和多樣性。

對(duì)于 RGB 跟蹤任務(wù),本文使用包含 LaSOT, GOT-10k, TrackingNet 和 COCO 的訓(xùn)練數(shù)據(jù)集來訓(xùn)練我們的基礎(chǔ)視頻級(jí)跟蹤模型。在輸入數(shù)據(jù)方面,我們將包含三個(gè) 192 × 192 像素參考幀和兩個(gè) 384 × 384 像素搜索幀的視頻序列作為模型的輸入。

對(duì)于多模態(tài)跟蹤任務(wù),與在單個(gè)下游數(shù)據(jù)集上獨(dú)立訓(xùn)練的跟蹤算法,如[62], [64], [66], [74]相比,我們的目標(biāo)是同時(shí)聯(lián)合訓(xùn)練多個(gè)跟蹤任務(wù)(即 RGB-T 跟蹤、RGB-D 跟蹤和 RGB-E 跟蹤)。我們?cè)诼?lián)合的熱紅外(即 LasHeR,對(duì)齊了 RGB 和紅外數(shù)據(jù))、深度(即 DepthTrack,對(duì)齊了 RGB 和深度數(shù)據(jù))和事件(即 VisEvent,對(duì)齊了 RGB 和事件數(shù)據(jù))數(shù)據(jù)集上,以一次性訓(xùn)練的方式訓(xùn)練我們的通用模態(tài)感知跟蹤模型,并使用相同的損失函數(shù)監(jiān)督其預(yù)測的邊界框。

具體來說,采用焦點(diǎn)損失作為分類損失 ,并采用 L1 損失和 GIoU 損失作為回歸損失?倱p失  可以公式化為:

其中  和  是正則化參數(shù)。 由于我們使用視頻片段進(jìn)行建模,任務(wù)損失是針對(duì)每個(gè)視頻幀獨(dú)立計(jì)算的,并且最終損失是在搜索幀的長度上取平均值。

通用推理。 算法1總結(jié)了我們模型的推理過程。對(duì)于 RGB 跟蹤,我們遵循與其他transformer跟蹤器相同的跟蹤流程。得益于我們的一次性訓(xùn)練方案和門控模態(tài)可擴(kuò)展感知器模塊,對(duì)于 RGB-D、RGB-T 和 RGB-E 跟蹤任務(wù),我們使用同一套模型參數(shù)無縫地執(zhí)行任何跟蹤任務(wù)的推理,而無需額外的多次微調(diào)技術(shù)。在輸入數(shù)據(jù)方面,為了與訓(xùn)練設(shè)置保持一致,我們?cè)谕评黼A段將三個(gè)等間隔的參考幀納入我們的跟蹤器。同時(shí),搜索幀和時(shí)序令牌向量被逐幀輸入。

實(shí)驗(yàn)A. 實(shí)現(xiàn)細(xì)節(jié)

本文使用 ViT-Base 模型作為視覺編碼器,其參數(shù)使用 MAE 預(yù)訓(xùn)練參數(shù)進(jìn)行初始化。采用 AdamW 來優(yōu)化網(wǎng)絡(luò)參數(shù),骨干網(wǎng)絡(luò)的初始學(xué)習(xí)率為 ,其余部分為 ,并設(shè)置權(quán)重衰減為 。在每個(gè)周期中隨機(jī)采樣 60,000 個(gè)圖像對(duì)。對(duì)于 RGB 跟蹤任務(wù),我們?cè)O(shè)置訓(xùn)練周期為 300 個(gè)周期。學(xué)習(xí)率在 240 個(gè)周期后下降為原來的十分之一。對(duì)于多模態(tài)跟蹤任務(wù),我們?cè)O(shè)置訓(xùn)練周期為 15 個(gè)周期。學(xué)習(xí)率在 10 個(gè)周期后下降為原來的十分之一。該模型在配備兩塊 80GB Tesla A100 GPU 的服務(wù)器上運(yùn)行,并設(shè)置批處理大小為 8。

B. 與 SOTA 的比較

在七個(gè)可見光基準(zhǔn)(包括 LaSOT, TrackingNet, GOT10K, LaSOText, VOT2020, TNL2K 和 OTB100)和五個(gè)多模態(tài)跟蹤基準(zhǔn)(包括 LasHeR, RGBT234, DepthTrack, VOT-RGBD2022 和 VisEvent)上將我們的 ODTrack 和 UM-ODTrack 與最先進(jìn)的跟蹤器進(jìn)行了比較。我們的 ODTrack 和 UM-ODTrack 在這些數(shù)據(jù)集上展示了卓越的性能。

GOT10K。GOT10K 是一個(gè)大規(guī)模跟蹤數(shù)據(jù)集,包含超過 10,000 個(gè)視頻序列。GOT10K 基準(zhǔn)提出了一個(gè)協(xié)議,要求跟蹤器僅使用其訓(xùn)練集進(jìn)行訓(xùn)練。我們遵循該協(xié)議來訓(xùn)練我們的框架。結(jié)果記錄在表 I 中。在先前的方法中,未采用視頻級(jí)采樣策略的 ARTrack384 在 AO(平均重疊率)、SR0.5 和 SR0.75(閾值為 0.5 和 0.75 時(shí)的成功率)指標(biāo)上分別達(dá)到了 SOTA 性能。受益于提出的新視頻級(jí)采樣策略,我們的 ODTrack384 取得了新的最先進(jìn)水平,在 AO、SR0.5 和 SR0.75 指標(biāo)上分別達(dá)到了 77.0%、87.9% 和 75.1%。結(jié)果表明,我們 ODTrack 的一個(gè)優(yōu)勢來自于旨在釋放模型潛力的視頻級(jí)采樣策略。

LaSOT。LaSOT 是一個(gè)大規(guī)模長期跟蹤基準(zhǔn),包含 1120 個(gè)訓(xùn)練序列和 280 個(gè)測試序列。如表 I 所示,可以看到我們的 ODTrack384 通過有趣的時(shí)序令牌注意力機(jī)制取得了良好的跟蹤結(jié)果。與最新的 ARTrack 性能相比,我們的 ODTrack384 在 AUC、P Norm 和 P 分?jǐn)?shù)方面分別實(shí)現(xiàn)了 0.6%、1.5% 和 1.5% 的提升。結(jié)果表明,跟蹤器學(xué)習(xí)到的具有目標(biāo)關(guān)聯(lián)依賴關(guān)系的時(shí)空特征可以提供可靠的目標(biāo)定位。此外,由于我們的時(shí)序令牌旨在關(guān)聯(lián)目標(biāo)實(shí)例以提高在多種跟蹤挑戰(zhàn)(即快速運(yùn)動(dòng)、背景干擾、視角變化和尺度變化等)下的魯棒性和準(zhǔn)確性。因此,如圖 5 所示,展示了 LaSOT 數(shù)據(jù)集的屬性評(píng)估,以說明我們的令牌關(guān)聯(lián)機(jī)制如何幫助跟蹤器學(xué)習(xí)關(guān)于目標(biāo)實(shí)例的時(shí)空軌跡信息,顯著增強(qiáng)長期跟蹤場景中的目標(biāo)定位。

TrackingNet。TrackingNet 是一個(gè)大規(guī)模短期數(shù)據(jù)集,提供了一個(gè)包含 511 個(gè)視頻序列的測試集。如下表 I 報(bào)告,通過實(shí)現(xiàn)目標(biāo)實(shí)例的跨幀關(guān)聯(lián),ODTrack384 取得了 85.1% 的成功分?jǐn)?shù)(AUC)、90.1% 的歸一化精度分?jǐn)?shù)(P Norm)和 84.9% 的精度分?jǐn)?shù)(P),分別優(yōu)于先前沒有令牌關(guān)聯(lián)的高性能跟蹤器 SeqTrack 1.2%、1.3% 和 1.3%。同時(shí),與最近沒有時(shí)序令牌關(guān)聯(lián)的視頻級(jí)跟蹤器 VideoTrack 相比,ODTrack 在 AUC、P Norm 和 P 指標(biāo)上分別優(yōu)于 1.3%、1.4% 和 1.8%。這表明我們的時(shí)序令牌可以有效地跨搜索幀關(guān)聯(lián)目標(biāo)對(duì)象,并且這種新穎的關(guān)聯(lián)方式可以增強(qiáng)我們 ODTrack 在多個(gè)跟蹤場景中的泛化能力。

LaSOText。LaSOText 是 LaSOT 的擴(kuò)展版本,包含 150 個(gè)長期視頻序列。如表 I 報(bào)告,我們的方法取得了良好的跟蹤結(jié)果,優(yōu)于大多數(shù)比較的跟蹤器。例如,我們的跟蹤器取得了 52.4% 的 AUC、63.9% 的 P Norm 分?jǐn)?shù)和 60.1% 的 P 分?jǐn)?shù),分別優(yōu)于 ARTrack 0.5%、1.9% 和 1.6%。此外,我們的 ODTrack 在成功分?jǐn)?shù)上也優(yōu)于基于圖像對(duì)匹配的先進(jìn)跟蹤器 OSTrack 1.9%。結(jié)果符合我們的預(yù)期,即視頻級(jí)建模在復(fù)雜的長期跟蹤場景中具有更穩(wěn)定的目標(biāo)定位能力。

VOT2020。VOT2020 包含 60 個(gè)具有挑戰(zhàn)性的序列,并使用二進(jìn)制分割掩碼作為真實(shí)標(biāo)簽。我們使用 Alpha-Refine作為 ODTrack 的后處理網(wǎng)絡(luò)來預(yù)測分割掩碼。期望平均重疊率(EAO)指標(biāo)用于評(píng)估所提出的跟蹤器和其他先進(jìn)跟蹤器。如表 III 所示,我們的 ODTrack384 和 -L384 在掩碼評(píng)估上取得了最佳結(jié)果,EAO 分別為 58.1% 和 60.5%。在 EAO 指標(biāo)上,與未探索時(shí)序關(guān)系的跟蹤器(即 SBT  和 Ocean+)相比,ODTrack 分別優(yōu)于 6.6% 和 9%。這些結(jié)果表明,通過注入時(shí)序令牌注意力,我們的 ODTrack 在復(fù)雜跟蹤場景中具有魯棒性。

TNL2K 和 OTB100。在 TNL2K 和 OTB100 基準(zhǔn)上評(píng)估了我們的跟蹤器。它們分別包含 700 和 100 個(gè)視頻序列。表 II 中的結(jié)果顯示,ODTrack384 和 -L384 在 TNL2K 和 OTB100 基準(zhǔn)上取得了最佳性能。例如,我們的 ODTrack384 在 TNL2K 和 OTB100 數(shù)據(jù)集上分別獲得了 60.9% 和 72.3% 的 AUC 分?jǐn)?shù)。在 TNL2K 數(shù)據(jù)集上,與 ARTrack 相比,ODTrack 優(yōu)于其 1.1%。同時(shí),與非自回歸跟蹤器 Mixformer 相比,我們的 ODTrack 在 OTB100 數(shù)據(jù)集上的 AUC 分?jǐn)?shù)高出 2.3%?梢杂^察到,通過采用有趣的自回歸建模方法來捕獲時(shí)序上下文,我們的 ODTrack 能夠降低模型復(fù)雜性并提高性能。

DepthTrack。DepthTrack包含 150 個(gè)訓(xùn)練和 50 個(gè)測試 RGB-D 長期視頻序列。如下表 IV 所示,我們?cè)谄渖蠈⑽覀兊哪P团c現(xiàn)有的 SOTA RGB-D 跟蹤器進(jìn)行了比較。在相同的圖像分辨率設(shè)置下,我們的 UM-ODTrack256 在跟蹤精度(Pr)、召回率(Re)和 F-score 上分別優(yōu)于 ViPT 1.1%、2.6% 和 1.8%。此外,由于提出的高效門控注意力機(jī)制,我們的 UM-ODTrack384 在 RGB-D 跟蹤領(lǐng)域取得了 SOTA 性能。值得注意的是,當(dāng)輸入尺寸從 256 增加到 384 時(shí),UM-ODTrack 在性能上取得了大幅提升。這表明我們結(jié)合大輸入分辨率的時(shí)序關(guān)聯(lián)方法在多模態(tài)長期跟蹤場景中尤為重要。

VOT-RGBD2022。VOT-RGBD2022是一個(gè)短期跟蹤數(shù)據(jù)集,包含 127 個(gè) RGB-D 視頻序列。如下表 V 報(bào)告,與大多數(shù)其他跟蹤算法相比,我們的跟蹤器取得了新的最先進(jìn)結(jié)果。具體來說,我們的 UM-ODTrack256 在 EAO、準(zhǔn)確性和魯棒性指標(biāo)上分別獲得了 78.0%、81.4% 和 94.8% 的分?jǐn)?shù)。與最新的統(tǒng)一跟蹤器 Un-Track 相比,我們的 UM-ODTrack256 在期望平均重疊率(EAO)和魯棒性分?jǐn)?shù)上分別實(shí)現(xiàn)了 5.9% 和 7.9% 的提升。這表明我們的統(tǒng)一建模技術(shù)對(duì)于通用特征學(xué)習(xí)更有效,并且可以為每種模態(tài)(即深度模態(tài))提供合適且穩(wěn)定的特征空間。

LasHeR。LasHeR  是一個(gè)大規(guī)模 RGB-T 跟蹤數(shù)據(jù)集,包含 245 個(gè)短期測試視頻序列。結(jié)果報(bào)告在下圖 7 中,我們的 UM-ODTrack 取得了令人驚訝的結(jié)果,顯著優(yōu)于先前的 SOTA RGB-T 跟蹤算法,在成功圖和精度圖上分別超過第二名 4.5% 和 6.3%。這些結(jié)果符合我們的預(yù)期,即基于門控注意力機(jī)制的特征學(xué)習(xí)可以自適應(yīng)地提取和融合不同模態(tài)的特征,以提高多模態(tài)跟蹤性能。同時(shí),為了驗(yàn)證我們的門控感知器能夠有效解決包括遮擋(NO)、部分遮擋(PO)、完全遮擋(TO)、低光照(LI)、低分辨率(LR)、形變(DEF)、背景干擾(BC)、運(yùn)動(dòng)模糊(MB)、熱交叉(TC)、相機(jī)移動(dòng)(CM)、快速運(yùn)動(dòng)(FM)、尺度變化(SV)、透明遮擋(HO)、高光照(HI)、突然光照變化(AIV)、相似外觀(SA)、縱橫比變化(ARC)、出視野(OV)和幀丟失(FL)在內(nèi)的多種挑戰(zhàn),我們展示了 LasHeR 數(shù)據(jù)集的屬性評(píng)估結(jié)果。如圖 6 所示,我們的 UM-ODTrack 在每個(gè)屬性上都表現(xiàn)良好。因此,可以表明我們帶有門控感知器的視頻級(jí)多模態(tài)建模方案能夠有效地統(tǒng)一和融合多模態(tài)特征,從而使我們的跟蹤器能夠很好地解決復(fù)雜的跟蹤場景。

RGBT234。RGBT234 包含 234 個(gè) RGB-T 跟蹤視頻,約 116.6K 個(gè)圖像對(duì)。如下圖6 所示,UM-ODTrack256 在 SR 和 PR 指標(biāo)上分別獲得了 69.2% 和 91.5% 的分?jǐn)?shù)。與高性能 RGB-T 專家跟蹤器 BAT 相比,我們的方法取得了良好的跟蹤結(jié)果,在成功圖和精度圖上分別優(yōu)于 5.1% 和 4.7%。這意味著我們的 GMP 模塊可以有效地聚合來自熱紅外模態(tài)的目標(biāo)信息,實(shí)現(xiàn)魯棒的多模態(tài)跟蹤。

VisEvent。VisEvent 是最大的 RGB-E 跟蹤基準(zhǔn),包含 320 個(gè)測試視頻。比較結(jié)果如圖 8 所示。我們的 UM-ODTrack384 取得了新的 SOTA 跟蹤結(jié)果,成功分?jǐn)?shù)和精度分?jǐn)?shù)分別為 62.4% 和 81.3%?梢钥闯,我們配備門控模態(tài)可擴(kuò)展感知器(GMP)模塊的 UM-ODTrack 在事件場景中也實(shí)現(xiàn)了精確跟蹤。這與我們的直覺一致,即 GMP 模塊可以輕松擴(kuò)展到不同的模態(tài)跟蹤場景,并有效改善多模態(tài)特征的表示。

C. 消融研究

令牌關(guān)聯(lián)的有效性。為了研究等式 11 中令牌關(guān)聯(lián)的效果,我們?cè)诒?VII 中進(jìn)行了是否傳播時(shí)序令牌的實(shí)驗(yàn)。w/o Token 表示采用視頻級(jí)采樣策略但沒有令牌關(guān)聯(lián)的實(shí)驗(yàn)。從第二行和第三行可以觀察到,缺少令牌關(guān)聯(lián)機(jī)制導(dǎo)致 AUC 分?jǐn)?shù)下降 1.2%。這一結(jié)果表明令牌關(guān)聯(lián)在跨幀目標(biāo)關(guān)聯(lián)中起著至關(guān)重要的作用。此外,我們?cè)诒?VII 中進(jìn)行實(shí)驗(yàn),以驗(yàn)證視頻級(jí)跟蹤框架中提出的兩種令牌關(guān)聯(lián)方法的有效性。我們可以觀察到,分離和拼接方法都實(shí)現(xiàn)了顯著的性能提升,其中拼接方法顯示出稍好的結(jié)果。這證明了兩種注意力機(jī)制的有效性。

搜索視頻片段的長度。如下表 VIII 所示,消融了搜索視頻序列長度對(duì)跟蹤性能的影響。當(dāng)視頻片段長度從 2 增加到 3 時(shí),AUC 指標(biāo)提高了 0.3%。然而,序列長度的持續(xù)增加并未帶來性能提升,表明過長的搜索視頻片段會(huì)給模型帶來學(xué)習(xí)負(fù)擔(dān)。因此,我們應(yīng)選擇適當(dāng)?shù)乃阉饕曨l片段長度。此外,為了評(píng)估序列長度對(duì)多模態(tài)跟蹤性能的影響,在 LasHeR, DepthTrack和 VisEvent 基準(zhǔn)上進(jìn)行了對(duì)比實(shí)驗(yàn),如表 XVI 所示。視頻序列長度的選擇對(duì)于利用時(shí)序信息至關(guān)重要。當(dāng)序列長度從 2 增加到 3 時(shí),我們的跟蹤器在 LasHeR, DepthTrack 和 VisEvent 基準(zhǔn)上的 SR 和 F-score 分別提高了 0.7%, 0.2% 和 1.6%。這些增益來自于通過多幀信息有效建模目標(biāo)外觀變化和運(yùn)動(dòng)軌跡。然而,當(dāng)序列長度超過 3 時(shí),由于跨模態(tài)時(shí)序噪聲的積累,性能趨于穩(wěn)定或略有下降。這證實(shí)了適當(dāng)選擇的序列長度可以提供互補(bǔ)信息,而過長的序列更可能引入冗余或有噪聲的上下文信號(hào)。因此,我們的 UM-ODTrack 采用序列長度 3 作為最佳設(shè)置,以在合適的時(shí)間跨度內(nèi)捕獲上下文信息。

采樣范圍。為了驗(yàn)證采樣范圍對(duì)算法性能的影響,在下表 IX 中對(duì)視頻幀的采樣范圍進(jìn)行了實(shí)驗(yàn)。當(dāng)采樣范圍從 200 擴(kuò)大到 1200 時(shí),AUC 指標(biāo)的性能有顯著提高,表明視頻級(jí)框架能夠從更大的采樣范圍學(xué)習(xí)目標(biāo)軌跡信息。

門控感知器和門控激活函數(shù)的有效性。我們進(jìn)行實(shí)驗(yàn)以驗(yàn)證在通用模態(tài)感知跟蹤框架下提出的兩個(gè)組件,即條件門控和門控模態(tài)可擴(kuò)展感知器(GMP)的有效性,如下表 X 所示。基線方法指的是 ODTrack 的雙流版本。通過將條件門控模塊添加到基線中,我們的跟蹤器在三個(gè)下游跟蹤數(shù)據(jù)集上的性能得到了改善。例如,配備條件門控的跟蹤器在 DepthTrack 基準(zhǔn)上的 F-score 指標(biāo)實(shí)現(xiàn)了 1.3% 的提升。此外,通過將 GMP 納入我們的模型,其性能得到進(jìn)一步改善。這證明了我們提出的兩個(gè)門控模塊的有效性。此外,為了研究門控激活函數(shù)的效果,在表 XIII 中使用了不同的門控激活函數(shù)進(jìn)行實(shí)驗(yàn)。與 ReLU 和 sigmoid 相比,tanh 激活函數(shù)表現(xiàn)最佳。這一結(jié)果表明,在我們的門控感知器中,tanh 門控函數(shù)更適合學(xué)習(xí)和表示通用的多模態(tài)跟蹤任務(wù),可能提供更好的泛化能力。

條件門控和 GMP 的層數(shù)。分別比較了條件門控和 GMP 的層數(shù)對(duì)模型的影響。實(shí)驗(yàn)結(jié)果記錄在表 XI 和表 XII 中。對(duì)于條件門控,隨著層數(shù)的增加,我們跟蹤器的性能相應(yīng)提高。這意味著在通用模態(tài)編碼器中集成更多層有助于學(xué)習(xí)多模態(tài)表示。另一方面,當(dāng)在 GMP 模塊中使用三層或六層時(shí),我們的 UM-ODTrack 取得了良好的跟蹤結(jié)果。為了平衡速度和性能,我們選擇使用三層配置。

多模態(tài)線索的重要性。為了驗(yàn)證在視覺跟蹤中融合 RGB 幀與其他模態(tài)幀的有效性,我們報(bào)告了 UM-ODTrack 上僅使用 RGB 數(shù)據(jù)和雙模態(tài)數(shù)據(jù)的跟蹤結(jié)果。如表 XIV (#1 和 #5) 所示,當(dāng)僅使用 RGB 幀時(shí),我們的跟蹤器在三個(gè)下游基準(zhǔn)上表現(xiàn)出顯著的性能下降。例如,在 LasHeR 數(shù)據(jù)集中,SR 和 PR 指標(biāo)分別下降了 6.3% 和 7.2%,表明多模態(tài)線索的注入(或多模態(tài)融合)對(duì)于多模態(tài)跟蹤是顯著有效且至關(guān)重要的。

共享模態(tài)標(biāo)記器的重要性。我們比較了共享和非共享標(biāo)記器對(duì)多模態(tài)跟蹤性能的影響。在實(shí)驗(yàn)中,我們使用共享和非共享標(biāo)記器對(duì)多模態(tài)數(shù)據(jù)進(jìn)行編碼,并將編碼后的數(shù)據(jù)輸入跟蹤模型進(jìn)行訓(xùn)練和推理。共享標(biāo)記器是指使用統(tǒng)一的標(biāo)記器對(duì)所有模態(tài)的數(shù)據(jù)進(jìn)行編碼,而非共享標(biāo)記器則涉及對(duì)每種模態(tài)使用不同的標(biāo)記器。如表 XIV (#2 和 #5) 所示,我們發(fā)現(xiàn)共享標(biāo)記器的跟蹤性能更優(yōu)。這表明共享標(biāo)記器可以更有效地捕捉多模態(tài)數(shù)據(jù)之間的相關(guān)性,從而提升我們跟蹤器的整體性能。

完全微調(diào) vs. 適配器/提示微調(diào)。如圖 12 所示,探索了使用不同訓(xùn)練策略(例如適配器微調(diào)和完全微調(diào))來訓(xùn)練我們模型的實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果記錄在表 XIV (#3 和 #5) 中?梢杂^察到,適配器微調(diào)和完全微調(diào)策略都取得了良好的性能提升,其中完全微調(diào)顯示出稍好的結(jié)果。理論上,具有較少學(xué)習(xí)參數(shù)的適配器微調(diào)可以節(jié)省更多 GPU 資源。然而,在實(shí)踐中,由于其他模型參數(shù)在訓(xùn)練期間保留了梯度,其訓(xùn)練資源并未顯著減少,這與完全微調(diào)方案相當(dāng)。因此,我們選擇具有更多學(xué)習(xí)參數(shù)的完全微調(diào)作為我們的訓(xùn)練策略。

多任務(wù)一次性訓(xùn)練 vs. 單任務(wù)獨(dú)立訓(xùn)練。為了評(píng)估多任務(wù)統(tǒng)一(一次性)訓(xùn)練對(duì)我們最終模型的好處,我們?yōu)槿齻(gè)子跟蹤任務(wù)獨(dú)立訓(xùn)練了專家模型,如表 XIV 所示。#4 和 #5 的比較結(jié)果表明,我們的一次性訓(xùn)練方案帶來了顯著的性能提升。例如,僅在 DepthTrack 數(shù)據(jù)集上訓(xùn)練的模型達(dá)到了 67.8% 的 F-score,而在 DepthTrack, LasHeR 和 VisEvent 上聯(lián)合訓(xùn)練的模型則達(dá)到了 69.3% 的更高 F-score,提升了 1.5%。將此改進(jìn)歸因于每個(gè)模態(tài)跟蹤任務(wù)可用訓(xùn)練數(shù)據(jù)數(shù)量和多樣性的增加,以及設(shè)計(jì)的門控感知器在聚合多模態(tài)特征方面的有效性。這些因素共同增強(qiáng)了我們統(tǒng)一多模態(tài)跟蹤模型在各種跟蹤場景中的魯棒性和泛化能力。

模態(tài)權(quán)重比率。我們進(jìn)行了一項(xiàng)比較研究,如表 XV 所示,以評(píng)估不同模態(tài)權(quán)重對(duì)模型性能的影響。如結(jié)果所示,跟蹤器的變體在不同權(quán)重方案下表現(xiàn)一致良好。例如,在權(quán)重配置為 depth: infrared: event = 2:1:1 時(shí),我們的模型在 DepthTrack, LasHeR 和 VisEvent 數(shù)據(jù)集上分別實(shí)現(xiàn)了 69.1%, 60.4% 和 61.7% 的 F-score 和 SR 值。這些發(fā)現(xiàn)表明,我們的方法對(duì)模態(tài)的具體權(quán)重不高度敏感。因此,等權(quán)重方案(depth: infrared: event = 1:1:1)可以有效地平衡每個(gè)模態(tài)的貢獻(xiàn),并作為我們模型的一個(gè)魯棒的默認(rèn)配置。

D. 定性分析

速度、FLOPs 和參數(shù)量分析。在模型參數(shù)量、FLOPs 和推理速度方面進(jìn)行了對(duì)比實(shí)驗(yàn),如表 XVII 所示。在相同的測試機(jī)器(即 2080Ti)上,ODTrack 與最新的跟蹤器 SeqTrack 相比獲得了更快的推理速度。我們的跟蹤器運(yùn)行速度為 32 fps。

可視化。對(duì)于 RGB 跟蹤任務(wù),為了直觀展示我們方法的有效性,特別是在包含相似干擾物的復(fù)雜場景中,在 LaSOT 上可視化了ODTrack 和三個(gè)先進(jìn)跟蹤器的跟蹤結(jié)果。如圖 9 所示,由于其能夠密集傳播目標(biāo)的軌跡信息,我們的跟蹤器在這些序列上遠(yuǎn)遠(yuǎn)優(yōu)于最新的跟蹤器 SeqTrack。

對(duì)于多模態(tài)跟蹤任務(wù),我們分別在 LasHeR, DepthTrack 和 VisEvent 數(shù)據(jù)集上可視化了我們的 UM-ODTrack 和其他 SOTA 跟蹤器的多模態(tài)跟蹤結(jié)果,如圖 11 所示。受益于門控感知器對(duì)任意模態(tài)的通用感知能力,與其他多模態(tài)跟蹤器相比,我們的 UM-ODTrack 能夠在復(fù)雜序列中準(zhǔn)確定位目標(biāo)。同時(shí),我們比較了帶有和不帶門控模態(tài)可擴(kuò)展感知器(GMP)的特征表示。如圖 13 所示,在沒有 GMP 模塊的情況下,模型缺乏捕捉模態(tài)間相關(guān)性的能力,導(dǎo)致學(xué)習(xí)到的表示常常關(guān)注與目標(biāo)相似的干擾物。相比之下,當(dāng)配備包含基于注意力的門控機(jī)制的 GMP 模塊時(shí),本文的跟蹤器在復(fù)雜的多模態(tài)跟蹤場景中有效抑制了此類干擾,使模型能夠更準(zhǔn)確地聚焦于目標(biāo)對(duì)象。

此外,可視化了時(shí)序令牌注意力操作的注意力圖,如圖 10 所示。我們可以觀察到時(shí)序令牌持續(xù)傳播并關(guān)注物體的運(yùn)動(dòng)軌跡信息,這有助于我們的跟蹤器準(zhǔn)確定位目標(biāo)實(shí)例。

結(jié)論

本工作探索了一個(gè)有趣的視頻級(jí)視覺目標(biāo)跟蹤框架,稱為 ODTrack。將視覺跟蹤重新定義為一個(gè)令牌傳播任務(wù),以自回歸的方式密集關(guān)聯(lián)跨視頻幀的上下文關(guān)系。此外,為了從單模態(tài)感知擴(kuò)展到多模態(tài)感知,提出了 UM-ODTrack,一個(gè)通用的視頻級(jí)模態(tài)感知視覺跟蹤框架,通過設(shè)計(jì)門控注意力機(jī)制有效聚合目標(biāo)實(shí)例的多模態(tài)時(shí)序信息。具體來說,設(shè)計(jì)了一種視頻序列采樣策略和兩種時(shí)序令牌傳播注意力機(jī)制,使得所提出的框架能夠簡化視頻級(jí)時(shí)空建模并避免復(fù)雜的在線更新策略。此外,提出了兩個(gè)門控模態(tài)可擴(kuò)展感知器來聚合來自各種模態(tài)的目標(biāo)時(shí)空信息。最后,本模型可以通過一次性訓(xùn)練方案,使用同一套模型參數(shù)同時(shí)推理不同的多模態(tài)跟蹤任務(wù)。大量實(shí)驗(yàn)表明,UM-ODTrack 在七個(gè)可見光跟蹤和五個(gè)多模態(tài)跟蹤基準(zhǔn)上取得了優(yōu)異的結(jié)果。期望 ODTrack 和 UM-ODTrack 能成為通用視頻級(jí)模態(tài)感知跟蹤的強(qiáng)大基線,激發(fā)可見光跟蹤和多模態(tài)跟蹤領(lǐng)域的進(jìn)一步研究。

參考文獻(xiàn)

[1] Towards Universal Modal Tracking with Online Dense Temporal Token Learning

       原文標(biāo)題 : 頂刊TPAMI 2025!一個(gè)模型搞定所有!多模態(tài)跟蹤“全能王”UM-ODTrack橫空出世

聲明: 本文由入駐維科號(hào)的作者撰寫,觀點(diǎn)僅代表作者本人,不代表OFweek立場。如有侵權(quán)或其他問題,請(qǐng)聯(lián)系舉報(bào)。

發(fā)表評(píng)論

0條評(píng)論,0人參與

請(qǐng)輸入評(píng)論內(nèi)容...

請(qǐng)輸入評(píng)論/評(píng)論長度6~500個(gè)字

您提交的評(píng)論過于頻繁,請(qǐng)輸入驗(yàn)證碼繼續(xù)

  • 看不清,點(diǎn)擊換一張  刷新

暫無評(píng)論

暫無評(píng)論

    人工智能 獵頭職位 更多
    掃碼關(guān)注公眾號(hào)
    OFweek人工智能網(wǎng)
    獲取更多精彩內(nèi)容
    文章糾錯(cuò)
    x
    *文字標(biāo)題:
    *糾錯(cuò)內(nèi)容:
    聯(lián)系郵箱:
    *驗(yàn) 證 碼:

    粵公網(wǎng)安備 44030502002758號(hào)