重新思考視覺(jué)transformers的空間維度
歡迎關(guān)注公眾號(hào) CV技術(shù)指南 ,專注于計(jì)算機(jī)視覺(jué)的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。
前言:
由于基于transformers的架構(gòu)在計(jì)算機(jī)視覺(jué)建模方面具有創(chuàng)新性,因此對(duì)有效架構(gòu)的設(shè)計(jì)約定的研究還較少。從 CNN 的成功設(shè)計(jì)原則出發(fā),我們研究了空間維度轉(zhuǎn)換的作用及其對(duì)基于transformers的架構(gòu)的有效性。
我們特別關(guān)注CNNs的降維原理;隨著深度的增加,傳統(tǒng)的 CNN 會(huì)增加通道維度并減少空間維度。我們憑經(jīng)驗(yàn)表明,這種空間降維也有利于transformers架構(gòu),并在原始 ViT 模型上提出了一種新型的基于池化的視覺(jué)transformers (Pooling-based Vision Transformer--PiT)。
我們表明 PiT 實(shí)現(xiàn)了針對(duì) ViT 的改進(jìn)模型能力和泛化性能。在廣泛的實(shí)驗(yàn)中,我們進(jìn)一步表明 PiT 在圖像分類、目標(biāo)檢測(cè)和魯棒性評(píng)估等多項(xiàng)任務(wù)上優(yōu)于baseline。
出發(fā)點(diǎn)
1. CNN 限制了空間交互,ViT 允許圖像中的所有位置通過(guò)transformers層交互。
2. 雖然ViT 是一種創(chuàng)新架構(gòu),并且已經(jīng)證明了其強(qiáng)大的圖像識(shí)別能力,但它沿用了NLP中的 Transformer 架構(gòu),沒(méi)有任何變化。
3. CNN 的一些基本設(shè)計(jì)原則在過(guò)去十年中已被證明在計(jì)算機(jī)視覺(jué)領(lǐng)域有效,但并未得到充分反映。
因此,我們重新審視了 CNN 架構(gòu)的設(shè)計(jì)原則,并研究了它們?cè)趹?yīng)用于 ViT 架構(gòu)時(shí)的功效。
創(chuàng)新思路
CNN 以大空間尺寸和小通道尺寸的特征開(kāi)始,并逐漸增加通道尺寸,同時(shí)減小空間尺寸。由于稱為空間池化的層,這種維度轉(zhuǎn)換是必不可少的。現(xiàn)代 CNN 架構(gòu),包括 AlexNet、ResNet和 EfficientNet,都遵循這一設(shè)計(jì)原則。
池化層與每一層的感受野大小密切相關(guān)。 一些研究表明,池化層有助于網(wǎng)絡(luò)的表現(xiàn)力和泛化性能。 然而,與 CNN 不同的是,ViT 不使用池化層,而是在所有層中使用相同大小的空間。
首先,我們驗(yàn)證了 CNN 上池化層的優(yōu)勢(shì)。我們的實(shí)驗(yàn)表明,池化層證明了 ResNet 的模型能力和泛化性能。為了將池化層的優(yōu)勢(shì)擴(kuò)展到 ViT,我們提出了一種基于池化的視覺(jué)transformers (PiT)。
PiT 是一種與池化層相結(jié)合的轉(zhuǎn)換器架構(gòu)。它可以像在 ResNet 中一樣減少 ViT 結(jié)構(gòu)中的空間大小。我們還研究了 PiT 與 ViT 相比的優(yōu)勢(shì),并確認(rèn)池化層也提高了 ViT 的性能。
最后,為了分析 ViT 中池化層的效果,我們測(cè)量了 ViT 的空間交互比,類似于卷積架構(gòu)的感受野大小。我們展示了池化層具有控制自注意力層中發(fā)生的空間交互大小的作用,這類似于卷積架構(gòu)的感受野控制。
Methods
網(wǎng)絡(luò)架構(gòu)維度配置的示意圖
我們將 ResNet50 、Vision Transformer (ViT) 和基于池化的 Vision Transformer (PiT) 可視化;(a) ResNet50 從輸入到輸出逐漸下采樣特征;(b) ViT 不使用池化層,因此所有層都保持特征維度;(c) PiT 涉及將層匯集到 ViT 中。
Pooling-based Vision Transformer(PiT)
PiT 架構(gòu)的池化層
PiT 使用基于深度卷積的池化層,以小參數(shù)實(shí)現(xiàn)通道乘法和空間縮減。
Effects of the pooling layer in vision transformer (ViT)
我們?cè)诰W(wǎng)絡(luò)架構(gòu)的各個(gè)方面將我們的基于池化的視覺(jué)transformer (PiT) 與原始 ViT 進(jìn)行了比較。PiT 在容量、泛化性能和模型性能方面優(yōu)于 ViT。
Spatial interactio
self-attention層在交互token數(shù)量上也有限制,因此交互區(qū)域是根據(jù)空間大小來(lái)確定的。
我們使用 ImageNet 上的預(yù)訓(xùn)練模型測(cè)量了 ViT 和 PiT 的空間交互區(qū)域?臻g交互的標(biāo)準(zhǔn)是基于注意力矩陣的 soft-max 之后的分?jǐn)?shù)。我們使用 1% 和 10% 作為閾值,計(jì)算超過(guò)閾值的交互發(fā)生的空間位置的數(shù)量,并通過(guò)將交互位置的數(shù)量除以空間標(biāo)記的總大小來(lái)計(jì)算空間交互比率。
在 ViT 的情況下,交互作用平均在 20%-40% 之間,并且由于沒(méi)有池化層,因此數(shù)值不會(huì)因?qū)佣酗@著變化。PiT 減少了token的數(shù)量,同時(shí)通過(guò)池化增加了頭部。
因此,如圖 5 (a) 所示,早期層的交互率很小,但后一層顯示出接近 100% 的交互率。為了與 ResNet 進(jìn)行比較,我們將閾值更改為 10%,結(jié)果如圖 5 (b) 所示。
在 ResNet 的情況下,3x3 卷積意味著 3x3 空間交互。因此,我們將 3x3 除以空間大小,并將其作為近似值與注意力的交互率進(jìn)行比較。雖然 ViT 的交互率在各層中是相似的,但 ResNet 和 PiT 的交互率隨著它通過(guò)池化層而增加。
Architecture
該表顯示了 ViT 和 PiT 的spatial sizes, number of blocks, number of heads, channel size, 和FLOPs。PiT 的結(jié)構(gòu)設(shè)計(jì)為盡可能與 ViT 相似,并具有更少的 GPU 延遲。
Conclusion
我們驗(yàn)證了 PiT 在各種任務(wù)上提高了 ViT 的性能。在 ImageNet 分類中,PiT 和在各種規(guī)模和訓(xùn)練環(huán)境下都優(yōu)于 ViT。此外,我們還比較了 PiT 與各種卷積架構(gòu)的性能,并指定了 Transformer 架構(gòu)優(yōu)于 CNN 的規(guī)模。
我們使用檢測(cè)頭進(jìn)一步測(cè)量 PiT 在目標(biāo)檢測(cè)方面的性能。 基于 ViT 和 PiT 的 DETR在 COCO 2017 數(shù)據(jù)集上進(jìn)行訓(xùn)練,結(jié)果表明 PiT 作為主干架構(gòu)甚至比 ViT 更適合圖像分類以外的任務(wù)。最后,我們通過(guò)穩(wěn)健性基準(zhǔn)驗(yàn)證了 PiT 在各種環(huán)境中的性能。
本文來(lái)源于公眾號(hào) CV技術(shù)指南 的論文分享系列。
歡迎關(guān)注公眾號(hào) CV技術(shù)指南 ,專注于計(jì)算機(jī)視覺(jué)的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車研發(fā)中心重磅落地,寶馬家門口“搶人”
最新活動(dòng)更多
-
即日-9.1立即下載>> 【限時(shí)下載】ADI中國(guó)三十周年感恩回饋助力企業(yè)升級(jí)!
-
即日-9.16點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
10月24日立即參評(píng)>> 【評(píng)選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評(píng)選
-
11月27日立即報(bào)名>> 【工程師系列】汽車電子技術(shù)在線大會(huì)
-
12月18日立即報(bào)名>> 【線下會(huì)議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會(huì)
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 3 宇樹機(jī)器人撞人事件的深度剖析:六維力傳感器如何成為人機(jī)安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實(shí)用主義
- 7 騰訊 Q2 財(cái)報(bào)亮眼:AI 已成第二增長(zhǎng)曲線
- 8 谷歌吹響AI沖鋒號(hào),AI還有哪些機(jī)會(huì)
- 9 蘋果把身家押在Siri上:一場(chǎng)輸不起的自我革命
- 10 共探合作新機(jī)遇!江門市新會(huì)區(qū)(深圳)“AI + 機(jī)器人” 產(chǎn)業(yè)對(duì)接會(huì)成功舉辦