CVPR 2020: 8比特?cái)?shù)值也能訓(xùn)練模型?商湯提出訓(xùn)練加速新算法
由于卷積神經(jīng)網(wǎng)絡(luò)的梯度具有如上四個(gè)特點(diǎn),所以當(dāng)我們直接在訓(xùn)練中對(duì)梯度進(jìn)行量化時(shí),訓(xùn)練精度非常容易出現(xiàn)突發(fā)的崩潰情況。下圖展示了在CIFAR-10數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的精度和損失函數(shù)變化曲線(xiàn),以MobileNetv2在CIFAR-10數(shù)據(jù)集上訓(xùn)練為例,其訓(xùn)練的精度曲線(xiàn)和loss曲線(xiàn)如下圖,從圖中可以發(fā)現(xiàn)INT8訓(xùn)練的loss在訓(xùn)練初期正常下降,但隨后迅速上升,對(duì)應(yīng)的精度也不斷下降。
是什么影響了收斂穩(wěn)定性
根據(jù)以上的觀察和初步啟發(fā),我們希望通過(guò)理論的分析和推導(dǎo),對(duì)量化訓(xùn)練的收斂穩(wěn)定性進(jìn)行建模。根據(jù)Adam等相關(guān)論文的經(jīng)驗(yàn)和優(yōu)化理論中的Regret analysis,不失一般性地定義R(T)為
其中f是損失函數(shù),t是訓(xùn)練輪數(shù),T是訓(xùn)練總輪數(shù),
為t輪的權(quán)重,
是最優(yōu)權(quán)重。
基于以下兩個(gè)樸素的假設(shè):
通過(guò)推導(dǎo)證明可以得到:
其中
為
輪的學(xué)習(xí)率,
為權(quán)重的維度,
為
輪的量化誤差,
是
輪的量化后梯度。
為了確保網(wǎng)絡(luò)能夠穩(wěn)定收斂,
在T變大時(shí)需要能夠達(dá)到足夠小。通過(guò)上式可以發(fā)現(xiàn),在T趨于無(wú)窮大時(shí),第(1)項(xiàng)可以忽略不計(jì),主要考慮減小第(2)項(xiàng)和第(3)項(xiàng)。
我們發(fā)現(xiàn),第(2)項(xiàng)與量化誤差正相關(guān),第(3)項(xiàng)與學(xué)習(xí)率以及量化后的梯度大小有關(guān)。
因此我們不難得到兩個(gè)直觀的提升訓(xùn)練收斂穩(wěn)定性的策略:通過(guò)調(diào)節(jié)量化函數(shù)中的截?cái)嘀禍p小量化誤差通過(guò)適當(dāng)調(diào)低學(xué)習(xí)率來(lái)提高量化訓(xùn)練精度
主要方法
依據(jù)以上分析,我們針對(duì)量化誤差和學(xué)習(xí)率提出了基于方向自適應(yīng)的梯度截?cái)嗪驼`差敏感的學(xué)習(xí)率調(diào)節(jié)兩個(gè)方法來(lái)解決量化訓(xùn)練帶來(lái)的精度損失問(wèn)題。同時(shí),為了減少量化操作帶來(lái)的額外開(kāi)銷(xiāo),本文還提出了周期更新和量化卷積融合的方法。
1. 基于方向自適應(yīng)的梯度截?cái)啵赫{(diào)整截?cái)嘀,讓梯度方向保持正確。
為了最小化量化誤差,之前有很多研究提出優(yōu)化截?cái)嘀档姆椒,其中就有研究提出通過(guò)假設(shè)數(shù)據(jù)分布直接求解最優(yōu)截?cái)嘀怠5且延械难芯慷坚槍?duì)于權(quán)重量化的截?cái)嘀颠M(jìn)行優(yōu)化。就如本文觀察所顯示,梯度的分布特征與權(quán)重區(qū)別較大,無(wú)法直接使用。本文通過(guò)KS檢驗(yàn)發(fā)現(xiàn)梯度的分布并不符合常見(jiàn)的高斯分布、拉普拉斯分布和學(xué)生t分布,因此很難通過(guò)假設(shè)梯度分布來(lái)直接求解最優(yōu)的截?cái)嘀怠?/p>
基于以上的分析,本文采用梯度下降的方法來(lái)自適應(yīng)地學(xué)習(xí)最優(yōu)截?cái)嘀,常?jiàn)的目標(biāo)函數(shù)有均方誤差函數(shù),但是由于梯度的分布特征,均方誤差的大小會(huì)受到梯度的影響,影響優(yōu)化過(guò)程;同時(shí)對(duì)于梯度來(lái)說(shuō),均方誤差并不能很好地體現(xiàn)梯度的量化誤差對(duì)于優(yōu)化過(guò)程的影響,因此本文提出使用能夠體現(xiàn)梯度方向的余弦距離來(lái)衡量梯度的量化誤差,并以余弦距離為目標(biāo)函數(shù)來(lái)優(yōu)化求解最優(yōu)截?cái)嘀怠S嘞揖嚯x定義如下:
其中,
是梯度,
是量化后的梯度。
2. 誤差敏感的學(xué)習(xí)率調(diào)節(jié):在錯(cuò)誤的方向上盡量少更新。
根據(jù)上述的理論分析,降低學(xué)習(xí)率能夠有助于模型量化訓(xùn)練的收斂。針對(duì)學(xué)習(xí)率的調(diào)整,本文提出誤差敏感的學(xué)習(xí)率調(diào)節(jié)方法,使用學(xué)習(xí)率系數(shù)對(duì)原學(xué)習(xí)率進(jìn)行調(diào)整,學(xué)習(xí)率系數(shù)與余弦距離
負(fù)相關(guān),學(xué)習(xí)率系數(shù)
定義如下:
其中
和
是超參數(shù),用于控制衰減程度和調(diào)節(jié)下界。
3. 周期更新:降低由于統(tǒng)計(jì)而帶來(lái)的額外計(jì)算耗時(shí)
由于量化操作需要的統(tǒng)計(jì)數(shù)據(jù)范圍和計(jì)算截?cái)嘀档炔僮魇趾臅r(shí),為了減少這些操作的時(shí)間開(kāi)銷(xiāo),本文采用周期更新的方式,周期性地統(tǒng)計(jì)數(shù)據(jù)范圍和計(jì)算截?cái)嘀。通過(guò)周期更新的方法能夠有效地提高減少因量化引入的額外時(shí)間開(kāi)銷(xiāo)。下表為ResNet50在ImageNet數(shù)據(jù)集上不同周期的單次訓(xùn)練時(shí)間統(tǒng)計(jì)表。
4. 量化卷積融合:減少訪存次數(shù)、節(jié)省cuda kernel launch次數(shù)
通過(guò)將量化和反量化操作融合入卷積計(jì)算的CUDA核函數(shù)里,可以減少一次數(shù)據(jù)的訪存,有效地減少量化和反量化操作的時(shí)間開(kāi)銷(xiāo)。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
-
機(jī)器人奧運(yùn)會(huì)戰(zhàn)報(bào):宇樹(shù)機(jī)器人摘下首金,天工Ultra搶走首位“百米飛人”
-
存儲(chǔ)圈掐架!江波龍起訴佰維,索賠121萬(wàn)
-
長(zhǎng)安汽車(chē)母公司突然更名:從“中國(guó)長(zhǎng)安”到“辰致科技”
-
豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
-
字節(jié)AI Lab負(fù)責(zé)人李航卸任后返聘,Seed進(jìn)入調(diào)整期
-
員工持股爆雷?廣汽埃安緊急回應(yīng)
-
中國(guó)“智造”背后的「關(guān)鍵力量」
-
小米汽車(chē)研發(fā)中心重磅落地,寶馬家門(mén)口“搶人”
最新活動(dòng)更多
-
即日-9.1立即下載>> 【限時(shí)下載】ADI中國(guó)三十周年感恩回饋助力企業(yè)升級(jí)!
-
即日-9.14點(diǎn)擊進(jìn)入 >> 【限時(shí)福利】TE 2025國(guó)際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報(bào)名>> Works With 開(kāi)發(fā)者大會(huì)深圳站
-
11月27日立即報(bào)名>> 【工程師系列】汽車(chē)電子技術(shù)在線(xiàn)大會(huì)
-
精彩回顧立即查看>> 【在線(xiàn)研討會(huì)】解析安森美(onsemi)高精度與超低功耗CGM系統(tǒng)解決方案
-
精彩回顧立即查看>> 【在線(xiàn)會(huì)議】CAE優(yōu)化設(shè)計(jì):醫(yī)療器械設(shè)計(jì)的應(yīng)用案例與方案解析
推薦專(zhuān)題
- 1 傳魏建軍與賈躍亭合作,長(zhǎng)城汽車(chē)出海美國(guó)
- 2 黃仁勛:與雷軍長(zhǎng)期合作,共探AI智駕
- 3 阿里首位程序員,“掃地僧”多隆已離職
- 4 DeepSeek R2加持,中國(guó)AI與芯片產(chǎn)業(yè)迎來(lái)新一輪協(xié)同進(jìn)化
- 5 先進(jìn)算力新選擇 | 2025華為算力場(chǎng)景發(fā)布會(huì)暨北京xPN伙伴大會(huì)成功舉辦
- 6 六大國(guó)產(chǎn)大模型,誰(shuí)是最強(qiáng)“金融分析師”?|錦緞評(píng)測(cè)
- 7 2025年第一支10倍股,來(lái)了!
- 8 清華跑出具身智能獨(dú)角獸:給機(jī)器人安上眼睛和大腦,融資近20億
- 9 募資39.85億元!寒武紀(jì)押注大模型芯片與軟件平臺(tái)
- 10 國(guó)內(nèi)免費(fèi)版Deep Research上線(xiàn),秘塔AI深度研究嘗試重塑知識(shí)工作范式