深蘭科技|目標(biāo)檢測(cè)二十年間的那些事兒
(2) HOG 檢測(cè)器
方向梯度直方圖(HOG)特征描述器最初是由N. Dalal和B.Triggs在2005年提出的[11]。HOG對(duì)當(dāng)時(shí)的尺度不變特征變換(scale-invariant feature transform)和形狀語(yǔ)境(shape contexts)做出重要改進(jìn)。為了平衡特征不變性 ( 包括平移、尺度、光照等 ) 和非線性 ( 區(qū)分不同對(duì)象類(lèi)別 ),HOG描述器被設(shè)計(jì)為在密集的均勻間隔單元網(wǎng)格(稱為一個(gè)“區(qū)塊”)上計(jì)算,并使用重疊局部對(duì)比度歸一化方法來(lái)提高精度。雖然HOG可以用來(lái)檢測(cè)各種對(duì)象類(lèi),但它的主要目標(biāo)是行人檢測(cè)問(wèn)題。如若要檢測(cè)不同大小的對(duì)象,則要讓HOG檢測(cè)器在保持檢測(cè)窗口大小不變的情況下,對(duì)輸入圖像進(jìn)行多次重設(shè)尺寸(rescale)。這么多年來(lái),HOG檢測(cè)器一直是許多目標(biāo)檢測(cè)器和各種計(jì)算機(jī)視覺(jué)應(yīng)用的重要基礎(chǔ)。
方向梯度直方圖(HOG),計(jì)算出每個(gè)像素朝四周的梯度方向和梯度強(qiáng)度,并統(tǒng)計(jì)形成梯度直方圖
(3) 基于可變形部件的模型(DPM)
DPM作為voco -07、-08、-09屆檢測(cè)挑戰(zhàn)賽的優(yōu)勝者,它曾是傳統(tǒng)目標(biāo)檢測(cè)方法的巔峰。DPM最初是由P. Felzenszwalb提出的[12],于2008年作為HOG檢測(cè)器的擴(kuò)展,之后R. Girshick進(jìn)行了各種改進(jìn)[13][14]。
DPM遵循“分而治之”的檢測(cè)思想,訓(xùn)練可以簡(jiǎn)單地看作是學(xué)習(xí)一種正確的分解對(duì)象的方法,推理可以看作是對(duì)不同對(duì)象部件的檢測(cè)的集合。例如,檢測(cè)“汽車(chē)”的問(wèn)題可以看作是檢測(cè)它的窗口、車(chē)身和車(chē)輪。工作的這一部分,也就是“star model”由P.Felzenszwalb等人完成。后來(lái),R. Girshick進(jìn)一步將star model擴(kuò)展到 “ 混合模型 ”,以處理更顯著變化下的現(xiàn)實(shí)世界中的物體。
一個(gè)典型的DPM檢測(cè)器由一個(gè)根過(guò)濾器(root-filter)和一些零件濾波器(part-filters)組成。該方法不需要手動(dòng)設(shè)定零件濾波器的配置(如尺寸和位置),而是在開(kāi)發(fā)了一種弱監(jiān)督學(xué)習(xí)方法并使用到了DPM中,所有零件濾波器的配置都可以作為潛在變量自動(dòng)學(xué)習(xí)。R. Girshick將這個(gè)過(guò)程進(jìn)一步表述為一個(gè)多實(shí)例學(xué)習(xí)的特殊案例,同時(shí)還應(yīng)用了“困難負(fù)樣本挖掘(hard-negative mining)”、“邊界框回歸”、“語(yǔ)境啟動(dòng)”等重要技術(shù)以提高檢測(cè)精度。而為了加快檢測(cè)速度,Girshick開(kāi)發(fā)了一種技術(shù),將檢測(cè)模型“ 編譯 ”成一個(gè)更快的模型,實(shí)現(xiàn)了級(jí)聯(lián)結(jié)構(gòu),在不犧牲任何精度的情況下實(shí)現(xiàn)了超過(guò)10倍的加速。
雖然今天的目標(biāo)探測(cè)器在檢測(cè)精度方面已經(jīng)遠(yuǎn)遠(yuǎn)超過(guò)了DPM,但仍然受到DPM的許多有價(jià)值的見(jiàn)解的影響,如混合模型、困難負(fù)樣本挖掘、邊界框回歸等。2010年,P. Felzenszwalb和R. Girshick被授予PASCAL VOC的 “終身成就獎(jiǎng)”。
基于卷積神經(jīng)網(wǎng)絡(luò)的雙級(jí)檢測(cè)器
隨著手動(dòng)選取特征技術(shù)的性能趨于飽和,目標(biāo)檢測(cè)在2010年之后達(dá)到了一個(gè)平穩(wěn)的發(fā)展期。2012年,卷積神經(jīng)網(wǎng)絡(luò)在世界范圍內(nèi)重新煥發(fā)生機(jī)[15]。由于深卷積網(wǎng)絡(luò)能夠?qū)W習(xí)圖像的魯棒性和高層次特征表示,一個(gè)自然而然的問(wèn)題是:我們能否將其應(yīng)用到目標(biāo)檢測(cè)中?R. Girshick等人在2014年率先打破僵局,提出了具有CNN特征的區(qū)域(RCNN)用于目標(biāo)檢測(cè)[16]。從那時(shí)起,目標(biāo)檢測(cè)開(kāi)始以前所未有的速度發(fā)展。在深度學(xué)習(xí)時(shí)代,目標(biāo)檢測(cè)可以分為兩類(lèi):“雙級(jí)檢測(cè)(two-stage detection)” 和 “單級(jí)檢測(cè)(one-stage detection)”,前者將檢測(cè)框定為一個(gè)“從粗到細(xì) ”的過(guò)程,而后者將其定義為“一步到位”。
雙級(jí)檢測(cè)的發(fā)展及各類(lèi)檢測(cè)器的結(jié)構(gòu)[2]
(1) RCNN
RCNN[17]的思路很簡(jiǎn)單:它首先通過(guò)選擇性搜索來(lái)提取一組對(duì)象作為“提案(proposal)”并當(dāng)做對(duì)象的候選框。然后將每個(gè)提案重新調(diào)整成一個(gè)固定大小的圖像,再輸入到一個(gè)在ImageNet上訓(xùn)練得到的CNN模型(如AlexNet) 來(lái)提取特征。最后,利用線性SVM分類(lèi)器對(duì)每個(gè)區(qū)域內(nèi)的目標(biāo)進(jìn)行預(yù)測(cè),識(shí)別目標(biāo)類(lèi)別。RCNN在VOC07測(cè)試集上有明顯的性能提升,平均精準(zhǔn)度 (mean Average Precision,mAP) 從33.7%(DPM-v5) 大幅提高到58.5%。
雖然RCNN已經(jīng)取得了很大的進(jìn)步,但它的缺點(diǎn)是顯而易見(jiàn)的:需要在大量重疊的提案上進(jìn)行冗余的特征計(jì)算 (一張圖片超過(guò)2000個(gè)框),導(dǎo)致檢測(cè)速度極慢(使用GPU時(shí)每張圖片耗時(shí)14秒)。同年晚些時(shí)候,有人提出了SPPNet并克服了這個(gè)問(wèn)題。
(2) SPPNet
2014年,K. He等人提出了空間金字塔池化網(wǎng)絡(luò)( Spatial Pyramid Pooling Networks,SPPNet)[18]。以前的CNN模型需要固定大小的輸入,例如AlexNet需要224x224圖像。SPPNet的主要貢獻(xiàn)是引入了空間金字塔池化(SPP)層,它使CNN能夠生成固定長(zhǎng)度的表示,而不需要重新調(diào)節(jié)有意義圖像的尺寸。利用SPPNet進(jìn)行目標(biāo)檢測(cè)時(shí),只對(duì)整個(gè)圖像進(jìn)行一次特征映射計(jì)算,然后生成任意區(qū)域的定長(zhǎng)表示以訓(xùn)練檢測(cè)器,避免了卷積特征的重復(fù)計(jì)算。SPPNet的速度是R-CNN的20多倍,并且沒(méi)有犧牲任何檢測(cè)精度(VOC07 mAP=59.2%)。
SPPNet雖然有效地提高了檢測(cè)速度,但仍然存在一些不足:第一,訓(xùn)練仍然是多階段的,第二,SPPNet只對(duì)其全連接層進(jìn)行微調(diào),而忽略了之前的所有層。而次年晚些時(shí)候出現(xiàn)Fast RCNN并解決了這些問(wèn)題。

發(fā)表評(píng)論
請(qǐng)輸入評(píng)論內(nèi)容...
請(qǐng)輸入評(píng)論/評(píng)論長(zhǎng)度6~500個(gè)字
圖片新聞
最新活動(dòng)更多
-
7月8日立即報(bào)名>> 【在線會(huì)議】英飛凌新一代智能照明方案賦能綠色建筑與工業(yè)互聯(lián)
-
7月22-29日立即報(bào)名>> 【線下論壇】第三屆安富利汽車(chē)生態(tài)圈峰會(huì)
-
7月31日免費(fèi)預(yù)約>> OFweek 2025具身機(jī)器人動(dòng)力電池技術(shù)應(yīng)用大會(huì)
-
7.30-8.1火熱報(bào)名中>> 全數(shù)會(huì)2025(第六屆)機(jī)器人及智能工廠展
-
免費(fèi)參會(huì)立即報(bào)名>> 7月30日- 8月1日 2025全數(shù)會(huì)工業(yè)芯片與傳感儀表展
-
即日-2025.8.1立即下載>> 《2024智能制造產(chǎn)業(yè)高端化、智能化、綠色化發(fā)展藍(lán)皮書(shū)》
推薦專題
- 1 AI 眼鏡讓百萬(wàn) APP「集體失業(yè)」?
- 2 豆包前負(fù)責(zé)人喬木出軌BP后續(xù):均被辭退
- 3 一文看懂視覺(jué)語(yǔ)言動(dòng)作模型(VLA)及其應(yīng)用
- 4 “支付+”時(shí)代,支付即生態(tài) | 2025中國(guó)跨境支付十大趨勢(shì)
- 5 中國(guó)最具實(shí)力AI公司TOP10
- 6 特斯拉Robotaxi上路,馬斯克端上畫(huà)了十年的餅
- 7 國(guó)家數(shù)據(jù)局局長(zhǎng)劉烈宏調(diào)研格創(chuàng)東智
- 8 AI的夏天:第四范式VS云從科技VS地平線機(jī)器人
- 9 張勇等人退出阿里合伙人
- 10 深圳跑出40億超級(jí)隱形冠軍:賣(mài)機(jī)器人年入6.1億,港股上市