計數(shù)和定位:一個純粹基于點的框架
歡迎關(guān)注公眾號 CV技術(shù)指南 ,專注于計算機視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。
前言:
在人群中定位個體更符合后續(xù)高級人群分析任務(wù)的實際需求,而不是簡單地計數(shù)。然而,現(xiàn)有的基于定位的方法依賴于作為學(xué)習(xí)目標(biāo)的中間表示(即密度圖或偽框)是違反直覺和容易出錯的。
論文提出了一個純粹基于點的框架,用于聯(lián)合人群計數(shù)和個體定位。對于這個框架,論文提出了一個新的度量標(biāo)準(zhǔn),稱為密度歸一化平均精度 (density Normalized Average Precision --nAP),而不是僅僅報告圖像級別的絕對計數(shù)誤差,以提供更全面和更精確的性能評估。
此外,論文在這個框架下設(shè)計了一個直觀的解決方案,稱為點對點網(wǎng)絡(luò)(P2PNet)。P2PNet 丟棄了多余的步驟,直接預(yù)測一組point proposals來表示圖像中的頭部,與人類標(biāo)注結(jié)果一致。通過徹底的分析,論文揭示了實現(xiàn)這種新穎想法的關(guān)鍵步驟是為這些proposals分配最佳學(xué)習(xí)目標(biāo)。
P2PNet 不僅在流行的計數(shù)基準(zhǔn)上顯著超越了SOTA方法,而且還實現(xiàn)了有前途的定位精度。
出發(fā)點
在人群分析的所有相關(guān)具體任務(wù)中,人群計數(shù)是一個基本支柱,旨在估計人群中的個體數(shù)量。 然而,簡單地給出一個數(shù)字顯然遠(yuǎn)遠(yuǎn)不能支持后續(xù)更高層次的人群分析任務(wù)的實際需求,如人群跟蹤、活動識別、異常檢測、流量/行為預(yù)測等。
事實上,這個領(lǐng)域有一個明顯的趨勢,即除了簡單的計數(shù)之外,更具有挑戰(zhàn)性的細(xì)粒度估計(即個體的位置)。 具體來說,一些方法將人群計數(shù)視為頭部檢測問題,但在對小尺度頭部進行勞動密集型注釋上留下了更多的努力。 其他方法試圖生成僅提供點注釋的頭部偽邊界框,但這至少看起來很棘手或不準(zhǔn)確。 同樣試圖直接定位個體,有幾種方法在抑制或分裂過近的候選實例時陷入困境,由于頭部尺度的極端變化,特別是對于高度擁擠的區(qū)域,它們?nèi)菀壮鲥e。
在評估指標(biāo)方面,一些有遠(yuǎn)見的工作鼓勵采用補丁級別的指標(biāo)進行細(xì)粒度評估,但它們僅提供了對定位的粗略衡量標(biāo)準(zhǔn)。 其他現(xiàn)有的定位感知指標(biāo)要么忽略了人群中的顯著密度變化,要么缺乏對重復(fù)預(yù)測的懲罰。
創(chuàng)新思路
為了解決上述問題,論文提出了一個純粹基于點的框架,用于聯(lián)合計數(shù)和定位人群中的個人。 該框架直接使用點標(biāo)注作為學(xué)習(xí)目標(biāo),同時輸出點來定位個體,受益于點表示的高精度定位特性和相對便宜的標(biāo)注成本。
論文提出了一種稱為密度歸一化平均精度 (density Normalized Average Precision --nAP) 的新指標(biāo),為定位和計數(shù)錯誤提供綜合評估指標(biāo)。nAP 指標(biāo)支持框和點表示作為輸入(即預(yù)測或注釋),沒有上述缺陷。
作為這個新框架下的直觀解決方案,論文開發(fā)了一種新方法來直接預(yù)測一組具有圖像中頭部坐標(biāo)及其置信度的point proposals。具體來說,論文提出了一個點對點網(wǎng)絡(luò) (P2PNet) 來直接接收一組帶標(biāo)注的頭部點用于訓(xùn)練,并在推理過程中預(yù)測點。
為了使這樣的想法正確工作,論文深入研究了ground truth target分配過程,以揭示這種關(guān)聯(lián)的關(guān)鍵。結(jié)論是,無論是多個proposals 與單個ground truth匹配的情況,還是相反的情況,都會使模型在訓(xùn)練期間混淆,導(dǎo)致高估或低估計數(shù)。
因此,論文建議通過匈牙利算法進行一對一匹配,將point proposals與其ground truth target相關(guān)聯(lián),未匹配的proposals 應(yīng)歸類為負(fù)樣本。憑經(jīng)驗表明,這種匹配有利于改進 nAP 指標(biāo),作為論文在新框架下解決方案的關(guān)鍵組成部分。這種簡單、直觀和高效的設(shè)計產(chǎn)生了SOTA的計數(shù)性能和有前途的定位精度。
Methods
Purely Point-based Framework
這里簡要說明這種新框架的思路。給定一個有N個個體的圖像,用N個點來表示個體的頭部中心點。網(wǎng)絡(luò)輸出兩個東西,一個是預(yù)測頭部的中心點P,一個是該中心點的置信度C。目標(biāo)是使預(yù)測點與ground truth盡可能地接近,并有足夠高的置信度。
與傳統(tǒng)的計數(shù)方法相比,該框架提供的個體位置有助于那些基于運動的人群分析任務(wù),如人群跟蹤、活動識別、異常檢測等 此外,該框架不依賴于勞動密集型標(biāo)注、不準(zhǔn)確的偽框或棘手的后處理,受益于原始點表示的高精度定位特性,特別是對于人群中高度擁擠的區(qū)域。
因此,這個新框架由于其相對于傳統(tǒng)人群計數(shù)的優(yōu)勢和實用價值而值得更多關(guān)注。 然而,由于存在嚴(yán)重的遮擋、密度變化和標(biāo)注錯誤,處理這樣的任務(wù)是非常具有挑戰(zhàn)性的 ,這在 [13] 中甚至被認(rèn)為是理想的但不可行的。
Density Normalized Average Precision
一個預(yù)測點 p?j 只有在它可以匹配到某個ground truth pi 時才被歸類為 TP。 匹配過程由基于像素級歐幾里德距離的準(zhǔn)則 (?pj , pi) 指導(dǎo)。 然而,直接使用像素距離來測量親和度忽略了人群之間大密度變化的副作用。 因此,為此匹配標(biāo)準(zhǔn)引入了密度歸一化,以緩解密度變化問題。
簡單說來就是引入最近鄰K(取3)個點,將它們的距離歸一化。
用公式表示如下:
預(yù)測與ground truth匹配方案
(a) 在為每個ground truth點選擇最近的提議時,多個ground truth點可能與同一個提議匹配,這會導(dǎo)致計數(shù)低估。 (b) 在為每個提案選擇最近的ground truth時,多個提案可能會與相同的地面實況點匹配,這會導(dǎo)致高估計數(shù)。 (c) 論文通過匈牙利算法進行一對一匹配沒有以上兩個缺陷,因此適合直接點預(yù)測。
P2PNet
P2PNet 的整體架構(gòu)
建立在 VGG16 之上,它首先引入了一個上采樣路徑來獲得細(xì)粒度的深度特征圖。 然后它利用兩個分支同時預(yù)測一組點提議及其置信度分?jǐn)?shù)。pipeline中的關(guān)鍵步驟是確保point proposals和ground truth點之間的一對一匹配,這決定了這些proposals的學(xué)習(xí)目標(biāo)。
loss function如下:
Conclusion
本文來源于公眾號 CV技術(shù)指南 的論文分享系列。
歡迎關(guān)注公眾號 CV技術(shù)指南 ,專注于計算機視覺的技術(shù)總結(jié)、最新技術(shù)跟蹤、經(jīng)典論文解讀。

請輸入評論內(nèi)容...
請輸入評論/評論長度6~500個字
最新活動更多
-
即日-9.1立即下載>> 【限時下載】ADI中國三十周年感恩回饋助力企業(yè)升級!
-
即日-9.16點擊進入 >> 【限時福利】TE 2025國際物聯(lián)網(wǎng)展·深圳站
-
10月23日立即報名>> Works With 開發(fā)者大會深圳站
-
10月24日立即參評>> 【評選】維科杯·OFweek 2025(第十屆)物聯(lián)網(wǎng)行業(yè)年度評選
-
11月27日立即報名>> 【工程師系列】汽車電子技術(shù)在線大會
-
12月18日立即報名>> 【線下會議】OFweek 2025(第十屆)物聯(lián)網(wǎng)產(chǎn)業(yè)大會
推薦專題
- 1 阿里首位程序員,“掃地僧”多隆已離職
- 2 先進算力新選擇 | 2025華為算力場景發(fā)布會暨北京xPN伙伴大會成功舉辦
- 3 宇樹機器人撞人事件的深度剖析:六維力傳感器如何成為人機安全的關(guān)鍵屏障
- 4 清華跑出具身智能獨角獸:給機器人安上眼睛和大腦,融資近20億
- 5 特朗普要求英特爾首位華人 CEO 辭職
- 6 踢館大廠和微軟,剖析WPS靈犀的AI實用主義
- 7 騰訊 Q2 財報亮眼:AI 已成第二增長曲線
- 8 谷歌吹響AI沖鋒號,AI還有哪些機會
- 9 蘋果把身家押在Siri上:一場輸不起的自我革命
- 10 共探合作新機遇!江門市新會區(qū)(深圳)“AI + 機器人” 產(chǎn)業(yè)對接會成功舉辦