訂閱
糾錯
加入自媒體

頂會競賽最后5天被Facebook超越,又大比分反超奪冠是什么體驗?

本文為將門技術社群第227期talk直播的文字內容整理分享嘉賓:曠視南京研究院研究員 趙冰辰

眾所周知,參加頂會競賽是當今AI研究人員鍛煉自身、驗證已有學術成果的一大舞臺。從2017年到現在,曠視研究院在全球頂會累計榮獲28項世界冠軍,好奇的同學們肯定想知道其中的經驗與技巧。
為此我們很榮幸邀請到曠視南京研究院研究員—趙冰辰,與大家分享其團隊在 CVPR 2020 iWildCam 項目奪冠的經歷,同時也介紹了他們在本次比賽中針對 Camera Trap 數據的特點設計的方法及冠軍方案。

值得一提的是,雖然曠視南京研究院在整個參賽過程中持續(xù)領先,但就在最終截止日期前5天,Facebook突然大比分反超。經過對現有模型的快速分析,團隊通過序列和日期信息大幅提升了模型性能近10個點,在48小時內重新登頂,并奪得iWildCam的全球冠軍。

本文回顧了此次比賽的基本背景、團隊方案,并介紹了團隊總結的參賽經驗,希望能為同學們帶來啟發(fā)。

背景

iWildCam競賽隸屬于 CVPR 2020 FGVC workshop, 其目的是利用部署在野外無人操縱的 Camera Trap 來識別野生動物,從而輔助對野生動物的研究與保護。該比賽的難點在于,由于 Camera Trap 的拍攝機制是通過熱感或運動來觸發(fā)相機,因此成像效果與ImageNet或者是iNaturalist中的圖像有很大區(qū)別。

一個典型的camera trap設備 例如下圖,每張圖片中都存在動物,但是由于 camera trap 無人操縱的特性,獲取的畫面會受到光照、模糊、小ROI、遮擋、奇異視角、或者動物本身保護色等諸多因素的干擾。 可以發(fā)現,定位到這些動物并且給出正確分類,即使對人類來說也比較困難。

Camera Trap數據的另外一個特點在于畫面背景。由于camera trap固定在某個區(qū)域進行拍攝,因此由特定camera trap所采集到的圖片背景相似度極高。如下圖,Camera-1和Camera-2分別對應部署在兩個位置的camera trap,可以發(fā)現同一個camera拍到的圖片背景基本一致。而相應的,不同camera獲取的背景差異顯著。

因此,這對分類模型的泛化性提出了極高的要求。iWildCam數據集總共包括263個類別,28萬張圖片,其中訓練集441個camera trap,測試集111個camera trap。主辦方將全部552個位置的camera trap分成為train set 441個,和test set 111個,這也就是說測試集圖片全部來自訓練集之外的camera trap 。 另外,類別數據的長尾分布也是必須考慮的問題。 因此可以總結,在Camera Trap場景下,主要存在三個問題: Camera Trap無人操作導致的圖像模糊,遮擋等問題。來自訓練與測試集不同背景所導致的泛化問題。野生動物分布帶來的長尾問題。  針對上述問題,曠視南京研究院在此次參賽中進行了逐項攻克。  挑戰(zhàn)一:ROI尺寸過小 如前所述,iWildCam的第一個挑戰(zhàn)來自于camera trap所捕獲的畫面,即動物圖片經常存在過小或者被遮擋等問題。 因此比賽主辦方提供了Mega Detector(一個微軟提供的Camera Trap動物檢測器,輸出類別只有animal和background)。 因此,曠視南京研究院用Mega Detector來提取圖像的ROI區(qū)域,從輔助進一步的分類工作。

1  2  3  4  下一頁>  
聲明: 本文由入駐維科號的作者撰寫,觀點僅代表作者本人,不代表OFweek立場。如有侵權或其他問題,請聯系舉報。

發(fā)表評論

0條評論,0人參與

請輸入評論內容...

請輸入評論/評論長度6~500個字

您提交的評論過于頻繁,請輸入驗證碼繼續(xù)

暫無評論

暫無評論

    掃碼關注公眾號
    OFweek人工智能網
    獲取更多精彩內容
    文章糾錯
    x
    *文字標題:
    *糾錯內容:
    聯系郵箱:
    *驗 證 碼:

    粵公網安備 44030502002758號