橹橹av,亚洲国产精品久久一线app

ECCV2020 GigaVision挑戰(zhàn)賽，深蘭科技包攬十億級像素雙賽道冠軍

2020-09-03 15:08

深蘭科技

關(guān)注

DeepBlueAI團(tuán)隊榮獲兩項第一

任務(wù)一：

ECCV2020 GigaVision挑戰(zhàn)賽，深蘭科技包攬十億級像素雙賽道冠軍

任務(wù)二：

ECCV2020 GigaVision挑戰(zhàn)賽，深蘭科技包攬十億級像素雙賽道冠軍

賽題特點

圖像分辨率極高、近景和遠(yuǎn)景目標(biāo)尺度差異大十億像素級的超高分辨率是整個數(shù)據(jù)集的核心問題。一方面，由于計算資源的限制，超高分辨率使得網(wǎng)絡(luò)無法接受大圖作為輸入，而單純將原圖縮放到小圖會使得目標(biāo)丟失大量信息。另一方面，圖像中近景和遠(yuǎn)景的目標(biāo)尺度差異大，給檢測器帶來了巨大的挑戰(zhàn)。目標(biāo)在圖像中分布密集，并且遮擋嚴(yán)重數(shù)據(jù)集均從廣場、學(xué)校、商圈等真實場景采集，其人流和車輛密度極大。同時，行人和車輛的擁擠、遮擋等情況頻發(fā)，容易造成目標(biāo)的漏檢和誤檢。

主要工作

賽道一 Pedestrian ＆ Vehicle Detection

根據(jù)以往積累的經(jīng)驗，團(tuán)隊首先將原圖縮放到合適尺度，并使用基于Cascade RCNN的檢測器直接檢測行人的三個類別和車輛，將其作為Baseline： Backbone ＋ DCN ＋ FPN ＋ Cascade RCNN，并在此基礎(chǔ)上進(jìn)行改進(jìn)。

ECCV2020 GigaVision挑戰(zhàn)賽，深蘭科技包攬十億級像素雙賽道冠軍

實驗結(jié)果顯示，模型存在大量的誤檢和漏檢。這些漏檢和無意義的檢測結(jié)果大幅降低了模型的性能。團(tuán)隊將上述問題歸納為兩方面的原因：

訓(xùn)練和測試時輸入模型的圖像尺度不合適。圖像經(jīng)過縮放后，目標(biāo)的尺度也隨之變小，導(dǎo)致遠(yuǎn)景中人的頭部等區(qū)域被大量遺漏。

網(wǎng)絡(luò)本身的分類能力較弱。行人的可見區(qū)域和全身區(qū)域十分相似，容易對分類器造成混淆，從而產(chǎn)生誤檢。

根據(jù)上述問題，團(tuán)隊進(jìn)行了一些改進(jìn)。首先，使用滑動窗口的方式切圖進(jìn)行訓(xùn)練�；瑒哟翱谇袌D是一種常用的大圖像處理方式，這樣可以有效的保留圖像的高分辨率信息，使得網(wǎng)絡(luò)獲得的信息更加豐富。如果某個目標(biāo)處于切圖邊界，根據(jù)其IOF大于0．5來決定是否保留。其次，對于每個類別采用一個單獨的檢測器進(jìn)行檢測。經(jīng)過實驗對比，對每個類別采用單獨的檢測器可以有效的提高網(wǎng)絡(luò)的效果，尤其是對于可見區(qū)域和全身區(qū)域兩類。同時向檢測器添加了Global Context （GC） block來進(jìn)一步提高特征提取能力。GC－Block結(jié)合了Non－local的上下文建模能力，并繼承了SE－Net節(jié)省計算量的優(yōu)點，可以有效的對目標(biāo)的上下文進(jìn)行建模。

ECCV2020 GigaVision挑戰(zhàn)賽，深蘭科技包攬十億級像素雙賽道冠軍

除Cascade RCNN外，還采用了Generalize Focal Loss （GFL）檢測器進(jìn)行結(jié)果互補。GFL提出了一種泛化的Focal Loss損失，解決了分類得分和質(zhì)量預(yù)測得分在訓(xùn)練和測試時的不一致問題。

最后，將各檢測器的結(jié)果使用Weighted Box Fusion （WBF）進(jìn)行融合，形成了最終的解決方案。傳統(tǒng)的NMS和Soft－NMS方法會移除預(yù)測結(jié)果中的一部分預(yù)測框，而WBF使用全部的預(yù)測框，通過進(jìn)行組合來獲得更加準(zhǔn)確的預(yù)測框，從而實現(xiàn)精度提升。整體pipeline如下圖所示：