閱讀 | 訂閱
閱讀 | 訂閱
汽車制造

@馬斯克:只憑一個攝像頭,3D目標(biāo)檢測成績也能媲美激光雷達(dá)

Nick 來源:搜狐2018-11-27 我要評論(0 )   

靠一個攝像頭拍下的圖像做3D目標(biāo)檢測,究竟有多難?目前最先進(jìn)系統(tǒng)的成績也不及用激光雷達(dá)做出來的1/10。 一份來自劍橋的研究,用單攝像頭的數(shù)據(jù)做出了媲美激光雷達(dá)的...

靠一個攝像頭拍下的圖像做3D目標(biāo)檢測,究竟有多難?目前最先進(jìn)系統(tǒng)的成績也不及用激光雷達(dá)做出來的1/10。

一份來自劍橋的研究,用單攝像頭的數(shù)據(jù)做出了媲美激光雷達(dá)的成績。

還有好事網(wǎng)友在Twitter上驚呼:

這個能不能解決特斯拉不用激光雷達(dá)的問題?馬斯克你看見了沒?

靠“直覺”判斷

為何人單眼能做到3D識別,而相機(jī)卻做不到?

因為直覺。

人能夠根據(jù)遠(yuǎn)小近大的透視關(guān)系,得出物體的大小和相對位置關(guān)系。

而機(jī)器識別拍攝的2D照片,是3D圖形在平面上的投影,已經(jīng)失去了景深信息。

為了識別物體遠(yuǎn)近,無人車需要安裝激光雷達(dá),通過回波獲得物體的距離信息。這一點是只能獲得2D信息的攝像頭難以做到的。

為了讓攝像頭也有3D世界的推理能力,這篇論文提出了一種“正投影特征轉(zhuǎn)換”(OFT)算法。

作者把這種算法和端到端的深度學(xué)習(xí)架構(gòu)結(jié)合起來,在KITTI 3D目標(biāo)檢測任務(wù)上實現(xiàn)了領(lǐng)先的成績。

這套算法包括5個部分:

  1. 前端ResNet特征提取器,用于從輸入圖像中提取多尺度特征圖。
  2. 正交特征變換,將每個尺度的基于圖像的特征圖變換為正投影鳥瞰圖表示。
  3. 自上而下的網(wǎng)絡(luò),由一系列ResNet殘余單元組成,以一種對圖像中觀察到的觀察效果不變的方式處理鳥瞰圖特征圖。
  4. 一組輸出頭,為每個物體類和地平面上的每個位置生成置信分?jǐn)?shù)、位置偏移、維度偏移和方向向量等數(shù)據(jù)。
  5. 非最大抑制和解碼階段,識別置信圖中的峰值并生成離散邊界框預(yù)測。
這種方法通過將基于圖像的特征映射到一個正交3D空間中,打破了圖像的束縛。在這個3D空間里,各個物體比例一致、距離也是有意義的。

效果遠(yuǎn)超Mono3D

作者用自動駕駛數(shù)據(jù)集KITTI中3712張訓(xùn)練圖像,3769張圖像對訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測。并使用裁剪、縮放和水平翻轉(zhuǎn)等操作,來增加圖像數(shù)據(jù)集的樣本數(shù)量。

作者提出了根據(jù)KITTI 3D物體檢測基準(zhǔn)評估兩個任務(wù)的方法:最終要求每個預(yù)測的3D邊界框應(yīng)與相應(yīng)實際物體邊框相交,在汽車情況下至少為70%,對于行人和騎自行車者應(yīng)為50%。

與前人的Mono3D方法對比,OFT在鳥瞰圖平均精確度、3D物體邊界識別上各項測試成績上均優(yōu)于對手。

尤其在探測遠(yuǎn)處物體時要遠(yuǎn)超Mono3D,遠(yuǎn)處可識別出的汽車數(shù)量更多。甚至在嚴(yán)重遮擋、截斷的情況下仍能正確識別出物體。在某些場景下甚至達(dá)到了3DOP系統(tǒng)的水平。

不僅在遠(yuǎn)距離上,正投影特征轉(zhuǎn)換(OFT-Net)在對不同距離物體進(jìn)行評估時都都優(yōu)于Mono3D。

但是與Mono3D相比,這套系統(tǒng)性能也明顯降低得更慢,作者認(rèn)為是由于系統(tǒng)考慮遠(yuǎn)離相機(jī)的物體造成的。

在正交鳥瞰圖空間中的推理顯著提高了性能。為了驗證這一說法,論文中還進(jìn)行了一項研究:逐步從自上而下的網(wǎng)絡(luò)中刪除圖層。

下圖顯示了兩種不同體系結(jié)構(gòu)的平均精度與參數(shù)總數(shù)的關(guān)系圖。

趨勢很明顯,在自上而下網(wǎng)絡(luò)中刪除圖層會顯著降低性能。

這種性能下降的一部分原因可能是,減少自上而下網(wǎng)絡(luò)的規(guī)模會降低網(wǎng)絡(luò)的整體深度,從而降低其代表性能力。

從圖中可以看出,采用具有大型自上而下網(wǎng)絡(luò)的淺前端(ResNet-18),可以實現(xiàn)比沒有任何自上而下層的更深層網(wǎng)絡(luò)(ResNet-34)更好的性能,盡管有兩種架構(gòu)具有大致相同數(shù)量的參數(shù)。

資源

論文:

Orthographic Feature Transform for Monocular 3D Object Detection

https://arxiv.org/abs/1811.08188

作者表示等論文正式發(fā)表后,就放出預(yù)訓(xùn)練模型和完整的源代碼。

轉(zhuǎn)載請注明出處。

激光雷達(dá),自動駕駛
免責(zé)聲明

① 凡本網(wǎng)未注明其他出處的作品,版權(quán)均屬于激光制造網(wǎng),未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用。獲本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使 用,并注明"來源:激光制造網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)責(zé)任。
② 凡本網(wǎng)注明其他來源的作品及圖片,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本媒贊同其觀點和對其真實性負(fù)責(zé),版權(quán)歸原作者所有,如有侵權(quán)請聯(lián)系我們刪除。
③ 任何單位或個人認(rèn)為本網(wǎng)內(nèi)容可能涉嫌侵犯其合法權(quán)益,請及時向本網(wǎng)提出書面權(quán)利通知,并提供身份證明、權(quán)屬證明、具體鏈接(URL)及詳細(xì)侵權(quán)情況證明。本網(wǎng)在收到上述法律文件后,將會依法盡快移除相關(guān)涉嫌侵權(quán)的內(nèi)容。

網(wǎng)友點評
0相關(guān)評論
精彩導(dǎo)讀