97人妇精品一区二区,1314亚洲人成网站在线观看,亚洲欧美中文日韩综合图区

靠一個(gè)攝像頭拍下的圖像做3D目標(biāo)檢測(cè)，究竟有多難？目前最先進(jìn)系統(tǒng)的成績(jī)也不及用激光雷達(dá)做出來(lái)的1/10。

一份來(lái)自劍橋的研究，用單攝像頭的數(shù)據(jù)做出了媲美激光雷達(dá)的成績(jī)。

還有好事網(wǎng)友在Twitter上驚呼：

這個(gè)能不能解決特斯拉不用激光雷達(dá)的問題？馬斯克你看見了沒？

靠“直覺”判斷

為何人單眼能做到3D識(shí)別，而相機(jī)卻做不到？

因?yàn)橹庇X。

人能夠根據(jù)遠(yuǎn)小近大的透視關(guān)系，得出物體的大小和相對(duì)位置關(guān)系。

而機(jī)器識(shí)別拍攝的2D照片，是3D圖形在平面上的投影，已經(jīng)失去了景深信息。

為了識(shí)別物體遠(yuǎn)近，無(wú)人車需要安裝激光雷達(dá)，通過回波獲得物體的距離信息。這一點(diǎn)是只能獲得2D信息的攝像頭難以做到的。

為了讓攝像頭也有3D世界的推理能力，這篇論文提出了一種“正投影特征轉(zhuǎn)換”（OFT）算法。

作者把這種算法和端到端的深度學(xué)習(xí)架構(gòu)結(jié)合起來(lái)，在KITTI 3D目標(biāo)檢測(cè)任務(wù)上實(shí)現(xiàn)了領(lǐng)先的成績(jī)。

這套算法包括5個(gè)部分：

前端ResNet特征提取器，用于從輸入圖像中提取多尺度特征圖。
正交特征變換，將每個(gè)尺度的基于圖像的特征圖變換為正投影鳥瞰圖表示。
自上而下的網(wǎng)絡(luò)，由一系列ResNet殘余單元組成，以一種對(duì)圖像中觀察到的觀察效果不變的方式處理鳥瞰圖特征圖。
一組輸出頭，為每個(gè)物體類和地平面上的每個(gè)位置生成置信分?jǐn)?shù)、位置偏移、維度偏移和方向向量等數(shù)據(jù)。
非最大抑制和解碼階段，識(shí)別置信圖中的峰值并生成離散邊界框預(yù)測(cè)。

這種方法通過將基于圖像的特征映射到一個(gè)正交3D空間中，打破了圖像的束縛。在這個(gè)3D空間里，各個(gè)物體比例一致、距離也是有意義的。

效果遠(yuǎn)超Mono3D

作者用自動(dòng)駕駛數(shù)據(jù)集KITTI中3712張訓(xùn)練圖像，3769張圖像對(duì)訓(xùn)練后的神經(jīng)網(wǎng)絡(luò)進(jìn)行檢測(cè)。并使用裁剪、縮放和水平翻轉(zhuǎn)等操作，來(lái)增加圖像數(shù)據(jù)集的樣本數(shù)量。

作者提出了根據(jù)KITTI 3D物體檢測(cè)基準(zhǔn)評(píng)估兩個(gè)任務(wù)的方法：最終要求每個(gè)預(yù)測(cè)的3D邊界框應(yīng)與相應(yīng)實(shí)際物體邊框相交，在汽車情況下至少為70％，對(duì)于行人和騎自行車者應(yīng)為50％。

與前人的Mono3D方法對(duì)比，OFT在鳥瞰圖平均精確度、3D物體邊界識(shí)別上各項(xiàng)測(cè)試成績(jī)上均優(yōu)于對(duì)手。

尤其在探測(cè)遠(yuǎn)處物體時(shí)要遠(yuǎn)超Mono3D，遠(yuǎn)處可識(shí)別出的汽車數(shù)量更多。甚至在嚴(yán)重遮擋、截?cái)嗟那闆r下仍能正確識(shí)別出物體。在某些場(chǎng)景下甚至達(dá)到了3DOP系統(tǒng)的水平。

不僅在遠(yuǎn)距離上，正投影特征轉(zhuǎn)換（OFT-Net）在對(duì)不同距離物體進(jìn)行評(píng)估時(shí)都都優(yōu)于Mono3D。

但是與Mono3D相比，這套系統(tǒng)性能也明顯降低得更慢，作者認(rèn)為是由于系統(tǒng)考慮遠(yuǎn)離相機(jī)的物體造成的。

在正交鳥瞰圖空間中的推理顯著提高了性能。為了驗(yàn)證這一說(shuō)法，論文中還進(jìn)行了一項(xiàng)研究：逐步從自上而下的網(wǎng)絡(luò)中刪除圖層。

下圖顯示了兩種不同體系結(jié)構(gòu)的平均精度與參數(shù)總數(shù)的關(guān)系圖。

趨勢(shì)很明顯，在自上而下網(wǎng)絡(luò)中刪除圖層會(huì)顯著降低性能。

這種性能下降的一部分原因可能是，減少自上而下網(wǎng)絡(luò)的規(guī)模會(huì)降低網(wǎng)絡(luò)的整體深度，從而降低其代表性能力。

從圖中可以看出，采用具有大型自上而下網(wǎng)絡(luò)的淺前端（ResNet-18），可以實(shí)現(xiàn)比沒有任何自上而下層的更深層網(wǎng)絡(luò)（ResNet-34）更好的性能，盡管有兩種架構(gòu)具有大致相同數(shù)量的參數(shù)。

資源

論文：

Orthographic Feature Transform for Monocular 3D Object Detection

https://arxiv.org/abs/1811.08188

作者表示等論文正式發(fā)表后，就放出預(yù)訓(xùn)練模型和完整的源代碼。

轉(zhuǎn)載請(qǐng)注明出處。

• 激光雷達(dá)在大氣探測(cè)、目標(biāo)捕獲等領(lǐng)域具有較廣泛	• Innovusion 與福耀集團(tuán)達(dá)成合作，共同致力于激
• 激光雷達(dá)投資風(fēng)口，上游器件放量千億市場(chǎng)規(guī)模	• 激光教父攻克“卡脖子”35項(xiàng)關(guān)鍵技術(shù)之一的激光
• 中國(guó)科學(xué)家研發(fā)迄今像素最高的固態(tài)激光雷達(dá)，產(chǎn)	• 開啟量產(chǎn)元年的激光雷達(dá)，難逃堆料競(jìng)爭(zhēng)？
• 馬斯克瘋狂噴的激光雷達(dá)，究竟有啥“功效”讓國(guó)	• 馬斯克diss過的激光雷達(dá)，正在爆發(fā)前夜
• 馬斯克diss激光雷達(dá)，日產(chǎn)無(wú)意間成特斯拉“盟友	• KTH研發(fā)小型激光雷達(dá)，更輕更省錢

@馬斯克：只憑一個(gè)攝像頭，3D目標(biāo)檢測(cè)成績(jī)也能媲美激光雷達(dá)