閱讀 | 訂閱
閱讀 | 訂閱
汽車(chē)制造

毫米波、激光雷達(dá)統(tǒng)統(tǒng)不要,特斯拉堅(jiān)持純視覺(jué)的底氣何在?

星之球科技 來(lái)源:汽車(chē)之心Autobit2021-07-29 我要評(píng)論(0 )   

打造一臺(tái)全自動(dòng)駕駛汽車(chē),到底需要哪些核心技術(shù)?現(xiàn)在來(lái)看,各家公司和研究人員似乎對(duì)這個(gè)問(wèn)題有不小分歧。有人相信單純的攝像頭與計(jì)算機(jī)視覺(jué)就能解決戰(zhàn)斗,但也有人認(rèn)...


打造一臺(tái)全自動(dòng)駕駛汽車(chē),到底需要哪些核心技術(shù)?



現(xiàn)在來(lái)看,各家公司和研究人員似乎對(duì)這個(gè)問(wèn)題有不小分歧。



有人相信單純的攝像頭與計(jì)算機(jī)視覺(jué)就能解決戰(zhàn)斗,但也有人認(rèn)為計(jì)算機(jī)視覺(jué)和先進(jìn)傳感器缺一不可。



特斯拉則是純視覺(jué)方案的堅(jiān)定信徒。



在今年的 CVPR(計(jì)算視覺(jué)與模式識(shí)別大會(huì))上,特斯拉首席 AI 科學(xué)家 Andrej Karpathy 道出了特斯拉如此「執(zhí)拗」的原因。



在這次的 CVPR 上,Karpathy 還詳細(xì)介紹了特斯拉是如何基于深度學(xué)習(xí)開(kāi)發(fā)自動(dòng)駕駛系統(tǒng)。



除此之外,他還解釋了為什么特斯拉基于視覺(jué)就能讓自動(dòng)駕駛夢(mèng)想成真。



就在 7 月 10 日,特斯拉開(kāi)始在美國(guó)地區(qū)正式推送純視覺(jué)版的 FSD Beta V9 版本。



純視覺(jué)版的特斯拉,完全依靠車(chē)輛前端攝像頭來(lái)實(shí)現(xiàn)自動(dòng)駕駛。



有海外車(chē)主在夜晚體驗(yàn)了這一版本,還有車(chē)主在霧蒙蒙的街道上自由順暢穿行??傮w而言,車(chē)輛的表現(xiàn)較之前擁有更平滑的加速和減速,轉(zhuǎn)彎時(shí)也顯得更加自信。



先是聲稱(chēng)不用激光雷達(dá),而后又宣布在量產(chǎn)車(chē)上移除毫米波雷達(dá),特斯拉堅(jiān)持純視覺(jué)自動(dòng)駕駛的底氣來(lái)自哪里?



1、通用計(jì)算視覺(jué)系統(tǒng)



這一切要從深度神經(jīng)網(wǎng)絡(luò)說(shuō)起。



深度神經(jīng)網(wǎng)絡(luò)是自動(dòng)駕駛系統(tǒng)的主干技術(shù)之一。



神經(jīng)網(wǎng)絡(luò)會(huì)分析車(chē)載攝像頭采集到的數(shù)據(jù),了解道路、標(biāo)牌、車(chē)輛、障礙以及行人的狀況。



不過(guò),深度學(xué)習(xí)并非萬(wàn)無(wú)一失,在檢測(cè)圖像中的物體時(shí),這項(xiàng)技術(shù)也會(huì)犯錯(cuò)。這也是大多數(shù)自動(dòng)駕駛公司,包括領(lǐng)頭羊 Waymo 在內(nèi),選擇用激光雷達(dá)來(lái)搭建三維地圖的原因。



激光雷達(dá)能為神經(jīng)網(wǎng)絡(luò)提供更豐富的信息,以便填補(bǔ)在神經(jīng)網(wǎng)絡(luò)上的數(shù)據(jù)空白。



然而,將激光雷達(dá)融入整個(gè)自動(dòng)駕駛系統(tǒng),也沒(méi)你想象的那么容易。



「你得用激光雷達(dá)提前對(duì)周邊環(huán)境進(jìn)行掃描,隨后生成高精地圖。在這之后還要插入所有車(chē)道、連接方式以及各種交通信號(hào)燈?!筀arpathy 說(shuō)道?!冈跍y(cè)試時(shí),你只需在高精地圖上進(jìn)行定位,就可以自動(dòng)駕駛了。」



遺憾的是,用戶(hù)說(shuō)走就走的愿望并沒(méi)有那么容易實(shí)現(xiàn),為自動(dòng)駕駛汽車(chē)打造無(wú)處不在的高精地圖非常困難。



「只要規(guī)模一大,采集、搭建和維護(hù)這些高精地圖就變成了不可能完成的任務(wù),」Karpathy 說(shuō)道。「更別說(shuō)高精地圖的實(shí)時(shí)更新了?!?/p>



在特斯拉的自動(dòng)駕駛方案中,并沒(méi)有出現(xiàn)激光雷達(dá)和高精地圖。



Karpathy 指出,「所有發(fā)生的事情都會(huì)被車(chē)上的 8 顆攝像頭記錄下來(lái)?!?/p>



自動(dòng)駕駛系統(tǒng)必須弄清楚車(chē)道在哪,信號(hào)燈在哪,它們狀態(tài)如何,與車(chē)輛間有何關(guān)系。



最重要的是,它必須在沒(méi)有任何導(dǎo)航信息的路況下完成這一切。



Karpathy 強(qiáng)調(diào),基于視覺(jué)的自動(dòng)駕駛,在技術(shù)角度更難實(shí)現(xiàn),因?yàn)樗笊窠?jīng)網(wǎng)絡(luò)僅僅基于視頻輸入就能達(dá)到超強(qiáng)性能的輸出?!覆贿^(guò),一旦取得了突破,就能獲得通用視覺(jué)系統(tǒng),方便部署在地球的任何地方?!?/p>



有了通用視覺(jué)系統(tǒng),車(chē)輛就不再需要什么補(bǔ)充信息了。



Karpathy 認(rèn)為,特斯拉正在朝這個(gè)方向努力。在此之前,特斯拉自動(dòng)駕駛依靠的是毫米波雷達(dá)與攝像頭雙重冗余,而現(xiàn)在的新車(chē)則直接砍掉了毫米波雷達(dá)。



「我們拋棄了毫米波雷達(dá),車(chē)輛只靠視覺(jué)來(lái)行駛?!筀arpathy 表示。



在他看來(lái),特斯拉的深度學(xué)習(xí)系統(tǒng)已經(jīng)比毫米波雷達(dá)強(qiáng)一百倍,現(xiàn)在的毫米波雷達(dá)已經(jīng)開(kāi)始拖后腿了。



2、監(jiān)督學(xué)習(xí)



對(duì)于純計(jì)算視覺(jué)方案,行業(yè)里的主流聲音是,誰(shuí)也說(shuō)不清神經(jīng)網(wǎng)絡(luò)能否在沒(méi)有激光雷達(dá)深度地圖的情況下完成測(cè)距和深度估算。



「人類(lèi)駕駛依靠的是視覺(jué),所以我們的神經(jīng)網(wǎng)絡(luò)是可以處理視覺(jué)輸入,并以此理解周邊物體深度與速度的?!筀arpathy 解釋道。「不過(guò)最大問(wèn)題在于,合成的神經(jīng)網(wǎng)絡(luò)能否做到這一點(diǎn)。我認(rèn)為,通過(guò)過(guò)去幾個(gè)月的工作,特斯拉內(nèi)部已經(jīng)達(dá)成明確共識(shí),我們訓(xùn)練出的神經(jīng)網(wǎng)絡(luò)能擔(dān)此大任?!?/p>



特斯拉工程師想打造的深度學(xué)習(xí)系統(tǒng),除了要處理深度、速度和加速度信息,還要同時(shí)進(jìn)行目標(biāo)探測(cè)。



在他們看來(lái),這是監(jiān)督學(xué)習(xí)的問(wèn)題,即神經(jīng)網(wǎng)絡(luò)在對(duì)標(biāo)記數(shù)據(jù)進(jìn)行訓(xùn)練后,學(xué)習(xí)目標(biāo)探測(cè)及其相關(guān)屬性。



為了訓(xùn)練深度學(xué)習(xí)架構(gòu),特斯拉團(tuán)隊(duì)需要一個(gè)由數(shù)以百萬(wàn)計(jì)視頻組成的龐大數(shù)據(jù)集,并仔細(xì)標(biāo)記其中的目標(biāo)及其屬性。



當(dāng)然,為自動(dòng)駕駛汽車(chē)創(chuàng)建數(shù)據(jù)集也頗為棘手,工程師們必須確保數(shù)據(jù)集有多樣化的道路設(shè)置和不經(jīng)常出現(xiàn)的邊緣情況。



Karpathy 表示:「以我的經(jīng)驗(yàn)來(lái)看,如果你有一個(gè)干凈且多樣化的大型數(shù)據(jù)集,并以此為基礎(chǔ)訓(xùn)練一個(gè)龐大的神經(jīng)網(wǎng)絡(luò),成功是有保證的」。



3、會(huì)自動(dòng)打標(biāo)簽的數(shù)據(jù)集



借助數(shù)百萬(wàn)輛「全副武裝」的特斯拉電動(dòng)車(chē),特斯拉在視覺(jué)深度學(xué)習(xí)模型的訓(xùn)練上有著得天獨(dú)厚的數(shù)據(jù)優(yōu)勢(shì)。



目前,特斯拉的自動(dòng)駕駛團(tuán)隊(duì)已經(jīng)積累了 1.5PB 的海量數(shù)據(jù),包括 100 萬(wàn)個(gè) 10 秒的視頻和 60帶有包圍框與深度、速度標(biāo)簽的目標(biāo)。



不過(guò),給這樣的數(shù)據(jù)集打標(biāo)簽是一個(gè)巨大的挑戰(zhàn)。



一種方法是通過(guò)數(shù)據(jù)標(biāo)簽公對(duì)其進(jìn)行人工標(biāo)注。這需要花費(fèi)大量的人工與時(shí)間。



相反,特斯拉團(tuán)隊(duì)使用了一種自動(dòng)標(biāo)記的技術(shù)。



由于數(shù)據(jù)集是離線(xiàn)標(biāo)記的,因此神經(jīng)網(wǎng)絡(luò)可以來(lái)回觀看視頻,將它們的預(yù)測(cè)與事實(shí)進(jìn)行比較,并不斷調(diào)整參數(shù)。



這與測(cè)試時(shí)的推理就形成了鮮明對(duì)比。



在測(cè)試時(shí)一切都在實(shí)時(shí)發(fā)生,深度學(xué)習(xí)模型無(wú)法進(jìn)行追溯。



離線(xiàn)標(biāo)記還使工程師們能夠應(yīng)用非常強(qiáng)大且計(jì)算密集型的物體檢測(cè)網(wǎng)絡(luò),這些網(wǎng)絡(luò)無(wú)法部署在汽車(chē)上,也不能用于實(shí)時(shí)、低延遲的應(yīng)用。



同時(shí),他們還使用雷達(dá)傳感器數(shù)據(jù)來(lái)進(jìn)一步驗(yàn)證神經(jīng)網(wǎng)絡(luò)的推斷,以上種種都提高了標(biāo)簽網(wǎng)絡(luò)的精度。



「離線(xiàn)有離線(xiàn)好處,在數(shù)據(jù)融合上你可以做得更好,」Karpathy 說(shuō)道?!复送?,你還能讓人類(lèi)參與進(jìn)來(lái),他們可以進(jìn)行更精準(zhǔn)的驗(yàn)證、編輯等工作?!?/p>



Karpathy 在 CVPR 上展示的視頻顯示,目標(biāo)探測(cè)網(wǎng)絡(luò)在穿過(guò)障礙、灰塵和云雪時(shí)能維持較為一致的水準(zhǔn)。



不過(guò),他并沒(méi)有明確解釋自動(dòng)標(biāo)簽系統(tǒng)到底需要多少人力來(lái)進(jìn)行最終修正。但可以肯定的是,人類(lèi)的參與,在引導(dǎo)自動(dòng)標(biāo)簽系統(tǒng)向正確的方向發(fā)展上發(fā)揮了關(guān)鍵作用。



另外,在開(kāi)發(fā)數(shù)據(jù)集時(shí),特斯拉團(tuán)隊(duì)還發(fā)現(xiàn),有 200 多個(gè)觸發(fā)因素表明目標(biāo)探測(cè)需要不斷調(diào)整。



這些問(wèn)題包括不同攝像頭探測(cè)結(jié)果的不一致,或者攝像頭和雷達(dá)之間探測(cè)結(jié)果不一致。他們還確定了可能需要特別注意的場(chǎng)景,如隧道進(jìn)出和頂部有物體的汽車(chē)。



特斯拉花了四個(gè)月的時(shí)間來(lái)開(kāi)發(fā)和掌握這些觸發(fā)因素。



隨著標(biāo)簽網(wǎng)絡(luò)逐步迭代,「影子模式」中也多了新的功能。



這意味著標(biāo)簽網(wǎng)絡(luò)真正進(jìn)入了消費(fèi)者的車(chē)輛中,而且是在不向汽車(chē)發(fā)出指令的情況下默默運(yùn)行。



在后端,特斯拉工程師會(huì)拿這一網(wǎng)絡(luò)的輸出與傳統(tǒng)網(wǎng)絡(luò)、雷達(dá)和司機(jī)的行為進(jìn)行比較。



特斯拉團(tuán)隊(duì)經(jīng)歷了七次數(shù)據(jù)工程迭代。



他們起先從一個(gè)初始數(shù)據(jù)集開(kāi)始訓(xùn)練他們的神經(jīng)網(wǎng)絡(luò)。



隨后,他們又在真車(chē)的影子模式中整合了深度學(xué)習(xí),并使用觸發(fā)因素來(lái)檢測(cè)不一致的地方、錯(cuò)誤和特殊情況。



接著再對(duì)錯(cuò)誤進(jìn)行修訂、糾正。



如果有必要,他們還會(huì)將新的數(shù)據(jù)添加到數(shù)據(jù)集中。



「我們一遍又一遍進(jìn)行這個(gè)循環(huán),直到神經(jīng)網(wǎng)絡(luò)變得非常棒,」Karpathy 說(shuō)道。



正因如此,我們可以將這一架構(gòu)描述為——一個(gè)具有巧妙分工的半自動(dòng)標(biāo)簽系統(tǒng),其中神經(jīng)網(wǎng)絡(luò)做重復(fù)性的工作,人類(lèi)負(fù)責(zé)高層次的認(rèn)知問(wèn)題和邊緣情況。



有趣的是,當(dāng)一位與會(huì)者問(wèn) Karpathy 觸發(fā)因素的生成是否可以自動(dòng)化時(shí),他回應(yīng)稱(chēng):



「觸發(fā)因素的自動(dòng)化非常棘手,因?yàn)槟憧梢杂型ㄓ玫挠|發(fā)因素,但它們很難正確反饋所有情況。例如,對(duì)進(jìn)入和離開(kāi)隧道進(jìn)行觸發(fā),我們到底需要什么觸發(fā)因素。在這種問(wèn)題上,人類(lèi)靠的是直覺(jué)?!?/p>



4、分層的深度學(xué)習(xí)架構(gòu)



特斯拉自動(dòng)駕駛團(tuán)隊(duì)需要一個(gè)精心設(shè)計(jì)的高效神經(jīng)網(wǎng)絡(luò),以充分利用他們收集到的高質(zhì)量數(shù)據(jù)集。



為此,他們創(chuàng)建了一個(gè)分層的深度學(xué)習(xí)架構(gòu),由不同的神經(jīng)網(wǎng)絡(luò)組成,處理信息并將輸出信息反饋給下一組網(wǎng)絡(luò)。



深度學(xué)習(xí)模型使用卷積神經(jīng)網(wǎng)絡(luò),從安裝在車(chē)身八個(gè)攝像頭采集的視頻中提取特征,并使用網(wǎng)絡(luò)將它們?nèi)诤显谝黄稹?/p>



隨后,它跨越時(shí)間線(xiàn)將各類(lèi)特征融合在一起。



這對(duì)諸如軌跡預(yù)測(cè)和平滑推理不一致的任務(wù)很重要。



在這之后,空間和時(shí)間特征被送入神經(jīng)網(wǎng)絡(luò)的分支結(jié)構(gòu)中,Karpathy 將其描述為頭部樹(shù)干終端。



Karpathy 指出:「你想要這種分支結(jié)構(gòu),是因?yàn)檫@樣能帶來(lái)大量高價(jià)值的輸出,但你不能為每個(gè)輸出都準(zhǔn)備一個(gè)神經(jīng)網(wǎng)絡(luò)」。



分層結(jié)構(gòu)讓特斯拉可以針對(duì)不同任務(wù)重復(fù)使用組件,并在不同的推理路徑之間完成特征共享。



神經(jīng)網(wǎng)絡(luò)模塊化結(jié)構(gòu)的另一個(gè)好處是可以進(jìn)行分布式開(kāi)發(fā)。



特斯拉目前組建了一個(gè)大型的機(jī)器學(xué)習(xí)工程師團(tuán)隊(duì),專(zhuān)門(mén)從事自動(dòng)駕駛神經(jīng)網(wǎng)絡(luò)的研究。



他們每個(gè)人都負(fù)責(zé)神經(jīng)網(wǎng)絡(luò)的一個(gè)小組件,并將自己的成果放到更大的網(wǎng)絡(luò)中。



「我們有一個(gè)大約 20 人的團(tuán)隊(duì),正在全職訓(xùn)練神經(jīng)網(wǎng)絡(luò),他們都在為同一個(gè)神經(jīng)網(wǎng)絡(luò)添磚加瓦」。Karpathy 說(shuō)道。



5、垂直整合



在 CVPR 的演講中,Karpathy 還分享了一些特斯拉訓(xùn)練和微調(diào)深度學(xué)習(xí)模型所用超級(jí)計(jì)算機(jī)的細(xì)節(jié)。



特斯拉的計(jì)算集群由 80 個(gè)節(jié)點(diǎn)組成,每個(gè)節(jié)點(diǎn)包含 8 個(gè) 英偉達(dá) A100 GPU 和 80 GB 的顯存,相當(dāng)于 5760 個(gè) GPU 和超過(guò) 450 TB 的 VRAM。



這個(gè)超級(jí)計(jì)算機(jī)還擁有 10 PB 的 NVME 超高速存儲(chǔ)和 640 tbps 的網(wǎng)絡(luò)能力,用來(lái)連接所有的節(jié)點(diǎn),并支撐高效的神經(jīng)網(wǎng)絡(luò)分布式訓(xùn)練。



特斯拉還設(shè)計(jì)并自研了車(chē)載 AI 芯片



「特斯拉的芯片轉(zhuǎn)為神經(jīng)網(wǎng)絡(luò)設(shè)計(jì),用來(lái)支撐全自動(dòng)駕駛應(yīng)用?!筀arpathy 說(shuō)道。



特斯拉的最大優(yōu)勢(shì)在于其強(qiáng)大的垂直整合能力——不僅擁有完整的自動(dòng)駕駛解決方案,同時(shí)還能制造電動(dòng)汽車(chē)和自動(dòng)駕駛硬件。



現(xiàn)在的特斯拉,處在一個(gè)獨(dú)特的位置,不但能從其售出的數(shù)百萬(wàn)輛汽車(chē)中收集各種數(shù)據(jù),借助強(qiáng)悍的計(jì)算集群,還可以在其獨(dú)有的數(shù)據(jù)集上創(chuàng)建和訓(xùn)練神經(jīng)網(wǎng)絡(luò),并通過(guò)影子模式在其售出的電動(dòng)車(chē)上驗(yàn)證和微調(diào)這些神經(jīng)網(wǎng)絡(luò)。



當(dāng)然,特斯拉還擁有一支由機(jī)器學(xué)習(xí)工程師、研究人員和硬件設(shè)計(jì)師組成的強(qiáng)大團(tuán)隊(duì),能將所有的碎片信息進(jìn)行深度整合。



這種垂直整合外加創(chuàng)建數(shù)據(jù)、調(diào)整機(jī)器學(xué)習(xí)模型并將其部署在車(chē)輛上重復(fù)循環(huán)的方案,使特斯拉打造了業(yè)界獨(dú)一無(wú)二的純視覺(jué)自動(dòng)駕駛解決方案。



在演講中,Karpathy 還展示了多個(gè)例子,比如新的神經(jīng)網(wǎng)絡(luò),已經(jīng)超過(guò)了需要結(jié)合雷達(dá)信息的傳統(tǒng)機(jī)器學(xué)習(xí)模型。



Karpathy 也相信,如果這一系統(tǒng)繼續(xù)進(jìn)化,特斯拉可能會(huì)直接斷了激光雷達(dá)的活路。更可怕的是,沒(méi)有其他公司能夠復(fù)制特斯拉的成功之路。



6、未解決的問(wèn)題



還有一個(gè)問(wèn)題是,當(dāng)下的深度學(xué)習(xí)是否足以克服自動(dòng)駕駛所有挑戰(zhàn)。



當(dāng)然,目標(biāo)探測(cè)、速度及距離估算也在駕駛中發(fā)揮了很大作用。



不過(guò),人類(lèi)視覺(jué)還執(zhí)行著許多其他復(fù)雜的功能,科學(xué)家稱(chēng)之為視覺(jué)的 "暗物質(zhì)"。這些都是分析視覺(jué)輸入的重要組成部分。



深度學(xué)習(xí)模型在進(jìn)行因果推理時(shí)非常吃力,當(dāng)模型面對(duì)它以前沒(méi)有見(jiàn)過(guò)的新情況時(shí),就會(huì)舉棋不定。



也就是說(shuō),雖然特斯拉已經(jīng)設(shè)法搭建了一個(gè)非常龐大且多樣化的數(shù)據(jù)集,但開(kāi)放道路同樣非常復(fù)雜,各種無(wú)法預(yù)測(cè)的事情隨時(shí)可能發(fā)生。



當(dāng)下的 AI 界,在某些問(wèn)題上依然存在分歧,比如是否需要明確將因果關(guān)系和推理整合到深度神經(jīng)網(wǎng)絡(luò)中,或者說(shuō),是否可以通過(guò)「直接擬合」來(lái)克服因果關(guān)系的障礙——即一個(gè)大型的、分布良好的數(shù)據(jù)集是否能支撐適用于萬(wàn)事萬(wàn)物的深度學(xué)習(xí)。



從目前來(lái)看,特斯拉基于視覺(jué)的自動(dòng)駕駛團(tuán)隊(duì)似乎更傾向于后者。



至于特斯拉的技術(shù)能否經(jīng)受住時(shí)間的考驗(yàn),我們拭目以待。


轉(zhuǎn)載請(qǐng)注明出處。

制造業(yè)激光激光技術(shù)
免責(zé)聲明

① 凡本網(wǎng)未注明其他出處的作品,版權(quán)均屬于激光制造網(wǎng),未經(jīng)本網(wǎng)授權(quán)不得轉(zhuǎn)載、摘編或利用其它方式使用。獲本網(wǎng)授權(quán)使用作品的,應(yīng)在授權(quán)范圍內(nèi)使 用,并注明"來(lái)源:激光制造網(wǎng)”。違反上述聲明者,本網(wǎng)將追究其相關(guān)責(zé)任。
② 凡本網(wǎng)注明其他來(lái)源的作品及圖片,均轉(zhuǎn)載自其它媒體,轉(zhuǎn)載目的在于傳遞更多信息,并不代表本媒贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé),版權(quán)歸原作者所有,如有侵權(quán)請(qǐng)聯(lián)系我們刪除。
③ 任何單位或個(gè)人認(rèn)為本網(wǎng)內(nèi)容可能涉嫌侵犯其合法權(quán)益,請(qǐng)及時(shí)向本網(wǎng)提出書(shū)面權(quán)利通知,并提供身份證明、權(quán)屬證明、具體鏈接(URL)及詳細(xì)侵權(quán)情況證明。本網(wǎng)在收到上述法律文件后,將會(huì)依法盡快移除相關(guān)涉嫌侵權(quán)的內(nèi)容。

網(wǎng)友點(diǎn)評(píng)
0相關(guān)評(píng)論
精彩導(dǎo)讀