8 月 10 日,寧波高架發(fā)生一起小鵬 P7 追尾致人死亡的事故。
發(fā)生事故的原因主要有兩點(diǎn),一是被撞車輛是靜止的。二是被撞人員站在車后。離車很近的地方是水泥護(hù)欄,還有一個(gè)人蹲著,離被撞車很近。
即便這次事故,車主沒有開啟 NGP 功能,AEB 系統(tǒng)也應(yīng)該起作用,但上述的原因讓 AEB 系統(tǒng)失效了。
有人可能會(huì)說時(shí)速 80 公里超出了 AEB 的上限,早期的 AEB 系統(tǒng)的確如此,上限一般是時(shí)速 60 公里。
2020 年后的新一代 AEB 則不然,在速度上限內(nèi)是剎停,也就是剎車力度會(huì)達(dá)到最大,超過上限則是減速。
以特斯拉為例,如減速 50 公里,那么系統(tǒng)則在時(shí)速 110 公里情況下觸發(fā) AEB,最多減速至?xí)r速 60 公里。
有些如奔馳,AEB 速度上限高達(dá)時(shí)速 110 公里。
還有些車型把這一部分單獨(dú)抽出,稱之為碰撞緩解,實(shí)際就是加強(qiáng)版的 AEB。
只減速不剎停,這樣做也是為了避免高速情況下后車的追尾。
蔚來和特斯拉都發(fā)生過撞靜止車輛的事故,特斯拉的次數(shù)尤其多,多次撞向白色卡車和消防車。
在封閉場地測試時(shí),我們可以看到靜止車輛或行人都能觸發(fā) AEB,即使最廉價(jià)的車型都能做到剎停。
但為何在真實(shí)道路上,遇到靜止目標(biāo)時(shí),AEB 不行了?
01
分離動(dòng)態(tài)目標(biāo)的常見三種方法
圖像識(shí)別流程
我們先從先從圖像識(shí)別流程和運(yùn)用目標(biāo)分離方法來看看自動(dòng)駕駛系統(tǒng)是如何識(shí)別和處理障礙物的。
上圖為機(jī)器視覺的處理流程,其主要過程為輸入圖像,對輸入的圖像進(jìn)行預(yù)處理。
預(yù)處理之后的圖像,再對其進(jìn)行 ROI 區(qū)域檢測或者異常檢測,對已經(jīng)檢測出來的區(qū)域進(jìn)行特征提取分類識(shí)別等。
系統(tǒng)對運(yùn)動(dòng)目標(biāo)是需要特別重視的,會(huì)優(yōu)先處理運(yùn)動(dòng)目標(biāo),因此第一步要將運(yùn)動(dòng)目標(biāo)從背景圖中分割出來,有些系統(tǒng)為了避免誤動(dòng)作,干脆將靜態(tài)目標(biāo)過濾掉。
運(yùn)動(dòng)目標(biāo)分離方法
分離動(dòng)態(tài)目標(biāo)最常見的三種方法是幀差法、光流法和背景差法。
考慮到實(shí)時(shí)性和成本,目前業(yè)內(nèi)大多采用幀差法。這種方法對運(yùn)算資源消耗最少,最容易達(dá)到實(shí)時(shí)性,但缺點(diǎn)準(zhǔn)確度不高。
所謂幀差法,即檢測相鄰幀之間的像素變化。
幀差法的基本思想是:運(yùn)動(dòng)目標(biāo)視頻中,可以根據(jù)時(shí)間提取出系列連續(xù)的序列圖像,在這些相鄰的序列圖像中,背景的像素變化較小,而運(yùn)動(dòng)目標(biāo)的像素變化較大,利用目標(biāo)運(yùn)動(dòng)導(dǎo)致的像素變化差,則可以分割出運(yùn)動(dòng)目標(biāo)。
幀差法可以分為兩幀差分法與三幀差分法。
兩幀差分法
三幀差分法
兩幀差分法就是將視頻采集到時(shí)序列圖像的相鄰兩幀圖像進(jìn)行差分。
對相鄰的兩幀圖像進(jìn)行差分,可以在任何具有復(fù)雜的圖像特征 (例如,紋理特征、灰度均值等) 上進(jìn)行。
因此,只要明顯區(qū)別與背景的運(yùn)動(dòng)物體均可檢測出來。
根據(jù)給定的閾值,對差分結(jié)果二值化:
若差值圖像大于給定閾值,則認(rèn)為該像素點(diǎn)是前景目標(biāo)中的點(diǎn),并將該像素點(diǎn)作為運(yùn)動(dòng)目標(biāo)的一部分;
若差值圖像小于給定閾值,則認(rèn)為該像素點(diǎn)屬于背景目標(biāo)點(diǎn),從而將運(yùn)動(dòng)目標(biāo)從背景目標(biāo)中分割出來。
圖像進(jìn)行閾值分割之后,通常都帶有噪聲,因此需要使用形態(tài)學(xué)濾波的方法對噪聲進(jìn)行衰減。衰減噪聲后得到的圖像運(yùn)動(dòng)目標(biāo)會(huì)存在一些空洞,需要進(jìn)行連通性處理,最后才得到判別目標(biāo)。
閾值設(shè)定太低,檢測不到目標(biāo)。設(shè)定太高,會(huì)被檢測為兩個(gè)分開的物體。
同時(shí)對于比較大、顏色一致的運(yùn)動(dòng)目標(biāo),如白色大貨車,幀間差分法會(huì)在目標(biāo)內(nèi)部產(chǎn)生空洞,無法完整分割提取運(yùn)動(dòng)目標(biāo)。
分離出動(dòng)態(tài)目標(biāo),對目標(biāo)進(jìn)行識(shí)別并探測其距離,如果動(dòng)態(tài)目標(biāo)都已經(jīng)處理完畢,這才開始處理靜態(tài)目標(biāo)。而在封閉場地測試場里,只有一個(gè)目標(biāo),很輕松就能分離出背景,只處理靜態(tài)目標(biāo)。
而在真實(shí)道路上,靜止目標(biāo)比移動(dòng)目標(biāo)的檢測要晚大約 2 到 4 秒,這次發(fā)生事故時(shí),小鵬 P7 的時(shí)速是 80 公里,也就是 44 到 88 米。
光流法是利用圖像序列中像素在時(shí)間域上的變化以及相鄰幀之間的相關(guān)性,來找到上一幀跟當(dāng)前幀之間存在的對應(yīng)關(guān)系,從而計(jì)算出相鄰幀之間物體的運(yùn)動(dòng)信息。
研究光流場的目的就是為了從圖片序列中近似得到不能直接得到的運(yùn)動(dòng)場,其本質(zhì)是一個(gè)二維向量場,每個(gè)向量表示場景中該點(diǎn)從前一幀到后一幀的位移。對光流的求解,即輸入兩張連續(xù)圖象(圖象像素),輸出二維向量場。
除了智能駕駛,體育比賽中各種球類的軌跡預(yù)測,軍事行動(dòng)中的目標(biāo)軌跡預(yù)測都能用到。
光流場是運(yùn)動(dòng)場在二維圖像平面上的投影。因?yàn)榱Ⅲw雙目和激光雷達(dá)都是 3D 傳感器,而單目或三目是 2D 傳感器,所以單目或三目的光流非常難做。
光流再分為稀疏和稠密(Dense)兩種,稀疏光流對部分特征點(diǎn)進(jìn)行光流解算,稠密光流則針對的是所有點(diǎn)的偏移。
最常見的光流算法即 KLT 特征追蹤,早期的光流算法都是稀疏光流,手工模型或者說傳統(tǒng)算法。
2015 年有人提出深度學(xué)習(xí)光流法,在 CVPR2017 上發(fā)表改進(jìn)版本 FlowNet2.0,成為當(dāng)時(shí)最先進(jìn)的方法。截止到現(xiàn)在,F(xiàn)lowNet 和 FlowNet2.0 依然是深度學(xué)習(xí)光流估計(jì)算法中引用率最高的論文。
傳統(tǒng)算法計(jì)算資源消耗少,實(shí)時(shí)性好,效果比較均衡,但魯棒性不好。
深度學(xué)習(xí)消耗大量的運(yùn)算資源,魯棒性好,但容易出現(xiàn)極端,即某個(gè)場景非常差,但無法解釋,與訓(xùn)練數(shù)據(jù)集關(guān)聯(lián)程度高。
即使強(qiáng)大的英偉達(dá) Orin 芯片,在 FlowNet2.0 上也無法做到實(shí)時(shí)性,畢竟 Orin 不能只做光流這一件事。
光流法比幀差法準(zhǔn)確度要高,但會(huì)大量消耗運(yùn)算資源。
02
4D 毫米波雷達(dá)會(huì)漏檢嗎?
四種毫米波雷達(dá)性能對比
目前典型的 76GHz 毫米波雷達(dá)的帶寬是 500GHz
大部分毫米波雷達(dá)的帶寬是 500MHz,也就是 0.5GHz,目標(biāo)分離度是 150 厘米。
也就是說,1.5 米內(nèi)的兩個(gè)目標(biāo),毫米波雷達(dá)會(huì)識(shí)別成一個(gè)――這次小鵬 P7 發(fā)生的事故也是如此,車輛很靠近水泥護(hù)欄,很有可能會(huì)被認(rèn)為是一個(gè)目標(biāo)。
特斯拉最近也在研發(fā)毫米波雷達(dá),其帶寬應(yīng)該是 500MHz,全球最先進(jìn)的 4D 毫米波雷達(dá)即大陸汽車的 ARS540,也是 500MHz。
博世還未量產(chǎn)的 4D 毫米波雷達(dá)是 867MHz,比特斯拉和大陸都要好,缺點(diǎn)可能是功耗太高,射頻輸出功率達(dá)到驚人的 5495 毫瓦,整體功耗估計(jì)有 30-60 瓦。
ARS540 的射頻輸出功率是 1143 毫瓦,整體功耗大概 10 瓦。這對一個(gè)一直常開的傳感器來說功耗似乎太高了。
再有就是雖然 60GHz 以上波段無需牌照,但超過 1GHz 的帶寬,可能還是會(huì)有監(jiān)管,在沒有明確政策出臺(tái)前,業(yè)界不敢研發(fā)這種高寬帶雷達(dá),萬一禁止就白研發(fā)了。
因?yàn)槟繕?biāo)分離度的問題,我估計(jì)廠家為了避免誤動(dòng)作,未必敢將 4D 毫米波雷達(dá)單獨(dú)做為 AEB 的觸發(fā)條件,肯定要以視覺為準(zhǔn)。
除了靜止目標(biāo)原因外,這次小鵬 P7 在事故發(fā)生前,被撞者走到車尾。這就形成了一個(gè)很罕見的目標(biāo),既像車又像行人,在這種情況下,就會(huì)出現(xiàn)漏檢。
03
基于單目、三目的機(jī)器視覺,有著天然缺陷
基于單目或三目的機(jī)器視覺,有著天然的無法改變的缺陷,這個(gè)缺陷表現(xiàn)為識(shí)別或者說分類與探測是一體的,無法分割,特別是基于深度學(xué)習(xí)的機(jī)器視覺。
也就是說,如果系統(tǒng)無法將目標(biāo)分類(也可以通俗地說是識(shí)別),也就無法探測。
換句話說,如果系統(tǒng)無法識(shí)別目標(biāo),就認(rèn)為目標(biāo)不存在。車輛會(huì)認(rèn)為前方無障礙物,會(huì)不減速直接撞上去。
什么狀況下無法識(shí)別?
有兩種情況:
第一種是訓(xùn)練數(shù)據(jù)集無法完全覆蓋真實(shí)世界的全部目標(biāo),能覆蓋 10% 都已經(jīng)稱得上優(yōu)秀了,更何況真實(shí)世界每時(shí)每刻都在產(chǎn)生著新的不規(guī)則目標(biāo)。
深度學(xué)習(xí)這種窮舉法有致命缺陷。特斯拉多次事故都是如此,比如在中國兩次在高速公路上追尾掃地車(第一次致人死亡),在美國多次追尾消防車。
第二種是圖像缺乏紋理特征,比如在攝像頭前放一張白紙,自然識(shí)別不出來是什么物體。某些底盤高的大貨車側(cè)面,就如同白紙,基于深度學(xué)習(xí)的機(jī)器視覺此時(shí)就如同盲人,不減速直接撞上去。
在以深度學(xué)習(xí)為核心的機(jī)器視覺里,邊界框(Bounding Box)是關(guān)鍵元素。
在檢測任務(wù)中,我們需要同時(shí)預(yù)測物體的類別和位置,因此需要引入一些與位置相關(guān)的概念。通常使用邊界框來表示物體的位置,邊界框是正好能包含物體的矩形框。
對單目、三目來說,其機(jī)器視覺如下圖:
那么立體雙目呢?
雙目可以準(zhǔn)確識(shí)別出中央隔離帶,無論怎么用深度學(xué)習(xí)、單目、虛擬雙目,單目和三目在這種大面積空洞無紋理特征的車側(cè)和車頂圖像前,就如同瞎子,什么也看不到。
事實(shí)上,特斯拉也有撞上中央隔離帶致人死亡的事故。
立體雙目的流程是這樣的,如下圖:
最后輸出可行駛空間(free space),與單目、三目完全不同,它不需要識(shí)別,自然也不需要畫出 Bounding Box。
雙目也有缺點(diǎn),運(yùn)算量太高。當(dāng)然,雙目不需要 AI 運(yùn)算。
盡管只有奔馳和豐田用英偉達(dá)處理器處理立體雙目,新造車勢力除了 RIVIAN,目前都不使用立體雙目(小鵬、小米可能在將來使用立體雙目),但英偉達(dá)每一次硬件升級(jí)都不忘對立體雙目部分特別關(guān)照。
英偉達(dá)立體雙目處理流程,立體雙目視差的獲得需要多種運(yùn)算資源的參加,包括了 VIC、GPU(CUDA)、CPU 和 PVA。
英偉達(dá) Orin 平臺(tái)立體雙目視差測試成績,要達(dá)到每秒 30 幀,那么處理時(shí)間必須低于 30 毫秒,考慮到還有后端決策與控制系統(tǒng)的延遲,處理時(shí)間必須低于 20 毫秒。
1 個(gè)下取樣情況下,顯然無法滿足 30 幀的要求。
4 個(gè)下取樣,不加置信度圖時(shí),單用 OFA 就可以滿足。加置信圖后,需要 OFA/PVA/VIC 聯(lián)手,也能滿足 30 幀需求。但這只是 200 萬像素的情況下,300 萬像素估計(jì)就無法滿足了。
奔馳的立體雙目是 170 萬像素,輸出視差圖的邊緣精度不會(huì)太高,有效距離也不會(huì)太遠(yuǎn)。如本文開頭所說的狀況,估計(jì)可以減速,但難以剎停,反應(yīng)時(shí)間不夠。
可以說,除了立體雙目系統(tǒng),遇到這次小鵬 P7 事故這樣的怪異目標(biāo),都會(huì)漏檢。
04
激光雷達(dá)能否避免這類事故的發(fā)生?
那么,裝了激光雷達(dá)會(huì)不會(huì)避免這個(gè)事故?
恐怕也不能。
目前主流的激光雷達(dá)也是基于深度學(xué)習(xí)的,純深度學(xué)習(xí)視覺遇到的問題,激光雷達(dá)也會(huì)遇到,無法識(shí)別就畫不出 Bounding Box,就認(rèn)為前面什么都沒,不減速撞上去。
主流的激光雷達(dá)算法經(jīng)歷了三個(gè)階段:
第一階段是 PointNet
第二階段是 Voxel
第三階段是 PointPillar
PointPillar 少了 Z 軸切割,而是使用 2D 骨干,這導(dǎo)致其精度下降,性能相較于純 2D 的視覺,提升并不明顯。這也就是為什么特斯拉不使用激光雷達(dá)。
而不依賴深度學(xué)習(xí)、具備可解釋性的多線激光雷達(dá)算法,目前還未見面世。博世、奔馳和豐田在研究,這會(huì)是一個(gè)漫長的過程。
深度學(xué)習(xí)太好用了,不到半年,一個(gè)普通大學(xué)生就可以熟練調(diào)參。
深度學(xué)習(xí)淘汰了幾乎所有的傳統(tǒng)算法。
眼下,幾乎沒有人研究激光雷達(dá)的傳統(tǒng)算法,比如激光雷達(dá)的強(qiáng)度成像。
目前,智能駕駛最關(guān)鍵的問題是過于依賴不具備解釋性的深度學(xué)習(xí),或者說深度神經(jīng)網(wǎng)絡(luò),也就是大家常說的 AI――這可能導(dǎo)致無人駕駛永遠(yuǎn)無法實(shí)現(xiàn)。