哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

怎么將自動駕駛場景理解能力從二維提升到三維?

智駕最前沿 ? 來源:智駕最前沿 ? 作者:智駕最前沿 ? 2026-04-25 09:06 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

[首發(fā)于智駕最前沿微信公眾號]自動駕駛的核心任務就是賦予機器像人類一樣觀察、思考并操作車輛的能力。在整個技術(shù)架構(gòu)中,感知與場景理解處于最前端,是后續(xù)所有決策與執(zhí)行邏輯的根基。

如果將自動駕駛車輛比作一個生物體,傳感器就像是分布在全身的神經(jīng)末梢,而場景理解能力則是大腦對這些神經(jīng)沖動進行的深度加工。這種加工不僅要求車輛能夠看清周圍有什么,更要求其理解這些物體之間的空間關系、語義屬性以及未來可能發(fā)生的行為趨勢。

隨著技術(shù)的不斷更迭,自動駕駛的場景理解已經(jīng)從單純的二維圖像識別,演進到了三維空間重構(gòu),乃至具備常識推理能力的認知階段。

wKgZO2nsE3KANvfnAAAQo00DEvw718.jpg

從多維度感知到時空對齊

在探討算法模型之前,必須理解自動駕駛獲取信息的硬件基礎。單一傳感器由于物理特性的限制,無法應對所有的天氣和光照條件。

攝像頭能夠提供豐富的顏色和紋理信息,但在強光直射、黑夜或大霧天氣的表現(xiàn)會大打折扣;激光雷達能夠輸出高精度的三維點云數(shù)據(jù),清晰地勾勒出障礙物的輪廓,卻難以識別交通燈的顏色或路牌上的文字;毫米波雷達在惡劣天氣下極具穿透力,且對動態(tài)物體的速度感知敏銳,但其空間分辨率較低,難以分辨靜止物體的細節(jié)。

因此,多傳感器融合技術(shù)成為了場景理解的第一道技術(shù)關卡。

多傳感器融合不是簡單的信息相加,其核心在于如何解決不同傳感器在時間和空間上的不一致性。

在空間層面,每個傳感器都有自己的坐標系,攝像頭看到的是像素坐標,激光雷達看到的是極坐標或笛卡爾坐標,系統(tǒng)必須通過極其精準的外參標定,將所有數(shù)據(jù)統(tǒng)一到一個固定的車輛世界坐標系中。

在時間層面,不同傳感器的采樣頻率各異,且由于車輛在高速運動,即便只差了幾十毫秒,物體在現(xiàn)實空間中的位置也會發(fā)生顯著變化。

wKgZO2nsE3OAI183AABgb7DNiCk923.jpg

圖片源自:網(wǎng)絡

為了解決這一問題,系統(tǒng)會采用運動補償技術(shù),根據(jù)車輛的運動狀態(tài)對不同時刻的數(shù)據(jù)進行對齊,確保所有信息反映的是同一個物理時刻的環(huán)境狀態(tài)。

根據(jù)數(shù)據(jù)融合發(fā)生的階段不同,行業(yè)內(nèi)會將其劃分為前融合、深度融合與后融合。

前融合是在原始數(shù)據(jù)層面上進行整合,盡可能保留最底層的信息,但其對算力和帶寬的要求極高。

深度融合則是在神經(jīng)網(wǎng)絡的特征提取階段進行,將不同模態(tài)的特征向量在特征空間中進行連接或加權(quán),這種方式能夠?qū)崿F(xiàn)信息的互補,提高系統(tǒng)的魯棒性。

后融合則是各個傳感器獨立得出檢測結(jié)果后再進行邏輯匯總,雖然架構(gòu)簡單、靈活性高,但往往會因為單個傳感器的局限性而丟失關鍵的細節(jié)信息。

在城市道路環(huán)境中,實時精準地感知動態(tài)環(huán)境是車輛做出安全決策的前提。

感知系統(tǒng)的實現(xiàn)依賴于多個技術(shù)模塊的協(xié)同運作,其中包括傳感器數(shù)據(jù)采集、特征提取、數(shù)據(jù)融合以及語義分析等。

數(shù)據(jù)采集是起點,通過多種傳感器的協(xié)作,感知系統(tǒng)能夠覆蓋從遠距離到近距離的全方位感知需求。

隨后的特征提取則通過復雜的算法從原始數(shù)據(jù)中提取如檢測車輛邊界、分割行人輪廓以及識別道路標志等有價值的信息。

wKgZPGnsE3OAUdYGAAAR42n7O-I633.jpg

鳥瞰圖與占用網(wǎng)絡的架構(gòu)革新

在解決了傳感器數(shù)據(jù)的統(tǒng)一問題后,下一步就是要解決如何從這些海量數(shù)據(jù)中提取有意義的地理結(jié)構(gòu)。

傳統(tǒng)的感知方式主要是基于圖像層面的目標檢測,即在照片里畫框。然而,畫框的方式很難準確描述物體在三維空間中的真實姿態(tài),尤其是在多相機視野重疊的區(qū)域,如何確保不同視角的圖像被拼接到正確的位置是一個巨大的挑戰(zhàn)。

鳥瞰圖(BEV)技術(shù)的出現(xiàn),徹底改變了這一現(xiàn)狀。BEV感知方案通過融合多個攝像頭的視覺數(shù)據(jù),將原本支離破碎的2D圖像直接投影到一個統(tǒng)一的3D鳥瞰視角下,從而生成全局的環(huán)境信息。

BEV技術(shù)的核心在于空間轉(zhuǎn)換。

系統(tǒng)首先利用深度學習網(wǎng)絡從每個攝像頭的原始圖像中提取特征。這些網(wǎng)絡會包含主干網(wǎng)絡用于提取特征,頸部網(wǎng)絡進行特征融合,以及頭部網(wǎng)絡生成檢測結(jié)果。

提取出的特征隨后通過一種類似于投影的數(shù)學機制,在三維空間中進行位置查詢。這個過程可以理解為,系統(tǒng)在車輛上方的天花板上安裝了一個虛擬攝像頭,通過算法計算出地面上每一個點在不同原始圖像中對應的像素,從而完成從二維平面到三維地理坐標的轉(zhuǎn)換。

wKgZPGnsE3eAfP9dANjglQ9o894709.jpg

圖片源自:網(wǎng)絡

這種技術(shù)能夠有效解決遮擋問題,因為即使某個物體在側(cè)邊攝像頭的畫面中被擋住了一半,只要其他攝像頭的視野能覆蓋該區(qū)域,系統(tǒng)就能在視圖中完整地還原其位置和軌跡。

但即便是BEV技術(shù),在處理那些形狀不規(guī)則的物體時也會感到吃力。像是路邊斜出的樹枝、施工區(qū)域的圍擋或者是灑落在地面的貨物,這些物體很難用標準的立方體盒子來準確描述。

為了解決這類挑戰(zhàn),占用網(wǎng)絡(Occupancy Network)應運而生。占用網(wǎng)絡不再試圖識別物體具體是什么,而是將車輛周圍的空間劃分成無數(shù)個極小的立方體網(wǎng)格,并預測每一個網(wǎng)格是否被占用,以及其運動狀態(tài)。

占用網(wǎng)絡將場景理解從分類任務提升到了空間幾何重構(gòu)的層面。

它通過預測空間中每個點的占用概率,能夠識別出任何異形障礙物,哪怕系統(tǒng)從來沒有見過這種物體。這種不依賴預定義類別的特性,極大地增強了自動駕駛在復雜城市環(huán)境中的泛化能力。

為了提升計算效率,現(xiàn)階段的占用網(wǎng)絡結(jié)合了語義分割技術(shù),在判斷空間是否被占用的同時,還能順便給出該區(qū)域的語義標簽,比如識別出這一片被占用的網(wǎng)格屬于植被,而那一片屬于路沿。

此外,這種三維空間的理解能力也為下游的路徑規(guī)劃提供了更可靠的依據(jù)。

傳統(tǒng)的感知結(jié)果如果只是二維的,規(guī)劃系統(tǒng)很難判斷車輛是否能從狹窄的縫隙中穿過。而有了體素化的空間表示,系統(tǒng)可以精確計算車輛輪廓與障礙物之間的物理距離,從而做出更細膩的駕駛動作。

為了應對各種極端天氣和光照條件的挑戰(zhàn),感知系統(tǒng)在硬件設計和算法魯棒性方面也進行了多層優(yōu)化,確保在復雜的駕駛場景中,系統(tǒng)能在極短的時間內(nèi)處理大量數(shù)據(jù),并給出準確的識別結(jié)果。

wKgZO2nsE3qAdnjCAAASG3BOmsQ762.jpg

大模型如何賦予機器駕駛常識

盡管BEV和占用網(wǎng)絡已經(jīng)讓自動駕駛車輛看清了物理世界,但在面對復雜的交通規(guī)則和充滿變數(shù)的社會互動時,車輛依然顯得非常機械。

舉個例子,當前方有一輛閃著紅燈的救護車時,人類駕駛員知道即便前方是紅燈也需要觀察路況并盡可能讓行;當看到路邊有蹣跚學步的小孩時,人類會預判小孩可能會突然跑上公路。

這些基于常識的邏輯推理,是傳統(tǒng)基于規(guī)則的算法難以完全覆蓋的。近年來,以大語言模型和視覺語言模型為核心的基礎模型開始被引入自動駕駛領域,旨在解決這種深層次的語義理解和推理問題。

基礎模型在自動駕駛中的核心在于其擁有的世界知識。

wKgZPGnsE3uABiv4AABxx8efK2U867.jpg

圖片源自:網(wǎng)絡

這些模型在海量文本和圖像數(shù)據(jù)中學習到了人類社會的運行規(guī)律,能夠理解復雜的因果關系。例如,在面對一個施工區(qū)域時,大模型不僅能識別出錐桶和圍擋,還能結(jié)合當前的交通流和路標文字,推理出最佳的繞行方案。

相比于傳統(tǒng)的基于邏輯樹的決策方式,這種基于模型的方法在處理未曾見過的特殊場景時表現(xiàn)出極強的泛化能力。它將感知的范疇從識別幾何形體擴展到了理解場景意圖。

在具體的實現(xiàn)邏輯上,這些模型采用多模態(tài)架構(gòu),將視覺傳感器的特征信息轉(zhuǎn)化為文本描述或高維向量,與預訓練的知識庫進行交互。通過這種方式,自動駕駛系統(tǒng)能夠?qū)崿F(xiàn)一種類似于人類思維的邏輯鏈條。

若車輛感知到前方車輛尾燈閃爍,然后結(jié)合當前路口特征和車道拓撲關系,就可以推理出該車可能由于故障??炕驕蕚渚o急并線,最后做出減速并保持距離的決策。

這種推理過程不再是單純的概率計算,而是具備了一定程度的可解釋性,讓人們可以理解車輛為什么在特定時刻做出了特定的選擇。

基礎模型還在場景生成和系統(tǒng)評測中發(fā)揮著重要作用。

通過大規(guī)模生成如夜間逆行的非機動車、雨天反光的積水坑等稀有的極端場景,這些模型能夠為自動駕駛系統(tǒng)的訓練提供高質(zhì)量、多維度的模擬數(shù)據(jù),從而加速感知的迭代優(yōu)化。

這種從真實數(shù)據(jù)中提煉知識,再通過模擬數(shù)據(jù)反哺系統(tǒng)的閉環(huán),正成為提升自動駕駛場景理解能力的重要路徑。

為了在真實城市交通中實現(xiàn)安全行駛,系統(tǒng)還會采用多準則決策方法來平衡安全性、舒適性和效率等多個目標,確保車輛能夠自然地融入交通生態(tài)。

wKgZO2nsE3uAIJi9AAASAJELks8816.jpg

最后的話

自動駕駛場景理解是一場從物理探測到數(shù)學重構(gòu),再到思維推理的演進過程。從多傳感器融合奠定的數(shù)據(jù)基石,到鳥瞰圖與占用網(wǎng)絡構(gòu)建的立體視野,再到基礎模型賦予的智慧大腦,每一項技術(shù)的突破都在填補機器與人類駕駛員之間的能力鴻溝。

在這個過程中,場景理解已經(jīng)不再僅僅是看見,而是演變成了對物理世界規(guī)律的洞察。隨著算力的持續(xù)提升和算法模型的不斷迭代,全場景、高可靠的語義理解終將實現(xiàn),并為自動駕駛的安全落地提供最堅實的保障。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 自動駕駛
    +關注

    關注

    794

    文章

    14988

    瀏覽量

    181511
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    深度相機:技術(shù)突破到全場景落地,解鎖三維感知新可能

    推動各行業(yè)智能化轉(zhuǎn)型的關鍵設備。不同于傳統(tǒng)2D相機只能捕捉平面圖像,深度相機能夠精確獲取場景或物體的三維空間信息,輸出深度圖與點云數(shù)據(jù),讓設備擁有“立體視覺”,實現(xiàn)
    的頭像 發(fā)表于 04-15 15:04 ?291次閱讀
    深度相機:<b class='flag-5'>從</b>技術(shù)突破到全<b class='flag-5'>場景</b>落地,解鎖<b class='flag-5'>三維</b>感知新可能

    深度圖像信息直出,分辨率達120萬像素,安森美iTOF讓機器快速理解三維空間

    電子發(fā)燒友網(wǎng)報道(文 / 吳子鵬)二維識別到三維理解,感知技術(shù)的每一次躍遷,都在不斷重塑機器人、工業(yè)自動化與智能檢測的應用邊界。隨著具身智
    的頭像 發(fā)表于 04-03 09:43 ?2868次閱讀
    深度圖像信息直出,分辨率達120萬像素,安森美iTOF讓機器快速<b class='flag-5'>理解</b><b class='flag-5'>三維</b>空間

    [VirtualLab] 二維叉形光柵產(chǎn)生渦旋光陣列

    納加工技術(shù)的飛速發(fā)展,二維叉形光柵的制備精度與性能不斷提升,不僅能實現(xiàn)單一拓撲荷的渦旋光束輸出,還可通過級聯(lián)或復用設計生成多通道、多模式的 OAM 光束陣列。這一技術(shù)突破,極大地推動了渦旋光束在光通信
    發(fā)表于 04-01 09:15

    大模型時代自動駕駛標注有什么特殊要求?

    的端到端架構(gòu)和占用網(wǎng)絡,標注工作已經(jīng)平面的像素點位,跨越到了四時空的深度重建。 空間的立體化與時間的連貫性挑戰(zhàn) 自動駕駛標注的難點在于二維
    的頭像 發(fā)表于 03-01 09:09 ?3110次閱讀
    大模型時代<b class='flag-5'>自動駕駛</b>標注有什么特殊要求?

    自動駕駛中常提的占用網(wǎng)絡檢測存在哪些問題?

    自動駕駛感知技術(shù)在過去幾年中經(jīng)歷了很大的變化,最初的二維圖像檢測到鳥瞰圖投影,再到如今備受關注的占用網(wǎng)絡,感知技術(shù)的提升,讓自動駕駛
    的頭像 發(fā)表于 02-24 15:53 ?1175次閱讀

    【OFDR】實時感知、動態(tài)重構(gòu)與歷史狀態(tài)回溯!昊衡科技-三維場重構(gòu)軟件

    三維場重構(gòu)軟件三維場重構(gòu)軟件通過TCP協(xié)議獲取傳感數(shù)據(jù),并實時重構(gòu)三維溫度/應變場。軟件支持導入三維模型(.wrl格式)與二維圖片(.jpe
    的頭像 發(fā)表于 01-29 17:40 ?1479次閱讀
    【OFDR】實時感知、動態(tài)重構(gòu)與歷史狀態(tài)回溯!昊衡科技-<b class='flag-5'>三維</b>場重構(gòu)軟件

    有哪些常見的二維碼模組類型?

    、應用等級四大核心維度劃分,不同類型適配不同場景需求:一、按安裝方式劃分1.嵌入式二維碼模組核心特點是體積小、集成度高,可直接嵌入設備內(nèi)部,適配空間受限的場景,支
    的頭像 發(fā)表于 01-24 00:00 ?943次閱讀
    有哪些常見的<b class='flag-5'>二維</b>碼模組類型?

    二維影像掃描引擎在門禁二維碼刷卡梯控行業(yè)中的應用

    在當今科技日新月異的時代,二維影像掃描引擎以其卓越的識別性能和廣泛的應用領域,成為了門禁系統(tǒng)中不可或缺的重要組成部分,尤其在二維碼刷卡梯控行業(yè)中展現(xiàn)出了非凡的價值。本文將深入探討二維影像掃描引擎在
    的頭像 發(fā)表于 12-17 15:42 ?496次閱讀
    <b class='flag-5'>二維</b>影像掃描引擎在門禁<b class='flag-5'>二維</b>碼刷卡梯控行業(yè)中的應用

    二維數(shù)組介紹

    大家不要認為二維數(shù)組在內(nèi)存中就是按行、列這樣二維存儲的,實際上,不管二維、三維數(shù)組… 都是編譯器的語法糖。 存儲上和一數(shù)組沒有本質(zhì)區(qū)別,
    發(fā)表于 11-25 07:42

    AI 驅(qū)動三維逆向:點云降噪算法工具與機器學習建模能力的前沿應用

    三維逆向工程領域,傳統(tǒng)方法在處理復雜數(shù)據(jù)和構(gòu)建高精度模型時面臨諸多挑戰(zhàn)。隨著人工智能(AI)技術(shù)的發(fā)展,點云降噪算法工具與機器學習建模能力的應用,為三維逆向工程帶來了創(chuàng)新性解決方案,顯著提升
    的頭像 發(fā)表于 08-20 10:00 ?860次閱讀
    AI 驅(qū)動<b class='flag-5'>三維</b>逆向:點云降噪算法工具與機器學習建模<b class='flag-5'>能力</b>的前沿應用

    二維碼條碼識讀器的主要功能有哪些

    在信息化快速發(fā)展的當下,一二維碼條碼識讀器已成為各行各業(yè)高效處理信息的重要工具。超市收銀到物流追蹤,它憑借快速準確的信息識別能力,大幅提升
    的頭像 發(fā)表于 08-01 15:59 ?1209次閱讀
    一<b class='flag-5'>維</b><b class='flag-5'>二維</b>碼條碼識讀器的主要功能有哪些

    基于TSV的三維集成電路制造技術(shù)

    三維集成電路工藝技術(shù)因特征尺寸縮小與系統(tǒng)復雜度提升而發(fā)展,其核心目標在于通過垂直堆疊芯片突破二維物理極限,同時滿足高密度、高性能、高可靠性及低成本的綜合需求。
    的頭像 發(fā)表于 07-08 09:53 ?2318次閱讀
    基于TSV的<b class='flag-5'>三維</b>集成電路制造技術(shù)

    基于STM32的二維碼識別源碼+二維碼解碼庫lib

    基于STM32的二維碼識別源碼+二維碼解碼庫lib,推薦下載!
    發(fā)表于 05-28 22:04

    基于STM32的二維碼識別源碼+二維碼解碼庫lib

    基于STM32的二維碼識別源碼+二維碼解碼庫lib項目實例下載! 純分享帖,需要者可點擊附件免費獲取完整資料~~~【免責聲明】本文系網(wǎng)絡轉(zhuǎn)載,版權(quán)歸原作者所有。本文所用視頻、圖片、文字如涉及作品版權(quán)問題,請第一時間告知,刪除內(nèi)容!
    發(fā)表于 05-23 20:45

    JCMsuite中對二維光柵的定義和仿真

    光柵是光衍射的周期性結(jié)構(gòu)。它能把入射的光束衍射成幾束向不同方向發(fā)散的光束。 二維光柵 二維光柵在兩個水平方向上都具有周期性。存在兩個晶格矢量因此當幾何結(jié)構(gòu)移位一個晶格矢量時, 下圖顯示了一個正方形
    發(fā)表于 05-19 08:53
    荔浦县| 巢湖市| 宜昌市| 丹棱县| 小金县| 舞钢市| 嘉兴市| 襄垣县| 黔东| 哈巴河县| 滦平县| 桑日县| 乌兰县| 武汉市| 青田县| 晋城| 蓝田县| 翁源县| 商都县| 裕民县| 双桥区| 响水县| 华亭县| 枝江市| 牙克石市| 黄大仙区| 屯昌县| 丰镇市| 万山特区| 龙江县| 小金县| 阿巴嘎旗| 德江县| 方正县| 大方县| 敖汉旗| 重庆市| 呼和浩特市| 靖州| 新干县| 牟定县|