隨著座艙屏幕數(shù)量和算力趨近用戶(hù)感知上限,智能座艙的競(jìng)爭(zhēng)焦點(diǎn)正由硬件堆疊轉(zhuǎn)向智能體驗(yàn)。真正的變革在于座艙系統(tǒng)能否成為貼心伙伴——不僅能聽(tīng)懂指令,更能理解意圖;不僅能識(shí)別環(huán)境,更能洞察場(chǎng)景;不僅能執(zhí)行操作,更具情感共鳴與主動(dòng)服務(wù)能力。
縱觀智能座艙的發(fā)展脈絡(luò),行業(yè)正經(jīng)歷從早期的功能集成 (將導(dǎo)航、音樂(lè)、車(chē)控等功能匯集一屏),到當(dāng)前的場(chǎng)景服務(wù) (如“會(huì)議”“小憩”“長(zhǎng)途”等模式),再到綜合情感交互的三階段演進(jìn)。未來(lái)的智能座艙將具備情景理解、全乘客意圖判斷與主動(dòng)服務(wù)能力,真正成為有溫度、有智慧、懂用戶(hù)的艙內(nèi)智能空間。而實(shí)現(xiàn)這一目標(biāo),需要在車(chē)端計(jì)算單元部署更強(qiáng)大的多模態(tài)、全模態(tài) AI,并克服以下核心挑戰(zhàn):
確定性的超低延遲響應(yīng):無(wú)論是語(yǔ)音打斷還是自然語(yǔ)言的交流反饋,響應(yīng)必須在百毫秒級(jí)且穩(wěn)定可預(yù)測(cè),這是端側(cè)部署 AI Agent 的核心優(yōu)勢(shì),且直接關(guān)系到終端用戶(hù)的體驗(yàn)與爽感。
高效的解碼生成能力:當(dāng)前端側(cè)大模型推理的瓶頸往往在于文本輸出生成階段,若解碼速度不足,用戶(hù)將明顯感受到回復(fù)卡頓、中斷,嚴(yán)重影響對(duì)話的自然度與體驗(yàn)的連貫性。
多模態(tài)信號(hào)的實(shí)時(shí)檢測(cè):系統(tǒng)需要實(shí)時(shí)并同步處理來(lái)自艙內(nèi) DMS、OMS,以及艙外攝像頭、麥克風(fēng)陣列、語(yǔ)音文本等多路異構(gòu)輸入信號(hào),需要多模且強(qiáng)大的實(shí)時(shí)處理能力。
可靠安全的端云協(xié)同架構(gòu):涉及隱私安全的長(zhǎng)期記憶與歷史記憶功能交互依賴(lài)本地計(jì)算,確保響應(yīng)可靠;同時(shí),復(fù)雜互聯(lián)網(wǎng)信息查詢(xún)又需要無(wú)縫連接云端模型,從而形成安全與智能兼顧的混合架構(gòu)。
同時(shí),這些挑戰(zhàn)會(huì)催生出下一代艙內(nèi) AI 智能體的關(guān)鍵場(chǎng)景:
艙內(nèi)外一體化視覺(jué)感知:DMS、OMS 正從基礎(chǔ)的疲勞監(jiān)測(cè),演進(jìn)為能夠識(shí)別艙內(nèi)駕駛員、乘客身份,手勢(shì)表情指令、情緒狀態(tài)的綜合感知中樞,并與艙外感知配合,可實(shí)現(xiàn)“旅途路書(shū)導(dǎo)游”“霧霾自動(dòng)關(guān)窗”“寵物遺留檢測(cè)”等主動(dòng)場(chǎng)景服務(wù)。
具有記憶與邏輯連貫性的多輪語(yǔ)音對(duì)話:語(yǔ)音助手需構(gòu)建持續(xù)的對(duì)話記憶,能準(zhǔn)確解析“調(diào)暗一點(diǎn)”“給剛才打電話的人回消息”等上下文所指,并處理“如果明天不下雨,就幫我預(yù)約洗車(chē)”式的復(fù)雜條件指令,實(shí)現(xiàn)真正類(lèi)人的連貫交互。
面向 L2+/L3/L4 的高動(dòng)態(tài)人機(jī)交互式共駕:系統(tǒng)根據(jù)駕駛員及乘客的乘車(chē)目的、路況復(fù)雜度、艙內(nèi)場(chǎng)景狀態(tài)、駕駛員專(zhuān)注度,動(dòng)態(tài)調(diào)整交互策略和信息呈現(xiàn)方式,從而實(shí)現(xiàn)“不想回家,去看電影”“去一家我喜歡口味的餐廳”等絲滑駕艙體驗(yàn)。
NVIDIA TensorRT Edge-LLM——為車(chē)載等邊緣端大模型而生的開(kāi)源推理框架
一、框架概述
NVIDIA TensorRT Edge-LLM是專(zhuān)為邊緣端大模型部署打造的輕量級(jí)推理框架,面向智能汽車(chē)等實(shí)時(shí)端側(cè)應(yīng)用場(chǎng)景??蚣茚槍?duì)邊緣部署的核心訴求進(jìn)行了深度優(yōu)化:
少量用戶(hù)/低批量推理:面向少量用戶(hù)或多攝像頭小批量推理場(chǎng)景設(shè)計(jì)
離線運(yùn)行:無(wú)云端依賴(lài),本地獨(dú)立完成全流程推理
極致性能:最小化延遲、內(nèi)存與算力占用
高可靠性:滿(mǎn)足高可靠性的生產(chǎn)級(jí)部署標(biāo)準(zhǔn)
二、核心特性
| 特性 | 核心價(jià)值 |
| 純 C++ 運(yùn)行時(shí) | 開(kāi)源代碼,依賴(lài)極少,易于集成與生產(chǎn)部署 |
| 超輕量化設(shè)計(jì) | 專(zhuān)注嵌入式場(chǎng)景,資源占用最小化 |
| 高性能計(jì)算 | 優(yōu)化的 CUDA 內(nèi)核與 TensorRT 集成,實(shí)現(xiàn)最大吞吐量 |
| 高級(jí)能力 | 支持投機(jī)解碼、NVFP4 等量化、動(dòng)態(tài) LoRA 切換,先進(jìn)的 KV 緩存管理等特性 |
| 統(tǒng)一工具鏈 | 同一推理工具鏈適用于 NVIDIA Drive AGX、Jetson 及 MediaTek Dimensity Auto 座艙平臺(tái) |
更多技術(shù)細(xì)節(jié)請(qǐng)參考:TensorRT Edge-LLM 技術(shù)文檔
三、開(kāi)源意義
NVIDIA 在 GPU 計(jì)算領(lǐng)域深耕多年,依托 CUDA、TensorRT 等核心技術(shù)構(gòu)建了成熟的 AI 開(kāi)發(fā)生態(tài),已成為業(yè)界事實(shí)標(biāo)準(zhǔn)。此次開(kāi)源 TensorRT Edge-LLM,正是將這一生態(tài)優(yōu)勢(shì)向邊緣端延伸的重要舉措。
開(kāi)源將帶來(lái)多重價(jià)值:一方面,統(tǒng)一的技術(shù)規(guī)范能夠有效降低車(chē)企等端側(cè)廠商的開(kāi)發(fā)門(mén)檻與適配成本;另一方面,也為 AI 模型廠商提供了標(biāo)準(zhǔn)化的適配路徑,使模型能夠更便捷地部署至邊緣設(shè)備,加速商業(yè)化落地。此外,代碼透明有助于提升安全可審計(jì)性,更好地滿(mǎn)足生產(chǎn)環(huán)境的合規(guī)要求;開(kāi)放的社區(qū)模式也將匯聚全球開(kāi)發(fā)者持續(xù)貢獻(xiàn),推動(dòng)技術(shù)快速迭代演進(jìn)。
通過(guò) TensorRT Edge-LLM 的開(kāi)源,NVIDIA 旨在進(jìn)一步完善從云到端的全棧 AI 生態(tài),讓開(kāi)發(fā)者從復(fù)雜的底層優(yōu)化中解放出來(lái),更專(zhuān)注于上層應(yīng)用創(chuàng)新,助力智能汽車(chē)等端側(cè)行業(yè)加速邁向智能化。 歡迎訪問(wèn)開(kāi)源社區(qū)參與貢獻(xiàn):TensorRT Edge-LLM GitHub
中科創(chuàng)達(dá)的創(chuàng)新實(shí)踐:基于 NVIDIA TensorRT Edge-LLM 的多模態(tài) AI 服務(wù)架構(gòu)
TensorRT Edge-LLM 為車(chē)載邊緣AI提供了高性能、輕量化、純 C++ 的推理運(yùn)行時(shí),是構(gòu)建車(chē)規(guī)級(jí)推理系統(tǒng)的重要基礎(chǔ)?;谠撨\(yùn)行時(shí),中科創(chuàng)達(dá)進(jìn)一步構(gòu)建了面向座艙業(yè)務(wù)的多模態(tài) AI 服務(wù)架構(gòu),將底層推理能力封裝為可調(diào)度、可擴(kuò)展的系統(tǒng)服務(wù)。

(注:MoE模塊將在后續(xù)版本中引入)
*圖片由中科創(chuàng)達(dá)提供,如果您有任何疑問(wèn)或需要使用該圖片,請(qǐng)聯(lián)系中科創(chuàng)達(dá)
一、該架構(gòu)特點(diǎn)
統(tǒng)一的 AI 服務(wù)接口:
在 TensorRT Edge-LLM 之上實(shí)現(xiàn)支持 LLM、VLM 及混合輸入的 HTTP 推理服務(wù),滿(mǎn)足語(yǔ)音、視覺(jué)及多模態(tài)交互的統(tǒng)一接入需求。
支持 Continuous Batching (多請(qǐng)求動(dòng)態(tài)合并) 與Streaming 推理 (流式輸出),在提升 GPU 利用率的同時(shí)降低單請(qǐng)求感知時(shí)延,在多并發(fā)場(chǎng)景下吞吐量提高 2.4 倍。
支持跨 SoC 平臺(tái)的快速適配:
構(gòu)建統(tǒng)一的推理后端抽象層,實(shí)現(xiàn)從特定平臺(tái)推理框架到 TensorRT Edge-LLM 的平滑遷移,顯著降低底層適配成本,提升整體開(kāi)發(fā)效率。
在平臺(tái)層提供標(biāo)準(zhǔn)化的模型定義與接入機(jī)制,使新模型能夠快速完成適配、部署與調(diào)優(yōu),避免為每個(gè)模型重復(fù)進(jìn)行工程開(kāi)發(fā),加速多模型在座艙場(chǎng)景中的規(guī)模化應(yīng)用。
面向業(yè)務(wù)負(fù)載的推理任務(wù)調(diào)度和優(yōu)化:
推理服務(wù)可與座艙內(nèi)語(yǔ)音、視覺(jué)、HMI 等模塊協(xié)同運(yùn)行,支持實(shí)際業(yè)務(wù)中的并發(fā)請(qǐng)求和實(shí)時(shí)交互需求。支持根據(jù)業(yè)務(wù)優(yōu)先級(jí)對(duì)推理任務(wù)進(jìn)行掛起與恢復(fù),使高優(yōu)先級(jí)交互請(qǐng)求能夠獲得確定性的響應(yīng)時(shí)間。針對(duì)特定模型與應(yīng)用場(chǎng)景,對(duì)推理邏輯進(jìn)行針對(duì)性工程優(yōu)化,使系統(tǒng)在滿(mǎn)足業(yè)務(wù)約束的前提下獲得更優(yōu)的端到端性能表現(xiàn),在 Qwen2.5-VL-7B 模型上,針對(duì)單并發(fā)多圖輸入場(chǎng)景 (9×448×364 圖像 + 1000 text tokens + 30 output tokens),相比基線方案實(shí)現(xiàn) 1.59 倍推理加速。
與算法訓(xùn)練團(tuán)隊(duì)協(xié)同工作:具備自主訓(xùn)練 EAGLE3 draft model 及 LoRA 微調(diào)能力,從模型訓(xùn)練、推理策略到系統(tǒng)工程形成閉環(huán),充分釋放 TensorRT Edge-LLM 在推理加速、Speculative Decoding 等特性上的整體潛力。
二、客戶(hù)合作案例
案例 A:重構(gòu) AI 座艙交互——基于 NVIDIA DRIVE AGX Orin 的端側(cè)算力與優(yōu)化視覺(jué)大模型融合實(shí)踐
基于DRIVE AGX Orin平臺(tái),中科創(chuàng)達(dá)與某頭部車(chē)企攜手,成功打造并全球首發(fā)了新一代 AI 座艙。其核心成果在于:充分利用 DRIVE AGX Orin 平臺(tái)的極致AI算力,深度融合經(jīng)中科創(chuàng)達(dá)深度優(yōu)化的本地 Qwen2.5-VL-7B 視覺(jué)大模型,真正兌現(xiàn)了“AI 座艙”的感知與決策能力,并將關(guān)鍵 AI 場(chǎng)景的端到端推理延遲降至業(yè)界領(lǐng)先水平,為用戶(hù)帶來(lái)顛覆性的瞬時(shí)響應(yīng)體驗(yàn)。
性能成果:將關(guān)鍵 AI 場(chǎng)景的端到端推理延遲降至秒級(jí)——AI增強(qiáng)哨兵場(chǎng)景 2.6s,AI迎賓場(chǎng)景 0.6s,下車(chē)安全場(chǎng)景 0.7s,停車(chē)記憶場(chǎng)景 0.8s。
行業(yè)突破:中科創(chuàng)達(dá)成功解鎖了 AIBOX (DRIVE AGX Orin) A 樣的量產(chǎn)能力,實(shí)現(xiàn)了全球首次交付。這一里程碑標(biāo)志著 AI 座艙相關(guān)智能場(chǎng)景進(jìn)入了新的發(fā)展階段。
案例B:面向下一代車(chē)載自然交互的端側(cè)大模型記憶實(shí)踐
中科創(chuàng)達(dá)與某全球頭部車(chē)企合作的 Innovation Project 中,在車(chē)規(guī)級(jí)高性能 AI 算力底座上,部署并深度優(yōu)化了 Qwen3-VL-4B 視覺(jué)語(yǔ)言模型,使其滿(mǎn)足車(chē)載環(huán)境的苛刻要求?;诖?,成功實(shí)現(xiàn)了“長(zhǎng)聆聽(tīng)” (Long-Context Listening) 與“端側(cè)主動(dòng)記憶” (On-Device Proactive Memory) 兩大原型功能,為探索無(wú)界面的自然交互奠定了基礎(chǔ)。
三、核心價(jià)值
基于 DRIVE AGX Orin 的強(qiáng)大算力以及 TensorRT Edge-LLM 優(yōu)秀的推理任務(wù)調(diào)度管理方案,實(shí)現(xiàn)端側(cè)人人對(duì)話、主動(dòng)記憶、Non-workflow 的智能任務(wù)編排范式,與客戶(hù)共同探索車(chē)載 AI 場(chǎng)景技術(shù)的創(chuàng)新能力邊界。
智能座艙的競(jìng)爭(zhēng)已經(jīng)進(jìn)入下半場(chǎng),決勝的關(guān)鍵不再是單純的配置堆疊,而是考驗(yàn)在嚴(yán)苛車(chē)規(guī)級(jí)環(huán)境下能否提供穩(wěn)定、高效且確定性的用戶(hù)體驗(yàn)輸出。此外,智能座艙的演進(jìn)從來(lái)不是單點(diǎn)技術(shù)的突破,而是完整生態(tài)系統(tǒng)的協(xié)同進(jìn)化升級(jí)。在這一關(guān)鍵進(jìn)程中,NVIDIA 和中科創(chuàng)達(dá)基于各自的核心能力,形成了深度互補(bǔ)的合作,共同為行業(yè)提供從底層算力到上層應(yīng)用的全棧解決方案。NVIDIA 開(kāi)源的 TensorRT Edge-LLM 框架將專(zhuān)業(yè)級(jí)邊緣AI推理能力全面開(kāi)放給開(kāi)發(fā)者,而中科創(chuàng)達(dá)則憑借深厚的座艙軟件全棧能力,將TensorRT Edge-LLM 深度集成至座艙AI系統(tǒng),將AI能力封裝為智能且可復(fù)用的場(chǎng)景服務(wù)模塊,從而共同推動(dòng)智能座艙進(jìn)入“AI 定義”時(shí)代。
面向未來(lái),雙方將合作聚焦于三個(gè)維度:基于量產(chǎn)數(shù)據(jù)和用戶(hù)反饋持續(xù)優(yōu)化 DRIVE 平臺(tái)上的性能表現(xiàn);共同開(kāi)發(fā)支持個(gè)性化服務(wù)與座艙 AI Agent 框架;為車(chē)企提供從模型選型、量化優(yōu)化到 Agent 部署集成的完整工具鏈與參考框架,助力打造可持續(xù)進(jìn)化的AI定義座艙。中科創(chuàng)達(dá)非常期待通過(guò) NVIDIA 開(kāi)放的底層能力與中科創(chuàng)達(dá)成熟的集成經(jīng)驗(yàn),與更多開(kāi)發(fā)者共同創(chuàng)建創(chuàng)新可靠的智能汽車(chē)軟件生態(tài),真正實(shí)現(xiàn)從功能定義到AI定義的范式變革。
獲取核心框架、工具鏈以及模型部署示例:https://github.com/NVIDIA/TensorRT-Edge-LLM
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5678瀏覽量
110073 -
AI
+關(guān)注
關(guān)注
91文章
40820瀏覽量
302427 -
中科創(chuàng)達(dá)
+關(guān)注
關(guān)注
1文章
369瀏覽量
13811 -
智能座艙
+關(guān)注
關(guān)注
4文章
1324瀏覽量
17352
原文標(biāo)題:NVIDIA 與中科創(chuàng)達(dá)推動(dòng)智能座艙進(jìn)入“AI 定義”時(shí)代
文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
NVIDIA攜手中科創(chuàng)達(dá)助力打造AI定義智能座艙
評(píng)論