隨著機(jī)器人技術(shù)和自動駕駛汽車的發(fā)展,加快物理 AI 的開發(fā)工作變得至關(guān)重要。物理 AI 使自主機(jī)器能夠感知、理解并執(zhí)行物理世界中的復(fù)雜操作,而這些系統(tǒng)的核心是世界基礎(chǔ)模型(WFM)。這種 AI 模型通過物理感知視頻仿真物理狀態(tài),使機(jī)器能夠做出準(zhǔn)確的決策并與周圍環(huán)境進(jìn)行無縫交互。
NVIDIA Cosmos 是一個(gè)幫助開發(fā)者為物理 AI 系統(tǒng)大規(guī)模構(gòu)建定制世界模型的平臺。從數(shù)據(jù)整理、訓(xùn)練到定制,它為每個(gè)開發(fā)階段提供了開放世界基礎(chǔ)模型和工具。
本文將介紹 Cosmos 及其加速物理 AI 開發(fā)的主要功能。
使用 NVIDIA Cosmos
加速世界模型開發(fā)
物理 AI 的構(gòu)建難度極大,需要進(jìn)行精確的仿真并理解和預(yù)測現(xiàn)實(shí)世界的行為。世界模型是克服這些挑戰(zhàn)的關(guān)鍵工具,它可以根據(jù)過去的觀察結(jié)果和當(dāng)前的輸入預(yù)測未來的環(huán)境狀態(tài)。這些模型使物理 AI 構(gòu)建者能夠在受控環(huán)境中仿真、訓(xùn)練和完善系統(tǒng),因此對他們價(jià)值連城。
但開發(fā)有效的世界模型需要大量數(shù)據(jù)、算力和現(xiàn)實(shí)世界測試,這可能會帶來巨大的安全風(fēng)險(xiǎn)、后勤障礙和高昂的成本。為了解決這些問題,開發(fā)者通常會使用 3D 仿真生成的合成數(shù)據(jù)訓(xùn)練模型。雖然合成數(shù)據(jù)是一種強(qiáng)大的工具,但創(chuàng)建合成數(shù)據(jù)需要耗費(fèi)大量資源,而且可能無法準(zhǔn)確反映現(xiàn)實(shí)世界的物理特性,尤其是在復(fù)雜或邊緣場景中。
NVIDIA Cosmos 端到端平臺能夠加速物理 AI 系統(tǒng)世界模型的開發(fā)。Cosmos 基于 CUDA 構(gòu)建,結(jié)合了目前最先進(jìn)的世界基礎(chǔ)模型、視頻 tokenizer 和 AI 加速數(shù)據(jù)處理管線。
開發(fā)者可以通過微調(diào) Cosmos 世界基礎(chǔ)模型或從頭開始構(gòu)建新模型來加速世界模型的開發(fā)。除了 Cosmos 世界基礎(chǔ)模型,該平臺還包含:
用于高效整理視頻數(shù)據(jù)的 NVIDIA NeMo Curator
用于高效、緊湊和高保真視頻 token 化的 Cosmos Tokenizer
用于機(jī)器人和自動駕駛應(yīng)用的預(yù)訓(xùn)練 Cosmos 世界基礎(chǔ)模型
用于模型訓(xùn)練和優(yōu)化的 NVIDIA NeMo Framework

圖 1 NVIDIA Cosmos 是一個(gè)加速物理 AI 開發(fā)的世界基礎(chǔ)模型開發(fā)平臺,包含生成模型、數(shù)據(jù)采集器、tokenizer 和框架。
適用于物理 AI 的
預(yù)訓(xùn)練世界基礎(chǔ)模型
Cosmos 世界基礎(chǔ)模型是在 9000 萬億個(gè) token(包括來自自動駕駛、機(jī)器人、合成環(huán)境和其他相關(guān)領(lǐng)域的 2000 萬小時(shí)數(shù)據(jù))上訓(xùn)練而成的預(yù)訓(xùn)練大型生成式 AI 模型。這些模型能夠創(chuàng)建逼真的環(huán)境和交互式合成視頻,為訓(xùn)練復(fù)雜的系統(tǒng)(從執(zhí)行高級動作的人形機(jī)器人仿真到端到端自動駕駛模型的開發(fā))提供了一個(gè)擴(kuò)展自如的基礎(chǔ)。
這些模型按架構(gòu)可分為兩種:自回歸和擴(kuò)散,并且均使用 Transformer 架構(gòu)。這種架構(gòu)擴(kuò)展自如,并且能夠有效應(yīng)對復(fù)雜的時(shí)間依賴性。
自回歸模型
Cosmos 自回歸模型專為視頻生成設(shè)計(jì),可根據(jù)輸入文本和過去的視頻幀預(yù)測下一個(gè) token。它使用了 Transformer 解碼器架構(gòu),并且對世界模型的開發(fā)作出了多項(xiàng)關(guān)鍵改進(jìn)。
3D RoPE(旋轉(zhuǎn)位置嵌入)分別對空間和時(shí)間維度進(jìn)行編碼,確保精確的視頻序列表示。
交叉注意層實(shí)現(xiàn)了文本輸入,提高了對世界生成的控制力。
QK 歸一化提高了訓(xùn)練的穩(wěn)定性。
該模型的預(yù)訓(xùn)練循序漸進(jìn),從預(yù)測一個(gè)單輸入幀的 17 個(gè)未來幀開始,擴(kuò)展到 34 個(gè)幀,最終達(dá)到 121 個(gè)幀(或 50000 個(gè) token)。通過引入文本輸入,將描述與視頻幀相結(jié)合,并使用高質(zhì)量數(shù)據(jù)對模型進(jìn)行微調(diào),最終獲得穩(wěn)健的性能。這種結(jié)構(gòu)化的方法使模型無論是否有文本輸入,都能夠生成不同長度和復(fù)雜程度的視頻。

圖 2 Cosmos 自回歸模型使用 Transformer 解碼器架構(gòu),并且對世界模型的開發(fā)作出了多項(xiàng)關(guān)鍵的改進(jìn)
擴(kuò)散模型
擴(kuò)散模型由于能夠解構(gòu)訓(xùn)練數(shù)據(jù)并根據(jù)用戶輸入進(jìn)行重建,從而生成高質(zhì)量的逼真輸出,因此被普遍用于生成圖像、視頻和音頻。
擴(kuò)散模型的運(yùn)行分為兩個(gè)階段:
前向擴(kuò)散過程:通過在多個(gè)步驟中添加高斯噪聲,逐步破壞訓(xùn)練數(shù)據(jù),從而有效地將其轉(zhuǎn)化為純噪聲。
反向擴(kuò)散過程:模型學(xué)會逐步逆轉(zhuǎn)噪聲,通過對損壞的輸入數(shù)據(jù)進(jìn)行去噪處理來恢復(fù)原始數(shù)據(jù)。
經(jīng)過訓(xùn)練的擴(kuò)散模型通過對隨機(jī)高斯噪聲進(jìn)行采樣并將其傳遞到所學(xué)的去噪過程來生成新數(shù)據(jù)。此外,Cosmos 擴(kuò)散模型還針對物理 AI 開發(fā)進(jìn)行了多項(xiàng)關(guān)鍵更新。
3D 補(bǔ)丁化將視頻處理成更小的補(bǔ)丁,簡化了時(shí)空序列表示。
混合位置嵌入處理空間和時(shí)間維度,支持不同分辨率和幀率的視頻。
交叉注意層包含文本輸入,可根據(jù)描述更好地控制視頻生成。
借助 LoRA 實(shí)現(xiàn)的自適應(yīng)層歸一化可將模型大小減少 36%,從而減少保持高性能所需的資源。

選擇不同大小的模型滿足各種需求
開發(fā)者可根據(jù)性能、質(zhì)量和部署需求選擇以下三種大小的模型。
Nano:專為實(shí)時(shí)、低延遲推理和邊緣部署優(yōu)化。
Super:高性能基準(zhǔn)模型。
Ultra:追求最高的質(zhì)量和保真度,是蒸餾定制模型的理想選擇。
優(yōu)勢和局限性
Cosmos 世界基礎(chǔ)模型可生成低分辨率、與現(xiàn)實(shí)世界精準(zhǔn)匹配的合成視頻數(shù)據(jù),這些數(shù)據(jù)是訓(xùn)練機(jī)器人和自動駕駛汽車系統(tǒng)的關(guān)鍵。雖然這些模型缺乏藝術(shù)感,但其輸出結(jié)果與物理世界非常接近,因此非常適合用于在物理AI模型訓(xùn)練中實(shí)現(xiàn)精確的物體恒存和逼真的場景。
通過護(hù)欄保障 Cosmos 基礎(chǔ)模型的
安全使用
AI 模型需要護(hù)欄保證其可靠性,包括減少幻覺、防止輸出有害內(nèi)容、保護(hù)隱私以及與 AI 標(biāo)準(zhǔn)保持一致,從而實(shí)現(xiàn)安全可控的部署。Cosmos 通過符合 NVIDIA 可信 AI 承諾的定制雙段護(hù)欄系統(tǒng),保障世界基礎(chǔ)模型的安全使用。
Cosmos Guardrails 的運(yùn)行分為兩個(gè)階段:前防護(hù)和后防護(hù)。
前防護(hù)
該階段包含兩層基于文本提示的安全措施:
關(guān)鍵詞屏蔽:攔截列表檢查器掃描提示中的不安全關(guān)鍵詞,使用詞素化檢測變體并攔截非英語術(shù)語或拼寫錯誤。
Aegis 護(hù)欄:NVIDIA 經(jīng)過微調(diào)的 Aegis AI 內(nèi)容安全模型可檢測并阻止語義上不安全的提示,包括暴力、騷擾和褻瀆等類別。如果檢測到不安全的提示,就會停止視頻生成并返回錯誤信息。
后防護(hù)
后防護(hù)階段通過以下方式保障生成視頻的安全性:
視頻內(nèi)容安全分類器:該多類分類器會對視頻進(jìn)行逐幀安全評估。一旦有任何幀被標(biāo)記為不安全,整個(gè)視頻將被拒絕。
人臉模糊過濾器:使用 RetinaFace 模型對生成視頻中的所有人臉進(jìn)行模糊處理,以保護(hù)隱私并減少年齡、性別或種族偏見。
為了完善系統(tǒng)和覆蓋邊緣情況,NVIDIA 專家使用對抗性示例進(jìn)行了嚴(yán)格的測試,對 10000 多對提示-視頻添加了注釋。
評估 Cosmos 世界基礎(chǔ)模型的
3D 一致性和物理一致性
世界基礎(chǔ)模型能夠?yàn)槲锢?AI 應(yīng)用準(zhǔn)確、高效地仿真現(xiàn)實(shí)世界的物理特性,Cosmos 基準(zhǔn)測試在評估這一能力方面起到了至關(guān)重要的作用。目前,公開的視頻生成基準(zhǔn)測試側(cè)重于生成視頻的保真度、時(shí)間一致性和速度,而 Cosmos 基準(zhǔn)測試則增加了一個(gè)評估通用模型的新維度—— 3D 一致性和物理一致性,以便根據(jù)物理 AI 系統(tǒng)對準(zhǔn)確性的要求對視頻進(jìn)行評估。
3D 一致性
我們從一個(gè)開放數(shù)據(jù)集中整理了 500 個(gè)視頻子集,然后在這些視頻子集的靜態(tài)場景中對 Cosmos 模型進(jìn)行了 3D 一致性測試。為避免與運(yùn)動相關(guān)的復(fù)雜性,我們生成了描述視頻的文本提示。我們將測試結(jié)果與基準(zhǔn)生成模型 VideoLDM 進(jìn)行了比較。
使用的指標(biāo)
幾何一致性:使用 Sampson 誤差和攝像機(jī)姿態(tài)估計(jì)成功率等指標(biāo),通過極線幾何約束技術(shù)進(jìn)行評估。
視圖合成一致性:使用峰值信噪比(PSNR)、結(jié)構(gòu)相似性指數(shù)(SSIM)和學(xué)習(xí)感知圖像補(bǔ)丁相似性(LPIPS)等指標(biāo)進(jìn)行評估。這些指標(biāo)衡量的是根據(jù)插值攝像機(jī)位置合成視圖的質(zhì)量。
Sampson 誤差越低、成功率越高,說明 3D 對齊度越高。同樣,PSNR 和 SSIM 越高、LPIPS 越低,說明質(zhì)量越高。

表 1 Cosmos 世界基礎(chǔ)模型與 VideoLDM 基本模型的 3D 一致性評估結(jié)果比較
結(jié)果
Cosmos 世界基礎(chǔ)模型在 3D 一致性方面優(yōu)于基準(zhǔn)模型(表 1),其幾何對齊度和攝像機(jī)姿勢成功率更高。這些模型合成的視圖與現(xiàn)實(shí)世界的質(zhì)量相匹配,證明了它們可以作為有效的世界仿真器。
物理對齊度
物理對齊度測試了 Cosmos 模型仿真現(xiàn)實(shí)世界物理特性(包括運(yùn)動、重力和能量動態(tài))的效果。我們使用 NVIDIA PhysX 和 NVIDIA Isaac Sim 設(shè)計(jì)了八個(gè)受控場景,以便評估虛擬環(huán)境中的重力、碰撞、扭矩、慣性等屬性。
使用的指標(biāo)
像素級指標(biāo):峰值信噪比(PSNR)衡量模型輸出的像素值與參考視頻的匹配程度。數(shù)值越高,說明噪聲越小,準(zhǔn)確度越高。結(jié)構(gòu)相似性指數(shù)(SSIM)評估生成的幀與基準(zhǔn)真相幀在結(jié)構(gòu)、亮度和對比度方面的相似性。SSIM 值越高,視覺保真度就越高。
特征級度量:DreamSim 衡量從兩段視頻中提取的高級特征之間的相似度。該方法可評估生成內(nèi)容的語義一致性,側(cè)重于物體和運(yùn)動而非單個(gè)像素。
物體級指標(biāo):IoU(Intersection-over-Union)計(jì)算視頻中預(yù)測物體區(qū)域與實(shí)際物體區(qū)域的重疊度,尤其適合用于通過仿真追蹤特定物體以確保其行為符合物理預(yù)期。
PSNR、SSIM、DreamSim 和 IoU 越高,表示物理對齊度越高。

表 2 在 Cosmos 世界基礎(chǔ)模型自回歸變體所支持的最大長度——33 幀上根據(jù)各指標(biāo)計(jì)算出的物理對齊度結(jié)果
結(jié)果
Cosmos 世界基礎(chǔ)模型顯示出與物理定律的高度一致性(表 2),尤其是在增加調(diào)節(jié)數(shù)據(jù)的情況下。與基準(zhǔn)模型相比,在攝像機(jī)調(diào)節(jié)數(shù)據(jù)集上進(jìn)行的后訓(xùn)練使姿勢估計(jì)成功率提高了兩倍。但也發(fā)現(xiàn)了需要重點(diǎn)改進(jìn)的地方,如物體無常性(物體意外消失或出現(xiàn))和不合常理的行為(如違反重力)。
使用 Cosmos 和 NVIDIA Omniverse
為物理 AI 應(yīng)用定制模型
視頻搜索和理解:通過理解空間和時(shí)間模式簡化視頻標(biāo)記和搜索,使訓(xùn)練數(shù)據(jù)的準(zhǔn)備工作更加輕松。
可控的 3D 轉(zhuǎn)真實(shí)合成數(shù)據(jù)生成:借助 NVIDIA Omniverse,開發(fā)者可以創(chuàng)建 3D 場景并使用 Cosmos 生成逼真的視頻??赏ㄟ^ 3D 場景精準(zhǔn)控制生成的視頻,獲得高度定制化的合成數(shù)據(jù)集。
策略模型開發(fā)和評估:專為以行動為條件的視頻預(yù)測而微調(diào)的世界基礎(chǔ)模型可對策略模型(將狀態(tài)映射到行動的策略)進(jìn)行可擴(kuò)展、可重復(fù)的評估,從而減少對有風(fēng)險(xiǎn)的現(xiàn)實(shí)世界測試或復(fù)雜仿真任務(wù)的依賴,例如障礙物導(dǎo)航或物體操作。
行動選擇預(yù)測:Cosmos 為物理 AI 模型提供了評估潛在行動結(jié)果的預(yù)測能力。
多重宇宙模擬:借助 Cosmos 和 NVIDIA Omniverse,開發(fā)者可以模擬多種未來結(jié)果,幫助 AI 模型評估和選擇實(shí)現(xiàn)目標(biāo)的最佳策略。從中受益的應(yīng)用包括預(yù)測性維護(hù)、自主決策等。
從通用模型到定制專業(yè)模型
Cosmos 引入了一種分為兩個(gè)階段的世界模型訓(xùn)練方法。
通用模型:Cosmos 世界基礎(chǔ)模型作為通用模型構(gòu)建并在廣泛的數(shù)據(jù)集上訓(xùn)練而成。所使用的數(shù)據(jù)集包括各種現(xiàn)實(shí)世界的物理和環(huán)境。這些開放式模型能夠處理從自然動力學(xué)到機(jī)器人交互等廣泛的場景,為一切物理 AI 任務(wù)提供了堅(jiān)實(shí)的基礎(chǔ)。
專業(yè)模型:開發(fā)者可以使用更小但更具針對性的數(shù)據(jù)集對通用模型進(jìn)行微調(diào),以創(chuàng)建專為特定應(yīng)用(例如自動駕駛或人形機(jī)器人)量身定制的專業(yè)模型或者生成定制的合成場景(例如帶有緊急車輛的夜景或高保真工業(yè)機(jī)器人環(huán)境)。與從頭開始訓(xùn)練模型相比,該微調(diào)過程大大減少了所需的數(shù)據(jù)和訓(xùn)練時(shí)間。
Cosmos 通過高效的視頻處理管線、高性能 tokenizer 和先進(jìn)的訓(xùn)練框架加快了訓(xùn)練和微調(diào)的速度,使開發(fā)者能夠滿足運(yùn)營需求并覆蓋邊緣案例,推進(jìn)了物理 AI 的開發(fā)工作。
使用 NVIDIA NeMo Curator 加速數(shù)據(jù)處理
為了訓(xùn)練模型,需要投喂經(jīng)過整理的高質(zhì)量數(shù)據(jù),這需要耗費(fèi)大量時(shí)間和資源。NVIDIA Cosmos 包含一個(gè)由 NVIDIA NeMo Curator 驅(qū)動并專為 NVIDIA 數(shù)據(jù)中心 GPU 優(yōu)化的數(shù)據(jù)處理和整理管線。
NVIDIA NeMo Curator 使機(jī)器人和自動駕駛汽車開發(fā)者能夠高效處理龐大的數(shù)據(jù)集。以 2000 萬小時(shí)的視頻為例,在NVIDIA Hopper GPU 上處理只需 40 天,在 NVIDIA Blackwell GPU 上處理只需 14 天,而使用未優(yōu)化的 CPU 管線處理則需要 3.4 年。
主要優(yōu)點(diǎn)包括:
整理速度提高了 89 倍:大幅縮短處理時(shí)間
可擴(kuò)展性:無縫處理 100 PB 以上的數(shù)據(jù)
高吞吐量:先進(jìn)的過濾、字幕添加和嵌入功能可在不影響速度的情況下確保質(zhì)量

圖 4 Cosmos 包含可將視頻數(shù)據(jù)處理速度提高 89 倍的 NeMo Curator
使用 Cosmos Tokenizer 進(jìn)行高保真壓縮和重建
在對數(shù)據(jù)進(jìn)行整理后,需要對其進(jìn)行 token 化才能用于訓(xùn)練。token 化將復(fù)雜的數(shù)據(jù)分解為易于管理的單元,使模型能夠更加高效地處理和學(xué)習(xí)數(shù)據(jù)。
Cosmos tokenizer 簡化了這一過程,在保持質(zhì)量、降低成本和復(fù)雜性的同時(shí),加快了壓縮和可視化重建的速度。用于自回歸模型的離散 tokenizer 將數(shù)據(jù)處理時(shí)間縮短了 8 倍并將數(shù)據(jù)所占空間壓縮了 16×16 倍,一次最多可處理 49 個(gè)幀。用于擴(kuò)散模型的連續(xù) tokenizer 將數(shù)據(jù)處理時(shí)間縮短了 8 倍并將數(shù)據(jù)所占空間壓縮了 8×8 倍,最多可處理 121 個(gè)幀。
使用 NVIDIA NeMo 進(jìn)行微調(diào)
開發(fā)者可以使用 NVIDIA NeMo 框架對 Cosmos 世界基礎(chǔ)模型進(jìn)行微調(diào)。無論是在本地?cái)?shù)據(jù)中心還是在云端,NeMo Framework 都能加快在 GPU 驅(qū)動的系統(tǒng)上訓(xùn)練模型的速度,幫助開發(fā)者增強(qiáng)現(xiàn)成的模型或構(gòu)建新的模型。
NeMo Framework 通過以下方式實(shí)現(xiàn)多模態(tài)數(shù)據(jù)的高效加載:
將 TB 大小的數(shù)據(jù)集分片成多個(gè)壓縮文件,以減少 IO 開銷。
確定性地保存和加載數(shù)據(jù)集,以避免重復(fù)并最大程度地減少計(jì)算浪費(fèi)。
在交換數(shù)據(jù)時(shí),使用經(jīng)過優(yōu)化的通信方式減少網(wǎng)絡(luò)帶寬。
開始使用 NVIDIA Cosmos
Cosmos 世界基礎(chǔ)模型是開放模型并且可在 NGC 和 Hugging Face 上獲得。開發(fā)者還可在 NVIDIA API 目錄上運(yùn)行 Cosmos 世界基礎(chǔ)模型。此外,API 目錄上還提供用于提高文本提示準(zhǔn)確性的 Cosmos 工具、便于未來輕松識別 AI 生成序列的內(nèi)置水印系統(tǒng)以及用于解碼增強(qiáng)現(xiàn)實(shí)應(yīng)用視頻序列的專用模型。如需了解更多信息,請觀看演示。
用于加速數(shù)據(jù)處理管線的 NeMo Curator 以托管服務(wù)和 SDK 的形式提供。開發(fā)者現(xiàn)在可以申請搶先體驗(yàn)。Cosmos tokenizer 是開放式神經(jīng)網(wǎng)絡(luò)并且可在 GitHub 和 Hugging Face 上獲得。
-
機(jī)器人
+關(guān)注
關(guān)注
213文章
31406瀏覽量
223569 -
NVIDIA
+關(guān)注
關(guān)注
14文章
5682瀏覽量
110105 -
AI
+關(guān)注
關(guān)注
91文章
40999瀏覽量
302542
原文標(biāo)題:CES 2025 | 使用 NVIDIA Cosmos 世界基礎(chǔ)模型平臺推進(jìn)物理 AI 的開發(fā)工作
文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
物聯(lián)網(wǎng)平臺主要功能是什么?常見的物聯(lián)網(wǎng)平臺有哪些?
網(wǎng)卡實(shí)現(xiàn)的主要功能是什么
AMI網(wǎng)絡(luò)的主要功能
NVIDIA Cosmos世界基礎(chǔ)模型平臺的主要功能
評論