哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何利用NVIDIA Cosmos Cookbook提升機器人操作能力

NVIDIA英偉達企業(yè)解決方案 ? 來源:NVIDIA英偉達企業(yè)解決方案 ? 2025-12-31 16:05 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

機器人操控系統(tǒng)在進入動態(tài)現(xiàn)實環(huán)境時,難以應(yīng)對持續(xù)變化的物體、光照條件及接觸動力學。此外,仿真與現(xiàn)實之間的差距,以及未經(jīng)過優(yōu)化的抓手或工具,通常限制了機器人在多樣化任務(wù)中的泛化能力、長視距任務(wù)的執(zhí)行能力,以及實現(xiàn)類人靈巧操作的可靠性。

本期 NVIDIA 機器人研發(fā)摘要 (R2D2) 探討了提升機器人操作技能的新方法。在本博客中,我們將介紹三項研究工作:利用推理大語言模型、仿真與現(xiàn)實協(xié)同訓練,以及視覺語言模型來設(shè)計操作工具。

ThinkAct:通過增強視覺潛在規(guī)劃實現(xiàn)視覺語言動作推理

用于仿真與現(xiàn)實策略聯(lián)合訓練的通用域自適應(yīng)方法

RobotSmith:面向復(fù)雜操作技能獲取的生成式機器人工具設(shè)計

我們還將介紹如何利用 Cosmos Cookbook 中的數(shù)據(jù)增強及其他方法來提升機器人操作性能。該指南是一項開源資源,匯集了 NVIDIA Cosmos 在機器人與自動駕駛領(lǐng)域中的實際應(yīng)用案例。

借助 ThinkAct 提升機器人推理與動作執(zhí)行能力

在機器人開發(fā)中,視覺語言動作(VLA)模型能夠根據(jù)視覺信息和自然語言等多模態(tài)指令生成相應(yīng)的機器人動作。一個高效的 VLA 模型應(yīng)具備理解并執(zhí)行動態(tài)環(huán)境中復(fù)雜多步驟操作的能力。然而,當前的機器人操作方法通常采用端到端的方式訓練 VLA,無需顯式的推理過程。這種方式使得模型在規(guī)劃長距離任務(wù)時面臨挑戰(zhàn),也難以靈活適應(yīng)多樣化的任務(wù)和環(huán)境。

ThinkAct 通過在雙系統(tǒng)框架中整合高級推理與低層動作執(zhí)行,以縮小這一差距。該“先思考后行動”的框架由強化的視覺潛在規(guī)劃實現(xiàn)。

首先,多模態(tài)大語言模型(MLLM)經(jīng)過訓練,能夠生成供機器人遵循的推理計劃。這些計劃通過強化學習生成,其中視覺獎勵機制促使 MLLM 制定出符合物理規(guī)律的執(zhí)行路徑,以實現(xiàn)目標任務(wù)。為此,ThinkAct 利用人類與機器人操作的視頻數(shù)據(jù),實現(xiàn)基于視覺觀察的推理。這種訓練方式確保了機器人所生成的規(guī)劃不僅在理論上合理,還能根據(jù)實際視覺反饋在物理環(huán)境中切實可行。這一過程構(gòu)成了“思考”部分。

現(xiàn)在進入“行動”部分。推理過程中的中間步驟被壓縮為一條緊湊的潛在軌跡。該表征包含計劃中的核心意圖與上下文信息。隨后,潛在軌跡引導(dǎo)一個獨立的動作模型,使機器人能夠在不同環(huán)境中執(zhí)行相應(yīng)動作。通過這種方式,高層推理得以指導(dǎo)并優(yōu)化現(xiàn)實場景中的底層機器人行為。

wKgZO2lU2f-Ab7ZnAAo3JK05zTY533.png

圖 1。ThinkAct 概述。

ThinkAct 已通過機器人操作和具身推理基準測試。在具身 AI 任務(wù)中,它成功實現(xiàn)了少樣本部署、長視距操作以及自校正功能。

圖 2。長視野操作任務(wù)的可視化展示。

wKgZO2lU2j2AK7LNAAk7KqWg64s363.png

使用 Sim-and-Real 策略進行聯(lián)合訓練

訓練機器人執(zhí)行操作任務(wù)需要在不同任務(wù)、環(huán)境和對象配置之間收集數(shù)據(jù)。一種常用的方法是行為克隆,即在現(xiàn)實世界中采集專家演示。理論上,這種方法具有可行性,但實際應(yīng)用中成本較高,難以大規(guī)模擴展?,F(xiàn)實世界的數(shù)據(jù)采集依賴人工操作員手動提供演示或監(jiān)控機器人運行,過程耗時且受限于機器人硬件的可用性。

一種解決方案是在仿真環(huán)境中收集演示,這種方式能夠?qū)崿F(xiàn)自動化和并行化,從而高效便捷地獲取大量數(shù)據(jù)。然而,在模擬數(shù)據(jù)上訓練的策略往往難以有效遷移到現(xiàn)實場景中,其根本原因在于仿真與現(xiàn)實之間存在差距:仿真系統(tǒng)無法完全復(fù)現(xiàn)真實世界中物理特性、動力學行為、噪聲干擾以及反饋機制的復(fù)雜性。

仿真和現(xiàn)實策略協(xié)同訓練通過結(jié)合仿真環(huán)境與少量真實世界演示,學習通用的操作策略,從而彌合仿真與現(xiàn)實之間的差距。該方法構(gòu)建了一個統(tǒng)一的仿真與現(xiàn)實協(xié)同訓練框架,旨在學習一個共享的潛在空間,使仿真觀察結(jié)果與真實世界數(shù)據(jù)實現(xiàn)對齊。該框架基于仿真與現(xiàn)實協(xié)同訓練的相關(guān)研究,并采用了更具表達能力的表示空間。這種表示方式不僅提升了對齊效果,還能夠捕捉與動作相關(guān)的信息。其核心思想是使觀察結(jié)果與其對應(yīng)的動作保持一致,從而使策略能夠在仿真和真實環(huán)境中均有效運行。

這些表征是通過一種稱為最優(yōu)傳輸 (OT) 的技術(shù)來學習的。OT 能幫助策略識別仿真與真實世界數(shù)據(jù)中的相似模式,確保無論輸入來自模擬還是真實環(huán)境,用于選擇操作的關(guān)鍵信息保持一致。由于模擬數(shù)據(jù)通常遠多于真實數(shù)據(jù),因此可通過擴展至非平衡 OT (UOT) 框架來應(yīng)對這種數(shù)據(jù)不均衡問題。UOT 采用特定的采樣方法,即使在數(shù)據(jù)集規(guī)模差異較大的情況下,也能使訓練過程更加高效。

wKgZPGlU2kuAVJy_AAjZfSLV5vA825.png

圖 3。基于 OT 的仿真與現(xiàn)實策略協(xié)同訓練概述。

使用此框架訓練的策略能夠成功泛化至現(xiàn)實場景,即使這些場景僅在訓練數(shù)據(jù)的模擬部分中出現(xiàn)。在提升、堆疊立方體以及將箱子放入垃圾桶等機器人操作任務(wù)中,對該方法的仿真到仿真及仿真到現(xiàn)實的遷移能力進行了評估。

wKgZPGlU2myAWgpmAAoCeqQ8rOU985.png

圖 4。通過仿真與現(xiàn)實協(xié)同訓練,該策略僅需最多 25 次演示即可學習長視野任務(wù),例如將物體分類到封閉的抽屜中。

使用 RobotSmith 改進機器人工具設(shè)計

多數(shù)機器人操作任務(wù)涉及使用不同的工具和物體。使用工具是機器人與環(huán)境交互并執(zhí)行復(fù)雜操作的關(guān)鍵功能。然而,為人類設(shè)計的工具因具有多樣且復(fù)雜的外形尺寸,導(dǎo)致機器人難以有效操作。當前的機器人工具設(shè)計方法通常依賴不可定制的預(yù)定義模板,或采用未針對此目的優(yōu)化的3D生成技術(shù)。

RobotSmith 通過提供一種利用視覺語言模型(VLM)的自動工具設(shè)計框架來應(yīng)對這一挑戰(zhàn)。VLM 擅長推理 3D 空間與物理交互,同時能夠理解在包含不同對象的環(huán)境中機器人可執(zhí)行的動作。這些關(guān)鍵能力使其在高效的工具設(shè)計中發(fā)揮重要作用。

RobotSmith 將視覺語言模型(VLM)中的先驗知識與仿真環(huán)境中的聯(lián)合優(yōu)化過程相結(jié)合,以生成面向特定任務(wù)的工具。其三大核心組件為:

Critic Tool Designer:兩個 VLM 智能體協(xié)作生成候選工具幾何圖形。

工具使用規(guī)劃器:依據(jù)設(shè)計的工具與場景生成操作軌跡,并在模擬中執(zhí)行和評估候選軌跡及抓取效果。

“Joint Optimizer” (聯(lián)合優(yōu)化器):在仿真中聯(lián)合微調(diào)工具幾何圖形與軌跡參數(shù),以盡可能提升性能。此過程對剔除可能導(dǎo)致任務(wù)失敗的次優(yōu)工具與軌跡組合至關(guān)重要。

RobotSmith 以這種方式為推送、掃描或封閉等任務(wù)生成不同的工具設(shè)計方案。

wKgZO2lU2n2AC3AeAAmLhSmO_B4390.png

圖 5。RobotSmith 迭代工具設(shè)計,確定高效的設(shè)計,并利用所設(shè)計的工具生成軌跡,以完成用戶任務(wù)。

在仿真環(huán)境和現(xiàn)實世界任務(wù)中對 RobotSmith 進行了評估,完整的實驗與結(jié)果詳見論文。制作煎餅作為一項實際測試任務(wù),框架針對每個步驟(例如壓平和抹面)設(shè)計并使用了不同的工具,表明該框架能夠成功執(zhí)行長距離任務(wù)。

wKgZPGlU2oyAKvpkAAgrBBZ2YJQ015.png

圖 6。RobotSmith 設(shè)計并使用針對長視野操作場景中各子任務(wù)優(yōu)化的專用工具。

通過 NVIDIA Cosmos Cookbook 縮小仿真與現(xiàn)實之間的差距

在本博客前面,我們探討了仿真與現(xiàn)實之間的差距,并介紹了如何利用合成數(shù)據(jù)訓練機器人策略。逼真且多樣化的合成數(shù)據(jù)集能夠生成可靠的策略,使其更好地適應(yīng)現(xiàn)實世界。NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM),特別是其中的 Cosmos Transfer,能夠通過單次模擬生成逼真且多樣化數(shù)據(jù),從而擴展合成數(shù)據(jù)集。完整的流程可在Robotics Domain Adaption Gallery(機器人領(lǐng)域自適應(yīng)圖庫)的示例中找到。

除了此工作流之外,NVIDIA Cosmos Cookbook 還提供了分步指導(dǎo)和后訓練腳本,幫助快速構(gòu)建、定制和部署適用于機器人、自主系統(tǒng)及代理式系統(tǒng)的 Cosmos WFM。內(nèi)容深入探討了以下示例與概念:

快速啟動推理示例以實現(xiàn)快速部署與運行。

高級后訓練工作流程,支持特定領(lǐng)域的精細微調(diào)。

經(jīng)過驗證的可擴展、生產(chǎn)就緒的部署方案。

涵蓋基礎(chǔ)主題、核心技術(shù)、架構(gòu)模式及工具文檔的核心概念。

Cosmos Cookbook 是物理 AI 社區(qū)分享 Cosmos WFM 實踐知識的資源平臺。我們歡迎各方通過 GitHub 貢獻內(nèi)容,包括工作流、方法、優(yōu)秀實踐以及針對特定領(lǐng)域的調(diào)整方案。

入門指南

在本博客中,我們探討了提升機器人操作能力的新工作流程。我們展示了 ThinkAct 如何通過“先思考后行動”的框架,對機器人動作進行推理與執(zhí)行。接著,我們討論了如何在通用操作策略的訓練中結(jié)合使用模擬與真實數(shù)據(jù)。我們還分享了 RobotSmith 如何生成機器人工具設(shè)計,以優(yōu)化完成復(fù)雜任務(wù)時的工具使用效率。最后,我們介紹了 Cosmos Cookbook 如何借助 Cosmos 模型,為物理 AI項目提供示例和共享空間。

查看以下資源,深入了解本博客中討論的工作:

ThinkAct:論文、項目網(wǎng)站

針對仿真與現(xiàn)實策略聯(lián)合訓練的通用領(lǐng)域適應(yīng)性:論文、項目網(wǎng)站

RobotSmith:論文、項目網(wǎng)站

Cosmos Cookbook:網(wǎng)站、GitHub

NVIDIA 研究團隊在 NeurIPS 2025 上發(fā)表了多篇論文,涵蓋 ThinkAct、Generalizable Domain Adaptation 和 RobotSmith 等研究方向。

本文是 NVIDIA 機器人研發(fā)摘要 (R2D2) 的一部分,旨在幫助開發(fā)者深入了解 NVIDIA Research 在物理 AI 與機器人應(yīng)用領(lǐng)域的最新突破。

關(guān)于作者

Asawaree Bhide 是 NVIDIA 的 AI 嵌入式工程實習生,致力于優(yōu)化和部署邊緣設(shè)備上的深度學習模型。她目前正在喬治亞理工學院攻讀計算機科學碩士學位,她對解決由具體代理自主導(dǎo)航的復(fù)雜感知任務(wù)感興趣。Tomasz Lewicki 是 NVIDIA 的嵌入式工程實習生。他擁有圣何塞州立大學計算機工程碩士學位,華沙工業(yè)大學華沙工業(yè)大學機器人工程學學士學位。他的興趣集中在計算機視覺和機器人應(yīng)用的深度學習上。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器人
    +關(guān)注

    關(guān)注

    213

    文章

    31348

    瀏覽量

    223442
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5678

    瀏覽量

    110073
  • 仿真
    +關(guān)注

    關(guān)注

    55

    文章

    4530

    瀏覽量

    138628

原文標題:R2D2:結(jié)合仿真與語言模型提升機器人操作能力

文章出處:【微信號:NVIDIA-Enterprise,微信公眾號:NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    借助NVIDIA技術(shù)提升機器人的移動和全身控制能力

    我們通過在自身平臺上經(jīng)過驗證的先進研究來應(yīng)對這些挑戰(zhàn)。我們的方法將前沿研究與工程工作流相結(jié)合,并在我們的 AI 和機器人平臺(包括 NVIDIA Omniverse、Cosmos、Isaac Sim
    的頭像 發(fā)表于 04-27 15:14 ?1580次閱讀
    借助<b class='flag-5'>NVIDIA</b>技術(shù)<b class='flag-5'>提升機器人</b>的移動和全身控制<b class='flag-5'>能力</b>

    如何在NVIDIA Jetson Thor上提升機器人感知效率

    構(gòu)建自主機器人需要具備可靠且低延遲的視覺感知能力,以實現(xiàn)在動態(tài)環(huán)境中的深度估計、障礙物識別、定位與導(dǎo)航。這些功能對計算性能有較高要求。NVIDIA Jetson 平臺雖為深度學習提供了強大的 GPU
    的頭像 發(fā)表于 12-24 10:14 ?4572次閱讀
    如何在<b class='flag-5'>NVIDIA</b> Jetson Thor上<b class='flag-5'>提升機器人</b>感知效率

    【「具身智能機器人系統(tǒng)」閱讀體驗】2.具身智能機器人大模型

    近年來,人工智能領(lǐng)域的大模型技術(shù)在多個方向上取得了突破性的進展,特別是在機器人控制領(lǐng)域展現(xiàn)出了巨大的潛力。在“具身智能機器人大模型”部分,作者研究并探討了大模型如何提升機器人能力,大
    發(fā)表于 12-29 23:04

    RK3576機器人核心:三屏異顯+八路攝像頭,重塑機器人交互與感知

    更多"、"互動更流暢"是開發(fā)者面臨的核心挑戰(zhàn)。傳統(tǒng)的單一屏幕和有限的視覺輸入已成為提升機器人智能化水平的瓶頸。而瑞芯微RK3576高性能處理器的出現(xiàn)
    發(fā)表于 10-29 16:41

    機器人視覺——機器人的“眼睛”

    目前產(chǎn)業(yè)機器人僅能在嚴格定義的結(jié)構(gòu)化環(huán)境中執(zhí)行預(yù)定指令動作,缺乏對環(huán)境的感知與應(yīng)變能力,這極大地限制了機器人的應(yīng)用。利用機器人的視覺控制,
    發(fā)表于 01-23 15:02

    華南機器人應(yīng)用培訓中心工業(yè)機器人培訓班招生

    機器人技術(shù)有更加深入的認識和了解以及實際操作能力得到較大提高,具備機器人行業(yè)公司及相關(guān)單位對從業(yè)人員的技術(shù)條件要求。 3、工業(yè)機器人專業(yè)人才稀缺,就業(yè)優(yōu)勢明顯。本專業(yè)人才全部依賴
    發(fā)表于 09-02 14:03

    NVIDIA Cosmos世界基礎(chǔ)模型平臺發(fā)布

    NVIDIA 宣布推出NVIDIA Cosmos,該平臺由先進的生成式世界基礎(chǔ)模型、高級 tokenizer、護欄和加速視頻處理管線組成,將推動自動駕駛汽車(AV)和機器人等物理 AI
    的頭像 發(fā)表于 01-08 10:39 ?1408次閱讀

    51Sim利用NVIDIA Cosmos提升輔助駕駛合成數(shù)據(jù)場景的泛化性

    51Sim 利用 NVIDIA Cosmos 的生成式世界基礎(chǔ)模型,對現(xiàn)有的合成數(shù)據(jù)進行大規(guī)模泛化,在確保物理真實性的前提下,大幅提升了數(shù)據(jù)的豐富度。同時依托
    的頭像 發(fā)表于 06-26 09:09 ?1599次閱讀

    通過NVIDIA Cosmos模型增強機器人學習

    通用機器人的時代已經(jīng)到來,這得益于機械電子技術(shù)和機器人 AI 基礎(chǔ)模型的進步。但目前機器人技術(shù)的發(fā)展仍面臨一個關(guān)鍵挑戰(zhàn):機器人需要大量的訓練數(shù)據(jù)來掌握諸如組裝和檢查之類的技能,而手動演
    的頭像 發(fā)表于 07-14 11:49 ?1238次閱讀
    通過<b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b>模型增強<b class='flag-5'>機器人</b>學習

    利用NVIDIA Cosmos模型訓練通用機器人

    機器人領(lǐng)域的一大核心挑戰(zhàn)在于如何讓機器人掌握新任務(wù),而無需針對每個新任務(wù)和環(huán)境耗費大量精力收集和標注數(shù)據(jù)集。NVIDIA 的最新研究方案通過生成式 AI、世界基礎(chǔ)模型(如 NVIDIA
    的頭像 發(fā)表于 08-05 16:22 ?2231次閱讀
    <b class='flag-5'>利用</b><b class='flag-5'>NVIDIA</b> <b class='flag-5'>Cosmos</b>模型訓練通用<b class='flag-5'>機器人</b>

    NVIDIA通過全新 Omniverse庫、Cosmos物理AI模型及AI計算基礎(chǔ)設(shè)施,為機器人領(lǐng)域開啟新篇章

    NVIDIA 通過全新 Omniverse 庫、Cosmos 物理 AI 模型及 AI 計算基礎(chǔ)設(shè)施,為機器人領(lǐng)域開啟新篇章 ? ·?全新 NVIDIA Omniverse NuRec
    的頭像 發(fā)表于 08-12 11:29 ?1953次閱讀
    <b class='flag-5'>NVIDIA</b>通過全新 Omniverse庫、<b class='flag-5'>Cosmos</b>物理AI模型及AI計算基礎(chǔ)設(shè)施,為<b class='flag-5'>機器人</b>領(lǐng)域開啟新篇章

    NVIDIA三臺計算機解決方案如何協(xié)同助力機器人技術(shù)

    NVIDIA DGX、基于 NVIDIA RTX PRO 服務(wù)器的 Omniverse 和 Cosmos,以及 Jetson AGX Thor,正全面加速從人形機器人
    的頭像 發(fā)表于 08-27 11:48 ?2577次閱讀

    機器人看點:宇樹新專利可提升機器人表演效果 蔚來資本入股具身智能公司原力靈機 美信科技新設(shè)機器人

    給大家?guī)硪恍?b class='flag-5'>機器人相關(guān)訊息: 宇樹新專利可提升機器人表演效果 據(jù)企查查APP信息顯示,宇樹科技股份有限公司“一種基于數(shù)字孿生的機器人運動控制方法和電子設(shè)備”專利公布;該新專利可提升機器人
    的頭像 發(fā)表于 09-01 16:55 ?2105次閱讀

    NVIDIA 利用全新開源模型與仿真庫加速機器人研發(fā)進程

    科研人員及開發(fā)者打造功能更強大、適應(yīng)性更強的機器人。 ? 全新的 NVIDIA Isaac GR00T 開源基礎(chǔ)模型將為機器人賦予接近人類的推理能力,使其能夠拆解復(fù)雜指令,并借助已有知
    的頭像 發(fā)表于 09-30 09:52 ?3182次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>利用</b>全新開源模型與仿真庫加速<b class='flag-5'>機器人</b>研發(fā)進程

    基于NVIDIA VLA模型打造通用人形機器人能力

    要讓人形機器人真正有用,它們需要具備認知能力和移動操作能力,涵蓋感知、規(guī)劃以及在動態(tài)環(huán)境中的全身控制。
    的頭像 發(fā)表于 01-14 09:53 ?2085次閱讀
    乐亭县| 祥云县| 河西区| 宝丰县| 津市市| 嘉鱼县| 沐川县| 湛江市| 商丘市| 贵溪市| 新民市| 宝坻区| 德江县| 寻乌县| 大丰市| 永宁县| 江北区| 靖江市| 新民市| 尼木县| 成武县| 廊坊市| 西林县| 浦东新区| 曲沃县| 丰宁| 怀化市| 怀安县| 旺苍县| 古田县| 民勤县| 七台河市| 石阡县| 阿鲁科尔沁旗| 宁都县| 华亭县| 林西县| 高密市| 苍梧县| 镇坪县| 盐山县|