特黄特色特刺激的视频,俺也来俺也操

機器人操控系統(tǒng)在進入動態(tài)現(xiàn)實環(huán)境時，難以應(yīng)對持續(xù)變化的物體、光照條件及接觸動力學。此外，仿真與現(xiàn)實之間的差距，以及未經(jīng)過優(yōu)化的抓手或工具，通常限制了機器人在多樣化任務(wù)中的泛化能力、長視距任務(wù)的執(zhí)行能力，以及實現(xiàn)類人靈巧操作的可靠性。

本期 NVIDIA 機器人研發(fā)摘要 (R2D2) 探討了提升機器人操作技能的新方法。在本博客中，我們將介紹三項研究工作：利用推理大語言模型、仿真與現(xiàn)實協(xié)同訓練，以及視覺語言模型來設(shè)計操作工具。

ThinkAct：通過增強視覺潛在規(guī)劃實現(xiàn)視覺語言動作推理

用于仿真與現(xiàn)實策略聯(lián)合訓練的通用域自適應(yīng)方法

RobotSmith：面向復(fù)雜操作技能獲取的生成式機器人工具設(shè)計

我們還將介紹如何利用 Cosmos Cookbook 中的數(shù)據(jù)增強及其他方法來提升機器人操作性能。該指南是一項開源資源，匯集了 NVIDIA Cosmos 在機器人與自動駕駛領(lǐng)域中的實際應(yīng)用案例。

借助 ThinkAct 提升機器人推理與動作執(zhí)行能力

在機器人開發(fā)中，視覺語言動作(VLA)模型能夠根據(jù)視覺信息和自然語言等多模態(tài)指令生成相應(yīng)的機器人動作。一個高效的 VLA 模型應(yīng)具備理解并執(zhí)行動態(tài)環(huán)境中復(fù)雜多步驟操作的能力。然而，當前的機器人操作方法通常采用端到端的方式訓練 VLA，無需顯式的推理過程。這種方式使得模型在規(guī)劃長距離任務(wù)時面臨挑戰(zhàn)，也難以靈活適應(yīng)多樣化的任務(wù)和環(huán)境。

ThinkAct 通過在雙系統(tǒng)框架中整合高級推理與低層動作執(zhí)行，以縮小這一差距。該“先思考后行動”的框架由強化的視覺潛在規(guī)劃實現(xiàn)。

首先，多模態(tài)大語言模型(MLLM)經(jīng)過訓練，能夠生成供機器人遵循的推理計劃。這些計劃通過強化學習生成，其中視覺獎勵機制促使 MLLM 制定出符合物理規(guī)律的執(zhí)行路徑，以實現(xiàn)目標任務(wù)。為此，ThinkAct 利用人類與機器人操作的視頻數(shù)據(jù)，實現(xiàn)基于視覺觀察的推理。這種訓練方式確保了機器人所生成的規(guī)劃不僅在理論上合理，還能根據(jù)實際視覺反饋在物理環(huán)境中切實可行。這一過程構(gòu)成了“思考”部分。

現(xiàn)在進入“行動”部分。推理過程中的中間步驟被壓縮為一條緊湊的潛在軌跡。該表征包含計劃中的核心意圖與上下文信息。隨后，潛在軌跡引導(dǎo)一個獨立的動作模型，使機器人能夠在不同環(huán)境中執(zhí)行相應(yīng)動作。通過這種方式，高層推理得以指導(dǎo)并優(yōu)化現(xiàn)實場景中的底層機器人行為。

圖 1。ThinkAct 概述。

ThinkAct 已通過機器人操作和具身推理基準測試。在具身 AI 任務(wù)中，它成功實現(xiàn)了少樣本部署、長視距操作以及自校正功能。

圖 2。長視野操作任務(wù)的可視化展示。

使用 Sim-and-Real 策略進行聯(lián)合訓練

訓練機器人執(zhí)行操作任務(wù)需要在不同任務(wù)、環(huán)境和對象配置之間收集數(shù)據(jù)。一種常用的方法是行為克隆，即在現(xiàn)實世界中采集專家演示。理論上，這種方法具有可行性，但實際應(yīng)用中成本較高，難以大規(guī)模擴展?，F(xiàn)實世界的數(shù)據(jù)采集依賴人工操作員手動提供演示或監(jiān)控機器人運行，過程耗時且受限于機器人硬件的可用性。

一種解決方案是在仿真環(huán)境中收集演示，這種方式能夠?qū)崿F(xiàn)自動化和并行化，從而高效便捷地獲取大量數(shù)據(jù)。然而，在模擬數(shù)據(jù)上訓練的策略往往難以有效遷移到現(xiàn)實場景中，其根本原因在于仿真與現(xiàn)實之間存在差距：仿真系統(tǒng)無法完全復(fù)現(xiàn)真實世界中物理特性、動力學行為、噪聲干擾以及反饋機制的復(fù)雜性。

仿真和現(xiàn)實策略協(xié)同訓練通過結(jié)合仿真環(huán)境與少量真實世界演示，學習通用的操作策略，從而彌合仿真與現(xiàn)實之間的差距。該方法構(gòu)建了一個統(tǒng)一的仿真與現(xiàn)實協(xié)同訓練框架，旨在學習一個共享的潛在空間，使仿真觀察結(jié)果與真實世界數(shù)據(jù)實現(xiàn)對齊。該框架基于仿真與現(xiàn)實協(xié)同訓練的相關(guān)研究，并采用了更具表達能力的表示空間。這種表示方式不僅提升了對齊效果，還能夠捕捉與動作相關(guān)的信息。其核心思想是使觀察結(jié)果與其對應(yīng)的動作保持一致，從而使策略能夠在仿真和真實環(huán)境中均有效運行。

這些表征是通過一種稱為最優(yōu)傳輸 (OT) 的技術(shù)來學習的。OT 能幫助策略識別仿真與真實世界數(shù)據(jù)中的相似模式，確保無論輸入來自模擬還是真實環(huán)境，用于選擇操作的關(guān)鍵信息保持一致。由于模擬數(shù)據(jù)通常遠多于真實數(shù)據(jù)，因此可通過擴展至非平衡 OT (UOT) 框架來應(yīng)對這種數(shù)據(jù)不均衡問題。UOT 采用特定的采樣方法，即使在數(shù)據(jù)集規(guī)模差異較大的情況下，也能使訓練過程更加高效。

圖 3。基于 OT 的仿真與現(xiàn)實策略協(xié)同訓練概述。

使用此框架訓練的策略能夠成功泛化至現(xiàn)實場景，即使這些場景僅在訓練數(shù)據(jù)的模擬部分中出現(xiàn)。在提升、堆疊立方體以及將箱子放入垃圾桶等機器人操作任務(wù)中，對該方法的仿真到仿真及仿真到現(xiàn)實的遷移能力進行了評估。

圖 4。通過仿真與現(xiàn)實協(xié)同訓練，該策略僅需最多 25 次演示即可學習長視野任務(wù)，例如將物體分類到封閉的抽屜中。

使用 RobotSmith 改進機器人工具設(shè)計

多數(shù)機器人操作任務(wù)涉及使用不同的工具和物體。使用工具是機器人與環(huán)境交互并執(zhí)行復(fù)雜操作的關(guān)鍵功能。然而，為人類設(shè)計的工具因具有多樣且復(fù)雜的外形尺寸，導(dǎo)致機器人難以有效操作。當前的機器人工具設(shè)計方法通常依賴不可定制的預(yù)定義模板，或采用未針對此目的優(yōu)化的3D生成技術(shù)。

RobotSmith 通過提供一種利用視覺語言模型(VLM)的自動工具設(shè)計框架來應(yīng)對這一挑戰(zhàn)。VLM 擅長推理 3D 空間與物理交互，同時能夠理解在包含不同對象的環(huán)境中機器人可執(zhí)行的動作。這些關(guān)鍵能力使其在高效的工具設(shè)計中發(fā)揮重要作用。

RobotSmith 將視覺語言模型(VLM)中的先驗知識與仿真環(huán)境中的聯(lián)合優(yōu)化過程相結(jié)合，以生成面向特定任務(wù)的工具。其三大核心組件為：

Critic Tool Designer：兩個 VLM 智能體協(xié)作生成候選工具幾何圖形。

工具使用規(guī)劃器：依據(jù)設(shè)計的工具與場景生成操作軌跡，并在模擬中執(zhí)行和評估候選軌跡及抓取效果。

“Joint Optimizer” (聯(lián)合優(yōu)化器)：在仿真中聯(lián)合微調(diào)工具幾何圖形與軌跡參數(shù)，以盡可能提升性能。此過程對剔除可能導(dǎo)致任務(wù)失敗的次優(yōu)工具與軌跡組合至關(guān)重要。

RobotSmith 以這種方式為推送、掃描或封閉等任務(wù)生成不同的工具設(shè)計方案。

圖 5。RobotSmith 迭代工具設(shè)計，確定高效的設(shè)計，并利用所設(shè)計的工具生成軌跡，以完成用戶任務(wù)。

在仿真環(huán)境和現(xiàn)實世界任務(wù)中對 RobotSmith 進行了評估，完整的實驗與結(jié)果詳見論文。制作煎餅作為一項實際測試任務(wù)，框架針對每個步驟(例如壓平和抹面)設(shè)計并使用了不同的工具，表明該框架能夠成功執(zhí)行長距離任務(wù)。

圖 6。RobotSmith 設(shè)計并使用針對長視野操作場景中各子任務(wù)優(yōu)化的專用工具。

通過 NVIDIA Cosmos Cookbook 縮小仿真與現(xiàn)實之間的差距

在本博客前面，我們探討了仿真與現(xiàn)實之間的差距，并介紹了如何利用合成數(shù)據(jù)訓練機器人策略。逼真且多樣化的合成數(shù)據(jù)集能夠生成可靠的策略，使其更好地適應(yīng)現(xiàn)實世界。NVIDIA Cosmos 開放世界基礎(chǔ)模型(WFM)，特別是其中的 Cosmos Transfer，能夠通過單次模擬生成逼真且多樣化數(shù)據(jù)，從而擴展合成數(shù)據(jù)集。完整的流程可在Robotics Domain Adaption Gallery(機器人領(lǐng)域自適應(yīng)圖庫)的示例中找到。

除了此工作流之外，NVIDIA Cosmos Cookbook 還提供了分步指導(dǎo)和后訓練腳本，幫助快速構(gòu)建、定制和部署適用于機器人、自主系統(tǒng)及代理式系統(tǒng)的 Cosmos WFM。內(nèi)容深入探討了以下示例與概念：

快速啟動推理示例以實現(xiàn)快速部署與運行。

高級后訓練工作流程，支持特定領(lǐng)域的精細微調(diào)。

經(jīng)過驗證的可擴展、生產(chǎn)就緒的部署方案。

涵蓋基礎(chǔ)主題、核心技術(shù)、架構(gòu)模式及工具文檔的核心概念。

Cosmos Cookbook 是物理 AI 社區(qū)分享 Cosmos WFM 實踐知識的資源平臺。我們歡迎各方通過 GitHub 貢獻內(nèi)容，包括工作流、方法、優(yōu)秀實踐以及針對特定領(lǐng)域的調(diào)整方案。

入門指南

在本博客中，我們探討了提升機器人操作能力的新工作流程。我們展示了 ThinkAct 如何通過“先思考后行動”的框架，對機器人動作進行推理與執(zhí)行。接著，我們討論了如何在通用操作策略的訓練中結(jié)合使用模擬與真實數(shù)據(jù)。我們還分享了 RobotSmith 如何生成機器人工具設(shè)計，以優(yōu)化完成復(fù)雜任務(wù)時的工具使用效率。最后，我們介紹了 Cosmos Cookbook 如何借助 Cosmos 模型，為物理 AI項目提供示例和共享空間。

查看以下資源，深入了解本博客中討論的工作：

ThinkAct：論文、項目網(wǎng)站

針對仿真與現(xiàn)實策略聯(lián)合訓練的通用領(lǐng)域適應(yīng)性：論文、項目網(wǎng)站

RobotSmith：論文、項目網(wǎng)站

Cosmos Cookbook：網(wǎng)站、GitHub

NVIDIA 研究團隊在 NeurIPS 2025 上發(fā)表了多篇論文，涵蓋 ThinkAct、Generalizable Domain Adaptation 和 RobotSmith 等研究方向。

本文是 NVIDIA 機器人研發(fā)摘要 (R2D2) 的一部分，旨在幫助開發(fā)者深入了解 NVIDIA Research 在物理 AI 與機器人應(yīng)用領(lǐng)域的最新突破。

關(guān)于作者

Asawaree Bhide 是 NVIDIA 的 AI 嵌入式工程實習生，致力于優(yōu)化和部署邊緣設(shè)備上的深度學習模型。她目前正在喬治亞理工學院攻讀計算機科學碩士學位，她對解決由具體代理自主導(dǎo)航的復(fù)雜感知任務(wù)感興趣。Tomasz Lewicki 是 NVIDIA 的嵌入式工程實習生。他擁有圣何塞州立大學計算機工程碩士學位，華沙工業(yè)大學華沙工業(yè)大學機器人工程學學士學位。他的興趣集中在計算機視覺和機器人應(yīng)用的深度學習上。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

機器人

機器人

+關(guān)注

關(guān)注
213

文章
31348

瀏覽量
223442
NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
5678

瀏覽量
110073
仿真

仿真

+關(guān)注

關(guān)注
55

文章
4530

瀏覽量
138628

原文標題：R2D2：結(jié)合仿真與語言模型提升機器人操作能力

文章出處：【微信號：NVIDIA-Enterprise，微信公眾號：NVIDIA英偉達企業(yè)解決方案】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

如何利用NVIDIA Cosmos Cookbook提升機器人操作能力

評論