亚洲猛操女,久久十八禁

一款全新的開放 1,200 億參數(shù)混合式 MoE (mixture?of?experts) 模型，專為 NVIDIA Blackwell 進行了優(yōu)化，可解決拖慢自主智能體工作流的長時推理和上下文爆炸的成本難題。

NVIDIA Nemotron 3 Super 于今日發(fā)布，其為一款 1,200 億參數(shù)開放模型，擁有 120 億個活躍參數(shù)，旨在大規(guī)模運行復(fù)雜的代理式 AI 系統(tǒng)。

該模型現(xiàn)已上線，融合先進的推理能力，能夠高效并精準地完成自主智能體的任務(wù)。

AI 原生公司：Perplexity 不僅為用戶提供 Nemotron 3 Super 訪問權(quán)限用于搜索，還將其作為 ‘Computer’ 平臺中 20 個編排模型的組成部分。CodeRabbit、Factory 和 Greptile 等提供軟件開發(fā)智能體的公司將該模型與自有模型結(jié)合，并集成到 AI 智能體中，在降低成本的同時提升準確性。Edison Scientific 和 Lila Sciences 等生命科學(xué)及前沿 AI 機構(gòu)則將借助該模型為其智能體賦予深度文獻檢索、數(shù)據(jù)科學(xué)與分子理解能力。

企業(yè)軟件平臺：Amdocs、Palantir、Cadence、達索系統(tǒng)和西門子等行業(yè)領(lǐng)先企業(yè)，正部署并定制該模型，用于電信、網(wǎng)絡(luò)安全、半導(dǎo)體設(shè)計與制造等領(lǐng)域的工作流自動化。

企業(yè)從聊天機器人向多智能體應(yīng)用演進時，會面臨兩大制約因素。

第一個制約因素是上下文爆炸。與標準聊天相比，多智能體工作流生成的 token 數(shù)量多達其 15 倍，因為每次交互都需要重新發(fā)送完整的歷史記錄，包括工具輸出和中間推理結(jié)果。

在長任務(wù)中，這樣龐大的上下文不僅增加了成本，還可能導(dǎo)致目標偏離，即智能體在執(zhí)行過程中逐漸脫離最初設(shè)定的任務(wù)目標。

第二個制約因素則是思考稅。復(fù)雜智能體每一步都必須進行推理，但如果每個子任務(wù)都使用大模型，多智能體應(yīng)用就會變得成本高昂和遲緩，難以投入實際使用。

Nemotron 3 Super 擁有一個 100 萬 token 的上下文窗口，允許智能體在顯存中保留完整的工作流狀態(tài)，并防止目標偏離。

Nemotron 3 Super 樹立了新標準，在 Artificial Analysis 的效率和開放性排名中位居榜首，并在同等規(guī)模的模型中展現(xiàn)出領(lǐng)先的準確性。

該模型還助力 NVIDIA AI-Q 研究智能體在 DeepResearch Bench 和 DeepResearch Bench II 排行榜上取得第一名。這些基準測試旨在衡量 AI 系統(tǒng)在海量文檔中開展全面多步驟研究，并保持推理連貫性的能力。

混合架構(gòu)

Nemotron 3 Super 采用了混合 MoE (mixture?of?experts) 架構(gòu)，結(jié)合了三項主要創(chuàng)新，與之前的 Nemotron Super 模型相比，實現(xiàn)了高達 5 倍的吞吐量提升和高達 2 倍的準確率提升。

混合架構(gòu)：Mamba 層實現(xiàn) 4 倍顯存與計算效率提升，Transformer 層則提供高級推理能力。

混合專家 (MoE)：在其 1,200 億參數(shù)中，推理時僅激活 120 億參數(shù)。

潛在混合專家 (MoE) 架構(gòu)：這是一種新的推理技術(shù)，它以單個專家的成本來激活四個專家，從而顯著提升 token 生成的準確率。

多 token 預(yù)測：能夠同時預(yù)測多個未來的詞語，從而使推理速度提高 3 倍。

在 NVIDIA Blackwell 平臺上，該模型以 NVFP4 精度運行，降低了顯存需求，并使推理速度較之在 NVIDIA Hopper 平臺上使用 FP8 至高提升 4 倍，同時不損失準確性。

開放權(quán)重、數(shù)據(jù)和方案

NVIDIA 將 Nemotron 3 Super 的權(quán)重完全開放，并配以寬松許可協(xié)議。開發(fā)者可在工作站、數(shù)據(jù)中心或云端來進行部署和定制。

Nemotron 3 Super 基于前沿推理模型生成的合成數(shù)據(jù)訓(xùn)練而成。NVIDIA 將公布完整的訓(xùn)練方法，其中包括超過 10 萬億個 token 的預(yù)訓(xùn)練和后訓(xùn)練數(shù)據(jù)集，15 個用于強化學(xué)習(xí)的訓(xùn)練環(huán)境以及評估方案。研究人員還可借助 NVIDIA NeMo 平臺對模型進行微調(diào)或構(gòu)建專屬模型。

在代理式系統(tǒng)中的應(yīng)用

Nemotron 3 Super 旨在處理多智能體系統(tǒng)中的復(fù)雜子任務(wù)。

一個軟件開發(fā)智能體可以一次性將整個代碼庫加載到上下文中，從而實現(xiàn)端到端的代碼生成和調(diào)試，且無需進行文檔分割。

在金融分析中，它能夠?qū)?shù)千頁的報告加載到顯存中，避免在長對話中重復(fù)推理，從而提高效率。

Nemotron 3 Super 具有高精度的工具調(diào)用能力，確保自主智能體能夠在海量的函數(shù)庫中導(dǎo)航，避免在高風險環(huán)境中出現(xiàn)執(zhí)行錯誤 (例如網(wǎng)絡(luò)安全中的自主安全編排)。

如何獲取

NVIDIA Nemotron 3 Super 作為 Nemotron 3 系列的一部分，可通過 NVIDIA 官網(wǎng)、Perplexity、OpenRouter 和 Hugging Face 獲取。戴爾科技公司正將該模型引入 Hugging Face 上的 Dell Enterprise Hub，并針對 Dell AI Factory 的本地部署進行了優(yōu)化，以推動多智能體 AI 工作流的發(fā)展?；叟c (HPE) 也將 NVIDIA Nemotron 引入其 Agents Hub，幫助確保在企業(yè)中擴展應(yīng)用代理式 AI 。

企業(yè)與開發(fā)者可通過多家合作伙伴部署該模型：

云服務(wù)提供商：谷歌云的 Vertex AI、Oracle Cloud Infrastructure;即將登陸亞馬遜云科技的 Amazon Bedrock 及 Microsoft Azure。

NVIDIA 云合作伙伴：Coreweave、Crusoe、Nebius 與 Together AI。

推理服務(wù)提供商：Baseten、CloudFlare、DeepInfra、Fireworks AI、Inference.net、Lightning AI、Modal 和 FriendliAI。

數(shù)據(jù)平臺與服務(wù)：Distyl、Dataiku、DataRobot、德勤、安永及塔塔咨詢服務(wù)。

該模型以 NVIDIA NIM 形式提供，支持從本地系統(tǒng)到云端的部署。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴