哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

NVIDIA Blackwell平臺(tái)助力企業(yè)實(shí)現(xiàn)token成本的大幅降低

NVIDIA英偉達(dá)企業(yè)解決方案 ? 來(lái)源:NVIDIA英偉達(dá)企業(yè)解決方案 ? 2026-03-02 14:48 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

Baseten、DeepInfra、Fireworks AI 和 Together AI 正通過(guò)在 NVIDIA Blackwell 平臺(tái)上運(yùn)行優(yōu)化的推理堆棧,幫助各行業(yè)降低每 token 成本。

一次醫(yī)療領(lǐng)域的診斷洞察、一次互動(dòng)游戲中角色的對(duì)話、一次來(lái)自客服代理的自主解決方案——這些由 AI 驅(qū)動(dòng)的交互,皆基于同一智能單元:一個(gè)token。

要擴(kuò)展這些 AI 交互,企業(yè)需要考慮是否能夠承擔(dān)更多 token 成本。答案在于更優(yōu)的 Token 經(jīng)濟(jì)學(xué)(tokenomics)——其核心在于降低每個(gè) token 的成本。這種下降趨勢(shì)正在各行各業(yè)中顯現(xiàn)。

近期麻省理工學(xué)院研究發(fā)現(xiàn),基礎(chǔ)設(shè)施與算法效率的提升使前沿水平性能的推理成本正逐年降低至原來(lái)的 1/10。

要理解基礎(chǔ)設(shè)施效率如何提升 tokenomics,可以把它類比為一臺(tái)高速印刷機(jī)。如果這臺(tái)印刷機(jī)只需在油墨、能源和設(shè)備本身上進(jìn)行小幅追加投資,就能實(shí)現(xiàn) 10 倍的產(chǎn)出,那么每頁(yè)印刷成本自然會(huì)下降。同理,對(duì) AI 基礎(chǔ)設(shè)施的投資如果能帶來(lái)遠(yuǎn)超預(yù)期的 token 產(chǎn)出,就會(huì)顯著降低每個(gè) token 的成本。

當(dāng) token 的產(chǎn)出增長(zhǎng)超過(guò)基礎(chǔ)設(shè)施成本增長(zhǎng)時(shí),每個(gè) token 的成本就會(huì)下降。

正因如此,包括 Baseten、DeepInfra、Fireworks AI 和 Together AI 在內(nèi)的領(lǐng)先推理服務(wù)提供商紛紛采用NVIDIA Blackwell 平臺(tái)。Blackwell 平臺(tái)幫助這些企業(yè)將每個(gè) token 的成本最多可降至 NVIDIA Hopper 平臺(tái)的 1/10。

這些提供商托管著先進(jìn)的開(kāi)源模型,其智能水平現(xiàn)已達(dá)前沿級(jí)別。通過(guò)融合開(kāi)源的前沿智能、NVIDIA Blackwell 極致的軟硬件協(xié)同設(shè)計(jì)以及自主優(yōu)化的推理堆棧,這些服務(wù)商正助力各行各業(yè)的企業(yè)實(shí)現(xiàn) token 成本的大幅降低。

醫(yī)療領(lǐng)域——Baseten 與 Sully.ai 將 AI 推理成本降低 9 成

在醫(yī)療領(lǐng)域,諸如醫(yī)療編碼、病歷記錄和保險(xiǎn)表格管理等繁瑣耗時(shí)的任務(wù),會(huì)占用醫(yī)生與患者交流的時(shí)間。

Sully.ai通過(guò)開(kāi)發(fā)能夠處理醫(yī)療編碼和記錄筆記等常規(guī)任務(wù)的”AI 員工”來(lái)解決這一問(wèn)題。隨著公司平臺(tái)規(guī)模擴(kuò)大,其自有的閉源模型面臨著三大瓶頸:實(shí)時(shí)臨床工作流程中的延遲不可預(yù)測(cè)、推理成本增長(zhǎng)速度比收入增長(zhǎng)更快,以及對(duì)模型質(zhì)量和更新的控制不足。

Sully.ai 打造 AI 員工,幫助醫(yī)生處理日常事務(wù)。

為突破這些瓶頸,Sully.ai 采用了 Baseten 的模型 API,該 API 可在 NVIDIA Blackwell GPU 上部署 gpt-oss-120b 等開(kāi)源模型。Baseten 采用低精度NVFP4數(shù)據(jù)格式、NVIDIA TensorRT-LLM 庫(kù)及NVIDIA Dynamo推理框架以實(shí)現(xiàn)優(yōu)化的推理。該公司選擇 NVIDIA Blackwell 運(yùn)行 Model API,因其每美元投入的吞吐量較 NVIDIA Hopper 平臺(tái)提升 2.5 倍。

結(jié)果顯示,Sully.ai的推理成本因此降低了 90%,成本降低至原來(lái)的閉源實(shí)現(xiàn)方案的 1/10。同時(shí)在病歷生成等關(guān)鍵工作流的響應(yīng)速度提升了 65%。該公司已為醫(yī)生節(jié)省了超過(guò) 3000 萬(wàn)分鐘的時(shí)間,這些時(shí)間原本耗費(fèi)在數(shù)據(jù)錄入及其他手動(dòng)操作上。

游戲領(lǐng)域——DeepInfra 與 Latitude 將每 token 成本降至原來(lái)的 1/4

Latitude正通過(guò)其 AI 冒險(xiǎn)故事游戲AI Dungeon及即將推出的 AI 驅(qū)動(dòng)角色扮演游戲平臺(tái) Voyage,打造 AI 原生游戲的未來(lái)。玩家可在這些平臺(tái)中自由創(chuàng)建或探索世界,選擇任何行動(dòng),書(shū)寫專屬故事。

該公司的平臺(tái)采用大型語(yǔ)言模型響應(yīng)玩家操作——但這帶來(lái)了擴(kuò)展難題,因?yàn)槊看瓮婕也僮鞫紩?huì)觸發(fā)推理請(qǐng)求。成本隨玩家參與度增長(zhǎng)而攀升,而響應(yīng)速度必須保持足夠快才能確保游戲體驗(yàn)的流暢性。

Latitude 開(kāi)發(fā)了一款名為 AI Dungeon 的文字冒險(xiǎn)故事游戲,該游戲能在玩家探索動(dòng)態(tài)故事時(shí)實(shí)時(shí)生成敘事文本與圖像。

Latitude 運(yùn)行的大型開(kāi)源模型基于由 NVIDIA Blackwell GPU 和 TensorRT-LLM 驅(qū)動(dòng)的DeepInfra 推理平臺(tái)。對(duì)于大規(guī)?;旌蠈<夷P停∕oE),DeepInfra 將每百萬(wàn) token 的成本從 NVIDIA Hopper 平臺(tái)的 0.20 美元降至 Blackwell 平臺(tái)的 0.10 美元。通過(guò)遷移至 Blackwell 原生低精度 NVFP4 格式,其成本進(jìn)一步降至每百萬(wàn) token 0.05 美元——現(xiàn)每 token 成本降至之前的 1/4,同時(shí)保持了客戶期望的準(zhǔn)確性。

在 DeepInfra 基于 Blackwell 的平臺(tái)上運(yùn)行這些大型 MoE 模型,使 Latitude 能夠以經(jīng)濟(jì)高效的方式提供快速可靠的響應(yīng)。DeepInfra 的推理平臺(tái)在保證性能的同時(shí),還能穩(wěn)定應(yīng)對(duì)流量峰值,讓 Latitude 得以部署更強(qiáng)大的模型而不影響玩家體驗(yàn)。

智能體聊天代理——Fireworks AI 與 Sentient Foundation 合作,將 AI 成本降低高達(dá) 50%

Sentient Labs 致力于匯聚 AI 開(kāi)發(fā)者,共同構(gòu)建強(qiáng)大的開(kāi)源推理 AI 系統(tǒng)。其目標(biāo)是通過(guò)在安全自主性、智能體架構(gòu)和持續(xù)學(xué)習(xí)領(lǐng)域開(kāi)展研究,加速 AI 解決更復(fù)雜的推理難題。

Sentient Labs 的首款應(yīng)用 Sentient Chat 能夠編排復(fù)雜的多智能體工作流,并整合來(lái)自社區(qū)的十余個(gè)專業(yè) AI 智能體。正因如此,Sentient Chat 面臨著巨大的計(jì)算需求——單個(gè)用戶查詢可能觸發(fā)一系列自主交互,通常會(huì)導(dǎo)致高昂的基礎(chǔ)設(shè)施開(kāi)銷。

為應(yīng)對(duì)這種規(guī)模和復(fù)雜性任務(wù),Sentient 采用基于 NVIDIA Blackwell 運(yùn)行的 Fireworks AI 推理平臺(tái)。借助 Fireworks 針對(duì) Blackwell 優(yōu)化的推理堆棧,Sentient 的成本效率相比之前基于 Hopper 的部署方案提升了 25% 到 50%。

Sentient Chat 編排復(fù)雜的多智能體工作流,并整合來(lái)自社區(qū)的十余個(gè)專業(yè) AI 智能體。

更高的每 GPU 吞吐量使該公司能夠以相同成本服務(wù)更多并發(fā)用戶。該平臺(tái)的可擴(kuò)展性支持了病毒式傳播的用戶增長(zhǎng)——24 小時(shí)內(nèi)新增 180 萬(wàn)候補(bǔ)用戶,單周處理 560 萬(wàn)次查詢,同時(shí)保持了穩(wěn)定的低延遲表現(xiàn)。

客戶服務(wù)——Together AI 與 Decagon 實(shí)現(xiàn)成本降至原來(lái)的 1/6

使用語(yǔ)音 AI 的客服服務(wù)通話往往令人感到挫敗,因?yàn)槟呐率禽p微的延遲都可能導(dǎo)致用戶打斷語(yǔ)音助手、掛斷電話或失去信任。

Decagon 為企業(yè)客戶支持構(gòu)建 AI 智能體,其中 AI 驅(qū)動(dòng)的語(yǔ)音服務(wù)要求最為苛刻。Decagon 需要一套能夠在不可預(yù)測(cè)的流量負(fù)載下實(shí)現(xiàn)亞秒級(jí)響應(yīng)的基礎(chǔ)設(shè)施,并具備支持全天候語(yǔ)音部署的 tokenomics。

Decagon 為客戶支持構(gòu)建 AI 智能體,其中語(yǔ)音服務(wù)要求最為苛刻。

Together AI 在 NVIDIA Blackwell GPU 上為 Decagon 的多模型語(yǔ)音技術(shù)棧運(yùn)行生產(chǎn)級(jí)推理。兩家公司在多項(xiàng)關(guān)鍵優(yōu)化上展開(kāi)合作:采用推測(cè)解碼技術(shù),通過(guò)訓(xùn)練小型模型實(shí)現(xiàn)更快的響應(yīng)速度,同時(shí)在后臺(tái)由大模型驗(yàn)證準(zhǔn)確性;緩存重復(fù)對(duì)話元素以加速響應(yīng);構(gòu)建自動(dòng)擴(kuò)展機(jī)制,在應(yīng)對(duì)流量激增時(shí)保持性能穩(wěn)定。

Decagon 即使在每條查詢處理數(shù)千個(gè) token 的情況下,也能實(shí)現(xiàn)低于 400 毫秒的響應(yīng)時(shí)間。與使用閉源專有模型相比,每條查詢的成本(即完成一次語(yǔ)音交互的總成本)降低至原來(lái)的 1/6。這一成果得益于 Decagon 的多模型方案(部分采用開(kāi)源模型,部分在 NVIDIA GPU 上自主訓(xùn)練)、NVIDIA Blackwell 芯片的極致協(xié)同設(shè)計(jì)以及 Together 平臺(tái)的優(yōu)化推理堆棧的協(xié)同作用。

通過(guò)極致協(xié)同設(shè)計(jì)優(yōu)化 tokenomics

在醫(yī)療、游戲和客戶服務(wù)等領(lǐng)域取得的顯著成本節(jié)省,得益于 NVIDIA Blackwell 的高性能。NVIDIA Grace Blackwell 機(jī)架式解決方案進(jìn)一步擴(kuò)大了這一優(yōu)勢(shì),其推理 MoE 模型的每 token 成本降至 NVIDIA Hopper 的 1/10,實(shí)現(xiàn)了成本的突破性降低。

NVIDIA 涵蓋了計(jì)算、網(wǎng)絡(luò)和軟件等跨各個(gè)層級(jí)堆棧的極致協(xié)同設(shè)計(jì),以及其合作伙伴生態(tài)系統(tǒng),正在大幅度降低每 token 成本。

這一勢(shì)頭延續(xù)至NVIDIA Rubin 平臺(tái)上——通過(guò)將六款全新芯片集成于一臺(tái) AI 超級(jí)計(jì)算機(jī)中,其性能較 Blackwell 提升 10 倍,token 成本降至 Blackwell 的 1/10。

探索NVIDIA 的全棧推理平臺(tái),深入了解其如何為 AI 推理提供更優(yōu)的 tokenomics。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    5682

    瀏覽量

    110087
  • AI
    AI
    +關(guān)注

    關(guān)注

    91

    文章

    40908

    瀏覽量

    302489
  • 開(kāi)源
    +關(guān)注

    關(guān)注

    3

    文章

    4323

    瀏覽量

    46424

原文標(biāo)題:領(lǐng)先推理提供商借助基于 NVIDIA Blackwell 平臺(tái)的開(kāi)源模型,將 AI 成本削減至 1/10

文章出處:【微信號(hào):NVIDIA-Enterprise,微信公眾號(hào):NVIDIA英偉達(dá)企業(yè)解決方案】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    NVIDIA cuDF和cuVS獲全球領(lǐng)先數(shù)據(jù)平臺(tái)采用

    企業(yè)每年產(chǎn)生數(shù)百 ZB (Zettabyte) 的數(shù)據(jù),并在爭(zhēng)相將這些信息轉(zhuǎn)化為洞察。NVIDIA cuDF 和 cuVS 作為基于 NVIDIA CUDA-X 構(gòu)建的加速數(shù)據(jù)庫(kù),正在被各行業(yè)的數(shù)據(jù)
    的頭像 發(fā)表于 03-19 15:46 ?401次閱讀

    NVIDIA DRIVE AV軟件平臺(tái)與Halos架構(gòu)助力梅賽德斯奔馳CLA車型獲得最高安全評(píng)分

    NVIDIA DRIVE AV 軟件平臺(tái)NVIDIA Halos 架構(gòu)助力 CLA 車型獲得最高安全評(píng)分(top safety rating)。
    的頭像 發(fā)表于 02-02 09:28 ?2205次閱讀

    NVIDIA DGX SuperPOD為Rubin平臺(tái)橫向擴(kuò)展提供藍(lán)圖

    NVIDIA DGX Rubin 系統(tǒng)整合了 NVIDIA 在計(jì)算、網(wǎng)絡(luò)和軟件領(lǐng)域的最新突破,將推理 token 成本降至 NVIDIA
    的頭像 發(fā)表于 01-14 09:14 ?803次閱讀

    NVIDIA在CES 2026發(fā)布新一代Rubin AI平臺(tái)

    通過(guò)跨 NVIDIA Vera CPU、Rubin GPU、NVLink 6 交換機(jī)、ConnectX-9 SuperNIC、BlueField-4 DPU 和 Spectrum-6 以太網(wǎng)交換機(jī)的極致協(xié)同設(shè)計(jì),大幅縮短訓(xùn)練時(shí)間,降低
    的頭像 發(fā)表于 01-09 10:23 ?777次閱讀

    NVIDIA RTX PRO 5000 Blackwell GPU的深度評(píng)測(cè)

    NVIDIA RTX PRO 5000 BlackwellNVIDIA RTX 5000 Ada Generation 的升級(jí)迭代產(chǎn)品,其各項(xiàng)核心指標(biāo)均針對(duì) GPU 加速工作流的高性能
    的頭像 發(fā)表于 01-06 09:51 ?3810次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 <b class='flag-5'>Blackwell</b> GPU的深度評(píng)測(cè)

    NVIDIA RTX PRO 4000 Blackwell GPU性能測(cè)試

    作為 NVIDIA 專業(yè)顯卡產(chǎn)品線中單槽性能的巔峰之作,NVIDIA RTX PRO 4000 Blackwell 在各項(xiàng)核心指標(biāo)上均實(shí)現(xiàn)對(duì)前代 N
    的頭像 發(fā)表于 12-29 15:30 ?1799次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4000 <b class='flag-5'>Blackwell</b> GPU性能測(cè)試

    NVIDIA RTX PRO 5000 72GB Blackwell GPU現(xiàn)已全面上市

    NVIDIA RTX PRO 5000 72GB Blackwell GPU 現(xiàn)已全面上市,將基于 NVIDIA Blackwell 架構(gòu)的強(qiáng)大代理式與生成式 AI 能力帶到更多桌面和
    的頭像 發(fā)表于 12-24 10:32 ?1069次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 5000 72GB <b class='flag-5'>Blackwell</b> GPU現(xiàn)已全面上市

    NVIDIA擴(kuò)大與微軟合作推動(dòng)AI超級(jí)工廠建設(shè)

    在 Microsoft Ignite 大會(huì)上,NVIDIA 擴(kuò)大與微軟的合作,包括在由 NVIDIA Blackwell 平臺(tái)驅(qū)動(dòng)的全新 Microsoft Fairwater AI
    的頭像 發(fā)表于 12-01 09:52 ?953次閱讀

    NVIDIA RTX PRO 2000 Blackwell GPU性能測(cè)試

    越來(lái)越多的應(yīng)用正在使用 AI 加速,而無(wú)論工作站的大小或形態(tài)如何,都有越來(lái)越多的用戶需要 AI 性能。NVIDIA RTX PRO 2000 Blackwell 是全新 NVIDIA
    的頭像 發(fā)表于 11-28 09:39 ?6909次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 2000 <b class='flag-5'>Blackwell</b> GPU性能測(cè)試

    NVIDIA DGX Spark助力構(gòu)建自己的AI模型

    作為個(gè)人 AI 超級(jí)計(jì)算機(jī),為世界各地的 AI 研究人員、數(shù)據(jù)科學(xué)家和學(xué)生提供 NVIDIA Grace Blackwell 平臺(tái)的強(qiáng)大功能。
    的頭像 發(fā)表于 11-21 09:25 ?1479次閱讀
    <b class='flag-5'>NVIDIA</b> DGX Spark<b class='flag-5'>助力</b>構(gòu)建自己的AI模型

    DeepSeek R1 MTP在TensorRT-LLM中的實(shí)現(xiàn)與優(yōu)化

    TensorRT-LLM 在 NVIDIA Blackwell GPU 上創(chuàng)下了 DeepSeek-R1 推理性能的世界紀(jì)錄,Multi-Token Prediction (MTP) 實(shí)現(xiàn)
    的頭像 發(fā)表于 08-30 15:47 ?4651次閱讀
    DeepSeek R1 MTP在TensorRT-LLM中的<b class='flag-5'>實(shí)現(xiàn)</b>與優(yōu)化

    NVIDIA RTX PRO 4500 Blackwell GPU測(cè)試分析

    今天我們帶來(lái)全新 NVIDIA Blackwell 架構(gòu) GPU —— NVIDIA RTX PRO 4500 Blackwell 的測(cè)試,對(duì)比上一代產(chǎn)品
    的頭像 發(fā)表于 08-28 11:02 ?4307次閱讀
    <b class='flag-5'>NVIDIA</b> RTX PRO 4500 <b class='flag-5'>Blackwell</b> GPU測(cè)試分析

    基于 NVIDIA Blackwell 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機(jī)器人時(shí)代的到來(lái)

    醫(yī)療、萬(wàn)集科技、優(yōu)必選、銀河通用、宇樹(shù)科技、眾擎機(jī)器人和智元機(jī)器人等公司已經(jīng)率先使用 Jetson Thor。 ·基于 NVIDIA Blackwell 的 Jetson Thor,較上一代產(chǎn)品
    發(fā)表于 08-26 09:28 ?1343次閱讀
    基于 <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> 的 Jetson Thor 現(xiàn)已發(fā)售,加速通用機(jī)器人時(shí)代的到來(lái)

    OpenAI與NVIDIA共同開(kāi)發(fā)全新開(kāi)放模型

    NVIDIA 為 gpt-oss-120b 帶來(lái)業(yè)界領(lǐng)先性能,在單個(gè) NVIDIA Blackwell 系統(tǒng)上實(shí)現(xiàn)每秒 150 萬(wàn)個(gè) Token
    的頭像 發(fā)表于 08-12 15:11 ?1708次閱讀

    NVIDIA Blackwell GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄

    本文將探討 NVIDIA TensorRT-LLM 如何基于 8 個(gè) NVIDIA Blackwell GPU 的配置,打破 DeepSeek-R1 在最小延遲場(chǎng)景中的性能紀(jì)錄:在 GTC 2025
    的頭像 發(fā)表于 07-02 19:31 ?3537次閱讀
    <b class='flag-5'>NVIDIA</b> <b class='flag-5'>Blackwell</b> GPU優(yōu)化DeepSeek-R1性能 打破DeepSeek-R1在最小延遲場(chǎng)景中的性能紀(jì)錄
    乌拉特后旗| 资阳市| 翁源县| 汉阴县| 马尔康县| 益阳市| 民丰县| 南安市| SHOW| 安仁县| 宣化县| 武冈市| 陈巴尔虎旗| 金堂县| 上蔡县| 南宫市| 龙山县| 隆尧县| 大新县| 承德县| 涟源市| 景宁| 威海市| 康乐县| 乐平市| 吴堡县| 临安市| 平远县| 哈巴河县| 东乡县| 砚山县| 辉南县| 兴山县| 韩城市| 旅游| 舒城县| 襄樊市| 绥江县| 航空| 木兰县| 河南省|