近日,華為中國合作伙伴大會現(xiàn)場,神州鯤泰與趨境科技正式簽訂生態(tài)合作協(xié)議,并聯(lián)合推出面向企業(yè)級大模型推理場景的智能算力調(diào)度解決方案。
該方案聚焦企業(yè)大模型推理落地過程中的成本高、效率低、資源亂、合規(guī)難四大核心痛點,以 “安全可信、高效適配、靈活擴展、按需部署” 為核心特點,為企業(yè)打造從算力底座到推理服務(wù)的全鏈路智能化支撐體系,讓企業(yè)在保障數(shù)據(jù)安全與合規(guī)的前提下,充分釋放大模型推理價值,驅(qū)動業(yè)務(wù)全場景的智能化轉(zhuǎn)型。企業(yè)如何破解大模型推理落地的算力與技術(shù)瓶頸,實現(xiàn)推理資源的最優(yōu)配置與價值最大化?神州鯤泰攜手趨境科技給出了答案。
一、聯(lián)合解決方案的戰(zhàn)略目標(biāo)
1.1 引領(lǐng)大模型推理場景產(chǎn)業(yè)級落地
當(dāng)前,大模型技術(shù)已從技術(shù)驗證走向產(chǎn)業(yè)應(yīng)用,推理場景占比達60%,成為企業(yè)實現(xiàn)大模型價值轉(zhuǎn)化的核心環(huán)節(jié),而算力調(diào)度與推理優(yōu)化則是決定大模型落地效果的關(guān)鍵。IDC 相關(guān)數(shù)據(jù)顯示,國內(nèi)企業(yè)大模型私有化部署率逐年提升,但超 70% 的企業(yè)面臨推理算力資源利用率低、部署成本高、性能穩(wěn)定性差等問題,千億級大模型私有化部署曾是中小企業(yè)難以企及的目標(biāo);同時,企業(yè)級推理場景更強調(diào)高并發(fā)、低延遲、高可用,而傳統(tǒng)開源推理引擎僅能滿足基礎(chǔ)對話需求,無法匹配企業(yè)級業(yè)務(wù)的 SLO 要求。
在此背景下,趨境科技依托源自清華大學(xué)高性能計算所的技術(shù)積淀,憑借全系統(tǒng)異構(gòu)協(xié)同、以存換算兩大核心技術(shù),以及 AMaaS 推理服務(wù)平臺的企業(yè)級服務(wù)能力,與神州鯤泰全系列智算硬件、全域算力配置能力深度協(xié)同。雙方聚焦算力適配、推理優(yōu)化、資源管理、安全合規(guī)四大核心需求,共同打造面向企業(yè)級大模型推理場景的智能算力調(diào)度解決方案,讓大模型推理算力實現(xiàn) “低成本獲取、高效率利用、全流程可控”,推動大模型推理從 “單點試用” 走向 “產(chǎn)業(yè)級規(guī)模化落地”。
1.2 企業(yè)級推理提效的三大落點
實現(xiàn)大模型推理生產(chǎn)級效能躍升趨境科技 AMaaS 推理服務(wù)平臺集成自研 KLLM 推理引擎,融合 KTransformers、Mooncake 核心優(yōu)化能力,可充分釋放神州鯤泰智算硬件的算力潛能,實現(xiàn) GPU/CPU 異構(gòu)計算、P/D 分離、以存換算等多重優(yōu)化。針對企業(yè)長文生成、智能客服、RAG 知識庫、批量數(shù)據(jù)分析等核心推理場景。
滿足企業(yè)數(shù)據(jù)安全與合規(guī)核心需求解決方案全面支持私有化部署,基于神州鯤泰國產(chǎn)化智算硬件底座與趨境科技 AMaaS 平臺的本地化管理能力,所有推理數(shù)據(jù)全程在企業(yè)本地閉環(huán),杜絕數(shù)據(jù)上傳與泄露風(fēng)險;同時平臺支持算力資源與推理任務(wù)的全鏈路監(jiān)控、審計,滿足金融、央企、軌道交通等行業(yè)的等保合規(guī)與數(shù)據(jù)安全要求,為企業(yè)大模型推理落地筑牢安全防線。
實現(xiàn)推理算力投入與產(chǎn)出的精準(zhǔn)量化以算力價值為服務(wù),依托 AMaaS 平臺的可視化智能管理駕駛艙,為企業(yè)管理者提供算力資源利用率、模型調(diào)用量、推理任務(wù)響應(yīng)速度、業(yè)務(wù)提效數(shù)據(jù)等多維度洞察,實現(xiàn)推理算力成本、使用效率、業(yè)務(wù)價值的精準(zhǔn)度量與可審計。通過數(shù)據(jù)化方式清晰呈現(xiàn)算力投入與業(yè)務(wù)產(chǎn)出的關(guān)聯(lián),形成 “度量 - 洞察 - 優(yōu)化” 的閉環(huán)管理,讓企業(yè)算力投入更具針對性,大幅提升推理算力的投入產(chǎn)出比。
二、軟硬一體的架構(gòu)設(shè)計
解決方案采用 “硬件底座層 + 推理引擎層 + 模型服務(wù)層”多層協(xié)同架構(gòu),實現(xiàn)神州鯤泰智算硬件與趨境科技 AMaaS 推理服務(wù)平臺的深度融合與無縫銜接,構(gòu)建企業(yè)專屬的大模型推理閉環(huán),為企業(yè)全場景推理需求提供從算力到服務(wù)的全流程支撐。

2.1 模型服務(wù)層:趨境科技 AMaaS 推理服務(wù)平臺
作為解決方案的核心大腦,AMaaS 推理服務(wù)平臺是一款開箱即用的企業(yè)級大模型推理管理平臺,具備資源可視化管理、多模型統(tǒng)一部署、異構(gòu)算力調(diào)度、全鏈路監(jiān)控告警四大核心能力。平臺內(nèi)置 134 + 主流大模型,涵蓋 DeepSeek、Kimi、Qwen、GLM 等千億 / 百億級大語言模型及多模態(tài)、重排模型,支持企業(yè)私有模型上傳、一鍵啟停與在線 / 離線更新;同時提供 Restful API 接口,兼容 OpenAI 等主流大模型接口,可快速與企業(yè)現(xiàn)有業(yè)務(wù)系統(tǒng)、智能體應(yīng)用集成,實現(xiàn)推理服務(wù)的無縫銜接。針對企業(yè)級推理需求,平臺支持多模型混合推理、分布式推理、集群化部署,可滿足從個人試用、部門級應(yīng)用到集團級萬級并發(fā)的全場景推理需求。
2.2 推理引擎層:趨境科技自研 KLLM 推理引擎
集成趨境科技兩大開源核心技術(shù) ——KTransformers 異構(gòu)推理框架與 Mooncake 分布式推理架構(gòu),打造企業(yè)級專屬 KLLM 推理引擎。通過全系統(tǒng)異構(gòu)協(xié)同技術(shù),將大模型不同部分分配到 CPU/GPU/NPU 等不同層級化設(shè)備,實現(xiàn)單卡運行千億級大模型,部署成本從百萬級降至萬級;通過以存換算技術(shù),將推理中間結(jié)果存儲在內(nèi)存 / 磁盤,避免重復(fù)計算,使計算量降低 10 倍、請求延遲縮短 10 倍;同時支持 KVcache 多級緩存、P/D 分離、量化優(yōu)化等策略,大幅提升算力利用率與推理吞吐量,讓神州鯤泰智算硬件的算力潛能得到充分釋放。
2.3 硬件底座層:神州鯤泰鯤鵬 + 昇騰架構(gòu)智算硬件
依托神州鯤泰基于鯤鵬、昇騰打造的全系列智算硬件,包括液冷工作站、智算服務(wù)器、超節(jié)點服務(wù)器等多形態(tài)產(chǎn)品,根據(jù)企業(yè)所在行業(yè)特性、推理場景規(guī)模(如并發(fā)量、模型參數(shù)、任務(wù)類型)及部署需求(本地 / 機房 / 邊緣),為解決方案提供定制化、高性能、國產(chǎn)化的算力底座。核心機型可靈活配置 2 卡 / 4 卡 / 8 卡 / 百卡級算力,保障算力供給與企業(yè)推理需求的精準(zhǔn)匹配,同時嚴(yán)格遵循國產(chǎn)化標(biāo)準(zhǔn),滿足企業(yè)合規(guī)要求。
核心配置表一覽

三、核心功能與軟硬協(xié)同優(yōu)勢
3.1 核心功能模塊
全棧異構(gòu)算力調(diào)度與管理支持鯤鵬 / 昇騰等主流硬件的統(tǒng)一納管,實現(xiàn) CPU、GPU、NPU、顯存、內(nèi)存等算力資源的可視化監(jiān)控與動態(tài)調(diào)度;針對企業(yè)多型號硬件集群的痛點,通過異構(gòu)計算技術(shù)實現(xiàn)不同硬件的高效協(xié)同,算力資源綜合利用率提升 3 倍以上,徹底解決算力資源浪費、調(diào)度無序的問題。
多模型全生命周期管理提供模型倉庫、模型部署、模型測試、模型更新、模型監(jiān)控的全生命周期管理能力,內(nèi)置數(shù)百款主流大模型,支持私有模型自定義部署與一鍵更新,新模型發(fā)布當(dāng)天即可完成適配(天級更新),遠(yuǎn)超行業(yè)月級適配周期,讓企業(yè)實時享受最新模型能力。
企業(yè)級高可靠推理服務(wù)支持分布式推理、集群化部署、副本容錯等能力,可滿足萬級并發(fā)的高負(fù)載推理需求;針對延遲敏感型場景(如智能客服、實時推薦),通過 PD 分離 + 分布式 KVcache 優(yōu)化,首 Token 延遲可降至 56 毫秒,峰值流量下延遲波動≤5 毫秒,保障推理服務(wù)的 99.99% 高可用。
可視化智能管理駕駛艙為企業(yè)管理者與運維人員提供多維度數(shù)據(jù)看板,包括算力資源使用情況、模型調(diào)用量、Token 消耗、推理響應(yīng)速度、任務(wù)完成效率等,實現(xiàn)推理業(yè)務(wù)的全鏈路監(jiān)控、告警與審計;同時提供算力成本統(tǒng)計、業(yè)務(wù)提效分析功能,讓算力投入與產(chǎn)出可度量、可管理。
全場景推理方案適配針對企業(yè)智能問答、長文生成、RAG 知識庫、批量數(shù)據(jù)分析、輿情監(jiān)控、企業(yè)培訓(xùn)等核心推理場景,提供定制化的推理優(yōu)化方案,實現(xiàn)模型、算力、引擎的最優(yōu)組合,讓不同場景的推理性能與成本達到最佳平衡。
3.2 軟硬協(xié)同,無縫銜接
算力與引擎的深度優(yōu)化趨境科技針對神州鯤泰鯤鵬 + 昇騰智算硬件進行專項推理引擎優(yōu)化,實現(xiàn) KLLM 引擎與國產(chǎn)硬件的深度適配,充分釋放昇騰的 INT4/INT8 算力優(yōu)勢,在算子、通信層面做聯(lián)合優(yōu)化,相比通用開源引擎,同等硬件下推理吞吐量提升 5 倍以上,算力利用率從 38% 提升至 82%。
需求與算力的精準(zhǔn)匹配神州鯤泰根據(jù)趨境科技 AMaaS 平臺的推理算力需求,提供從單卡到千卡算力集群的全形態(tài)硬件配置,同時支持硬件的靈活擴展與按需部署,避免算力冗余或供給不足,實現(xiàn) “算力隨推理需求動態(tài)調(diào)整”。
安全與性能的雙重保障基于神州鯤泰硬件底座的物理安全與趨境科技 AMaaS 平臺的軟件安全能力,構(gòu)建 “硬件隔離 + 數(shù)據(jù)本地化 + 全鏈路審計” 的三重安全體系,在保障數(shù)據(jù)安全與合規(guī)的前提下,通過推理引擎優(yōu)化實現(xiàn)性能的最大化提升,形成 “算力 - 推理 - 安全” 的一體化支撐體系。
四、典型落地場景與價值

4.1 金融行業(yè)智能客服與批量數(shù)據(jù)分析場景
需求:金融企業(yè)需支撐數(shù)萬級用戶的智能客服咨詢,要求低延遲、高并發(fā),同時需每日完成海量交易數(shù)據(jù)、輿情數(shù)據(jù)的批量分析,且需嚴(yán)格滿足金融行業(yè)數(shù)據(jù)安全與合規(guī)要求,現(xiàn)有算力集群資源利用率低、推理性能不穩(wěn)定。
落地價值:基于神州鯤泰算力集群與趨境科技 AMaaS 平臺,實現(xiàn)智能客服與批量數(shù)據(jù)分析的算力資源統(tǒng)一調(diào)度與優(yōu)化;智能客服場景首 Token 延遲降至 50 毫秒內(nèi),峰值 15 萬次 / 秒請求下性能穩(wěn)定,用戶投訴率大幅下降;批量數(shù)據(jù)分析場景吞吐量提升 4 倍,2000 個請求僅需 1.5 分鐘完成;算力資源綜合利用率從 35% 提升至 90%,推理算力成本降低 60%,且全程本地化部署,滿足金融行業(yè)等保合規(guī)要求。
4.2 制造企業(yè)研發(fā)文檔生成與知識庫問答場景
需求:制造企業(yè)需基于海量技術(shù)文檔實現(xiàn)研發(fā)報告、工藝文件的自動生成,同時為研發(fā)人員提供知識庫智能問答服務(wù),模型以千億級大模型為主,現(xiàn)有部署方案成本高、中小團隊難以承受,且模型輸出速度慢。
落地價值:采用神州鯤泰智算服務(wù)器與 AMaaS 平臺輕量部署方案,實現(xiàn)千億級大模型的低成本私有化部署(成本降至 10 萬級);研發(fā)文檔生成速度提升 2 倍,萬字工藝文件僅需 1 分鐘生成,知識庫問答首 Token 響應(yīng)時間減少 41%;支持多研發(fā)團隊的算力資源隔離與共享,團隊研發(fā)效率提升 35%,文檔生成人力成本降低 50%。
4.3 央企集團級多場景推理算力統(tǒng)一管理場景
需求:央企集團旗下多個業(yè)務(wù)板塊均有大模型推理需求(如行政辦公、生產(chǎn)監(jiān)控、客戶服務(wù)),各板塊模型類型、并發(fā)量差異大,需實現(xiàn)集團算力資源的統(tǒng)一管理與調(diào)度,避免各板塊重復(fù)建設(shè),同時保障跨板塊數(shù)據(jù)安全隔離。
落地價值:搭建神州鯤泰鯤鵬 + 昇騰架構(gòu)的集團級,通過趨境科技 AMaaS 平臺實現(xiàn)全集團算力資源的統(tǒng)一納管、動態(tài)調(diào)度與隔離;各業(yè)務(wù)板塊根據(jù)需求按需申請算力,模型與推理任務(wù)獨立部署,算力資源利用率提升 3 倍以上,跨板塊算力建設(shè)成本降低 40%;針對不同業(yè)務(wù)場景提供定制化推理優(yōu)化方案,各板塊推理業(yè)務(wù)效率平均提升 30%,項目交付周期縮短 20%。
五、走向企業(yè)級大模型推理新范式
神州鯤泰 × 趨境科技大模型推理智能算力調(diào)度解決方案,是智算算力底座與國際領(lǐng)先推理優(yōu)化技術(shù)的深度融合,以低成本、高效率、高安全、易部署、可度量為核心優(yōu)勢,構(gòu)建了 “硬件 - 引擎 - 平臺” 的三層協(xié)同體系,精準(zhǔn)破解了企業(yè)大模型推理落地過程中的算力適配難、資源管理亂、性能不穩(wěn)定、成本居高不下等行業(yè)痛點,實現(xiàn)了大模型推理服務(wù)的開箱即用。
目前,該解決方案已在金融、央企、制造、軌道交通等多個行業(yè)成熟落地,幫助企業(yè)實現(xiàn)推理算力資源利用率提升 3 倍以上、推理性能提升 2-4 倍、算力成本降低 50%-60%,真正讓大模型推理算力成為企業(yè)可獲取、可利用、可度量的核心生產(chǎn)力。
未來,神州鯤泰與趨境科技將持續(xù)深化技術(shù)合作,圍繞鯤鵬 + 昇騰智算硬件進行更深度的推理引擎優(yōu)化,迭代 AMaaS 平臺的智能化調(diào)度與管理能力,豐富金融、制造、政務(wù)等行業(yè)的定制化推理解決方案,推動大模型推理從 “單一場景適配” 向 “企業(yè)全場景價值賦能” 升級,讓高效、安全、經(jīng)濟的大模型推理算力惠及更多企業(yè),加速大模型技術(shù)的產(chǎn)業(yè)級落地與價值轉(zhuǎn)化。
-
華為
+關(guān)注
關(guān)注
218文章
36162瀏覽量
262597 -
算力
+關(guān)注
關(guān)注
2文章
1657瀏覽量
16824 -
大模型
+關(guān)注
關(guān)注
2文章
3746瀏覽量
5264
發(fā)布評論請先 登錄
2026神州鯤泰合作伙伴百城薈上海站圓滿落幕
神州鯤泰入圍中信銀行CANN生態(tài)信創(chuàng)大模型服務(wù)器項目
神州數(shù)碼旗下神州鯤泰攜手江蘇紡知云開啟家紡產(chǎn)業(yè)數(shù)智化新篇章
神州數(shù)碼旗下神州鯤泰亮相2026華為中國合作伙伴大會
技嘉與趨境科技聯(lián)合部署AMaaS平臺 推動本地大模型應(yīng)用加速落地
邊緣AI算力臨界點:深度解析176TOPS香橙派AI Station的產(chǎn)業(yè)價值
從訓(xùn)練到推理:大模型算力需求的新拐點已至
算力積木+3D堆疊!GPNPU架構(gòu)創(chuàng)新,應(yīng)對AI推理需求
神州鯤泰攜手趨境科技推出大模型推理智能算力調(diào)度解決方案
評論