哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

如何通過組件配置為深度學習培訓選擇企業(yè)服務器

星星科技指導員 ? 來源:NVIDIA ? 作者:Charu Chaubal ? 2022-04-19 15:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

深度學習已經(jīng)成為執(zhí)行許多人工智能任務的最常見的神經(jīng)網(wǎng)絡實現(xiàn)。數(shù)據(jù)科學家使用 TensorFlow 和 PyTorch 等軟件框架來開發(fā)和運行 DL 算法。

到目前為止,已經(jīng)有很多關于深度學習的文章,你可以從許多來源找到更詳細的信息。有關良好的高層總結,請參見 人工智能、機器學習和深度學習之間有什么區(qū)別?

開始深度學習的一種流行方式是在云中運行這些框架。然而,隨著企業(yè)開始增長和成熟其人工智能專業(yè)技能,他們會尋找在自己的數(shù)據(jù)中心運行這些框架的方法,以避免基于云的人工智能的成本和其他挑戰(zhàn)。

在本文中,我將討論如何為 深度學習培訓選擇企業(yè)服務器。我回顧了這個獨特工作負載的具體計算需求,然后討論了如何通過組件配置的最佳選擇來滿足這些需求。

DL 培訓的系統(tǒng)要求

深度學習培訓通常被設計為數(shù)據(jù)處理管道。必須首先根據(jù)數(shù)據(jù)格式、大小和其他因素準備原始輸入數(shù)據(jù)。

數(shù)據(jù)通常也會經(jīng)過預處理,以便相同的輸入可以以不同的方式呈現(xiàn)給模型,這取決于數(shù)據(jù)科學家所確定的將提供更強大的訓練集的內(nèi)容。例如,圖像可以隨機旋轉(zhuǎn),以便模型學習識別對象,而不考慮方向。然后將準備好的數(shù)據(jù)輸入 DL 算法。

pYYBAGJeYeqAJmOBAABlS6A6Eyk644.png

圖 1 深度學習培訓數(shù)據(jù)管道

了解了 DL 培訓的工作原理后,以下是以最快、最有效的方式執(zhí)行此任務的具體計算需求。

GPU

深度學習的核心是 GPU 。計算網(wǎng)絡每一層的值的過程最終是一組龐大的矩陣乘法。每個層的數(shù)據(jù)通常可以并行處理,各層之間有協(xié)調(diào)步驟。

GPU 設計用于以大規(guī)模并行方式執(zhí)行矩陣乘法,并已被證明是實現(xiàn) 深度學習的巨大速度 的理想選擇。

對于訓練,模型的大小是驅(qū)動因素,因此具有更大更快內(nèi)存的 GPU ,比如 NVIDIA A100 GPU 核心張量 ,能夠更快地處理成批的訓練數(shù)據(jù)。

中央處理器

DL 訓練所需的數(shù)據(jù)準備和預處理計算通常在 CPU 上執(zhí)行,盡管 recent innovations 已經(jīng)使越來越多的計算能夠在 GPU 上執(zhí)行。

使用高性能的 CPU 以足夠快的速度維持這些操作是至關重要的,這樣 GPU 就不會因為等待數(shù)據(jù)而感到饑餓。 CPU 應該是企業(yè)級的,例如來自英特爾至強可擴展處理器系列或 AMD EPYC 系列,而且 CPU 內(nèi)核與 GPU 的比例應該足夠大,以保持流水線運行。

系統(tǒng)存儲器

特別是對于當今最大的機型, DL 訓練只有在有大量輸入數(shù)據(jù)可供訓練時才有效。這些數(shù)據(jù)從存儲器中批量檢索,然后由 CPU 在系統(tǒng)內(nèi)存中處理,然后再饋送到 GPU 。

為了保持該進程以持續(xù)的速度運行,系統(tǒng)內(nèi)存應該足夠大,以便 CPU 處理的速率可以與 GPU 處理數(shù)據(jù)的速率相匹配。這可以用系統(tǒng)內(nèi)存與 GPU 內(nèi)存的比率來表示(在服務器中的所有 GPU 中)。

不同的模型和算法需要不同的比率,但最好有更高的比率,這樣 GPU 就永遠不會等待數(shù)據(jù)。

網(wǎng)絡適配器

隨著 DL 模型變得越來越大,已經(jīng)開發(fā)出了多種技術來執(zhí)行訓練,多個 GPU 一起工作。當一臺服務器中安裝了多個 GPU 時,它們可以通過 PCIe 總線相互通信,盡管可以使用 NVLink 和 NVSwitch 等更專業(yè)的技術來實現(xiàn)最高性能。

Multi- GPU 培訓也可以擴展到跨多臺服務器的工作。在這種情況下,網(wǎng)絡適配器成為服務器設計的關鍵組件。在執(zhí)行多節(jié)點 DL 訓練時,需要高帶寬 Ethernet 或 InfiniBand 適配器來最大限度地減少由于數(shù)據(jù)傳輸而產(chǎn)生的瓶頸。

DL 框架利用 NCCL 等庫以最佳和性能的方式執(zhí)行 GPU 之間的協(xié)調(diào)。 GPUDirect RDMA 等技術使數(shù)據(jù)能夠從網(wǎng)絡直接傳輸?shù)?GPU ,而無需通過 CPU ,從而消除了延遲源。

理想情況下,系統(tǒng)中每一兩個 GPU 就應該有一個網(wǎng)絡適配器,以便在必須傳輸數(shù)據(jù)時最大限度地減少爭用。

存儲

DL 培訓數(shù)據(jù)通常駐留在外部存儲陣列上。服務器上的 NVMe 驅(qū)動器通過提供緩存數(shù)據(jù)的方法,可以大大加快培訓過程。

DL I / O 模式通常由讀取訓練數(shù)據(jù)的多次迭代組成。訓練的第一步(或 epoch )讀取用于開始訓練模型的數(shù)據(jù)。如果在節(jié)點上提供了足夠的本地緩存,則后續(xù)的數(shù)據(jù)傳遞可以避免從遠程存儲中重新讀取數(shù)據(jù)。

為了避免從遠程存儲中提取數(shù)據(jù)時發(fā)生爭用,每個 CPU 應該有一個 NVMe 驅(qū)動器。

PCIe 拓撲

由于 CPU 、 GPU 和網(wǎng)絡之間存在復雜的相互作用,因此應該清楚的是,具有減少 DL 培訓管道中任何潛在瓶頸的連接設計對于實現(xiàn)最佳性能至關重要。

如今,大多數(shù)企業(yè)服務器使用 PCIe 作為組件之間的通信手段。 PCIe 總線上的主要流量發(fā)生在以下路徑上:

從系統(tǒng)內(nèi)存到 GPU

在多次 GPU 培訓期間,在相同服務器上的 GPU 之間

在多節(jié)點培訓期間 GPU 與網(wǎng)絡適配器之間

poYBAGJeYfSAL-GgAAB__2rvYgs178.png

圖 2 主 PCIe 數(shù)據(jù)通信路徑

用于深度學習的服務器應具有平衡的 PCIe 拓撲結構, GPU 均勻分布在 CPU 插槽和 PCIe 根端口上。在所有情況下,每個 GPU 的 PCIe 通道數(shù)應為支持的最大數(shù)量。

如果存在多個 GPU ,且 CPU 的 PCIe 通道數(shù)量不足以容納所有通道,則可能需要 PCIe 交換機。在這種情況下, PCIe 交換機層的數(shù)量應限制為一層或兩層,以最小化 PCIe 延遲。

類似地,網(wǎng)絡適配器和 NVMe 驅(qū)動器應與 GPU 處于同一 PCIe 交換機或 PCIe 根復合體之下。在使用 PCIe 交換機的服務器配置中,這些設備應與 GPU 位于同一 PCIe 交換機下,以獲得最佳性能。

選擇支持 DL 培訓的經(jīng)過驗證的系統(tǒng)

設計一個為 DL 培訓而優(yōu)化的服務器很復雜。 NVIDIA 已經(jīng)發(fā)布了 關于為各種類型的加速工作負載配置服務器的指南 ,基于多年在這些工作負載方面的經(jīng)驗,并與開發(fā)人員合作優(yōu)化代碼。

為了讓你更容易上手,NVIDIA 開發(fā)了 NVIDIA-Certified Systems 程序。系統(tǒng)供應商合作伙伴已使用特定的 NVIDIA GPU 和網(wǎng)絡適配器配置并測試了多種形式的服務器型號,以驗證 優(yōu)化設計以獲得最佳性能 的有效性。

驗證還包括生產(chǎn)部署的其他重要功能,如可管理性、安全性和可伸縮性。系統(tǒng)經(jīng)過針對不同工作負載類型的一系列類別認證。 合格系統(tǒng)目錄 有一份由 NVIDIA partners 提供的經(jīng) NVIDIA 認證的系統(tǒng)列表。數(shù)據(jù)中心類別的服務器已經(jīng)過驗證,可以為 DL 培訓提供最佳性能。

NVIDIA 人工智能企業(yè)

除了合適的硬件,企業(yè)客戶還希望為 AI 工作負載選擇受支持的軟件解決方案。 NVIDIA 人工智能企業(yè) 是一套端到端、云計算原生的人工智能和數(shù)據(jù)分析軟件。它經(jīng)過優(yōu)化,因此每個組織都可以擅長人工智能,經(jīng)過認證可以部署在從企業(yè)數(shù)據(jù)中心到公共云的任何地方。人工智能企業(yè)包括全球企業(yè)支持,以便人工智能項目保持正常運行。

當您在優(yōu)化配置的服務器上運行 NVIDIA AI Enterprise 時,您可以放心,您正在從硬件和軟件投資中獲得最佳回報。

總結

在本文中,我向您展示了如何為 深度學習培訓 選擇具有特定計算需求的企業(yè)服務器。希望您已經(jīng)學會了如何通過組件配置的最佳選擇來滿足這些需求。

關于作者

Charu Chaubal 在NVIDIA 企業(yè)計算平臺集團從事產(chǎn)品營銷工作。他在市場營銷、客戶教育以及技術產(chǎn)品和服務的售前工作方面擁有 20 多年的經(jīng)驗。 Charu 曾在云計算、超融合基礎設施和 IT 安全等多個領域工作。作為 VMware 的技術營銷領導者,他幫助推出了許多產(chǎn)品,這些產(chǎn)品共同發(fā)展成為數(shù)十億美元的業(yè)務。此前,他曾在 Sun Microsystems 工作,在那里他設計了分布式資源管理和 HPC 基礎設施軟件解決方案。查魯擁有化學工程博士學位,并擁有多項專利。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5682

    瀏覽量

    110093
  • 云計算
    +關注

    關注

    39

    文章

    8040

    瀏覽量

    144735
  • 服務器
    +關注

    關注

    14

    文章

    10339

    瀏覽量

    91735
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    什么是企業(yè)服務器-云計算

    企業(yè)服務器是指為企業(yè)提供的基于云計算技術的服務器解決方案。華納云是一家云計算服務提供商,
    的頭像 發(fā)表于 12-29 17:57 ?1020次閱讀

    恒訊科技解析:服務器監(jiān)控與告警設置—企業(yè)必備指南

    一、為什么企業(yè)必須配置服務器監(jiān)控和告警 要是沒有監(jiān)控系統(tǒng),企業(yè),就只能在故障出現(xiàn)之后,才發(fā)覺問題,進而造成業(yè)務方面的損失。恒訊科技長期服務
    的頭像 發(fā)表于 11-25 17:42 ?800次閱讀

    服務器配置怎么選擇?2025年全方位選購指南

    服務器配置怎么選擇需綜合考量業(yè)務規(guī)模、流量預期與應用類型。核心關注四大要素:CPU處理(常規(guī)應用4-8核,高并發(fā)需16核以上)、內(nèi)存容量(基礎應用16-32GB,數(shù)據(jù)庫建議32-64
    的頭像 發(fā)表于 09-22 10:51 ?1044次閱讀

    輕量云服務器和云服務器區(qū)別:2025年終極選擇指南

    資源、穩(wěn)定計算性能及完整管理權限,支持垂直與水平擴展,適合企業(yè)級應用和高并發(fā)場景。選擇取決于業(yè)務需求:輕量服務器適用于成本敏感型場景,標準云服務器則為高性能、高穩(wěn)定性要求的業(yè)務提供保障
    的頭像 發(fā)表于 09-01 13:58 ?1542次閱讀
    輕量云<b class='flag-5'>服務器</b>和云<b class='flag-5'>服務器</b>區(qū)別:2025年終極<b class='flag-5'>選擇</b>指南

    多核服務器的CPU親和性配置與負載均衡優(yōu)化

    某大廠的資深架構師小王最近遇到了一個頭疼的問題:新采購的雙路AMD EPYC 7763(128核心)服務器,在高并發(fā)場景下的性能表現(xiàn)竟然還不如之前的32核服務器。經(jīng)過深入排查,發(fā)現(xiàn)問題出在CPU親和性配置上。
    的頭像 發(fā)表于 08-27 14:45 ?1018次閱讀

    華納云服務器Linux系統(tǒng)電源管理與節(jié)能優(yōu)化配置方法

    在云計算時代,Linux系統(tǒng)的電源管理優(yōu)化成為提升云服務器能效的關鍵環(huán)節(jié)。本文將深入解析Linux內(nèi)核的電源管理機制,從CPU調(diào)頻策略到磁盤休眠設置,提供一套完整的節(jié)能配置方案。通過調(diào)整系統(tǒng)參數(shù)
    的頭像 發(fā)表于 08-21 15:09 ?1082次閱讀

    2025年服務器配置推薦:從入門到企業(yè)級方案匯總

    本文2025年服務器配置指南,按初創(chuàng)、成長、成熟階段推薦差異化方案,涵蓋硬件參數(shù)與架構設計。針對游戲、電商、大數(shù)據(jù)等行業(yè)特性,提出低延遲、彈性擴容、海量存儲等專項優(yōu)化策略。強調(diào)平衡性能與成本,避免
    的頭像 發(fā)表于 08-13 11:30 ?1.1w次閱讀
    2025年<b class='flag-5'>服務器</b><b class='flag-5'>配置</b>推薦:從入門到<b class='flag-5'>企業(yè)</b>級方案匯總

    MTB中對于RADIUS服務器是否支持?

    想詢問MTB中是否支持配置AP的RADIUS服務器,以及STA是否支持企業(yè)認證的加密方式。
    發(fā)表于 07-08 08:10

    恒訊科技分析:云儲存服務器搭建教程

    共享,還是作為備份用途。這將決定后續(xù)的硬件選擇和軟件配置。 二、選擇硬件設備 硬件是搭建云存儲服務器的基礎。根據(jù)需求,可以選擇普通的家用電腦
    的頭像 發(fā)表于 07-07 11:07 ?1446次閱讀

    多線服務器與單線服務器的核心區(qū)別及適用場景解析

    在網(wǎng)站建設和服務器租賃中,"多線服務器"和"單線服務器"是兩個高頻概念。簡單來說,單線服務器僅支持單一運營商網(wǎng)絡(如電信或聯(lián)通),而多線服務器
    的頭像 發(fā)表于 06-30 13:41 ?1133次閱讀
    多線<b class='flag-5'>服務器</b>與單線<b class='flag-5'>服務器</b>的核心區(qū)別及適用場景解析

    Jtti.cc深度剖析:服務器線路選擇的關鍵考量因素

    在數(shù)字化浪潮席卷全球的當下,服務器作為企業(yè)和互聯(lián)網(wǎng)業(yè)務運行的核心基礎設施,其線路選擇的優(yōu)劣,直接決定了數(shù)據(jù)傳輸?shù)乃俣?、穩(wěn)定性以及業(yè)務的連續(xù)性。從電商平臺的實時交易處理,到視頻網(wǎng)站的高清內(nèi)容分發(fā),再到
    的頭像 發(fā)表于 06-24 17:12 ?472次閱讀

    如何配置Linux防火墻和Web服務器

    在當今數(shù)字化時代,網(wǎng)絡安全顯得尤為重要。Linux作為一種開源操作系統(tǒng),廣泛應用于服務器管理和網(wǎng)絡配置中。本篇文章將詳細介紹如何配置Linux防火墻和Web服務器,確保內(nèi)網(wǎng)與外網(wǎng)的安全
    的頭像 發(fā)表于 05-24 15:26 ?2030次閱讀
    如何<b class='flag-5'>配置</b>Linux防火墻和Web<b class='flag-5'>服務器</b>

    服務器和獨立服務器的區(qū)別在哪?一文讀懂如何選擇

    面對云服務器與獨立服務器選擇,許多人常因概念模糊而糾結。云服務器和獨立服務器的區(qū)別在于資源分配方式、擴展性及成本結構,
    的頭像 發(fā)表于 05-19 10:19 ?793次閱讀

    如何在Linux中配置DNS服務器

    本文詳細介紹了如何在Linux中配置DNS服務器,包括DNS工作原理、本地緩存、DNS查詢過程,以及正向和反向查詢的配置。步驟包括服務器配置
    的頭像 發(fā)表于 05-09 13:38 ?2762次閱讀
    如何在Linux中<b class='flag-5'>配置</b>DNS<b class='flag-5'>服務器</b>
    东辽县| 杭锦旗| 桃园市| 当涂县| 南昌市| 新安县| 十堰市| 平远县| 来凤县| 内江市| 贵港市| 南漳县| 灵璧县| 岢岚县| 河东区| 通海县| 徐闻县| 徐水县| 永寿县| 湖南省| 桦南县| 阿瓦提县| 增城市| 南宫市| 溆浦县| 临漳县| 蓝山县| 漾濞| 怀化市| 奇台县| 建始县| 个旧市| 全椒县| 申扎县| 嘉定区| 麻栗坡县| 太仆寺旗| 独山县| 彭阳县| 长丰县| 宜宾市|