人妻中文国产精品,久草在线播放视频,亚洲国产高清一区

如何有效處理大規(guī)模用戶數(shù)據(jù)進行廣告推薦？對于互聯(lián)網(wǎng)企業(yè)的發(fā)展和進步至關重要。這也是為何快手成立西雅圖實驗室并實現(xiàn)新一代GPU廣告模型訓練平臺的原因之一。快手新創(chuàng)建的“Persia”GPU廣告模型訓練平臺比起傳統(tǒng)CPU訓練平臺，單機訓練速度提升可達幾百倍，在約一小時內(nèi)即可訓練百T級別數(shù)據(jù)量，并能通過設計算法得到相對于傳統(tǒng)訓練平臺精度更高的模型，對企業(yè)收入、計算資源的節(jié)約和新模型開發(fā)效率產(chǎn)生直觀的提升。

大模型GPU分布式運算存儲

近年來，GPU訓練已在圖像識別、文字處理等應用上取得巨大成功。GPU訓練以其在卷積等數(shù)學運算上的獨特效率優(yōu)勢，極大地提升了訓練機器學習模型，尤其是深度神經(jīng)網(wǎng)絡的速度。然而，在廣告模型中，由于大量的稀疏樣本存在（比如用戶id），每個id在模型中都會有對應的Embedding向量，因此廣告模型常常體積十分巨大，以至于單GPU無法存下模型。目前往往將模型存在內(nèi)存中，由CPU進行這部分巨大的Embedding層的運算操作。這既限制了訓練的速度，又導致實際生產(chǎn)中無法使用比較復雜的模型——因為使用復雜模型會導致對給定輸入CPU計算時間過長，無法及時響應請求。

“Persia”系統(tǒng)實現(xiàn)了多GPU分散存儲模型，每個GPU只存儲模型一部分，并進行多卡協(xié)作查找Embedding向量訓練模型的模式。這既解決了CPU運算速度過慢的問題，又解決了單GPU顯存無法存下模型的問題。當模型大小可以放入單個GPU時，“Persia”也支持切換為目前在圖像識別等任務中流行的AllReduce分布訓練模式。據(jù)研究人員透露，對于一個8GPU的計算機，單機數(shù)據(jù)處理速度可達原CPU平臺單機的640倍。

由于普遍使用的傳統(tǒng)異步SGD有梯度的延遲問題，若有n臺計算機參與計算，每臺計算機的梯度的計算實際上基于n個梯度更新之前的模型。在數(shù)學上，對于第t步的模型xt，傳統(tǒng)異步SGD則更新為：

xt+1←xt ? learning rate × g(xt?τt),

其中g(shù)(xt?τt) 是訓練樣本的損失函數(shù)在τt個更新之前的模型上的梯度。而τt的大小一般與計算機數(shù)量成正比：當計算機數(shù)量增多，xt?τt與xt相差就越大，不可避免地導致模型質(zhì)量的降低?！癙ersia”的訓練模式解決了這種梯度延遲的問題，因此模型質(zhì)量也有所提升。

同時，“Persia”訓練系統(tǒng)還支持對Embedding運算在GPU上進行負載均衡，使用“貪心算法”將不同Embedding均勻分散在不同GPU上，以達到均勻利用GPU的目的。給定k個 GPU，當模型具有m個Embedding層：e1, e2, …, em，對應負載分別為l1, l2, …, lm，“Persia”將會嘗試將Embedding分為k組S1, S2, …, Sk，并分別存放在對應GPU上，使得每組∑i∈Sjli, ?j大致相等。

訓練數(shù)據(jù)分布式實時處理

快手“Persia”的高速GPU訓練，需要大量數(shù)據(jù)實時輸入到訓練機中，由于不同模型對樣本的需求不同，對于每個新實驗需要的數(shù)據(jù)格式可能也不同?？焓帧癙ersia”系統(tǒng)具備基于Hadoop集群的實時數(shù)據(jù)處理系統(tǒng)，可以應不同實驗需求從HDFS中使用任意多計算機分布式讀取數(shù)據(jù)進行多級個性化處理傳送到訓練機。傳輸使用高效消息隊列，并設置多級緩存。傳輸過程實時進行壓縮以節(jié)約帶寬資源。

未來：分布式多機訓練

未來，快手“Persia”系統(tǒng)即將展開分布式多GPU計算機訓練。有別于成熟的計算機視覺等任務，由于在廣告任務中模型大小大為增加，傳統(tǒng)分布式訓練方式面臨計算機之間的同步瓶頸會使訓練效率大為降低?！癙ersia”系統(tǒng)將支持通訊代價更小，并且系統(tǒng)容災能力更強的去中心化梯度壓縮訓練算法。

快手FeDA智能決策實驗室負責人劉霽介紹，該算法結(jié)合新興的異步去中心化訓練（Asynchronous decentralized parallel stochastic gradient descent, ICML 2018）和梯度壓縮補償算法（Doublesqueeze: parallel stochastic gradient descent with double-pass error-compensated compression, ICML 2019），并有嚴格理論保證。據(jù)預計，快手“Persia”系統(tǒng)在多機情景下在單機基礎上將有數(shù)倍到數(shù)十倍效率提升。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

cpu

cpu

+關注

關注
68

文章
11326

瀏覽量
225850
gpu

gpu

+關注

關注
28

文章
5268

瀏覽量
136054
機器學習

機器學習

+關注

關注
67

文章
8562

瀏覽量
137208

原文標題：單機訓練速度提升高達640倍，快手開發(fā)GPU廣告模型訓練平臺

文章出處：【微信號：rgznai100，微信公眾號：rgznai100】歡迎添加關注！文章轉(zhuǎn)載請注明出處。

哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

搜索歷史

如何有效處理大規(guī)模用戶數(shù)據(jù)進行廣告推薦？

評論