哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

SparkMLlib中的GBDT算法對工業(yè)數(shù)據的代碼實戰(zhàn)

e星球 ? 來源:工程師曾玲 ? 2019-04-06 13:51 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在格物匯之前發(fā)表的《工業(yè)大數(shù)據挖掘的利器——Spark MLlib》中提到,Spark 的MLlib組件能夠對工業(yè)現(xiàn)場海量數(shù)據進行高效挖掘,快速呈現(xiàn)結果給業(yè)務分析人員。接下來將向大家介紹SparkMLlib 中的GBDT算法,并將應用該算法對工業(yè)數(shù)據進行代碼實戰(zhàn)。

1算法概念

GB(Gradient Boosting)梯度提升算法,GB 共需要進行M次迭代,通過采用梯度下降的方法,每次迭代向損失函數(shù)的負梯度方向進行移動,從而使損失函數(shù)越來越小,進而使模型越來越精確。算法偽代碼如下:

SparkMLlib中的GBDT算法對工業(yè)數(shù)據的代碼實戰(zhàn)

GB算法跟原始的Boosting算法相比較,還是有比較明顯的區(qū)別。

Boosting算法開始的時候,是會給每個樣本附上權重的,在每次迭代的時候就會增加錯的樣本的權重,減少對的樣本的權重,經過N次迭代之后,會得到N個分類器,然后我們再將他們組合起來,得到最終模型。

GB算法與Boosting區(qū)別是,他的每一次迭代的目標都是減少上一次的殘差,所以在殘差減少的方向上建立一個新的模型。在GB算法框架上加入決策樹,就是GBDT(GradientBoost Decision Tree)算法。

GBDT主要的優(yōu)點有:

1) 可以靈活處理各種類型的數(shù)據,包括連續(xù)值和離散值。

2) 在相對少的調參時間情況下,預測的準備率也可以比較高。這個是相對SVM來說的。

3)使用一些健壯的損失函數(shù),對異常值的魯棒性非常強。比如 Huber損失函數(shù)和Quantile損失函數(shù)。

4) 很好的利用了弱分類器進行級聯(lián)。

5) 充分考慮的每個分類器的權重。

6) 可以得到變量間的重要性排序。

GBDT的主要缺點有:

1)由于弱學習器之間存在依賴關系,難以并行訓練數(shù)據,不過可以通過自采樣的SGBT來達到部分并行。

2完整代碼實例

工業(yè)生產中,產品在制程過程中會有很多特性值,如果能對產品的特性值及時進行預測,得到特性值的具體數(shù)值,那么就會幫組業(yè)務人員知曉產品的質量,實現(xiàn)產品的全檢,并能防止異常產品后流,造成不必要的浪費。

本次實戰(zhàn)代碼的采用的數(shù)據是半導體制程中某一道工序的機臺的制程參數(shù)值,通過采用SparkMLlib中的GBDT算法對工業(yè)現(xiàn)場機臺的制程參數(shù)進行建模,預測出經過該機臺生產之后產品的膜層厚度。

SparkMLlib中的GBDT算法對工業(yè)數(shù)據的代碼實戰(zhàn)

SparkMLlib中的GBDT算法對工業(yè)數(shù)據的代碼實戰(zhàn)

SparkMLlib中的GBDT算法對工業(yè)數(shù)據的代碼實戰(zhàn)

SparkMLlib中的GBDT算法對工業(yè)數(shù)據的代碼實戰(zhàn)

模型最后輸出模型性能指標如下:

Mape(Mean Absolute Percentage Error):0.23%

SparkMLlib中的GBDT算法對工業(yè)數(shù)據的代碼實戰(zhàn)

通過上圖模型輸出的預測值與實際值對比,發(fā)現(xiàn)預測出來的產品膜厚的數(shù)值走勢跟實際數(shù)值走勢基本符合,mape達到0.5%以內,擬合度相當可觀,后續(xù)還可以通過樣本篩選以及特征工程等手段對該模型進行進一步調優(yōu)。

在模型達到業(yè)務需求的擬合度等指標后,通過該模型進行部署,實現(xiàn)產品的“實時全檢”,從而實現(xiàn)產品質量的全面監(jiān)控,杜絕異常產品后流;與工廠內的抽檢系統(tǒng)結合后,降低產品的抽檢率,提高工廠的效率。

GBDT算法的用途還是比較廣泛的,它不僅可以處理分類問題,能對線性與非線性回歸問題進行處理,還能通過輸出變量間重要因子排序,方便業(yè)務人員快速定位異常變量。在工業(yè)現(xiàn)場的頑固異常分析還是產品特性預測等領域,GBDT算法確實是很值得數(shù)據分析人員考慮的一種算法。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4800

    瀏覽量

    98515
  • 大數(shù)據
    +關注

    關注

    64

    文章

    9093

    瀏覽量

    144048

原文標題:一文快速讀懂自動駕駛傳感器與其市場趨勢

文章出處:【微信號:electronicaChina,微信公眾號:e星球】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    GBDT算法原理和模型訓練

    算法原理再講GBDT之前先給大家講個故事,有一個年輕的阿姨今年50歲,現(xiàn)在我們不知道她的真實年齡,我們想通過他的皮膚、穿著打扮、頭發(fā)顏色、言行舉止、面部特征來推測她的真實年齡,假如我們根據這些輸入
    發(fā)表于 01-23 14:38

    數(shù)據分析與挖掘實戰(zhàn)》總結及代碼---chap3數(shù)據探索

    數(shù)據分析與挖掘實戰(zhàn)》總結及代碼練習---chap3 數(shù)據探索
    發(fā)表于 05-25 13:25

    LabVIEW與數(shù)據實戰(zhàn)教學

    LabVIEW與數(shù)據實戰(zhàn)教學可有效解決問題如下:1、解決工業(yè)現(xiàn)場MES系統(tǒng)數(shù)據的上傳問題。2、可快速開發(fā)上位機
    發(fā)表于 03-24 09:07

    《Arduino與LabVIEW開發(fā)實戰(zhàn)》配套代碼

    《Arduino與LabVIEW開發(fā)實戰(zhàn)》配套代碼
    發(fā)表于 03-23 16:00 ?31次下載

    基于GBDT個人信用評估方法

    近年來,個人信用評估問題成為信貸行業(yè)的研究熱點,針對當前應用于信用評估的分類算法大多存在只對某種類型的信用數(shù)據集具有較好的分類效果的問題,提出了基于Cradient BoostedDecision
    發(fā)表于 11-03 17:27 ?2次下載
    基于<b class='flag-5'>GBDT</b>個人信用評估方法

    代碼實例及詳細資料帶你入門Python數(shù)據挖掘與機器學習

    本文結合代碼實例待你上手python數(shù)據挖掘和機器學習技術。 本文包含了五個知識點: 1. 數(shù)據挖掘與機器學習技術簡介 2. Python數(shù)據預處理
    的頭像 發(fā)表于 03-03 10:10 ?4259次閱讀

    SparkMLlib GBDT算法工業(yè)大數(shù)據實戰(zhàn)

    SparkMLlib GBDT算法,并將應用該算法工業(yè)
    的頭像 發(fā)表于 04-28 14:11 ?4524次閱讀
    <b class='flag-5'>SparkMLlib</b> <b class='flag-5'>GBDT</b><b class='flag-5'>算法</b><b class='flag-5'>工業(yè)大數(shù)據實戰(zhàn)</b>

    GBDT算法原理以及實例理解

    GBDT 的全稱是 Gradient Boosting Decision Tree,梯度提升樹,在傳統(tǒng)機器學習算法,GBDT算的上TOP3的算法
    的頭像 發(fā)表于 04-28 16:47 ?2.9w次閱讀
    <b class='flag-5'>GBDT</b><b class='flag-5'>算法</b>原理以及實例理解

    XGBoost原理概述 XGBoost和GBDT的區(qū)別

    相比于經典的GBDT,xgboost做了一些改進,從而在效果和性能上有明顯的提升。
    的頭像 發(fā)表于 07-16 18:54 ?8w次閱讀
    XGBoost原理概述 XGBoost和<b class='flag-5'>GBDT</b>的區(qū)別

    SparkMLlib GBDT算法工業(yè)大數(shù)據實戰(zhàn)案例

    在格物匯之前發(fā)表的《工業(yè)大數(shù)據挖掘的利器——Spark MLlib》中提到,Spark 的MLlib組件能夠對工業(yè)現(xiàn)場海量數(shù)據進行高效挖掘,快速呈現(xiàn)結果給業(yè)務分析人員。接下來將向大家介紹Spa
    的頭像 發(fā)表于 12-25 17:42 ?1587次閱讀

    GBDT是如何用于分類的

    -?https://www.cnblogs.com/always-fight/p/9400346.html 編輯:阿澤的學習筆記 ? 一 簡介 GBDT 在傳統(tǒng)機器學習算法里面是對真實分布擬合的最好
    的頭像 發(fā)表于 12-26 10:30 ?3809次閱讀
    <b class='flag-5'>GBDT</b>是如何用于分類的

    機器學習實戰(zhàn)的源代碼資料合集

    本文檔機器學習實戰(zhàn)的源代碼資料合集
    發(fā)表于 03-01 09:28 ?52次下載
    機器學習<b class='flag-5'>實戰(zhàn)</b>的源<b class='flag-5'>代碼</b>資料合集

    大學課程 數(shù)據分析 實戰(zhàn)之K-means算法(2)算法代碼

    分組成! %% 尋找聚類中心 while 1 ? ? count = zeros(2,1); 原文標題:大學課程 數(shù)據分析 實戰(zhàn)之K-means算法(2)算法
    的頭像 發(fā)表于 02-11 07:20 ?1038次閱讀

    Python編程實戰(zhàn)(源代碼)

    [源代碼]Python編程實戰(zhàn) 妙趣橫生的項目之旅
    發(fā)表于 06-06 17:49 ?4次下載

    Ansible代碼上線項目實戰(zhàn)案例

    在DevOps浪潮,自動化部署已經成為每個運維工程師的必備技能。今天我將分享一個完整的Ansible代碼上線項目實戰(zhàn)案例,讓你的部署效率提升10倍!
    的頭像 發(fā)表于 07-24 14:03 ?741次閱讀
    夏邑县| 井陉县| 龙岩市| 于都县| 江西省| 玉环县| 满城县| 石屏县| 长沙县| 龙井市| 尼勒克县| 嘉黎县| 含山县| 肃南| 乐山市| 高淳县| 潼关县| 长兴县| 同德县| 沾化县| 伊通| 红安县| 鸡泽县| 彭州市| 元氏县| 台前县| 乌什县| 池州市| 营山县| 乌拉特前旗| 阿拉善左旗| 千阳县| 山西省| 蚌埠市| 惠来县| 长白| 金门县| 隆回县| 波密县| 屏边| 东台市|