當您購買最后一輛車時,您是否檢查了制造商的安全等級或質(zhì)量保證。也許,像大多數(shù)消費者一樣,你只是去試駕看看這輛車是否提供了你想要的所有特性和功能,從舒適的座椅到電子控制。
審計和質(zhì)量保證是許多行業(yè)的規(guī)范??紤]汽車制造業(yè),在汽車生產(chǎn)之前,在安全性、舒適性、網(wǎng)絡(luò)化等方面進行嚴格的測試,然后再將其部署到最終用戶?;诖?,我們提出了一個問題:“我們?nèi)绾螢?a target="_blank">深度學習模型設(shè)計一個類似動機的審計方案?”
人工智能在現(xiàn)實世界的應(yīng)用中獲得了廣泛的成功。當前的人工智能模型尤其是深度神經(jīng)網(wǎng)絡(luò),不需要對所需行為類型的精確說明。相反,它們需要大量的數(shù)據(jù)集用于培訓,或者需要設(shè)計一個必須隨時間優(yōu)化的獎勵函數(shù)。
雖然這種形式的隱式監(jiān)督提供了靈活性,但它通常會導致算法針對人類設(shè)計者不希望的行為進行優(yōu)化。在許多情況下,它還會導致災(zāi)難性后果和安全關(guān)鍵應(yīng)用程序的故障,如自動駕駛和醫(yī)療保健。
由于這些模型很容易失敗,特別是在域轉(zhuǎn)移的情況下,因此在部署之前知道它們 MIG ht 失敗的時間非常重要。隨著深度學習研究越來越與現(xiàn)實世界的應(yīng)用相結(jié)合,我們必須提出正式審核深度學習模型的方案。
語義一致的單元測試
審計中最大的挑戰(zhàn)之一是理解如何獲得對最終用戶直接有用的人類可解釋規(guī)范。我們通過一系列語義一致的單元測試解決了這個問題。每個單元測試驗證輸入空間中受控和語義對齊的變化(例如,在人臉識別中,相對于相機的角度)是否滿足預(yù)定義規(guī)范(例如,精度超過 95% )。
我們通過直接驗證生成模型的可解釋潛在空間中的語義對齊變化來執(zhí)行這些單元測試。我們的框架 AuditAI 彌補了軟件系統(tǒng)可解釋形式驗證和深度神經(jīng)網(wǎng)絡(luò)可伸縮性之間的差距。

圖 1 。 AI 從項目到部署的一般機器學習過程。
考慮一個典型的機器學習生產(chǎn)流水線三方:部署模型的最終用戶、驗證者和模型設(shè)計器。驗證器在驗證設(shè)計者的模型是否滿足最終用戶的需求方面起著關(guān)鍵作用。例如,單元測試 1 可以驗證當人臉角度在d度范圍內(nèi)時,給定的人臉分類模型是否保持 95% 以上的準確性。單元測試 2 可以檢查模型在何種照明條件下的準確度超過 86% 。驗證之后,最終用戶可以使用驗證過的規(guī)范來確定在部署期間是否使用經(jīng)過培訓的 DL 模型。

圖 2 。 Deep networks 接受認證培訓,以確??赡軡M足單元測試。
經(jīng)驗證的部署
為了驗證深層網(wǎng)絡(luò)的語義一致性,我們使用生成模型將其連接起來,這樣它們共享相同的潛在空間和將輸入投射到潛在代碼的相同編碼器。除了驗證單元測試是否滿足要求外,我們還可以執(zhí)行認證培訓,以確保單元測試可能首先滿足要求。該框架具有吸引人的理論性質(zhì),我們在本文中展示了如何保證驗證者能夠生成驗證是真是假的證明。有關(guān)更多信息,請參閱語義規(guī)范[LINK]下的審核 AI 模型以驗證部署。
與 AuditAI 相比,基于像素的擾動的神經(jīng)網(wǎng)絡(luò)驗證和認證訓練涵蓋的潛在空間語義變化范圍要小得多。為了進行定量比較,對于相同的驗證誤差,我們將像素綁定到潛在空間,并將其與 AuditAI 的潛在空間綁定進行比較。我們表明,在相同的驗證誤差下, AuditAI 可以容忍比基于像素的對應(yīng)項(通過 L2 范數(shù)測量)大 20% 左右的潛在變化。對于實現(xiàn)和實驗,我們使用 NVIDIA V100 GPU s 和 Python 以及 PyTorch 庫。
我們展示了與潛在空間中受控變化相對應(yīng)的生成輸出的定性結(jié)果。頂行顯示 AuditAI 的可視化,底行顯示 ImageNet 上 hen 類圖像、肺炎胸部 X 射線圖像和不同微笑程度的人臉的像素擾動可視化。從可視化中可以明顯看出,更廣泛的潛在變化對應(yīng)于生成的輸出中更廣泛的語義變化。
今后的工作
在本文中,我們開發(fā)了一個深度學習( DL )模型審計框架。越來越多的人開始關(guān)注 DL 模型中的固有偏見,這些模型部署在廣泛的環(huán)境中,并且有多篇關(guān)于部署前審核 DL 模型的必要性的新聞文章。我們的框架將這個審計問題形式化,我們認為這是在部署期間提高 DL 模型的安全性和道德使用的一個步驟。
AuditAI 的局限性之一是其可解釋性受到內(nèi)置生成模型的限制。雖然在生成模型方面已經(jīng)取得了令人振奮的進展,但我們認為,在培訓和部署過程中,整合領(lǐng)域?qū)I(yè)知識以減少潛在的數(shù)據(jù)集偏差和人為錯誤非常重要。
目前, AuditAI 沒有將人類領(lǐng)域?qū)<抑苯蛹傻綄徲嫻艿乐?。它間接地使用領(lǐng)域?qū)I(yè)知識來管理用于創(chuàng)建生成模型的數(shù)據(jù)集。納入前者將是今后工作的一個重要
關(guān)于作者
Homanga Bharadhwaj 是卡內(nèi)基梅隆大學計算機科學學院機器人研究所的博士生。他以前是多倫多大學和向量研究所的 MSC 學生,也是 IIT 坎普爾的一名本科生。這篇文章所涉及的工作是在 Homanga 在 NVIDIA 實習研究期間完成的。
Animesh Garg 是多倫多大學計算機科學助理教授 CVK3 NVIDIA 的資深研究科學家,也是向量研究所的一名教員。他在加州大學伯克利分校獲得博士學位,是斯坦福人工智能實驗室的博士后。他致力于廣義自治的算法基礎(chǔ),使基于人工智能的機器人能夠與人類一起工作。他的工作在機器人學和機器學習領(lǐng)域獲得了多項研究獎。
審核編輯:郭婷
-
NVIDIA
+關(guān)注
關(guān)注
14文章
5682瀏覽量
110085 -
深度學習
+關(guān)注
關(guān)注
73文章
5603瀏覽量
124600
發(fā)布評論請先 登錄
【智能檢測】基于AI深度學習與飛拍技術(shù)的影像測量系統(tǒng):實現(xiàn)高效精準的全自動光學檢測與智能制造數(shù)據(jù)閉環(huán)
機器學習和深度學習中需避免的 7 個常見錯誤與局限性
穿孔機頂頭檢測儀 機器視覺深度學習
【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課(11大系列課程,共5000+分鐘)
【團購】獨家全套珍藏!龍哥LabVIEW視覺深度學習實戰(zhàn)課程(11大系列課程,共5000+分鐘)
中軟國際審計大模型創(chuàng)新驅(qū)動智領(lǐng)未來
自動駕駛中Transformer大模型會取代深度學習嗎?
思必馳空調(diào)大模型解決方案
寧暢與與百度文心大模型展開深度技術(shù)合作
大模型推理顯存和計算量估計方法研究
龍芯中科與文心系列模型開展深度技術(shù)合作
兆芯率先展開文心系列模型深度技術(shù)合作
如何使用Docker部署大模型
大模型時代的深度學習框架
如何為深度學習模型設(shè)計審計方案
評論