哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

答疑解惑探討小樣本學習的最新進展

5b9O_deeplearni ? 來源:深度學習大講堂 ? 2020-05-12 10:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

編者按:深度學習和人類智能存在一個顯著差異,即人類擅長通過極少量的樣本識別新類別物體,而深度學習在此情況下很容易產(chǎn)生過擬合。因此,小樣本問題成為了機器學習領域中重要的研究方向之一。目前已有基于度量學習、語義信息以及數(shù)據(jù)增強等多種方法,而至于大小樣本的邊界、小樣本學習的方法論等問題還備受關注。在本文中,復旦大學付彥偉、上??萍即髮W何旭明、北京郵電大學馬占宇、中科院計算所王瑞平(按發(fā)言順序整理),將答疑解惑探討小樣本學習的最新進展。本文整理自VALSE Webinar 2019第29 期Panel。

議題1

小樣本 vs 大樣本,多“小”才算小,多“大”才算大?什么樣的情況下,需要專門設計“小樣本”學習算法?小樣本學習在智能體學習過程中如何和不同大小樣本的數(shù)據(jù)融合?如何在數(shù)據(jù)積累中過渡到大樣本學習?

付彥偉:這個問題很基礎也很有意思,我們其實做小樣本,一般都考慮每個類只有一個三個五個、或者十來個樣本,這種one-shot 、three-shot、five-shot情況。此外在深度學習之前,從partical learning這個角度來看其實有些問題可以借鑒,在統(tǒng)計學,小樣本學習不叫one-shot learning,而叫做smoothing probability,也就是小樣本可能還和特征維度有關系。假設你的特征維度是D的話,當樣本量小于logD,就算一個比較小的樣本。當然現(xiàn)在有深度學習了,我們可能并不會從這個角度去看。

至于什么樣的情況需要專門設計小 樣本學習算法,其實這是一個很實際或者很工業(yè)的問題,比如在醫(yī)療圖像處理中解決很罕見的病變,樣本量確實不夠,我們想去學一個分類器就只能根據(jù)這個數(shù)據(jù)去設計小樣本學習算法。

小樣本學習在智能體學習過程如何和不同大小樣本的數(shù)據(jù)融合,這其實有很多角度。比如李飛飛老師在 ICCV2003年的一篇文章,通過貝葉斯這條思路去融合;我們也可以和專家系統(tǒng),或者通過一些專家知識融合,甚至可以和不同的領域,比如vocabulary inference learning領域,通過NLP去學習一些語義字典幫助小樣本學習;如何在數(shù)據(jù)積累中過渡到大樣本學習,這有一個很典型的增量學習問題。

何旭明:從視覺概念的認知角度來看,小樣本的“大小”也體現(xiàn)在它與其他類別之間區(qū)分度的大小。即使有些類別樣本數(shù)量比較小,如果它和其他類別相似度較高,可以用很多先驗知識來幫助學習這些小樣本,因此也可以不算“小樣本”。如果碰到一個和其他類區(qū)別很大的類別,可能通常的學習就會變得非常困難,需要當作小樣本看待。

如果利用一些先驗知識能夠幫助學習小樣本類別,我覺得這種情況是可以設計相關算法的。但如果很難得到先驗知識,那無論什么設計也學不到有用信息。

針對如何從不同大小樣本中的數(shù)據(jù)融合問題,我認為可以從大樣本入手開始學習,然后擴展到小樣本。即使類別不同,如果有相關性的話,依然可以去借鑒大樣本統(tǒng)計上的一些規(guī)律來幫助小樣本學習。

最后,借鑒人類的學習過程來說,一開始可能是小樣本,然后不斷在數(shù)據(jù)積累和反饋機制下,可以獲得更新的數(shù)據(jù)。這樣可以把視覺概念的表征不斷地細化,最后能夠自然而然地就能過渡到大樣本。

馬占宇:關于如何與不同規(guī)模大小樣本的數(shù)據(jù)融合,我覺得還有一個不平衡的學習問題。即首先分清哪些類別樣本是小的,哪些類別是大的。這種情況下,不是簡簡單單真地把小樣本變大,或者是說把大樣本增強,理想的狀況是能夠在數(shù)據(jù)分布不平衡的情況下,去做一個比較好的分類器。

議題2

引入知識來彌補小樣本的數(shù)據(jù)不足是一個較為公認的趨勢,到底什么算是“知識”,有哪些形式?目前真正管用/好用的“知識”是什么,來自哪里?

王瑞平:現(xiàn)在模型能夠取得成功,基本上都是依賴數(shù)據(jù)驅動。在數(shù)據(jù)不足的情況下,尤其在零樣本學習(極端情況)里面,一定要利用語義的知識去輔助。到底什么算是“知識”,現(xiàn)在零樣本里面可能會用一些屬性的標注,包括一些類別在語義層面的相似性關系,都算比較底層的知識。從人類的認知角度來看,相關的知識庫和應用也可稱之為“知識”,這可能是一種更自然的方式。

那么目前真正管用或者是好用的“知識”有哪些?在零樣本和小樣本學習里面,大部分還是屬性、詞向量這種人類手工標注的語義描述,其實這種知識可擴展性比較差。我們不可能對所有類別標注它所需要的全部知識,將來更有實踐意義的,應該是從大量原始文本數(shù)據(jù)中進行類別相關的語義挖掘和提純,然后結合手工標注的屬性。這方面目前很大程度上仍受限于自然語言處理技術的發(fā)展,所以真正地用知識去彌補數(shù)據(jù)不足應該是可努力的方向。

何旭明:在一些特定專業(yè)領域里面標注是很困難的,比如醫(yī)學圖像分析。但是很多醫(yī)學學科已經(jīng)建立了比較完整的知識體系,因此充分利用這些專業(yè)的知識體系,可以幫助彌補數(shù)據(jù)匱乏的弱點。

付彥偉:從貝葉斯的角度,我們可以把知識當做一個先驗信息,把小樣本或者這些知識建模成一個分布,來幫助小樣本學習。甚至可能從圖形學模型的角度去思考,比如把一些領域的知識建模成一個ontology或者是一個圖形學模型。目前這方面還沒有探索得特別清楚,掌握知識其實是一個很基礎的問題。

議題3

在小樣本學習的實際場景中,數(shù)據(jù)量缺乏會帶來domain gap(域漂移)問題,怎么看待域漂移給小樣本學習帶來的挑戰(zhàn)?

馬占宇:我覺得域漂移和知識遷移都屬于跨域問題,從不同域之間這個層面上來定義比較好。所以說域漂移給小樣本學習帶來了挑戰(zhàn),也帶來了一些好處和機會,比如我們前面提到的跨模態(tài)、多模態(tài),可以把不同域之間的知識融合起來,最終進行小樣本學習。

議題4

什么樣的小樣本訓練數(shù)據(jù)集能夠產(chǎn)生較好的模型?

付彥偉:源數(shù)據(jù)和目標數(shù)據(jù)比較相近或者相似的時候,源數(shù)據(jù)上訓練的模型用于目標數(shù)據(jù)的小樣本學習,效果還是比較好的,如果差得比較大的話,其實還是有很大影響的,這個其實直接就和域漂移有很大關系。我們在做一些缺陷檢測時也會遇到很多類似的問題。

何旭明:在實用場景里面可以依據(jù)情況來考慮樣本選擇,依據(jù)問題賦予的靈活性分兩種情況:第一類問題,如果類別是可以選的,那就選擇和源數(shù)據(jù)比較近的樣本;第二類,如果類別是預規(guī)定好的,可以在每個類別通過數(shù)據(jù)選擇產(chǎn)生一些比較好的數(shù)據(jù)幫助訓練。

議題5

one-shot learning要解決的是僅有少量訓練數(shù)據(jù)時模型的過擬合問題么?那傳統(tǒng)解決過擬合的方法(如特征選取,正則化,提高訓練樣本多樣性等)如何體現(xiàn)在現(xiàn)有的one-shot方法中呢?

付彥偉:之前基本就是以上的傳統(tǒng)策略。但是有了深度學習之后,我們?nèi)绻挥眠w移學習,每個類5個訓練樣本來訓練一個學習器,可能就要考慮特征選擇、正則化這些問題。用深度學習的話,這個問題應該還是存在的,可能只是形式變了,我們采用batch normalization 或者instance normalization來進行正則化,特征選取可能也能對應得上。因為我們在深度學習中會隱含去做這些事情,比如說注意力機制本身也是一種特征選取。

何旭明:注意力機制實際上其實是在動態(tài)地特征選取。正則化的作用,除了BN,其實你的網(wǎng)絡模型設計就體現(xiàn)了對模型的約束;還有模型訓練的損失函數(shù)設計也體現(xiàn)了這點,比如添加額外的約束項。提高訓練樣本的多樣性的話,現(xiàn)在很多的趨勢,就是做feature augmentation(特征增廣)。

議題6

機器學習(深度學習)如今依賴海量數(shù)據(jù),樣本量過小容易過擬合,模型表達能力不足。但某些實際場景下樣本很難收集,應該如何處理這些問題,如何防止過擬合?

王瑞平:這應該就是小樣本學習的背景,小樣本和數(shù)據(jù)不平衡問題其實是共生的,實際生活當中這兩個問題是普遍存在的。從企業(yè)界的項目經(jīng)驗來看,通過數(shù)據(jù)增廣、相似類別之間的知識遷移、數(shù)據(jù)合成和domain adaptation(域自適應學習)。針對樣本類別之間的不平衡問題,可以做數(shù)據(jù)的合成或者分類器的合成。

馬占宇:樣本量過小導致的過擬合不僅是小樣本學習中面臨的問題。傳統(tǒng)機器學習里也同樣面臨這個問題,需要結合不同場景具體分析。

議題7

在小樣本學習中如何考慮任務之間的相關程度?如何在新領域的任務中應用小樣本學習方法?

何旭明:現(xiàn)在的很多假設任務是獨立同分布的,也就是從一個分布中采樣出獨立的任務。在這個假設下,很難去探索任務之間的相關度。在實際應用中,這個假設是比較強的,很多時候任務之間的確是有相關度的。那么或許最后會變成一個類似于多任務學習的問題設定。

議題8

零樣本學習中,輔助信息(屬性,詞向量,文本描述等)未來的發(fā)展趨勢是怎樣的?

付彥偉:無論圖像識別、自然語言處理還是其他領域,都可能會存在零樣本學習的問題。屬性和詞向量也有很多缺點,比如多義性,你說apple是apple公司還水果apple,這本身就有歧義性。

何旭明:如果利用這些輔助信息其中的內(nèi)在關聯(lián)建立起信息之間的聯(lián)系,就可能是一種有結構的知識圖譜。換個角度,因為這些屬性詞向量,就是知識表達的一個具體體現(xiàn),而背后的應該是整個的一個知識體系。

議題9

可解釋性學習能否促進零樣本學習的發(fā)展?

馬占宇:我先打一個比方,可能不太恰當。在信號處理領域里,我們接受到的是信號,然后從中獲取信息,最后又把信息提煉成知識,這個是不同層次,不同內(nèi)涵的事情。當然對于我們做視覺任務來說,也許就是圖像中尋找一些顯著區(qū)域,然后在該區(qū)域搜集某些特征、目標。因此,從這個角度講,可解釋性學習對零樣本的發(fā)展是有幫助的,但是目前如何促進以及結合知識,我覺得還是一個比較有挑戰(zhàn)或者開放的問題。

王瑞平:模型的可解釋性肯定能促進零樣本學習的發(fā)展,零樣本學習之所以能做,就是因為能夠去建立類別之間的關聯(lián),把所謂的已知類的語義信息遷移到未知類別上面。

類別通過什么關聯(lián)的呢?其實類別背后的根本是一些概念的組合,比如有沒有四條腿、皮毛、何種顏色等概念。那么如果能夠從已有分類模型中學習出來樣本和類別間的因果關系,并知道類別之間的差異何在,以及模型與概念的對應關系,試圖去解決零樣本和小樣本之間的問題,就能追溯到可遷移的根本所在。

付彥偉:深度學習的可解釋性可能更側重于特征的描述,零樣本學習最開始的一些工作,其實一直都是以可解釋性這個思路去做,就是把X映射到一個Y,Y是H的空間,后來我們又通過這種語義的可解釋性來做零樣本學習。如果單純地只是深度學習特征的可解釋性,就相當于怎么去更好地提取X,由X去構造零樣本學習.。

小結

正所謂“巧婦難為無米之炊”,在使用深度學習這一工具解決實際問題時,難免會遇到樣本不足的情況。而受人類快速學習能力的啟發(fā),研究人員希望機器學習模型能夠在習得一定類別數(shù)據(jù)后,只需少量樣本就可以學習新的類別,這就是小樣本學習(Few-shot Learning)要解決的問題。

“樣本量與特征維度的大小關系“、”樣本與其他類別的區(qū)分度”等因素,可能和大小樣本的界定有緊密關聯(lián)。小樣本學習可以同專家系統(tǒng)、自然語言處理等領域融合,并借助大樣本上的數(shù)據(jù)積累和一些反饋機制自然過渡到大樣本學習。雖然小樣本學習是人類學習的一個特長,但即便是人類,其本質上的學習也是基于大樣本的,它包括漫長的進化過程和多模態(tài)共生信息的影響,人類的“舉一反三”依舊是基于大數(shù)據(jù)和知識的轉化問題。因此,通過引入知識來彌補小樣本的數(shù)據(jù)不足是一個較為公認的趨勢。人類手工標注或者提取自大數(shù)據(jù)的語義描述、特定領域的知識體系都是可利用的“知識”。在實際應用中,小樣本和數(shù)據(jù)不平衡往往是共生的,通過數(shù)據(jù)增廣、相似類別之間的知識遷移、數(shù)據(jù)合成、結構化的知識圖譜、域自適應學習、借助模型的可解性等策略可提升小樣本學習性能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4800

    瀏覽量

    98484
  • 小樣本
    +關注

    關注

    0

    文章

    7

    瀏覽量

    6939
  • 深度學習
    +關注

    關注

    73

    文章

    5603

    瀏覽量

    124603

原文標題:小樣本學習,路在何方?【VALSE Webinar】

文章出處:【微信號:deeplearningclass,微信公眾號:深度學習大講堂】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    OpenClaw部署新突破:國產(chǎn)芯片跑通、云廠商一鍵上云,AI手機內(nèi)測

    本文將匯總手機端、芯片廠商、云廠商A為支持OpenClaw的AI端側部署有哪些最新進展,國家互聯(lián)網(wǎng)中心和安全軟件平臺為OpenClaw使用帶來的最新的思路。
    的頭像 發(fā)表于 03-20 09:54 ?2w次閱讀
    OpenClaw部署新突破:國產(chǎn)芯片跑通、云廠商一鍵上云,AI手機內(nèi)測

    2025年聯(lián)接領域十大創(chuàng)新進展回顧

    的創(chuàng)新前沿技術加速落地,形成“短距+廣域”協(xié)同發(fā)展格局,成為萬物互聯(lián)的核心基礎。下面讓我們一起回顧2025年聯(lián)接領域十大創(chuàng)新進展。
    的頭像 發(fā)表于 01-19 13:08 ?746次閱讀

    國芯科技DPNPU新IP產(chǎn)品最新進展,單核支持0.5~4.8TOPS靈活算力配置

    國芯科技DPNPU新IP產(chǎn)品 最新進展,單核支持0.5~4.8TOPS 靈活算力配置 ? 電子發(fā)燒友網(wǎng)綜合報道 國芯科技發(fā)布公告稱,其自主研發(fā)的神經(jīng)網(wǎng)絡處理器DPNPU(Dataflow
    的頭像 發(fā)表于 01-09 09:19 ?5471次閱讀
    國芯科技DPNPU新IP產(chǎn)品<b class='flag-5'>最新進展</b>,單核支持0.5~4.8TOPS靈活算力配置

    從協(xié)議到實踐——EtherNet/IP與NetStaX的最新進展

    從協(xié)議到實踐——EtherNet/IP與NetStaX的最新進展
    的頭像 發(fā)表于 12-19 15:26 ?1679次閱讀
    從協(xié)議到實踐——EtherNet/IP與NetStaX的<b class='flag-5'>最新進展</b>

    Soitec受邀亮相APCSCRM 2025并發(fā)表主題演講

    在Asia-Pacific Conference on Silicon Carbide and Related Materials (APCSCRM 2025) 上,Soitec 的寬禁帶半導體產(chǎn)品設計經(jīng)理 Eric Guiot 代表 Soitec 分享了我們在碳化硅(SiC)技術方面的最新進展。
    的頭像 發(fā)表于 12-13 15:50 ?1886次閱讀

    芯科科技分享在物聯(lián)網(wǎng)領域的最新進展

    Labs(芯科科技)亞太區(qū)業(yè)務副總裁王祿銘、中國大陸區(qū)總經(jīng)理周巍及臺灣區(qū)總經(jīng)理寶陸格就公司技術路線、產(chǎn)品策略及市場趨勢回答了媒體提問。三位高管圍繞安全認證、無線連接、邊緣計算等議題,介紹了公司在物聯(lián)網(wǎng)領域的最新進展。
    的頭像 發(fā)表于 11-13 10:48 ?1864次閱讀

    DisplayPort汽車擴展標準新進展,顯示系統(tǒng)靈活性和效率大幅提升

    電子發(fā)燒友網(wǎng)報道(文/李彎彎)2025年10月27日,VESA(視頻電子標準協(xié)會)在深圳益田威斯汀酒店舉辦新聞發(fā)布會,詳細介紹了DisplayPort汽車擴展標準(DP AE)的最新進展,同時分享了
    的頭像 發(fā)表于 11-08 10:43 ?1.1w次閱讀
    DisplayPort汽車擴展標準<b class='flag-5'>新進展</b>,顯示系統(tǒng)靈活性和效率大幅提升

    數(shù)據(jù)中心電源客戶已實現(xiàn)量產(chǎn)!三安光電碳化硅最新進展

    電子發(fā)燒友網(wǎng)綜合報道 ?三安半導體在近期發(fā)布的中報里公開了不少關于碳化硅業(yè)務的新進展,包括器件產(chǎn)品、客戶導入、產(chǎn)能等信息。 ? 在產(chǎn)能方面,湖南三安在職員工1560人,已經(jīng)擁有6英寸碳化硅配套產(chǎn)能
    發(fā)表于 09-09 07:31 ?2186次閱讀

    易控智駕與中科院端到端自動駕駛方案入選CoRL 2025

    近日,旨在分享和探討機器人技術與機器學習交叉領域最新進展的國際頂級機器人學習會議CoRL 2025 (Conference on Robot Learning)論文接收結果揭曉。
    的頭像 發(fā)表于 08-18 14:43 ?2499次閱讀
    易控智駕與中科院端到端自動駕駛方案入選CoRL 2025

    上海光機所在激光驅動離子加速方面取得新進展

    圖1 實驗原理示意圖 近期,中國科學院上海光學精密機械研究所超強激光科學與技術全國重點實驗室賓建輝研究員團隊在激光驅動離子加速方面取得新進展。相關研究成果分別以“Enhanced proton
    的頭像 發(fā)表于 08-06 09:36 ?719次閱讀
    上海光機所在激光驅動離子加速方面取得<b class='flag-5'>新進展</b>

    東風汽車轉型突破取得新進展

    上半年,東風汽車堅定高質量發(fā)展步伐,整體銷量逐月回升,經(jīng)營質量持續(xù)改善,自主品牌和新能源滲透率和收益性進一步提升,半年累計終端銷售汽車111.6萬輛,轉型突破取得新進展。
    的頭像 發(fā)表于 07-10 15:29 ?1023次閱讀

    FMCW激光雷達,工業(yè)應用新進展

    電子發(fā)燒友網(wǎng)報道(文/梁浩斌)FMCW激光雷達有了新進展。近日FMCW激光雷達廠商Aeva宣布,通過與SICK?AG和LMI等工業(yè)自動化領域領導者合作,其應用于工業(yè)自動化的高精度傳感器Eve?1系列
    的頭像 發(fā)表于 05-18 00:02 ?6136次閱讀

    英特爾持續(xù)推進核心制程和先進封裝技術創(chuàng)新,分享最新進展

    近日,在2025英特爾代工大會上,英特爾展示了多代核心制程和先進封裝技術的最新進展,這些突破不僅體現(xiàn)了英特爾在技術開發(fā)領域的持續(xù)創(chuàng)新,也面向客戶需求提供了更高效、更靈活的解決方案。 在制程技術方面
    的頭像 發(fā)表于 05-09 11:42 ?963次閱讀
    英特爾持續(xù)推進核心制程和先進封裝技術創(chuàng)新,分享<b class='flag-5'>最新進展</b>

    百度在AI領域的最新進展

    近日,我們在武漢舉辦了Create2025百度AI開發(fā)者大會,與全球各地的5000多名開發(fā)者,分享了百度在AI領域的新進展。
    的頭像 發(fā)表于 04-30 10:14 ?1451次閱讀

    西安光機所在太赫茲超表面逆向設計領域取得新進展

    高精度超表面逆向設計方法及透射/反射雙功能的寬頻段聚焦渦旋光產(chǎn)生器示意圖 近日,中國科學院西安光機所超快光科學與技術全國重點實驗室在太赫茲頻段超表面逆向設計領域取得新進展,相關研究成果以《High
    的頭像 發(fā)表于 04-22 06:12 ?905次閱讀
    西安光機所在太赫茲超表面逆向設計領域取得<b class='flag-5'>新進展</b>
    万全县| 临漳县| 阜南县| 北安市| 康保县| 富宁县| 枣阳市| 勃利县| 绥德县| 咸丰县| 达拉特旗| 海宁市| 中宁县| 南丹县| 阳高县| 清涧县| 万载县| 定日县| 桐城市| 西充县| 衡水市| 信阳市| 伊宁县| 集安市| 海丰县| 泽库县| 松阳县| 邵阳县| 清涧县| 浮山县| 淮北市| 祁东县| 乐山市| 达日县| 读书| 大余县| 贵港市| 隆林| 江阴市| 汶上县| 泸溪县|