哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

基于優(yōu)化的元學習方法

深度學習自然語言處理 ? 來源:哈工大SCIR ? 作者:哈工大SCIR ? 2022-12-15 15:19 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1. 簡介

Prompt通過將輸入文本填入預設prompt模板的方式,將下游NLP任務形式與語言模型預訓練任務統(tǒng)一起來,來更好地利用預訓練階段學習到的知識,使模型更容易適應于下游任務,在一系列NLP任務上取得了很好的效果[1]。Soft prompt方法使用可學習的參數(shù)來替代prompt模板中固定的token,盡管在少標注文本分類任務上性能優(yōu)異[2],但是其表現(xiàn)隨模型初始化參數(shù)不同會出現(xiàn)很大的波動[1, 3]。人工選擇soft prompt模型參數(shù)需要對語言模型內部工作機理的深入理解和大量試錯,并且在遇到不同少標注任務時難以復用。

e59393fc-7c3f-11ed-8abf-dac502259ad0.png

圖1 MetaPrompting幫助模型找到一個更優(yōu)參數(shù)初始化點,以更快、更好地適應于新的少標注任務

為了解決上述問題,本文將目光從任務專用的soft prompt模型設計轉移到任務通用的模型參數(shù)初始化點搜索,以幫助模型快速適應到不同的少標注任務上。本文采用近年提出的基于優(yōu)化的元學習方法,例如MAML[4]、Reptile[5]等,來搜索更優(yōu)的soft prompt模型參數(shù)初始化點,以解決模型對初始化點過于敏感的問題。

本文在四個常用的少標注文本分類數(shù)據(jù)集上進行了充分的實驗,結果表明MetaPrompting相比其他基于元學習和prompt方法的強基線模型取得了更好的效果,達到了新的SOTA。

2. 方法

2.1 Soft prompt方法

Prompt方法通過將下游任務轉化成語言模型預訓練目標的形式,幫助模型更好地在下游任務上發(fā)揮性能。如圖2所示,對于一個新聞文本分類任務,可以通過將輸入文本填入prompt模板的方式,將該文本分類任務轉化為MLM任務形式。之后將模型在[MASK]位置填入各個詞語的概率映射到不同標簽上,即可完成文本分類任務的處理。

Soft prompt模型中,部分prompt tokens以可訓練embedding的形式給出,并可以和預訓練模型的參數(shù)一起進行優(yōu)化,在保留離散token中語義信息的同時,給予模型更多的靈活性。

e5ad9fe0-7c3f-11ed-8abf-dac502259ad0.png

圖2 Soft prompt方法

2.2 將基于優(yōu)化的元學習方法應用于soft prompt模型

少標注任務構建

本文使用元階段(episode)風格的少標注學習范式。具體而言,每一個少標注任務包含支持集和查詢集兩個部分,支持集中每個類別所對應標注樣本數(shù)量極少,本文通過將模型在支持集上進行適配,在查詢集上進行測試的方法,衡量模型的少標注學習性能。本文將不同標簽對應的樣本分別劃分成用于訓練、驗證和測試的少標注任務,以衡量模型從源領域學習通用元知識來處理目標領域少標注任務的能力。

基于元學習的soft prompt模型優(yōu)化過程

MetaPrompting的整體優(yōu)化過程如圖3所示。元訓練階段,模型在少標注任務的支持集上進行試探性參數(shù)更新,并在查詢集上進行梯度回傳。元測試階段,模型在未見過的少標注任務上進行適配和預測。令和分別表示預訓練模型和soft prompt的參數(shù),在元訓練階段,模型在一個少標注任務支持集上進行適配的過程如下式所示:

e5d71456-7c3f-11ed-8abf-dac502259ad0.png

其中α是適配過程的學習率,表示模型進行適配學習的步數(shù)。令模型在少標注任務上適配學習之后的參數(shù)為和,可將模型在該少標注任務上的優(yōu)化目標描述為:

e5e858ce-7c3f-11ed-8abf-dac502259ad0.png

該優(yōu)化目標模擬了模型在少標注場景下進行試探性參數(shù)更新,并根據(jù)試探性更新之后的情況優(yōu)化模型參數(shù)的策略。這種策略更多關注了模型在一步或多步更新之后的情況,因而可以幫助模型找到一個能快速適應于新的少標注任務的參數(shù)初始化點。

e6529d24-7c3f-11ed-8abf-dac502259ad0.png

圖3 MetaPrompting模型參數(shù)更新過程

實驗中,本文還使用了MAML++[6]中的多步梯度回傳技巧,來使得優(yōu)化過程更加穩(wěn)定,達到更好的效果。

3. 實驗

本文分別采用5way 1shot和5way 5shot的少標注學習設定來測試模型性能。實驗選擇了HuffPost、Amazon、Reuters和20newsgroup四個廣泛使用的文本分類數(shù)據(jù)集,結果以分類準確率%給出。

實驗結果如表1所示,表中20newsgroup數(shù)據(jù)集性能由于數(shù)據(jù)構造問題與原文略有出入,現(xiàn)為勘誤后結果,勘誤不影響實驗結論。由實驗結果可見,MetaPrompting性能優(yōu)于當前的SOTA模型ContrastNet[7]和其他基于元學習和提示學習的方法,取得了明顯的性能提升。相比于不使用元學習優(yōu)化目標的Ours (Pretrain Init),引入元學習搜索模型參數(shù)初始化點的Ours (Meta Init)也得到了更好的性能,說明了元學習方法在soft prompt模型參數(shù)優(yōu)化中的有效性。

表1 MetaPrompting主實驗結果

e67c2004-7c3f-11ed-8abf-dac502259ad0.png

主實驗中,為了與其他基線模型進行公平的對比,將soft prompt參數(shù)和預訓練模型參數(shù)一起進行了優(yōu)化。為了更好地說明MetaPrompting針對soft prompt參數(shù)初始化的作用,本文還參數(shù)進行了固定預訓練模型的實驗。實驗結果如表2所示,相比于參數(shù)隨機初始化的soft prompt模型,MetaPrompting取得了明顯的性能提升。

表2 MetaPrompting在固定預訓練模型參數(shù)時的性能

e77114c4-7c3f-11ed-8abf-dac502259ad0.png

現(xiàn)實應用場景中,往往難以得到內容、形式十分相近的源領域數(shù)據(jù)。因此本文還對MetaPrompting在分布外數(shù)據(jù)上的性能進行了測試。實驗結果如表3所示,即使源領域的數(shù)據(jù)內容、形式上有較大的差異,MetaPrompting仍然可以學習到任務通用的元知識,來輔助在目標領域少標注任務上的學習。

表3 MetaPrompting在不同內容、形式的源領域數(shù)據(jù)上進行元學習的性能

e7897e38-7c3f-11ed-8abf-dac502259ad0.png

本文還對MetaPrompting對于不同prompt模板的魯棒性進行了測試。如表4所示,相比于隨機初始化的soft prompt模型,MetaPrompting尋找到的參數(shù)初始化點在不同prompt模板下性能方差更小,魯棒性更強。

表4 MetaPrompting在不同prompt模板下性能的方差

e79c70f6-7c3f-11ed-8abf-dac502259ad0.png

4. 總結

本文提出了MetaPrompting,將基于優(yōu)化的元學習方法推廣到soft prompt模型中,來處理少標注文本任務。MetaPrompting利用源領域數(shù)據(jù)進行元學習,搜索能夠更快、更好地適應于新的少標注人物的模型參數(shù)初始化點。在4個少標注文本分類數(shù)據(jù)集上的實驗結果表明,MetaPrompting相比于樸素的soft prompt模型以及其他基于元學習的基線模型取得了更好的效果,達到了新的SOTA性能。

審核編輯 :李倩

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 模型
    +關注

    關注

    1

    文章

    3811

    瀏覽量

    52257
  • 數(shù)據(jù)集

    關注

    4

    文章

    1240

    瀏覽量

    26261
  • nlp
    nlp
    +關注

    關注

    1

    文章

    491

    瀏覽量

    23339

原文標題:參考文獻

文章出處:【微信號:zenRRan,微信公眾號:深度學習自然語言處理】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    OCAD應用:二組連續(xù)變焦系統(tǒng)

    系統(tǒng)自動優(yōu)化結果 圖3. 二組系統(tǒng)凸輪曲線 變焦光學系統(tǒng)各組元初始結結構設計 有了系統(tǒng)外形尺寸分配及各組PW值要求后,可利用本程序膠合透鏡自動設計功能對系統(tǒng)各組
    發(fā)表于 04-21 08:23

    OCAD應用:四組連續(xù)變焦系統(tǒng)

    要求輸入各初級像差系數(shù)的目標值,另一個要求輸入系統(tǒng)各組的PW參數(shù)的初始參考值及其權系數(shù)。圖4.填寫初級像差系數(shù) 參加優(yōu)化設計的初級像差項目可選,選擇時使用工具條上插入和刪除按鈕進行操作。以上數(shù)據(jù)輸入
    發(fā)表于 04-17 08:20

    OCAD應用:五組連續(xù)變焦系統(tǒng)

    系統(tǒng)初級像差的平衡優(yōu)化設計。此時按“下一步”命令鈕,窗體立即出現(xiàn)下一個畫面如圖5。其中列出兩個表格,一個是要求輸入各初級像差系數(shù)的目標值,另一個要求輸入系統(tǒng)各組的PW參數(shù)的初始參考值及其權系數(shù)。 參加
    發(fā)表于 04-16 08:26

    學習單片機快速方法

    。因為從我的學習過程來看,光看理論等于沒學。單片機必須是理論加實踐,而且要大量實踐,在實踐的過程中尋找理論。這才是最快捷的學習方法。這好比你學習漢語,你不可能什么字都會寫,遇到不懂的,查查字典就可以了
    發(fā)表于 01-14 07:42

    MB0036核心開發(fā)板(評測)

    不夠,還可以自己外接,這塊開發(fā)板也是預留了IO口的,支持拓展學習。文末也附加了這塊開發(fā)板的資料。 對于這塊開發(fā)板的申請方法,在微信搜索賽新定義MCU商城,點進去后,進行注冊,點擊新用戶,可以看到這款
    發(fā)表于 12-04 22:38

    今日看點:智推出真機強化學習;美國軟件公司SAS退出中國市場

    可在真實產線中自主學習、持續(xù)優(yōu)化作業(yè)策略,新技能訓練與穩(wěn)定部署,從?數(shù)周減至數(shù)十分鐘。在換線、換型或流線調整時,該系統(tǒng)只需最小的硬件改動和標準化部署流程,即可顯著提升柔性、壓縮部署時間與成本。 ? 據(jù)智方面透露,
    發(fā)表于 11-05 09:44 ?1155次閱讀

    服務上架自檢

    為提高服務審核通過率,建議您使用上架自檢功能。該功能使用熱門移動終端設備,按照華為應用市場上架標準對服務進行兼容性、穩(wěn)定性、性能、功耗、UX、隱私等測試,可幫助您提前發(fā)現(xiàn)和解決問題。 登錄
    發(fā)表于 10-21 17:18

    蜂鳥E203內核優(yōu)化方法

    對蜂鳥E203內核進行優(yōu)化可以考慮以下幾個方面: 編譯器優(yōu)化:使用適合蜂鳥E203的編譯器選項和指令集,優(yōu)化編譯器的選項和參數(shù),開啟對硬件的特定支持,比如使用-O2等優(yōu)化選項,以提高代
    發(fā)表于 10-21 07:55

    【「Yocto項目實戰(zhàn)教程:高效定制嵌入式Linux系統(tǒng)」閱讀體驗】+基礎概念學習理解

    軟件包的依賴關系、編譯選項、配置參數(shù)等。掌握數(shù)據(jù)的使用方法對于定制和優(yōu)化嵌入式 Linux 系統(tǒng)至關重要。 BitBake BitBake 是 Yocto 項目的構建工具。通過學習
    發(fā)表于 08-04 22:29

    ARM入門學習方法分享

    。 以下是一些入門學習方法的分享: 一、 理解基本概念:首先,了解ARM是什么以及它的基本概念是很重要的。ARM(Advanced RISC Machines)指的是一種精簡指令集計算機(RISC
    發(fā)表于 07-23 10:21

    第一章 W55MH32 高性能以太網單片機的學習方法概述

    本章介紹W55MH32的學習方法,建議先了解硬件資源,按基礎篇、入門篇循序漸進學習。參考兩份手冊,提供例程資料,還給出官網、github 等學習資料查找渠道。讓我們一起踏上W55MH32高性能以太網單片機的
    的頭像 發(fā)表于 05-26 09:07 ?1072次閱讀
    第一章 W55MH32 高性能以太網單片機的<b class='flag-5'>學習方法</b>概述

    VirtualLab:光柵的優(yōu)化與分析

    水平。這些方法的范圍從嚴格的傅里葉模態(tài)法(FMM)到適用于具有淺浮雕大型結構的薄近似法(TEA)。 薄元素近似法(TEA)對比傅里葉模態(tài)法(FMM)進行光柵建模 研究了兩種常用但原理不同的分析光柵衍射效率
    發(fā)表于 05-23 08:49

    OCAD應用:四組連續(xù)變焦系統(tǒng)

    ,一個是要求輸入各初級像差系數(shù)的目標值,另一個要求輸入系統(tǒng)各組的PW參數(shù)的初始參考值及其權系數(shù)。 圖4.填寫初級像差系數(shù) 參加優(yōu)化設計的初級像差項目可選,選擇時使用工具條上插入和刪除按鈕進行操作。以上
    發(fā)表于 05-20 08:49

    使用MATLAB進行無監(jiān)督學習

    無監(jiān)督學習是一種根據(jù)未標注數(shù)據(jù)進行推斷的機器學習方法。無監(jiān)督學習旨在識別數(shù)據(jù)中隱藏的模式和關系,無需任何監(jiān)督或關于結果的先驗知識。
    的頭像 發(fā)表于 05-16 14:48 ?1588次閱讀
    使用MATLAB進行無監(jiān)督<b class='flag-5'>學習</b>

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現(xiàn)

    本來轉自:DeepHubIMBA本文系統(tǒng)講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現(xiàn)原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發(fā)表于 04-23 13:22 ?1768次閱讀
    18個常用的強化<b class='flag-5'>學習</b>算法整理:從基礎<b class='flag-5'>方法</b>到高級模型的理論技術與代碼實現(xiàn)
    清河县| 鹰潭市| 兴宁市| 彭阳县| 元朗区| 泽普县| 凤山县| 颍上县| 教育| 甘泉县| 沙坪坝区| 双牌县| 开化县| 朝阳区| 贵定县| 合肥市| 景谷| 丹江口市| 青阳县| 米泉市| 柘城县| 花莲市| 武穴市| 承德县| 娄底市| 馆陶县| 江油市| 翁牛特旗| 新龙县| 绍兴县| 九龙县| 崇仁县| 西宁市| 鄄城县| 施甸县| 大连市| 凤冈县| 如皋市| 新和县| 连云港市| 泸西县|