哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

解讀大型語言模型的偏見

穎脈Imgtec ? 2026-04-15 14:44 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

在一項新的研究中,研究人員發(fā)現(xiàn)了 LLM 中某種偏見的根本原因,為更準(zhǔn)確、更可靠的 AI 系統(tǒng)鋪平了道路。

研究表明,大型語言模型(LLM)往往傾向于過分強調(diào)文檔或?qū)υ掗_頭和結(jié)尾的信息,而相對忽略中間部分。這種“位置偏差”意味著,若律師使用LLM支持的虛擬助手檢索30頁宣誓書中的某個短語,該短語位于第一頁或最后一頁時被找到的可能性會大得多。

麻省理工學(xué)院的研究人員揭示了這種現(xiàn)象背后的機制。他們構(gòu)建了一個理論框架,用以探究信息在構(gòu)成LLM基礎(chǔ)的機器學(xué)習(xí)架構(gòu)中的流動方式。研究發(fā)現(xiàn),某些控制模型處理輸入數(shù)據(jù)方式的設(shè)計選擇可能會引發(fā)位置偏差。實驗表明,模型架構(gòu),特別是那些影響信息在模型內(nèi)詞元間傳播方式的部分,可能會導(dǎo)致或加劇位置偏差,而訓(xùn)練數(shù)據(jù)同樣可能是造成該問題的一個因素。

除了查明位置偏差的根源外,他們的框架還可用于在未來模型設(shè)計中診斷和糾正這一問題。這有望使聊天機器人在長時間對話中更好地保持主題連貫性,讓醫(yī)療AI系統(tǒng)在處理大量患者數(shù)據(jù)時推理更加公平,也能使代碼助手更均衡地關(guān)注程序的所有部分。

“這些模型如同黑匣子,因此作為LLM用戶,您或許不會意識到位置偏差可能導(dǎo)致模型表現(xiàn)不一致。您可能僅按照任意順序向模型提供文檔,并期望其正常運行。然而,通過深入理解這些黑匣子模型的潛在機制,我們能夠針對性地解決其局限性,從而改進模型性能。”麻省理工學(xué)院數(shù)據(jù)、系統(tǒng)和社會研究所(IDSS)和信息與決策系統(tǒng)實驗室(LIDS)的研究生、該研究論文的第一作者Xinyi Wu說道。


1、分析注意力

8ca8eb86-3896-11f1-ab55-92fbcf53809c.png

Claude、Llama 和 GPT - 4 等 LLM(大型語言模型)由一種名為 transformer 的神經(jīng)網(wǎng)絡(luò)架構(gòu)提供支持。Transformer 架構(gòu)主要用于處理順序數(shù)據(jù),它能夠?qū)⒕渥臃纸鉃榉Q為詞元的多個小塊,隨后通過學(xué)習(xí)這些詞元之間的關(guān)系來預(yù)測下一個單詞。由于其配備了注意力機制,這些模型在這一任務(wù)上表現(xiàn)得十分出色。注意力機制由互連的數(shù)據(jù)處理節(jié)點層構(gòu)成,它允許詞元有選擇地關(guān)注或聚焦于相關(guān)的詞元,從而更好地理解上下文。

然而,問題在于,若每個詞元都要處理 30 頁文檔中的所有其他詞元,那么計算成本將會迅速攀升,變得難以承受。鑒于此,工程師在構(gòu)建 transformer 模型時,通常會運用注意力掩蔽技術(shù)來限定一個詞元可以關(guān)注的詞元范圍。

以因果掩碼為例,它僅允許一個詞元關(guān)注其前面的詞元。除此之外,工程師還會采用位置編碼技術(shù),以此幫助模型準(zhǔn)確把握句子中每個詞元所處的位置,進而提升模型的性能。

研究人員構(gòu)建了一個基于圖的理論框架,借此深入探究這些建模選擇(包括注意力掩碼和位置編碼)對位置偏差所產(chǎn)生的影響。研究分析發(fā)現(xiàn),因果掩碼致使模型對輸入內(nèi)容的開頭部分存在天然的偏愛,即便數(shù)據(jù)本身并無此傾向。即使前面的詞元對于句子的整體含義作用不大,因果掩碼仍會使 transformer 模型更加關(guān)注句子的開頭部分。而且,隨著模型規(guī)模的擴大以及注意力層數(shù)的增加,這種位置偏差還會進一步加劇,因為輸入的早期部分在模型的推理過程中被更為頻繁地使用。

不過,位置編碼在這方面也發(fā)揮了一定的 “積極作用”,它能夠?qū)⒁粋€詞元與附近的詞元更緊密地聯(lián)系起來,從而在一定程度上緩解位置偏差問題,遺憾的是,這種緩解效果在多層模型中往往會遭到稀釋。

隨著模型的不斷增長,注意力機制的額外層級所引入的偏差會被逐漸放大,原因在于輸入的早期部分在模型的推理過程中被更為頻繁地使用。此外,位置編碼技術(shù)通過將單詞與其附近的單詞緊密關(guān)聯(lián),能夠?qū)⒛P偷淖⒁饬χ匦乱龑?dǎo)至正確的位置,進而減輕位置偏差,但這一效果在擁有眾多注意力層的模型中可能會被削弱。需要指出的是,這些設(shè)計選擇僅僅是導(dǎo)致位置偏差的原因之一,部分位置偏差或許還源自模型用于學(xué)習(xí)如何確定序列中單詞優(yōu)先級的訓(xùn)練數(shù)據(jù)。

“假如你知道你的數(shù)據(jù)在某種程度上存在偏差,那么除了對建模選擇進行調(diào)整之外,你還應(yīng)當(dāng)對模型進行微調(diào)?!盬u 表示。


2、實驗驗證:U形模式下的“迷失在中間”

8ccb8a88-3896-11f1-ab55-92fbcf53809c.jpg

在建立理論框架后,研究人員展開了實驗。實驗中,他們系統(tǒng)性地改變正確答案在文本序列中的位置,以完成信息檢索任務(wù)。

實驗揭示了一種 “迷失在中間” 現(xiàn)象,即檢索精度呈現(xiàn)出 U 形模式。當(dāng)正確答案位于序列開頭時,模型性能最佳;越接近序列中間,性能下降得越顯著;而當(dāng)正確答案接近序列末尾時,性能又會有所回升。

總體而言,他們的研究指出,采用不同的掩碼技術(shù)、減少注意力機制的額外層級或有針對性地運用位置編碼,能夠降低位置偏差,進而提升模型的準(zhǔn)確性。

通過理論分析和實驗探究,研究人員展現(xiàn)了模型設(shè)計選擇帶來的影響,凸顯了在高風(fēng)險應(yīng)用里把握模型有效性的重要性,并且他們打算繼續(xù)深入研究位置編碼及相關(guān)策略,進一步挖掘位置偏差的利用潛力。斯坦福大學(xué)教授 Amin Saberi 對團隊在理解 Transformer 注意力機制上取得的成果予以高度評價,認(rèn)為該項工作不僅數(shù)學(xué)推導(dǎo)清晰嚴(yán)謹(jǐn),而且對實際問題有著深刻洞察。


3、如何減少LLM在處理信息時的位置偏差?

  • 改變注意力掩蔽技術(shù)

調(diào)整因果掩碼等注意力掩蔽方式,避免模型對開頭信息的過度偏重。或者采用其他先進的注意力掩蔽策略,讓模型在關(guān)注前后文時更加均衡。

優(yōu)化位置編碼策略

改進位置編碼方法,使其能更有效地將單詞與附近單詞聯(lián)系起來,幫助模型準(zhǔn)確把握每個位置信息的重要性,從而減輕位置偏差。

  • 調(diào)整模型架構(gòu)

從注意力機制中刪除不必要的層,或者重新設(shè)計模型架構(gòu),減少因?qū)訑?shù)過多導(dǎo)致的位置偏差放大效應(yīng)。

微調(diào)模型

如果知道訓(xùn)練數(shù)據(jù)存在偏差,除了調(diào)整建模選擇外,對模型進行針對性的微調(diào),以糾正數(shù)據(jù)中可能引起的位置偏差。

平衡訓(xùn)練數(shù)據(jù)

確保訓(xùn)練數(shù)據(jù)的分布和結(jié)構(gòu)合理,避免因數(shù)據(jù)本身的偏差導(dǎo)致模型學(xué)習(xí)到不均衡的位置信息權(quán)重。

  • 數(shù)據(jù)增強

通過數(shù)據(jù)增強技術(shù),增加訓(xùn)練數(shù)據(jù)樣式的多樣性,讓模型接觸到更多不同位置信息重要的樣本,從而提高模型對位置信息處理的魯棒性。

  • 針對性的損失函數(shù)調(diào)整

在訓(xùn)練過程中,使用能夠平衡不同位置信息重要性的損失函數(shù),讓模型在學(xué)習(xí)時更加關(guān)注中間位置的信息,減輕位置偏差。

本文轉(zhuǎn)自:善思開悟科技
內(nèi)容經(jīng)過翻譯、整理,核心觀點來自https://news.mit.edu/2025/unpacking-large-language-model-bias-0617,作者Adam Zewe

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 人工智能
    +關(guān)注

    關(guān)注

    1819

    文章

    50264

    瀏覽量

    266680
  • 語言模型
    +關(guān)注

    關(guān)注

    0

    文章

    573

    瀏覽量

    11337
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    350

    瀏覽量

    1385
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關(guān)推薦
    熱點推薦

    世界模型vs大語言模型,圖靈獎得主#楊立昆 說“大模型是死路!”①#AI #大模型

    語言模型
    江蘇易安聯(lián)
    發(fā)布于 :2026年03月31日 10:17:40

    工作流大模型節(jié)點說明

    模型節(jié)點是平臺提供的基礎(chǔ)節(jié)點之一,開發(fā)者可以在該節(jié)點使用大語言模型處理任務(wù)。 節(jié)點說明 大模型節(jié)點可以調(diào)用大型
    發(fā)表于 03-19 14:56

    什么是大模型,智能體...?大模型100問,快速全面了解!

    一、概念篇1.什么是大模型?大模型是指參數(shù)規(guī)模巨大(通常達到數(shù)十億甚至萬億級別)、使用海量數(shù)據(jù)訓(xùn)練而成的人工智能模型。2.什么是大語言模型
    的頭像 發(fā)表于 02-02 16:36 ?1102次閱讀
    什么是大<b class='flag-5'>模型</b>,智能體...?大<b class='flag-5'>模型</b>100問,快速全面了解!

    一文了解Mojo編程語言

    CPU、GPU 和其他加速器的支持,簡化了并行編程模型。 漸進式類型系統(tǒng) 結(jié)合靜態(tài)類型檢查和類型推導(dǎo),既保證編譯時安全性,又保留動態(tài)類型的靈活性。 應(yīng)用場景 AI 與機器學(xué)習(xí) 用于訓(xùn)練大型模型和實時推理
    發(fā)表于 11-07 05:59

    NVIDIA ACE現(xiàn)已支持開源Qwen3-8B小語言模型

    為助力打造實時、動態(tài)的 NPC 游戲角色,NVIDIA ACE 現(xiàn)已支持開源 Qwen3-8B 小語言模型(SLM),可實現(xiàn) PC 游戲中的本地部署。
    的頭像 發(fā)表于 10-29 16:59 ?1379次閱讀

    3萬字長文!深度解析大語言模型LLM原理

    我們正在參加全球電子成就獎的評選,歡迎大家?guī)臀覀兺镀薄x謝支持本文轉(zhuǎn)自:騰訊技術(shù)工程作者:royceshao大語言模型LLM的精妙之處在于很好地利用數(shù)學(xué)解決了工業(yè)場景的問題,筆者基于過往工程經(jīng)驗
    的頭像 發(fā)表于 09-02 13:34 ?3586次閱讀
    3萬字長文!深度解析大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>LLM原理

    聲智科技發(fā)布金融聲學(xué)AI模型

    在瞬息萬變的金融市場中,信息的獲取與解讀能力決定了投資的成敗。然而,傳統(tǒng)的文本分析手段,即使是依賴于先進的大型語言模型,也常常受限于精心設(shè)計的公司敘事和“言不由衷”的言辭。當(dāng)企業(yè)高管在
    的頭像 發(fā)表于 08-30 16:26 ?1609次閱讀
    聲智科技發(fā)布金融聲學(xué)AI<b class='flag-5'>模型</b>

    AI輸出“偏見”,人類能否信任它的“三觀”?

    ,大語言模型(LLM)正悄無聲息地傳播全球各地的刻板印象。從性別歧視、文化偏見,到語言不平等,AI正在把人類的“偏見行李”打包、升級,并以看
    的頭像 發(fā)表于 08-04 13:43 ?1431次閱讀
    AI輸出“<b class='flag-5'>偏見</b>”,人類能否信任它的“三觀”?

    利用自壓縮實現(xiàn)大型語言模型高效縮減

    隨著語言模型規(guī)模日益龐大,設(shè)備端推理變得越來越緩慢且耗能巨大。一個直接且效果出人意料的解決方案是剪除那些對任務(wù)貢獻甚微的完整通道(channel)。我們早期的研究提出了一種訓(xùn)練階段的方法——自壓
    的頭像 發(fā)表于 07-28 09:36 ?639次閱讀
    利用自壓縮實現(xiàn)<b class='flag-5'>大型</b><b class='flag-5'>語言</b><b class='flag-5'>模型</b>高效縮減

    【教程】使用NS1串口服務(wù)器對接智普清言免費AI大語言模型

    AI大語言模型可以幫助我們解決各種問題,如翻譯、寫文案、創(chuàng)作詩歌、解決數(shù)學(xué)問題、情感陪伴等等。今天教大家如何使用NS1串口服務(wù)器模塊實現(xiàn)對接智普清言AI大語言模型,實現(xiàn)與大
    的頭像 發(fā)表于 06-12 19:33 ?904次閱讀
    【教程】使用NS1串口服務(wù)器對接智普清言免費AI大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    歐洲借助NVIDIA Nemotron優(yōu)化主權(quán)大語言模型

    NVIDIA 正攜手歐洲和中東的模型構(gòu)建商與云提供商,共同優(yōu)化主權(quán)大語言模型 (LLM),加速該地區(qū)各行業(yè)采用企業(yè)級 AI。
    的頭像 發(fā)表于 06-12 15:42 ?1359次閱讀

    Analog Devices LT6654 AMPS6-3.3器件參數(shù)特性解讀 EDA模型 數(shù)據(jù)手冊免費下載

    Analog Devices LT6654AMPS6-3.3器件參數(shù)特性解讀 EDA模型 數(shù)據(jù)手冊免費下載
    的頭像 發(fā)表于 05-27 11:03 ?1151次閱讀
    Analog Devices LT6654 AMPS6-3.3器件參數(shù)特性<b class='flag-5'>解讀</b>  EDA<b class='flag-5'>模型</b> 數(shù)據(jù)手冊免費下載

    瑞薩RZ/V2H平臺支持部署離線版DeepSeek -R1大語言模型

    瑞薩RZ/V2H平臺支持部署離線版DeepSeek -R1大語言模型
    的頭像 發(fā)表于 05-13 17:07 ?1823次閱讀
    瑞薩RZ/V2H平臺支持部署離線版DeepSeek -R1大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    小白學(xué)大模型:從零實現(xiàn) LLM語言模型

    在當(dāng)今人工智能領(lǐng)域,大型語言模型(LLM)的開發(fā)已經(jīng)成為一個熱門話題。這些模型通過學(xué)習(xí)大量的文本數(shù)據(jù),能夠生成自然語言文本,完成各種復(fù)雜的任
    的頭像 發(fā)表于 04-30 18:34 ?1428次閱讀
    小白學(xué)大<b class='flag-5'>模型</b>:從零實現(xiàn) LLM<b class='flag-5'>語言</b><b class='flag-5'>模型</b>

    如何借助大語言模型打造人工智能生態(tài)系統(tǒng)

    語言模型(LLMs)正以革命性的姿態(tài)重塑我們與科技的互動模式。然而,由于其龐大的規(guī)模,它們往往屬于資源密集型范疇,不僅大幅推高了成本,還造成了能源消耗的激增。本文深入剖析了大語言模型
    的頭像 發(fā)表于 04-27 09:19 ?1200次閱讀
    如何借助大<b class='flag-5'>語言</b><b class='flag-5'>模型</b>打造人工智能生態(tài)系統(tǒng)
    象山县| 万荣县| 斗六市| 思南县| 章丘市| 基隆市| 万盛区| 浑源县| 大埔县| 准格尔旗| 疏勒县| 泌阳县| 玉龙| 青阳县| 鲁甸县| 朝阳市| 东安县| 延庆县| 黎川县| 丹棱县| 徐水县| 乐清市| 宁乡县| 腾冲县| 南涧| 普陀区| 龙山县| 甘肃省| 房山区| 公主岭市| 沾化县| 广安市| 景洪市| 曲麻莱县| 鄂伦春自治旗| 东海县| 郓城县| 营山县| 清镇市| 鹤庆县| 子洲县|