哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

用PaddleNLP為GPT-2模型制作FineWeb二進(jìn)制預(yù)訓(xùn)練數(shù)據(jù)集

jf_23871869 ? 來(lái)源:jf_23871869 ? 作者:jf_23871869 ? 2025-03-21 18:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作者:算力魔方創(chuàng)始人/英特爾創(chuàng)新大使劉力

《用PaddleNLP在4060單卡上實(shí)踐大模型預(yù)訓(xùn)練技術(shù)》發(fā)布后收到讀者熱烈反響,很多讀者要求進(jìn)一步講解更多的技術(shù)細(xì)節(jié)。本文主要針對(duì)大語(yǔ)言模型的預(yù)訓(xùn)練流程,使用PaddleNLP將FineWeb數(shù)據(jù)集中文本形式的數(shù)據(jù),經(jīng)過(guò)分詞化(Tokenize),轉(zhuǎn)換為大語(yǔ)言模型能直接使用的二進(jìn)制數(shù)據(jù),以便提升訓(xùn)練效果。

ChatGPT發(fā)布后,當(dāng)代大語(yǔ)言模型(LLM)的訓(xùn)練流程基本遵循OpenAI提出的”預(yù)訓(xùn)練+后訓(xùn)練”的訓(xùn)練范式。

預(yù)訓(xùn)練:將海量知識(shí)通過(guò)無(wú)監(jiān)督學(xué)習(xí)的方式壓縮到大語(yǔ)言模型的權(quán)重中,使其具備基本的通用能力,能預(yù)測(cè)下一個(gè)分詞。預(yù)訓(xùn)練得到的模型叫基礎(chǔ)大模型。

后訓(xùn)練:通過(guò)監(jiān)督微調(diào)(SFT)和強(qiáng)化學(xué)習(xí)(RL)等方式,讓大模型按人類專家的方式輸出知識(shí),使其具備專業(yè)能力。

一,PaddleNLP簡(jiǎn)介


PaddleNLP是一款基于飛槳深度學(xué)習(xí)框架的大語(yǔ)言模型(LLM)開(kāi)發(fā)套件,支持在多種硬件上進(jìn)行高效的大模型訓(xùn)練、無(wú)損壓縮以及高性能推理。PaddleNLP 具備簡(jiǎn)單易用和性能極致的特點(diǎn),致力于助力開(kāi)發(fā)者實(shí)現(xiàn)高效的大模型產(chǎn)業(yè)級(jí)應(yīng)用。

wKgZPGfcAnGAZJZbAAB0V6tIGJQ893.png

Github: https://github.com/PaddlePaddle/PaddleNLP


使用PaddleNLP實(shí)現(xiàn)訓(xùn)練文本分詞化僅需三行代碼,如下所示:

# 導(dǎo)入PaddleNLP庫(kù)中的GPTTokenizer類
from paddlenlp.transformers import GPTTokenizer
# 使用預(yù)訓(xùn)練的"gpt2-en"模型初始化GPTTokenizer,并設(shè)置bos_token為空字符串
tokenizer = GPTTokenizer.from_pretrained("gpt2-en", bos_token="")
# 打印使用tokenizer對(duì)字符串"Hello, world!"進(jìn)行編碼后的結(jié)果
print(tokenizer.encode("Hello, world!"))

進(jìn)入:

https://tiktokenizer.vercel.app/?model=gpt2


可以對(duì)比PaddleNLP的GPTTokenzier對(duì)“Hello,World!”的分詞結(jié)果。

二,F(xiàn)ineWeb簡(jiǎn)介


FineWeb是由Hugging Face團(tuán)隊(duì)于2024年推出的超大規(guī)模語(yǔ)言模型預(yù)訓(xùn)練數(shù)據(jù)集。作為目前最大的開(kāi)源預(yù)訓(xùn)練數(shù)據(jù)集之一,F(xiàn)ineWeb數(shù)據(jù)集包含來(lái)自 CommonCrawl 的超過(guò) 15T 經(jīng)過(guò)清理和重復(fù)數(shù)據(jù)刪除的英文網(wǎng)絡(luò)數(shù)據(jù)。其高質(zhì)量的數(shù)據(jù),有助于大語(yǔ)言模型穩(wěn)定平穩(wěn)的完成預(yù)訓(xùn)練,而不會(huì)發(fā)生由重復(fù)低質(zhì)數(shù)據(jù)引發(fā)的Loss Spike。

Link: https://huggingface.co/datasets/HuggingFaceFW/fineweb

本文使用FineWeb數(shù)據(jù)集的sample-10BT子集作為GPT-2的預(yù)訓(xùn)練數(shù)據(jù)集。

三,開(kāi)發(fā)環(huán)境準(zhǔn)備


本文的開(kāi)發(fā)環(huán)境依賴PaddlePaddle、PaddleNLP、datasets和tqdm。

首先,請(qǐng)安裝PaddlePaddle框架:

pip install paddlepaddle


然后,安裝其它依賴項(xiàng):

pip install paddlenlp datasets tqdm


四,代碼實(shí)現(xiàn)


用PaddleNLP將FineWeb數(shù)據(jù)集進(jìn)行分詞化處理,然后轉(zhuǎn)換為大語(yǔ)言模型能直接使用的二進(jìn)制數(shù)據(jù)的關(guān)鍵步驟有:

1.從HuggingFace Hub加載fineweb數(shù)據(jù)集的10B樣本子集;

2.使用train_test_split按比例分割訓(xùn)練集和驗(yàn)證集;

3.對(duì)每個(gè)文本進(jìn)行編碼,添加結(jié)束符eot_token,返回ids和len;

4.為訓(xùn)練集和驗(yàn)證集分別創(chuàng)建.bin文件,使用np.memmap高效寫(xiě)入。

關(guān)鍵代碼如下所示:

wKgZPGfcAsWAHLv_AACNkvpFFuo041.png

完整范例代碼請(qǐng)參見(jiàn):

https://aistudio.baidu.com/projectdetail/8798975


運(yùn)行成功后,可以得到如下兩個(gè)文件:

wKgZPGfcAtCALsZgAAA-5MiqMvw838.png

五,總結(jié)


PaddleNLP好學(xué)易用,借助PaddleNLP的GPTTokenizer很容易實(shí)現(xiàn)FineWeb數(shù)據(jù)集的分詞化,并轉(zhuǎn)換為方便大模型預(yù)訓(xùn)練的二進(jìn)制數(shù)據(jù)!

如果你有更好的文章,歡迎投稿!

稿件接收郵箱:nami.liu@pasuntech.com

更多精彩內(nèi)容請(qǐng)關(guān)注“算力魔方?”!

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 二進(jìn)制
    +關(guān)注

    關(guān)注

    2

    文章

    809

    瀏覽量

    43158
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1239

    瀏覽量

    26258
  • GPT
    GPT
    +關(guān)注

    關(guān)注

    0

    文章

    368

    瀏覽量

    16950
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    深入剖析 DM74LS283:4 位快速進(jìn)位二進(jìn)制加法器

    深入剖析 DM74LS283:4 位快速進(jìn)位二進(jìn)制加法器 在電子設(shè)計(jì)領(lǐng)域,加法器是實(shí)現(xiàn)數(shù)字運(yùn)算的基礎(chǔ)元件之一。今天我們要深入探討的是 Fairchild 公司的 DM74LS283 4 位快速進(jìn)位
    的頭像 發(fā)表于 04-10 16:40 ?130次閱讀

    74HC283 4位二進(jìn)制全加器:設(shè)計(jì)利器深度解析

    74HC283 4位二進(jìn)制全加器:設(shè)計(jì)利器深度解析 作為電子工程師,在數(shù)字電路設(shè)計(jì)中,加法器是我們經(jīng)常會(huì)用到的基礎(chǔ)元件。今天就來(lái)深入探討一下74HC283 4位二進(jìn)制全加器,它在諸多數(shù)字電路設(shè)計(jì)場(chǎng)景
    的頭像 發(fā)表于 04-08 16:15 ?114次閱讀

    MAXIM DS1672 I2C 32位二進(jìn)制計(jì)數(shù)器RTC:特性與設(shè)計(jì)詳解

    的是MAXIM公司的DS1672 I2C 32位二進(jìn)制計(jì)數(shù)器RTC,它具有諸多出色特性,能滿足多種應(yīng)用場(chǎng)景的需求。 文件下載: DS1672.pdf 1. 概述 DS1672成了32位計(jì)數(shù)器和電源監(jiān)控功能
    的頭像 發(fā)表于 03-24 15:25 ?149次閱讀

    深入解析DS1371:一款功能強(qiáng)大的I2C 32位二進(jìn)制計(jì)數(shù)器看門(mén)狗時(shí)鐘

    MAXIM)推出的DS1371 I2C 32位二進(jìn)制計(jì)數(shù)器看門(mén)狗時(shí)鐘,了解它的特點(diǎn)、應(yīng)用以及詳細(xì)的技術(shù)參數(shù)。 文件下載: DS1371.pdf 一、產(chǎn)品概述 DS1371是一款專門(mén)設(shè)計(jì)用于連續(xù)以秒單位計(jì)時(shí)的32位
    的頭像 發(fā)表于 03-24 10:10 ?217次閱讀

    CDx4HC283和CDx4HCT283:高速CMOS邏輯4位二進(jìn)制全加器的詳細(xì)解析

    CDx4HC283和CDx4HCT283:高速CMOS邏輯4位二進(jìn)制全加器的詳細(xì)解析 在電子設(shè)計(jì)領(lǐng)域,加法器是數(shù)字電路中最基本的運(yùn)算單元之一,用于實(shí)現(xiàn)二進(jìn)制數(shù)的加法運(yùn)算。今天要給大家介紹
    的頭像 發(fā)表于 01-19 14:50 ?451次閱讀

    解析CD54/74AC283與CD54/74ACT283:4位二進(jìn)制加法器的卓越之選

    解析CD54/74AC283與CD54/74ACT283:4位二進(jìn)制加法器的卓越之選 在電子設(shè)計(jì)領(lǐng)域,加法器是實(shí)現(xiàn)數(shù)字運(yùn)算的基礎(chǔ)組件。今天我們要深入探討的是德州儀器(Texas
    的頭像 發(fā)表于 01-08 16:55 ?701次閱讀

    深入剖析CD54/74AC283與CD54/74ACT283:高性能4位二進(jìn)制加法器

    /74ACT283這兩款4位二進(jìn)制加法器,它們來(lái)自Harris Semiconductor,電子工程師們提供了高性能、低功耗的解決方案。 文件下載: CD74AC283M.pdf 器件概述 CD54
    的頭像 發(fā)表于 01-04 17:25 ?889次閱讀

    CD54/74AC283與CD54/74ACT283:高性能4位二進(jìn)制加法器的全面解析

    CD54/74AC283與CD54/74ACT283:高性能4位二進(jìn)制加法器的全面解析 在電子設(shè)計(jì)領(lǐng)域,加法器是一種基礎(chǔ)且關(guān)鍵的數(shù)字電路,廣泛應(yīng)用于各種計(jì)算和數(shù)據(jù)處理系統(tǒng)中。今天,我們要深入探討
    的頭像 發(fā)表于 12-31 17:10 ?1489次閱讀

    SN54F283與SN74F283:4位二進(jìn)制全加器的技術(shù)剖析

    SN54F283與SN74F283:4位二進(jìn)制全加器的技術(shù)剖析 在數(shù)字電路設(shè)計(jì)中,加法器是最基礎(chǔ)且關(guān)鍵的組件之一。今天我們要深入探討的是德州儀器(TI)的SN54F283和SN74F283這兩款4位
    的頭像 發(fā)表于 12-29 16:20 ?918次閱讀

    德州儀器4位二進(jìn)制全加器:SN54/74283系列深度解析

    德州儀器4位二進(jìn)制全加器:SN54/74283系列深度解析 在數(shù)字電路設(shè)計(jì)領(lǐng)域,加法器是構(gòu)建復(fù)雜算術(shù)邏輯單元的基礎(chǔ)組件。德州儀器(TI)的SN54/74283系列4位二進(jìn)制全加器憑借其快速進(jìn)位
    的頭像 發(fā)表于 12-23 15:45 ?938次閱讀

    二進(jìn)制查找(Binary Search)介紹

    二進(jìn)制查找(Binary Search)用于在已排序的數(shù)組中執(zhí)行二進(jìn)制查找的函數(shù)。 int binary_search(int arr[], int size, int target
    發(fā)表于 12-12 06:54

    如何在vivado上基于二進(jìn)制碼對(duì)指令運(yùn)行狀態(tài)進(jìn)行判斷

    a0 -8 例 獲取相應(yīng)的二進(jìn)制碼將其轉(zhuǎn)換為16進(jìn)制導(dǎo)入vivado,方法就是將代碼文件修改為.verilog文件并存入蜂鳥(niǎo)的tb文件夾,在vivado的tb中修改測(cè)試用例路徑即可進(jìn)行仿真。 得到
    發(fā)表于 10-24 06:46

    在vivado上基于二進(jìn)制碼對(duì)指令運(yùn)行狀態(tài)進(jìn)行判斷

    a0 -8 例 獲取相應(yīng)的二進(jìn)制碼將其轉(zhuǎn)換為16進(jìn)制導(dǎo)入vivado,方法就是將代碼文件修改為.verilog文件并存入蜂鳥(niǎo)的tb文件夾,在vivado的tb中修改測(cè)試用例路徑即可進(jìn)行仿真。 得到結(jié)果
    發(fā)表于 10-24 06:31

    如何將圖像文件轉(zhuǎn)換為二進(jìn)制文件?

    如何將圖像文件轉(zhuǎn)換為二進(jìn)制文件
    發(fā)表于 09-05 08:28

    二進(jìn)制數(shù)據(jù)處理方法分享

    時(shí),我們?nèi)绾稳ソ馕?b class='flag-5'>數(shù)據(jù)并且應(yīng)用它們。本次的技術(shù)分享文章,我們就從如何傳輸數(shù)據(jù)和解析二進(jìn)制數(shù)據(jù)來(lái)一步一步剝絲抽繭,搞清楚他的運(yùn)作原理和二進(jìn)制
    的頭像 發(fā)表于 07-30 15:41 ?2553次閱讀
    <b class='flag-5'>二進(jìn)制</b><b class='flag-5'>數(shù)據(jù)</b>處理方法分享
    新密市| 乐至县| 贵定县| 得荣县| 涿鹿县| 正镶白旗| 濮阳县| 治县。| 漳州市| 洛宁县| 秀山| 昆明市| 颍上县| 阿巴嘎旗| 琼海市| 光山县| 诏安县| 天水市| 沅江市| 大同县| 从江县| 舒城县| 堆龙德庆县| 永丰县| 介休市| 桂东县| 贡嘎县| 政和县| 新和县| 安丘市| 镇沅| 淅川县| 巴楚县| 平顺县| 永修县| 通海县| 江阴市| 柞水县| 镶黄旗| 阜南县| 峡江县|