哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀(guān)看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

K1 AI CPU基于llama.cpp與Ollama的大模型部署實(shí)踐

進(jìn)迭時(shí)空 ? 2025-02-18 14:23 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

為了應(yīng)對(duì)大模型(LLM)、AIGC等智能化浪潮的挑戰(zhàn),進(jìn)迭時(shí)空通過(guò)AI指令擴(kuò)展,在RISC-V CPU中注入了原生AI算力。這種具有原生AI能力的CPU,我們稱(chēng)之為AI CPU。K1作為進(jìn)迭時(shí)空第一顆AI CPU芯片,已于今年4月份發(fā)布。

下面我們以K1為例,結(jié)合llama.cpp來(lái)展示AI CPU在大模型領(lǐng)域的優(yōu)勢(shì)。


llama.cpp是一個(gè)開(kāi)源的高性能CPU/GPU大語(yǔ)言模型推理框架,適用于消費(fèi)級(jí)設(shè)備及邊緣設(shè)備。開(kāi)發(fā)者可以通過(guò)工具將各類(lèi)開(kāi)源大語(yǔ)言模型轉(zhuǎn)換并量化成gguf格式的文件,然后通過(guò)llama.cpp實(shí)現(xiàn)本地推理。

得益于RISC-V社區(qū)的貢獻(xiàn),已有l(wèi)lama.cpp在K1上高效運(yùn)行的案例,但大語(yǔ)言模型的CPU資源使用過(guò)高,使其很難負(fù)載其他的上層應(yīng)用。為此進(jìn)迭時(shí)空在llama.cpp社區(qū)版本的基礎(chǔ)上,基于IME矩陣加速拓展指令,對(duì)大模型相關(guān)算子進(jìn)行了優(yōu)化,在僅使用4核CPU的情況下,達(dá)到目前社區(qū)最好版本8核性能的2-3倍,充分釋放了CPU Loading,給開(kāi)發(fā)者更多空間實(shí)現(xiàn)AI應(yīng)用。


Ollama是一個(gè)開(kāi)源的大型語(yǔ)言模型服務(wù)工具,它幫助用戶(hù)快速在本地運(yùn)行大模型。通過(guò)簡(jiǎn)單的安裝指令,用戶(hù)可以執(zhí)行一條命令就在本地運(yùn)行開(kāi)源大型語(yǔ)言模型,如Llama、Qwen、Gemma等。

部署實(shí)踐

工具與模型準(zhǔn)備

#在K1上拉取ollama與llama.cpp預(yù)編譯包apt updateapt install spacemit-ollama-toolkit
#k開(kāi)啟ollama服務(wù)ollama serve
#下載模型wget -P /home/llm/ https://archive.spacemit.com/spacemit-ai/ModelZoo/gguf/qwen2.5-0.5b-q4_0_16_8.gguf
#導(dǎo)入模型,例為qwen2.5-0.5b#modelfile地址:https://archive.spacemit.com/spacemit-ai/ollama/modelfile/qwen2.5-0.5b.modelfileollama create qwen2 -f qwen2.5-0.5b.modelfile
#運(yùn)行模型ollama run qwen2

Ollama效果展示


性能與資源展示

我們選取了端側(cè)具有代表性的0.5B-4B尺寸的大語(yǔ)言模型,展示K1的AI擴(kuò)展指令的加速效果。

參考性能分別為llama.cpp的master分支(下稱(chēng)官方版本),以及RISC-V社區(qū)的優(yōu)化版本(下稱(chēng)RISC-V社區(qū)版本,GitHub地址為:

https://github.com/xctan/llama.cpp/tree/rvv_q4_0_8x8)

d43e940e-edc0-11ef-9434-92fbcf53809c.png

所有模型均采用4bit量化。其中RISC-V社區(qū)版本以及官方版本模型為最優(yōu)實(shí)現(xiàn)的加速效果,模型量化時(shí)將token-embedding-type設(shè)置為q8_0。

llama.cpp的進(jìn)迭時(shí)空版本CPU占用情況:

d44b142c-edc0-11ef-9434-92fbcf53809c.pngd4557b74-edc0-11ef-9434-92fbcf53809c.png

llama.cpp的RISC-V社區(qū)版本CPU占用情況:

d4611e5c-edc0-11ef-9434-92fbcf53809c.pngd46aee64-edc0-11ef-9434-92fbcf53809c.png

參考文檔

https://github.com/ggerganov/llama.cpp

https://github.com/ollama/ollama

https://github.com/QwenLM/Qwen2.5

Qwen2 Technical Report

https://ollama.com

結(jié)語(yǔ)

進(jìn)迭時(shí)空在K1平臺(tái)上大模型部署方面取得了初步進(jìn)展,其卓越的性能與高度的開(kāi)放性令人矚目。這為開(kāi)發(fā)者們提供了一個(gè)極為友好的環(huán)境,使他們能夠輕松依托社區(qū)資源,進(jìn)一步拓展和創(chuàng)新,開(kāi)發(fā)出更多豐富的應(yīng)用。

我們滿(mǎn)懷期待地憧憬著K1平臺(tái)上未來(lái)可能出現(xiàn)的更多大語(yǔ)言模型應(yīng)用的創(chuàng)新設(shè)想。在此過(guò)程中,我們將持續(xù)保持關(guān)注并不斷推進(jìn)相關(guān)工作。此外,本文所提及的預(yù)發(fā)布軟件包,將在年底以源代碼的形式開(kāi)源,以供廣大開(kāi)發(fā)者共同學(xué)習(xí)與探索。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀(guān)點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 芯片
    +關(guān)注

    關(guān)注

    463

    文章

    54345

    瀏覽量

    468648
  • cpu
    cpu
    +關(guān)注

    關(guān)注

    68

    文章

    11319

    瀏覽量

    225733
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3738

    瀏覽量

    5263
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    【瑞薩AI挑戰(zhàn)賽】手寫(xiě)數(shù)字識(shí)別模型在RA8P1 Titan Board上的部署

    最終的板端部署與運(yùn)行,完整實(shí)現(xiàn)手寫(xiě)數(shù)字識(shí)別模型的端側(cè)落地,為嵌入式AI開(kāi)發(fā)提供可參考的實(shí)踐方案。 一、RA8P1 Titan Board開(kāi)發(fā)
    發(fā)表于 03-15 20:42

    模型 ai coding 比較

    序 我主要用途是 ai coding,從各種渠道獲取到了很多 不同的大模型排序 最多的是 opus 4.6 > k2.5 > glm5 >
    發(fā)表于 02-19 13:43

    如何在Arm Neoverse N2平臺(tái)上提升llama.cpp擴(kuò)展性能

    跨 NUMA 內(nèi)存訪(fǎng)問(wèn)可能會(huì)限制 llama.cpp 在 Arm Neoverse 平臺(tái)上的擴(kuò)展能力。本文將為你詳細(xì)分析這一問(wèn)題,并通過(guò)引入原型驗(yàn)證補(bǔ)丁來(lái)加以解決。測(cè)試結(jié)果表明,在基于 Neoverse N2 平臺(tái)的系統(tǒng)上運(yùn)行 llama3_Q4_0
    的頭像 發(fā)表于 02-11 10:06 ?283次閱讀

    NVIDIA DLSS 4.5為4K 240Hz路徑追蹤游戲體驗(yàn)提供強(qiáng)勁支持

    DLSS 技術(shù)持續(xù)進(jìn)步,超分辨率升級(jí),并引入基于第二代 Transformer AI 模型的 6 倍動(dòng)態(tài)多幀生成。RTX 加速為 ComfyUI、LTX-2 和 Llama.cpp 等頂級(jí)主流
    的頭像 發(fā)表于 01-09 10:28 ?678次閱讀

    【CIE全國(guó)RISC-V創(chuàng)新應(yīng)用大賽】基于 K1 AI CPU 的大模型部署落地

    的 落地方案 : 1. 系統(tǒng)部署方案書(shū) (System Proposal) 方案要點(diǎn) 部署工具 :使用官方提供的 spacemit-llama.cpp (v0.0.4) 二進(jìn)制包。
    發(fā)表于 11-27 14:43

    十萬(wàn)元獎(jiǎng)金池!首屆全國(guó)RISC-V高水平創(chuàng)新及應(yīng)用大賽火熱進(jìn)行中

    ://bianbu.spacemit.com/ai/llama-cpp 2.基于K1 AI CPU的大
    發(fā)表于 09-25 13:56

    本地部署openWebUI + ollama+DeepSeek 打造智能知識(shí)庫(kù)并實(shí)現(xiàn)遠(yuǎn)程訪(fǎng)問(wèn)

    。 DeepSeek 作為一個(gè)開(kāi)源的大語(yǔ)言模型,我們可以通過(guò) ZeroNews + openWebUI + ollama的方式,輕松的在本地私有化部署 DeepSeek,不受網(wǎng)絡(luò)攻擊影響,滿(mǎn)足不同用戶(hù)的需求場(chǎng)景。 下面
    的頭像 發(fā)表于 09-10 16:41 ?5498次閱讀
    本地<b class='flag-5'>部署</b>openWebUI + <b class='flag-5'>ollama</b>+DeepSeek 打造智能知識(shí)庫(kù)并實(shí)現(xiàn)遠(yuǎn)程訪(fǎng)問(wèn)

    RISC-V CPU 上 3 倍推理加速!V-SEEK:在 SOPHON SG2042 上加速 14B LLM

    關(guān)鍵詞:V-SEEK、LLMInferenceOptimization、RISC-V、SOPHONSG2042、llama.cpp、NUMAOptimizationV-SEE
    的頭像 發(fā)表于 08-05 14:01 ?1465次閱讀
    RISC-V <b class='flag-5'>CPU</b> 上 3 倍推理加速!V-SEEK:在 SOPHON SG2042 上加速 14B LLM

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?

    ai_cube訓(xùn)練模型最后部署失敗是什么原因?文件保存路徑里也沒(méi)有中文 查看AICube/AI_Cube.log,看看報(bào)什么錯(cuò)?
    發(fā)表于 07-30 08:15

    利用Arm i8mm指令優(yōu)化llama.cpp

    本文將為你介紹如何利用 Arm i8mm 指令,具體來(lái)說(shuō),是通過(guò)帶符號(hào) 8 位整數(shù)矩陣乘加指令 smmla,來(lái)優(yōu)化 llama.cpp 中 Q6_K 和 Q4_K 量化模型推理。
    的頭像 發(fā)表于 07-24 09:51 ?2141次閱讀
    利用Arm i8mm指令優(yōu)化<b class='flag-5'>llama.cpp</b>

    【VisionFive 2單板計(jì)算機(jī)試用體驗(yàn)】3、開(kāi)源大語(yǔ)言模型部署

    1ollama平臺(tái)搭建 ollama可以快速地部署開(kāi)源大模型,網(wǎng)址為https://ollama
    發(fā)表于 07-19 15:45

    Arm Neoverse N2平臺(tái)實(shí)現(xiàn)DeepSeek-R1滿(mǎn)血版部署

    頗具優(yōu)勢(shì)。Arm 攜手合作伙伴,在 Arm Neoverse N2 平臺(tái)上使用開(kāi)源推理框架 llama.cpp 實(shí)現(xiàn) DeepSeek-R1 滿(mǎn)血版的部署,目前已可提供線(xiàn)上服務(wù)。
    的頭像 發(fā)表于 07-03 14:37 ?1403次閱讀
    Arm Neoverse N2平臺(tái)實(shí)現(xiàn)DeepSeek-R<b class='flag-5'>1</b>滿(mǎn)血版<b class='flag-5'>部署</b>

    【M-K1HSE開(kāi)發(fā)板免費(fèi)體驗(yàn)】開(kāi)發(fā)板硬件解析

    算力是ARM A55的130%以上,能夠滿(mǎn)足高性能計(jì)算的需求。 2.AI加速能力:K1芯片融合了2.0TOPS的原生AI算力,支持從AlexNet到Llama-2-7b的所有
    發(fā)表于 07-02 11:57

    高度集成,基于RISC-V AI CPU芯片K1的PsP封裝CoM產(chǎn)品發(fā)布

    進(jìn)迭時(shí)空推出首款PsP(Package-side-Package)封裝CoM(Computer-on-Module)產(chǎn)品B1,集成RISC-VAICPU芯片K1、LPDDR4x芯片和無(wú)源器件,重布線(xiàn)
    的頭像 發(fā)表于 06-06 16:55 ?1281次閱讀
    高度集成,基于RISC-V <b class='flag-5'>AI</b> <b class='flag-5'>CPU</b>芯片<b class='flag-5'>K1</b>的PsP封裝CoM產(chǎn)品發(fā)布

    【幸狐Omni3576邊緣計(jì)算套件試用體驗(yàn)】CPU部署DeekSeek-R1模型1B和7B)

    一、DeepSeek簡(jiǎn)介 DeepSeek是由中國(guó)深度求索公司開(kāi)發(fā)的開(kāi)源大語(yǔ)言模型系列,其研發(fā)始于2023年,目標(biāo)是為學(xué)術(shù)界和產(chǎn)業(yè)界提供高效可控的AI基礎(chǔ)設(shè)施。R1系列作為其里程碑版本,通過(guò)稀疏化
    發(fā)表于 04-21 00:39
    仙游县| 嘉义市| 红河县| 安溪县| 肥西县| 鄢陵县| 永宁县| 万荣县| 林口县| 集贤县| 萨迦县| 贵南县| 绍兴市| 中山市| 民权县| 临夏县| 龙海市| 九龙城区| 宜君县| 台湾省| 修文县| 洛浦县| 那坡县| 崇仁县| 江山市| 六盘水市| 台江县| 都昌县| 昔阳县| 日土县| 宁河县| 龙泉市| 福州市| 吉首市| 凌海市| 台北市| 上杭县| 陈巴尔虎旗| 育儿| 福安市| 马山县|