哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

愛(ài)芯元智邊緣AI芯片AX8850完成CosyVoice2大模型適配

愛(ài)芯元智AXERA ? 來(lái)源:愛(ài)芯元智AXERA ? 2025-12-11 10:35 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

0 TL;DR

已適配 CosyVoice2 到 AX8850 開發(fā)板和 M.2 算力卡,可以協(xié)助樹莓派5實(shí)現(xiàn)本地語(yǔ)音克??;

預(yù)編譯示例已開源(GitHub & HuggingFace),附帶簡(jiǎn)易 Gradio 演示界面;

RTF 1.5 左右(M.2 算力卡 RTF 2.5左右),適合對(duì)實(shí)時(shí)性要求不高的離線場(chǎng)景;

想要RTF <0.1 的 TTS,對(duì)音色效果要求不高的場(chǎng)景,可以參考我們才適配好的 Kokoro:

https://huggingface.co/AXERA-TECH/kokoro.axera

背景

今年下半年,隨著業(yè)務(wù)推廣需求增加,我們的大模型適配工作也有了新方向:不再只追求前沿模型的快速適配,而是更聚焦為銷售團(tuán)隊(duì)提供“能打”的實(shí)戰(zhàn)“彈藥”——也就是貼近客戶剛需的、可快速落地的大模型解決方案。

因此,接下來(lái)的技術(shù)分享會(huì)更聚焦在基于我司邊緣 AI 芯片 AX8850 的實(shí)際應(yīng)用落地,幫助客戶實(shí)現(xiàn)從 Demo 到量產(chǎn)的跨越。

其中一個(gè)重點(diǎn)場(chǎng)景就是:離線語(yǔ)音智能助手。

目前實(shí)現(xiàn)方式大致分兩種:

組合式方案:ASR → LLM → TTS(或 Audio-LLM → TTS)

端到端方案:用一個(gè)全能大模型(如Qwen3-omni)直接處理語(yǔ)音輸入輸出

我們更傾向組合式方案,因?yàn)椋?/p>

模塊靈活,可單獨(dú)升級(jí)替換

成本低,ROI 高

更容易適配不同客戶場(chǎng)景

而在組合方案中,TTS 是關(guān)鍵一環(huán)。我們希望它能支持語(yǔ)音克隆,讓助手更有“人味”。

目前主流的開源語(yǔ)音克隆TTS模型有:CosyVoice 2、IndexTTS2、VoxCPM 等。本文先帶大家快速看看 CosyVoice 2 在 AX8850 芯片上的部署進(jìn)展,希望能為想在邊緣側(cè)做語(yǔ)音克隆的開發(fā)者提供一個(gè)新選擇。

CosyVoice2

CosyVoice 2 是阿里巴巴通義實(shí)驗(yàn)室推出的一個(gè)開源多語(yǔ)言語(yǔ)音生成大模型,主要用于文本轉(zhuǎn)語(yǔ)音(TTS)應(yīng)用的開發(fā)。該模型在前代 CosyVoice 的基礎(chǔ)上,通過(guò)系統(tǒng)性優(yōu)化,實(shí)現(xiàn)了在流式(實(shí)時(shí))模式下與人類語(yǔ)音媲美且近乎無(wú)損的合成質(zhì)量,同時(shí)顯著降低了響應(yīng)延遲。

Huggingface 鏈接

https://huggingface.co/FunAudioLLM/CosyVoice2-0.5B

GitHub 鏈接

https://GitHub.com/FunAudioLLM/CosyVoice

Paper 鏈接:

https://arxiv.org/pdf/2412.10117

Demos:

https://funaudiollm.GitHub.io/cosyvoice2/

架構(gòu)特點(diǎn):

CosyVoice 2 的架構(gòu)延續(xù)了將語(yǔ)音信號(hào)的語(yǔ)義信息(說(shuō)什么)和聲學(xué)信息(怎么說(shuō))分離建模的設(shè)計(jì)理念,主要由三個(gè)關(guān)鍵組件構(gòu)成:

監(jiān)督式語(yǔ)義語(yǔ)音分詞器 (Supervised Semantic Speech Tokenizer):

這是一個(gè)基于 SenseVoice-Large ASR 模型改造的模塊。

它使用有限標(biāo)量量化 (Finite Scalar Quantization, FSQ) 技術(shù),將連續(xù)的語(yǔ)音信號(hào)離散化為語(yǔ)義語(yǔ)音標(biāo)記(speech tokens)。

FSQ 的引入替代了傳統(tǒng)的向量量化(VQ),顯著提高了碼本利用率,能更有效地捕捉和保留語(yǔ)音中的信息。

統(tǒng)一的文本-語(yǔ)音語(yǔ)言模型 (Unified Text-Speech Language Model):

這是 CosyVoice 2 的核心創(chuàng)新之一,實(shí)現(xiàn)了流式與非流式合成的統(tǒng)一。

該模型直接采用一個(gè)預(yù)訓(xùn)練的大型語(yǔ)言模型(Qwen2.5-0.5B)作為骨干網(wǎng)絡(luò),去除了前代模型中的文本編碼器和說(shuō)話人嵌入,簡(jiǎn)化了架構(gòu)并增強(qiáng)了上下文理解能力。

流式模式:輸入文本以連續(xù)流的方式接收。模型通過(guò)將 N 個(gè)文本標(biāo)記與 M 個(gè)語(yǔ)音標(biāo)記按特定比例(如 5:15)混合的方式進(jìn)行訓(xùn)練。當(dāng)模型預(yù)測(cè)到“填充標(biāo)記”時(shí),系統(tǒng)便知道需要繼續(xù)接收下一個(gè)文本塊,從而實(shí)現(xiàn)邊接收文本邊生成語(yǔ)音標(biāo)記的流式處理。

非流式模式:完整的輸入文本和語(yǔ)音標(biāo)記被直接拼接,模型進(jìn)行一次性生成。

通過(guò)在同一模型上同時(shí)訓(xùn)練這兩種模式,CosyVoice 2 實(shí)現(xiàn)了“一個(gè)模型,兩種模式”,并且流式合成的質(zhì)量與非流式模式幾乎無(wú)損。

塊感知因果流匹配模型 (Chunk-Aware Causal Flow Matching Model):

該模塊負(fù)責(zé)將語(yǔ)言模型生成的語(yǔ)義語(yǔ)音標(biāo)記轉(zhuǎn)換為包含音色、韻律等細(xì)節(jié)的梅爾頻譜圖(Mel spectrum)。

它基于流匹配 (Flow Matching) 技術(shù),是一種非自回歸(NAR)的生成模型。

為了支持流式合成,模型設(shè)計(jì)了因果卷積 Transformer UNet 結(jié)構(gòu),并引入了四種不同的注意力掩碼:

- 非因果掩碼:用于離線模式,性能最佳。

- 全因果掩碼:僅允許訪問(wèn)過(guò)去的信息,延遲最低。

- Chunk-M/Chunk-2M 掩碼:權(quán)衡延遲與性能,允許訪問(wèn)有限的未來(lái)信息。

在訓(xùn)練時(shí),隨機(jī)從這四種掩碼中選擇一種,使得單一模型能夠適應(yīng)不同的合成場(chǎng)景(低延遲流式、高質(zhì)量離線等),極大地簡(jiǎn)化了部署。

f496ce50-d033-11f0-8c8f-92fbcf53809c.png

f4fa6d20-d033-11f0-8c8f-92fbcf53809c.png

f5575364-d033-11f0-8c8f-92fbcf53809c.png

Benchmark

f5b360c8-d033-11f0-8c8f-92fbcf53809c.png

總結(jié)來(lái)說(shuō),CosyVoice 2 的架構(gòu)通過(guò) FSQ 提升信息編碼效率,利用統(tǒng)一的 LLM 架構(gòu)實(shí)現(xiàn)流式與非流式的無(wú)縫切換,并采用塊感知的因果流匹配模型來(lái)支持靈活的流式聲學(xué)合成,最終構(gòu)建了一個(gè)高質(zhì)量、低延遲、部署靈活的先進(jìn)語(yǔ)音合成系統(tǒng)。

部署示例

為了更好的進(jìn)行開發(fā)者社區(qū)技術(shù)推廣,因此我們將借助國(guó)內(nèi)外非常成熟的樹莓派生態(tài)產(chǎn)品:樹莓派 5+AXCL 算力卡的形態(tài)進(jìn)行說(shuō)明。基于 AX8850 的社區(qū)開發(fā)板同樣也支持部署該實(shí)例,本文就不單獨(dú)說(shuō)明了。

默認(rèn)本文的閱讀者能自行解決訪問(wèn) Huggingface 的辦法。

硬件推薦

樹莓派 5 + LLM8850-Card

f610b476-d033-11f0-8c8f-92fbcf53809c.png

樹莓派 5 + Maix4-HAT

f66f7be6-d033-11f0-8c8f-92fbcf53809c.png

軟件步驟

默認(rèn)已按照硬件產(chǎn)品的指導(dǎo)文檔完成了硬件及必要的軟件驅(qū)動(dòng)安裝(例如 AXCL 驅(qū)動(dòng)包)。

預(yù)編譯好的模型和示例已經(jīng)上傳到 huggingface(或者 hf-mirror)。

https://huggingface.co/AXERA-TECH/CosyVoice2

如何將原始的模型轉(zhuǎn)換成 axmodel 并部署,請(qǐng)參考我們的 GitHub 倉(cāng)庫(kù)。

https://github.com/AXERA-TECH/Cosyvoice2.Axera

(友情提示:除非對(duì)該模型有 finetuning 需求的同學(xué),否則我建議一開始不要浪費(fèi)時(shí)間來(lái)學(xué)習(xí)該模型的換行或者示例代碼的編譯,因?yàn)檫^(guò)程比較復(fù)雜┓( ′?` )┏)

獲取示例

//代碼開始

pip install huggingface_hub
exportHF_ENDPOINT=HTTPS://hf-mirror.com
hf downloadAXERA-TECH/CosyVoice2--local-dirAXERA-TECH/CosyVoice2

//代碼結(jié)束

安裝依賴

//代碼開始

cdAXERA-TECH/CosyVoice2
pip install -r scripts/requirements.txt
pip install modelscope
modelscope download --model pengzhendong/wetext --local_dir pengzhendong/wetext

//代碼結(jié)束

運(yùn)行示例

這里我們選擇基于 Gradio WebGUI 的方案

運(yùn)行 tokenizer 服務(wù)

//代碼開始

cdscripts
Python cosyvoice2_tokenizer.py

//代碼結(jié)束

運(yùn)行 axcl api 程序

//代碼開始

cponnxruntime-Linux-aarch64-1.23.0/lib/libonnxruntime.so.1.23.0libonnxruntime.so.1
run_axcl_aarch64.sh

//代碼結(jié)束

運(yùn)行 gradio 腳本

//代碼開始

Python scripts/gradio_demo.py

//代碼結(jié)束

通過(guò) web 瀏覽器訪問(wèn)

f6d2c6b0-d033-11f0-8c8f-92fbcf53809c.jpg

補(bǔ)充知識(shí)

阿里巴巴通義實(shí)驗(yàn)室除了研發(fā)家喻戶曉的通義千問(wèn)大模型之外,其實(shí)還有很多其他有趣、有價(jià)值的項(xiàng)目。

FunAudioLLM

f72bb356-d033-11f0-8c8f-92fbcf53809c.png

是阿里巴巴通義實(shí)驗(yàn)室推出的一個(gè)面向語(yǔ)音生成的開源大模型項(xiàng)目,旨在通過(guò)大語(yǔ)言模型(LLM)技術(shù),實(shí)現(xiàn)更自然、更智能的語(yǔ)音合成與對(duì)話能力。

FunAudioLLM 并不是一個(gè)單一模型,而是一個(gè)包含語(yǔ)音識(shí)別(SenseVoice)和語(yǔ)音合成(CosyVoice)的開源語(yǔ)音生成大模型套件。它代表了阿里在語(yǔ)音技術(shù)領(lǐng)域的前沿探索,致力于打造能理解情感、自然交流的下一代人機(jī)語(yǔ)音交互體驗(yàn)。

FunAudioLLM 的整體目標(biāo)是構(gòu)建一個(gè)端到端的語(yǔ)音生成系統(tǒng),將先進(jìn)的語(yǔ)音識(shí)別(SenseVoice)與高質(zhì)量的語(yǔ)音合成(CosyVoice)能力深度結(jié)合,實(shí)現(xiàn)從“聽懂人話”到“說(shuō)出人話”的完整、智能閉環(huán)。它特別適用于:

智能客服與虛擬助手:不僅能理解用戶語(yǔ)音并識(shí)別其情緒,還能用自然、富有情感的語(yǔ)音進(jìn)行回應(yīng)。

有聲書與內(nèi)容創(chuàng)作:用指定音色朗讀文本。

多語(yǔ)言內(nèi)容生成與實(shí)時(shí)翻譯:支持跨語(yǔ)言的語(yǔ)音轉(zhuǎn)寫與合成。

會(huì)議記錄與無(wú)障礙閱讀:實(shí)時(shí)轉(zhuǎn)錄并可選語(yǔ)音播報(bào)。

在后續(xù)的文章中,我們會(huì)針對(duì) SenceVoice 模型單獨(dú)說(shuō)明。

感謝

@M5Stack @矽速科技 提供適用于樹莓派 5 的 M.2 2242 算力卡 和 Maix4-HAT 算力模組

@某營(yíng)銷部同學(xué)貢獻(xiàn)聲源片段數(shù)據(jù)輔助 CosyVoice 2 生成《贈(zèng)汪倫》

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 開發(fā)板
    +關(guān)注

    關(guān)注

    26

    文章

    6386

    瀏覽量

    120288
  • 樹莓派
    +關(guān)注

    關(guān)注

    122

    文章

    2081

    瀏覽量

    110731
  • AI芯片
    +關(guān)注

    關(guān)注

    17

    文章

    2156

    瀏覽量

    36854

原文標(biāo)題:愛(ài)芯分享 | AX8850社區(qū)開發(fā)板完成CosyVoice2適配

文章出處:【微信號(hào):愛(ài)芯元智AXERA,微信公眾號(hào):愛(ài)芯元智AXERA】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    愛(ài)邊緣AI芯片AX8850完成Qwen3-VL多模態(tài)大模型適配

    適配 Qwen3-VL-2B/4B/8B 到 AX8850 開發(fā)板和 M.2 算力卡,可在本地完成圖片內(nèi)容理解和視頻概要生成,可配合“樹莓
    的頭像 發(fā)表于 11-26 13:57 ?3338次閱讀
    <b class='flag-5'>愛(ài)</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智<b class='flag-5'>邊緣</b><b class='flag-5'>AI</b><b class='flag-5'>芯片</b><b class='flag-5'>AX8850</b><b class='flag-5'>完成</b>Qwen3-VL多模態(tài)大<b class='flag-5'>模型</b><b class='flag-5'>適配</b>

    愛(ài)AX8850:以邊緣算力,讓具身智能觸手可及

    ”的創(chuàng)新IC新品推介。受主辦方邀請(qǐng),愛(ài)智半導(dǎo)體股份有限公司聯(lián)合創(chuàng)始人、副總裁劉建偉帶來(lái)了《AX8850:以邊緣算力,讓具身智能觸手可及》
    的頭像 發(fā)表于 05-13 18:16 ?8052次閱讀
    <b class='flag-5'>愛(ài)</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智<b class='flag-5'>AX8850</b>:以<b class='flag-5'>邊緣</b>算力,讓具身智能觸手可及

    愛(ài)派 Pro 開發(fā)板試用體驗(yàn)】部署愛(ài)派官方Y(jié)OLOV5模型

    /install/ax650/ 路徑下。 其中很多案例程序,因?yàn)橹悄芙淌倚枰妩c(diǎn)人數(shù),所以選擇了YOLOV5和YOLOV7_TINY face兩個(gè)demo。 三、下載模型 愛(ài)
    發(fā)表于 12-12 22:58

    愛(ài)智推出首款旗艦芯片-AX630A

    愛(ài)智順應(yīng)科技潮流、精準(zhǔn)洞察行業(yè)發(fā)展趨勢(shì),于公司成立第二年推出首款旗艦芯片——AX630A,此款產(chǎn)品既體現(xiàn)了
    的頭像 發(fā)表于 04-27 17:20 ?4598次閱讀

    愛(ài)AX620E和AX650芯片獲PSA一級(jí)安全認(rèn)證

    據(jù)認(rèn)證資料顯示,愛(ài)AX620E系列是專為IPC及其他智能視覺(jué)應(yīng)用而生的高性能AI視覺(jué)處理器,在高畫質(zhì)、智能處理和分析等方面均處于業(yè)界領(lǐng)
    的頭像 發(fā)表于 04-23 17:04 ?2074次閱讀

    愛(ài)智發(fā)布邊緣智能芯片AX8850

    ”為主題,愛(ài)智聯(lián)合創(chuàng)始人、副總裁劉建偉受邀出席,不僅帶來(lái)最新算力產(chǎn)品AX8850,也對(duì)當(dāng)下邊緣計(jì)算需求對(duì)具身智能發(fā)展的推動(dòng)給出了深層思考
    的頭像 發(fā)表于 05-16 10:59 ?1925次閱讀

    愛(ài)智攜手靈境聲學(xué)推出“愛(ài)聲”音頻解決方案

    Umix AI”全景聲行業(yè)大模型的專屬音頻芯片方案——“愛(ài)聲”。該方案搭載靈境聲學(xué)自研的“靈
    的頭像 發(fā)表于 08-01 10:43 ?5045次閱讀

    愛(ài)智重磅發(fā)布邊緣計(jì)算戰(zhàn)略

    近日,愛(ài)智在2025世界人工智能大會(huì)上重磅發(fā)布邊緣計(jì)算戰(zhàn)略。展會(huì)現(xiàn)場(chǎng)匯聚了眾多行業(yè)精英,共同見(jiàn)證了愛(ài)
    的頭像 發(fā)表于 08-01 10:45 ?1462次閱讀

    新品 | LLM-8850 Card, AX8850邊緣設(shè)備AI加速卡

    LLM?8850?Card是一款面向邊緣設(shè)備的M.2M-KEY2242?AI加速卡,把42?mm的袖珍體積與AxeraAX8850?SoC的
    的頭像 發(fā)表于 09-26 18:18 ?1332次閱讀
    新品 | LLM-<b class='flag-5'>8850</b> Card, <b class='flag-5'>AX8850</b><b class='flag-5'>邊緣</b>設(shè)備<b class='flag-5'>AI</b>加速卡

    愛(ài)智攜手合作伙伴M5Stack亮相YOLO Vision 2025

    近日,全球計(jì)算機(jī)視覺(jué)領(lǐng)域的權(quán)威盛會(huì)——YOLO Vision 2025,亞洲首秀在深圳舉行。愛(ài)智攜手合作伙伴M5Stack,以AX8850賦能M.
    的頭像 發(fā)表于 11-02 09:20 ?1346次閱讀
    <b class='flag-5'>愛(ài)</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智攜手合作伙伴M5Stack亮相YOLO Vision 2025

    Cadence與愛(ài)智深化合作以推動(dòng)人形機(jī)器人發(fā)展

    近日,楷登電子 Cadence 與邊緣 SoC 領(lǐng)軍企業(yè)愛(ài)智共同宣布,愛(ài)
    的頭像 發(fā)表于 12-11 10:16 ?2141次閱讀

    愛(ài)智通過(guò)港交所聆訊,有望成為“中國(guó)邊緣AI芯片第一股”

    愛(ài)智通過(guò)港交所聆訊, 全球第一大中高端視覺(jué)端側(cè)AI推理芯片供應(yīng)商沖刺上市 1月25日,中國(guó)邊緣
    的頭像 發(fā)表于 01-26 10:10 ?509次閱讀

    邊緣計(jì)算AI芯片企業(yè)愛(ài)智港股上市

    (中國(guó)香港)2026年2月10日,人工智能感知與邊緣計(jì)算芯片領(lǐng)軍企業(yè)愛(ài)智半導(dǎo)體股份有限公司(
    的頭像 發(fā)表于 02-11 16:51 ?1306次閱讀

    愛(ài)邊緣SoC AX8850亮相MWC 2026

    近日,在西班牙巴塞羅那2026年世界移動(dòng)通信大會(huì)(MWC)上,廣和通展出的家庭智享融合CPE解決方案憑借其對(duì)家庭核心數(shù)據(jù)場(chǎng)景的深度理解,成為展臺(tái)焦點(diǎn)。該方案搭載愛(ài)邊緣SoC——
    的頭像 發(fā)表于 03-12 16:21 ?294次閱讀
    <b class='flag-5'>愛(ài)</b><b class='flag-5'>芯</b><b class='flag-5'>元</b>智<b class='flag-5'>邊緣</b>SoC <b class='flag-5'>AX8850</b>亮相MWC 2026

    愛(ài)邊緣SoC AX8850亮相Embedded World 2026

    近日,在德國(guó)紐倫堡舉行的2026年嵌入式展覽會(huì)(Embedded World)上,愛(ài)智(Axera)聯(lián)合合作伙伴明??萍?M5Stack)展出的AI PC產(chǎn)品
    的頭像 發(fā)表于 03-18 15:31 ?338次閱讀
    五寨县| 晴隆县| 黄梅县| 许昌县| 定南县| 扎鲁特旗| 木里| 綦江县| 明溪县| 关岭| 崇州市| 福建省| 达日县| 栖霞市| SHOW| 翁源县| 香港 | 岳池县| 肇东市| 汉源县| 新乐市| 象州县| 岳普湖县| 宜昌市| 曲麻莱县| 北票市| 安阳市| 南溪县| 阿瓦提县| 上饶县| 阿坝县| 古交市| 通州市| 汨罗市| 什邡市| 林芝县| 天气| 铁力市| 凤台县| 崇义县| 萍乡市|