哈哈哈哈哈操欧洲电影,久草网在线,亚洲久久熟女熟妇视频,麻豆精品色,久久福利在线视频,日韩中文字幕的,淫乱毛视频一区,亚洲成人一二三,中文人妻日韩精品电影

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

關于科大訊飛對新一代語音識別系統(tǒng)技術原理的分析和介紹

訊飛開放平臺 ? 來源:djl ? 2019-10-08 11:20 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

作為國內(nèi)智能語音與人工智能產(chǎn)業(yè)領導者,科大訊飛在北京國家會議中心召開了以“AI復始,萬物更新”為主題的2015年年度發(fā)布會。在發(fā)布會上,科大訊飛介紹了訊飛超腦計劃的最新進展,并發(fā)布了數(shù)款讓人印象深刻的創(chuàng)新型產(chǎn)品。特別值得一提的是,在發(fā)布會現(xiàn)場,科大訊飛全球首次將演講人的演講,同步轉寫成文字在大屏幕顯示,敢于接受現(xiàn)場數(shù)千參會者和數(shù)千萬觀看視頻直播觀眾的檢驗,系統(tǒng)的轉寫效果之好讓大家直呼驚艷。此次發(fā)布會轉寫系統(tǒng)就是依托于訊飛全球領先的中文語音識別系統(tǒng)。今天,我們就為大家從技術上揭秘科大訊飛的新一代語音識別系統(tǒng)。


劉慶峰董事長現(xiàn)場演講內(nèi)容同步轉寫成文字顯示在屏幕上

眾所周知,自2011年微軟研究院首次利用深度神經(jīng)網(wǎng)絡(Deep Neural Network, DNN)在大規(guī)模語音識別任務上獲得顯著效果提升以來,DNN在語音識別領域受到越來越多的關注,目前已經(jīng)成為主流語音識別系統(tǒng)的標配。然而,更深入的研究成果表明,DNN結構雖然具有很強的分類能力,但是其針對上下文時序信息的捕捉能力是較弱的,因此并不適合處理具有長時相關性的時序信號。而語音是一種各幀之間具有很強相關性的復雜時變信號,這種相關性主要體現(xiàn)在說話時的協(xié)同發(fā)音現(xiàn)象上,往往前后好幾個字對我們正要說的字都有影響,也就是語音的各幀之間具有長時相關性。

關于科大訊飛對新一代語音識別系統(tǒng)技術原理的分析和介紹

圖1:DNN和RNN示意圖

相比前饋型神經(jīng)網(wǎng)絡DNN,循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network, RNN)在隱層上增加了一個反饋連接,也就是說,RNN隱層當前時刻的輸入有一部分是前一時刻的隱層輸出,這使得RNN可以通過循環(huán)反饋連接看到前面所有時刻的信息,這賦予了RNN記憶功能,如圖1所示。這些特點使得RNN非常適合用于對時序信號的建模,在語音識別領域,RNN是一個近年來替換DNN的新的深度學習框架,而長短時記憶模塊(Long-Short Term Memory, LSTM)的引入解決了傳統(tǒng)簡單RNN梯度消失等問題,使得RNN框架可以在語音識別領域?qū)嵱没@得了超越DNN的效果,目前已經(jīng)在業(yè)界一些比較先進的語音系統(tǒng)中使用。

除此之外,研究人員還在RNN的基礎上做了進一步改進工作,圖2是當前語音識別中的主流RNN聲學模型框架,主要還包含兩部分:深層雙向LSTM RNN和CTC(Connectionist Temporal Classification)輸出層。其中雙向RNN對當前語音幀進行判斷時,不僅可以利用歷史的語音信息,還可以利用未來的語音信息,可以進行更加準確的決策;CTC使得訓練過程無需幀級別的標注,實現(xiàn)有效的“端對端”訓練。

關于科大訊飛對新一代語音識別系統(tǒng)技術原理的分析和介紹

圖2:基于LSTM RNN的主流聲學模型框架

目前,國際國內(nèi)已經(jīng)有不少學術或工業(yè)機構掌握了RNN模型,并在上述某個或多個技術點進行研究。然而,上述各個技術點單獨研究時一般可以獲得較好的結果,但是如果想將這些技術點融合在一起的時候,則會碰到一些問題。例如,多個技術結合在一起的提升幅度會比各個技術點幅度的疊加要小。又例如,傳統(tǒng)的雙向RNN方案,理論上需要看到語音的結束(即所有的未來信息),才能成功的應用未來信息來獲得提升,因此只適合處理離線任務,而對于要求即時響應的在線任務(例如語音輸入法)則往往會帶來3-5s的硬延遲,這對于在線任務是不可接受的。再者,RNN對上下文相關性的擬合較強,相對于DNN更容易陷入過擬合的問題,容易因為訓練數(shù)據(jù)的局部不魯棒現(xiàn)象而帶來額外的異常識別錯誤。最后,由于RNN具有比DNN更加復雜的結構,給海量數(shù)據(jù)下的RNN模型訓練帶來了更大的挑戰(zhàn)。

鑒于上述問題,科大訊飛發(fā)明了一種名為前饋型序列記憶網(wǎng)絡FSMN(Feed-forward Sequential Memory Network)的新框架。在這個框架中,可以把上述幾點很好的融合,同時各個技術點對效果的提升可以獲得疊加。值得一提的是,我們在這個系統(tǒng)中創(chuàng)造性提出的FSMN結構,采用非循環(huán)的前饋結構,在只需要180ms延遲下,就達到了和雙向LSTM RNN相當?shù)男Ч?。下面讓我們來具體看下它的構成。

關于科大訊飛對新一代語音識別系統(tǒng)技術原理的分析和介紹

圖3:FSMN結構示意圖

關于科大訊飛對新一代語音識別系統(tǒng)技術原理的分析和介紹

圖4:FSMN中隱層記憶塊的時序展開示意圖(左右各看一幀)

圖3即為FSMN的結構示意圖,相比傳統(tǒng)的DNN,我們在隱層旁增加了一個稱為“記憶塊”的模塊,用于存儲對判斷當前語音幀有用的歷史信息和未來信息。圖4畫出了雙向FSMN中記憶塊左右各記憶一幀語音信息(在實際任務中,可根據(jù)任務需要,人工調(diào)整所需記憶的歷史和未來信息長度)的時序展開結構。

從圖中我們可以看出,不同于傳統(tǒng)的基于循環(huán)反饋的RNN,F(xiàn)SMN記憶塊的記憶功能是使用前饋結構實現(xiàn)的。這種前饋結構有兩大好處:首先,雙向FSMN對未來信息進行記憶時,沒有傳統(tǒng)雙向RNN必須等待語音輸入結束才能對當前語音幀進行判斷的限制,它只需要等待有限長度的未來語音幀即可,正如前文所說的,我們的雙向FSMN在將延遲控制在180ms的情況下就可獲得媲美雙向RNN的效果;其次,如前所述,傳統(tǒng)的簡單RNN因為訓練過程中的梯度是按時間逐次往前傳播的,因此會出現(xiàn)指數(shù)衰減的梯度消失現(xiàn)象,這導致理論上具有無限長記憶的RNN實際上能記住的信息很有限,然而FSMN這種基于前饋時序展開結構的記憶網(wǎng)絡,在訓練過程中梯度沿著圖4中記憶塊與隱層的連接權重往回傳給各個時刻即可,這些連接權重決定了不同時刻輸入對判斷當前語音幀的影響,而且這種梯度傳播在任何時刻的衰減都是常數(shù)的,也是可訓練的,因此FSMN用一種更為簡單的方式解決了RNN中的梯度消失問題,使得其具有類似LSTM的長時記憶能力。

另外,在模型訓練效率和穩(wěn)定性方面,由于FSMN完全基于前饋神經(jīng)網(wǎng)絡,所以不存在RNN訓練中因mini-batch中句子長短不一需要補零而導致浪費運算的情況,前饋結構也使得它的并行度更高,可最大化利用GPU計算能力。從最終訓練收斂的雙向FSMN模型記憶塊中各時刻的加權系數(shù)分布我們觀察到,權重值基本上在當前時刻最大,往左右兩邊逐漸衰減,這也符合預期。進一步,F(xiàn)SMN可和CTC準則結合,實現(xiàn)語音識別中的“端到端”建模。

最后,和其他多個技術點結合后,訊飛基于FSMN的語音識別框架可獲得相比業(yè)界最好的語音識別系統(tǒng)40%的性能提升,同時結合我們的多GPU并行加速技術,訓練效率可達到一萬小時訓練數(shù)據(jù)一天可訓練收斂。后續(xù)基于FSMN框架,我們還將展開更多相關的研究工作,例如:DNN和記憶塊更深層次的組合方式,增加記憶塊部分復雜度強化記憶功能,F(xiàn)SMN結構和CNN等其他結構的更深度融合等。在這些核心技術持續(xù)進步的基礎上,科大訊飛的語音識別系統(tǒng)將不斷挑戰(zhàn)新的高峰!

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 語音識別
    +關注

    關注

    39

    文章

    1814

    瀏覽量

    116210
  • 深度學習
    +關注

    關注

    73

    文章

    5603

    瀏覽量

    124590
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    科大設立子公司:加碼AI與集成電路業(yè)務布局

    ,經(jīng)營范圍涵蓋人工智能公共服務平臺技術咨詢服務、集成電路設計、人工智能基礎軟件開發(fā)等業(yè)務,由科大全資持股。此次新設子公司是科大
    發(fā)表于 12-29 08:53 ?1885次閱讀

    科大蒞臨汽奔騰座談交流

    11月8日,科大股份有限公司總裁吳曉如行來訪汽奔騰。汽奔騰企業(yè)負責人等相關人員接待來賓
    的頭像 發(fā)表于 11-11 17:21 ?1382次閱讀

    2025科大全球1024開發(fā)者節(jié)精彩回顧

    當全球產(chǎn)業(yè)格局和競爭形態(tài)重塑之時,AI將如何發(fā)展?11月6日,在第八屆世界聲博會暨2025科大全球1024開發(fā)者節(jié)發(fā)布會上,科大
    的頭像 發(fā)表于 11-10 11:51 ?1104次閱讀
    2025<b class='flag-5'>科大</b><b class='flag-5'>訊</b><b class='flag-5'>飛</b>全球1024開發(fā)者節(jié)精彩回顧

    科大發(fā)布星火X1.5及系列AI產(chǎn)品

    11月6日,第八屆世界聲博會暨2025科大全球1024開發(fā)者節(jié)發(fā)布會上,科大以《更懂你的
    的頭像 發(fā)表于 11-10 11:49 ?1080次閱讀

    語音識別系統(tǒng)技術核心:從聲音到文字的智能轉換

    ? ? ? 語音識別技術,也稱為自動語音識別(ASR),其核心目標是將人類語音信號轉換為對應的文
    的頭像 發(fā)表于 09-05 14:04 ?934次閱讀

    香港立法會與科大聯(lián)合打造智慧謄錄系統(tǒng)“智識聽”

    香港立法會主席梁君彥在社交平臺發(fā)文點贊的“智識聽”系統(tǒng),是香港立法會與科大聯(lián)合打造的智慧謄錄系統(tǒng)。
    的頭像 發(fā)表于 08-11 14:45 ?1696次閱讀

    鐵路車號識別系統(tǒng)的基本原理與應用

    鐵路車號識別系統(tǒng)是鐵路運輸智能化管理的關鍵技術,它通過自動化手段實現(xiàn)對貨運列車的高效精準識別,為礦區(qū)及鐵路運輸管理提供了重要的技術支撐。
    的頭像 發(fā)表于 07-07 10:30 ?1291次閱讀
    鐵路車號<b class='flag-5'>識別系統(tǒng)</b>的基本原理與應用

    打破交互困局:科大這樣出手

    十年深耕,科大智能交互如何引領未來
    的頭像 發(fā)表于 06-17 11:50 ?1293次閱讀
    打破交互困局:<b class='flag-5'>科大</b><b class='flag-5'>訊</b><b class='flag-5'>飛</b>這樣出手

    回顧科大26周年慶精彩瞬間

    近日,科大26周年司慶上,董事長劉慶峰對這個作文題感觸很深:“從1999年創(chuàng)業(yè)時在“中國被人扼住了咽喉”背景下以語音合成系統(tǒng)破局,到這些
    的頭像 發(fā)表于 06-13 14:08 ?1104次閱讀

    工地AI行為識別系統(tǒng)作用

    工地AI行為識別系統(tǒng)作用 工地AI行為識別系統(tǒng)是什么? 工地AI行為識別系統(tǒng)種基于人工智能技術的智能監(jiān)控方案,通過攝像頭+AI算法,實時
    的頭像 發(fā)表于 05-08 12:00 ?1061次閱讀

    景區(qū)AI行為識別系統(tǒng)作用

    景區(qū)AI行為識別系統(tǒng)作用 景區(qū)AI行為識別系統(tǒng)是什么? 景區(qū)AI行為識別系統(tǒng)是利用人工智能技術(如視頻分析、人臉
    的頭像 發(fā)表于 05-07 15:32 ?1142次閱讀
    景區(qū)AI行為<b class='flag-5'>識別系統(tǒng)</b>作用

    深度學習賦能:正面吊車載箱號識別系統(tǒng)的核心技術

    支撐。 深度學習驅(qū)動的智能識別 傳統(tǒng)OCR技術易受光線、污損或箱體圖案干擾,而新一代識別系統(tǒng)通過深度卷積神經(jīng)網(wǎng)絡(CNN)和注意力機制,實現(xiàn)了復雜場景下的高精度動態(tài)
    的頭像 發(fā)表于 05-07 10:10 ?657次閱讀

    科大加速東南亞企業(yè)的人工智能應用

    現(xiàn)場,OceanDoc全球首發(fā),旨在用AIGC技術提升PPT制作效率。同時,科大與生態(tài)合作伙伴還舉行了戰(zhàn)略簽約儀式,為進步加速東南亞企
    的頭像 發(fā)表于 05-06 09:39 ?1014次閱讀

    科大亮相第137屆廣交會

    今天,第137屆中國進出口商品交易會(廣交會)在廣州開幕。科大年參展,集中展示了星火
    的頭像 發(fā)表于 04-17 09:30 ?1279次閱讀
    商河县| 台山市| 石台县| 胶州市| 赤城县| 彰化市| 德保县| 牡丹江市| 乌兰察布市| 河南省| 容城县| 巴南区| 桦川县| 安多县| 会昌县| 永宁县| 舟山市| 康定县| 滦平县| 泉州市| 筠连县| 朔州市| 新郑市| 河池市| 墨江| 清流县| 年辖:市辖区| 鲁山县| 井研县| 镇坪县| 柏乡县| 富阳市| 长乐市| 博爱县| 祁东县| 天峨县| 琼海市| 綦江县| 聂拉木县| 宣武区| 沁水县|