0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

利用NVIDIA Triton推理服務(wù)器加速語音識(shí)別的速度

NVIDIA英偉達(dá) ? 來源:NVIDIA英偉達(dá) ? 作者:NVIDIA英偉達(dá) ? 2022-05-13 10:40 ? 次閱讀

網(wǎng)易互娛 AI Lab 的研發(fā)人員,基于 Wenet 語音識(shí)別工具進(jìn)行優(yōu)化和創(chuàng)新,利用 NVIDIA Triton 推理服務(wù)器的 GPU Batch Inference 機(jī)制加速了語音識(shí)別的速度,并且降低了成本。

2001 年正式成立的網(wǎng)易游戲·互動(dòng)娛樂事業(yè)群在經(jīng)歷了近 20 年的發(fā)展歷程后,以“創(chuàng)新無邊界,匠心造精品”為文化基石,創(chuàng)造了一系列大家耳熟能詳?shù)拇碜髌?,如?mèng)幻西游系列、大話西游系列、《陰陽師》、《第五人格》、《荒野行動(dòng)》、《率土之濱》、《哈利波特:魔法覺醒》等。在 data.ai 公布的 2021 全球發(fā)行商 52 強(qiáng)榜單中,網(wǎng)易排名第二。

語音識(shí)別 AI 算法服務(wù)目前已經(jīng)成為各個(gè)領(lǐng)域不可或缺的基礎(chǔ)算法服務(wù)。網(wǎng)易互娛 AI Lab 為所有互娛游戲的玩家,CC 直播平臺(tái)用戶等提供完善的語音識(shí)別服務(wù)。語音識(shí)別服務(wù)每天都有大量的調(diào)用量,AI 推理的計(jì)算量繁重。

在網(wǎng)易游戲中,語音識(shí)別是一個(gè)調(diào)用量龐大的基礎(chǔ)算法服務(wù),如果在語音識(shí)別算法服務(wù)這里出現(xiàn)時(shí)耗或吞吐瓶頸的話,會(huì)因?yàn)檎Z音內(nèi)容識(shí)別過慢,使得用戶使用體驗(yàn)大幅下降。

服務(wù)是基于開源框架 Wenet 優(yōu)化開發(fā),但是 Wenet 框架中非流式部署方案是基于 libtorch 和 C++ 的,并且熱詞和語言模型部分均采用了 Openfst,速度較慢,也不太方便使用。經(jīng)過測(cè)試 CPU Float32 模式下解碼,onnxruntime 要比 libtorch 快了近 20%。在 GPU 部署時(shí)還需要有拼接 Batch 的機(jī)制,batch inference 雖然在使用 CPU 做推理時(shí)沒有太大的提升,但是能大大提升 GPU 的利用率。

基于以上的挑戰(zhàn),網(wǎng)易互娛 AI Lab 選擇了采用 NVIDIA 在 Wenet 中開源的 Triton 部署方案來改進(jìn)優(yōu)化后進(jìn)行 GPU 部署,使得語音識(shí)別速度提高,大幅降低時(shí)延和運(yùn)營(yíng)成本。

由于 Wenet 開源框架下的 Triton 推理服務(wù)器并沒有考慮音頻解碼,顯存溢出等問題,所以需要有個(gè)前端邏輯做音頻解碼處理和音頻分段處理。并且因?yàn)?Triton 推理服務(wù)器組 batch 的機(jī)制是相同音頻長(zhǎng)度才會(huì)自動(dòng)組成 batch 做推理,所以前端處理邏輯這塊還加上了按秒 padding 的操作。整體流程如圖所示。

68afeb16-d1df-11ec-bce3-dac502259ad0.jpg

其中前端處理流程如圖所示:

68d173e4-d1df-11ec-bce3-dac502259ad0.jpg

NVIDIA Triton 推理服務(wù)器處理流程:

6911f87e-d1df-11ec-bce3-dac502259ad0.jpg

(圖片來源于網(wǎng)易互娛授權(quán))

其中 Triton 推理服務(wù)器中解碼器部分是基于 Wenet 的熱詞方案而自研實(shí)現(xiàn)的熱詞解碼器方案。

QPS,RTF 在 5 秒音頻下,CPU 設(shè)備和 GPU 設(shè)備對(duì)比,CPU 為 36 核機(jī)器, GPU 為單卡 T4:

692de6e2-d1df-11ec-bce3-dac502259ad0.jpg

(圖片來源于網(wǎng)易互娛授權(quán))

由表格可知,對(duì)比 CPU-FP32 與 GPU-FP16,單卡 T4 的推理能力基本相當(dāng)于 36 核 CPU(Intel(R) Xeon(R) CPU E5-2630 v4 @ 2.20GHz)機(jī)器的 4 倍。并且實(shí)驗(yàn)測(cè)試可以得知 FP16 與 FP32 的 WER 基本無損。

自研熱詞解碼器的方法結(jié)果展示:

694de352-d1df-11ec-bce3-dac502259ad0.png

6967e824-d1df-11ec-bce3-dac502259ad0.png

(圖片來源于網(wǎng)易互娛授權(quán))

這里 GPU 的效果采用自研的熱詞增強(qiáng)的方法,識(shí)別率在熱詞這塊能有絕對(duì) 0.8% 的性能提升,而 Wenet 開源的方法大概是 0.5%。并且自研熱詞實(shí)例的構(gòu)建耗時(shí)基本可以忽略不計(jì)。

整體來看 GPU 的方案在識(shí)別率基本無損的情況下,單卡 T4 比 36 核 CPU 機(jī)器提高近 4 倍的 QPS,單個(gè)音頻 RTF 測(cè)試下,包含音頻解碼等損耗情況下也能提高近 3 倍,并且也能夠支持熱詞增強(qiáng)功能,讓機(jī)器成本和識(shí)別速度都得到了很好的優(yōu)化。

網(wǎng)易互娛廣州 AI Lab 資深 AI 算法工程師丁涵宇表示:“目前該方案已在網(wǎng)易互娛 AI Lab 語音識(shí)別服務(wù)落地,大大的降低了識(shí)別時(shí)延和機(jī)器成本。后續(xù),我們還將與英偉達(dá)一起研究將熱詞增強(qiáng)的方法在 GPU 中實(shí)現(xiàn),探索的極致的語音識(shí)別推理性能?!?/p>

原文標(biāo)題:NVIDIA Triton 助力網(wǎng)易互娛 AI Lab,改善語音識(shí)別效率及成本

文章出處:【微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯:湯梓紅

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • NVIDIA
    +關(guān)注

    關(guān)注

    14

    文章

    4818

    瀏覽量

    102648
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29435

    瀏覽量

    267743
  • 語音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1705

    瀏覽量

    112433

原文標(biāo)題:NVIDIA Triton 助力網(wǎng)易互娛 AI Lab,改善語音識(shí)別效率及成本

文章出處:【微信號(hào):NVIDIA_China,微信公眾號(hào):NVIDIA英偉達(dá)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    什么是AI服務(wù)器?AI服務(wù)器的優(yōu)勢(shì)是什么?

    AI服務(wù)器是一種專門為人工智能應(yīng)用設(shè)計(jì)的服務(wù)器,它采用異構(gòu)形式的硬件架構(gòu),通常搭載GPU、FPGA、ASIC等加速芯片,利用CPU與加速芯片
    的頭像 發(fā)表于 09-21 11:43 ?359次閱讀

    NVIDIA助力提供多樣、靈活的模型選擇

    在本案例中,Dify 以模型中立以及開源生態(tài)的優(yōu)勢(shì),為廣大 AI 創(chuàng)新者提供豐富的模型選擇。其集成的 NVIDIAAPI Catalog、NVIDIA NIM和Triton 推理服務(wù)器
    的頭像 發(fā)表于 09-09 09:19 ?381次閱讀

    英偉達(dá)推出全新NVIDIA AI Foundry服務(wù)NVIDIA NIM推理服務(wù)

    NVIDIA 宣布推出全新 NVIDIA AI Foundry 服務(wù)NVIDIA NIM 推理服務(wù)
    的頭像 發(fā)表于 07-25 09:48 ?613次閱讀

    美國(guó)硅谷云服務(wù)器的網(wǎng)絡(luò)連接速度如何?

     美國(guó)硅谷云服務(wù)器的網(wǎng)絡(luò)連接速度如何?Rak部落小編為您整理發(fā)布美國(guó)硅谷云服務(wù)器的網(wǎng)絡(luò)連接速度
    的頭像 發(fā)表于 04-22 09:56 ?339次閱讀

    利用NVIDIA組件提升GPU推理的吞吐

    本實(shí)踐中,唯品會(huì) AI 平臺(tái)與 NVIDIA 團(tuán)隊(duì)合作,結(jié)合 NVIDIA TensorRT 和 NVIDIA Merlin HierarchicalKV(HKV)將推理的稠密網(wǎng)絡(luò)和熱
    的頭像 發(fā)表于 04-20 09:39 ?578次閱讀

    語音識(shí)別的技術(shù)歷程及工作原理

    語音識(shí)別的本質(zhì)是一種基于語音特征參數(shù)的模式識(shí)別,即通過學(xué)習(xí),系統(tǒng)能夠把輸入的語音按一定模式進(jìn)行分類,進(jìn)而依據(jù)判定準(zhǔn)則找出最佳匹配結(jié)果。
    的頭像 發(fā)表于 03-22 16:58 ?2588次閱讀
    <b class='flag-5'>語音</b><b class='flag-5'>識(shí)別的</b>技術(shù)歷程及工作原理

    使用NVIDIA Triton推理服務(wù)器加速AI預(yù)測(cè)

    這家云計(jì)算巨頭的計(jì)算機(jī)視覺和數(shù)據(jù)科學(xué)服務(wù)使用 NVIDIA Triton 推理服務(wù)器加速 AI
    的頭像 發(fā)表于 02-29 14:04 ?515次閱讀

    利用NVIDIA產(chǎn)品技術(shù)組合提升用戶體驗(yàn)

    本案例通過利用NVIDIA TensorRT-LLM加速指令識(shí)別深度學(xué)習(xí)模型,并借助NVIDIA Tri
    的頭像 發(fā)表于 01-17 09:30 ?608次閱讀

    情感語音識(shí)別的挑戰(zhàn)與未來趨勢(shì)

    。 二、情感語音識(shí)別的挑戰(zhàn) 情感表達(dá)的復(fù)雜性:人類的情感表達(dá)非常復(fù)雜,不僅涉及到語音的音調(diào)、音色和音量等,還與語言表達(dá)、肢體動(dòng)作、面部表情等多個(gè)方面有關(guān)。準(zhǔn)確識(shí)別和理解這些復(fù)雜情感表達(dá)
    的頭像 發(fā)表于 11-30 11:24 ?457次閱讀

    情感語音識(shí)別的應(yīng)用與挑戰(zhàn)

    一、引言 情感語音識(shí)別是一種通過分析人類語音中的情感信息實(shí)現(xiàn)智能化和個(gè)性化人機(jī)交互的技術(shù)。本文將探討情感語音識(shí)別的應(yīng)用領(lǐng)域、優(yōu)勢(shì)以及所面臨的
    的頭像 發(fā)表于 11-30 10:40 ?558次閱讀

    情感語音識(shí)別的現(xiàn)狀與未來趨勢(shì)

    情感語音識(shí)別是一種涉及多個(gè)學(xué)科領(lǐng)域的前沿技術(shù),包括心理學(xué)、語言學(xué)、計(jì)算機(jī)科學(xué)等。它通過分析人類語音中的情感信息,實(shí)現(xiàn)更加智能化和個(gè)性化的人機(jī)交互。本文將探討情感語音
    的頭像 發(fā)表于 11-28 17:22 ?669次閱讀

    離線語音識(shí)別及控制是怎樣的技術(shù)?

    引言:  隨著人工智能的飛速發(fā)展,離線語音識(shí)別技術(shù)成為了一項(xiàng)備受矚目的創(chuàng)新。離線語音識(shí)別技術(shù)能夠?qū)⑷说?b class='flag-5'>語音轉(zhuǎn)化為可理解的文本,無需依賴網(wǎng)絡(luò)連
    發(fā)表于 11-24 17:41

    情感語音識(shí)別的研究方法與實(shí)踐

    一、引言 情感語音識(shí)別是指通過計(jì)算機(jī)技術(shù)和人工智能算法自動(dòng)識(shí)別和理解人類語音中的情感信息。為了提高情感語音
    的頭像 發(fā)表于 11-16 16:26 ?767次閱讀

    創(chuàng)新企業(yè)云福利:騰訊云 × NVIDIA 初創(chuàng)加速計(jì)劃

    x NVIDIA 初創(chuàng)加速計(jì)劃 助您降低產(chǎn)品使用門檻 高性能計(jì)算集 群?HCC 以高性能云服務(wù)器為節(jié)點(diǎn),通過 RDMA 互聯(lián),大幅提升網(wǎng)絡(luò)性能,提供高帶寬和極低延遲的網(wǎng)絡(luò)服務(wù),能滿足
    的頭像 發(fā)表于 11-13 20:40 ?522次閱讀
    創(chuàng)新企業(yè)云福利:騰訊云 × <b class='flag-5'>NVIDIA</b> 初創(chuàng)<b class='flag-5'>加速</b>計(jì)劃

    情感語音識(shí)別的前世今生

    的支持。本文將探討情感語音識(shí)別的前世今生,包括其發(fā)展歷程、應(yīng)用場(chǎng)景、面臨的挑戰(zhàn)以及未來發(fā)展趨勢(shì)。 二、情感語音識(shí)別的發(fā)展歷程 起步階段:早期的情感
    的頭像 發(fā)表于 11-12 17:33 ?557次閱讀