亚洲国产av网站1区,91精品国产自产在线观永久,精品国产区

自動(dòng)語(yǔ)音識(shí)別（ ASR ）正在成為日常生活的一部分，從與數(shù)字助理交互到聽(tīng)寫(xiě)文本信息。由于以下方面的最新進(jìn)展， ASR 研究繼續(xù)取得進(jìn)展：

ASR 為多個(gè)架構(gòu)建模以滿足需求

在特定行業(yè)的行話、語(yǔ)言、口音和方言方面具有定制靈活性

云、預(yù)部署或混合部署選項(xiàng)

這篇文章首先介紹了常見(jiàn)的 ASR 應(yīng)用程序，然后介紹了兩個(gè)初創(chuàng)公司，他們正在探索 ASR 作為核心產(chǎn)品功能的獨(dú)特應(yīng)用。

語(yǔ)音識(shí)別系統(tǒng)的工作原理

自動(dòng)語(yǔ)音識(shí)別或語(yǔ)音識(shí)別，是計(jì)算機(jī)系統(tǒng)從音頻中破譯口語(yǔ)單詞和短語(yǔ)并將其轉(zhuǎn)錄成書(shū)面文本的能力。開(kāi)發(fā)人員也可以將 ASR 稱為語(yǔ)音到文本，不要與文本到語(yǔ)音（ TTS ）混淆。

ASR 系統(tǒng)的文本輸出可能是語(yǔ)音 AI 接口的最終產(chǎn)品，或會(huì)話人工智能系統(tǒng)可能會(huì)消耗文本。

常見(jiàn) ASR 應(yīng)用

ASR 已經(jīng)成為新型交互式產(chǎn)品和服務(wù)的網(wǎng)關(guān)。即使現(xiàn)在，您也可以考慮使用下面詳細(xì)介紹的用例的品牌系統(tǒng)：

現(xiàn)場(chǎng)字幕和轉(zhuǎn)錄

實(shí)時(shí)字幕和轉(zhuǎn)錄是兄弟。兩者之間的主要區(qū)別是字幕產(chǎn)生字幕根據(jù)需要，為流媒體電影等視頻節(jié)目直播。相比之下，轉(zhuǎn)錄可以在現(xiàn)場(chǎng)或批處理模式下進(jìn)行，其中錄制的音頻片段的轉(zhuǎn)錄速度比實(shí)時(shí)快幾個(gè)數(shù)量級(jí)。

虛擬助理和聊天機(jī)器人

虛擬助手和聊天機(jī)器人與人們互動(dòng)，既提供幫助，也提供娛樂(lè)。他們可以從用戶輸入的文本或 ASR 系統(tǒng)接收基于文本的輸入，因?yàn)?ASR 系統(tǒng)識(shí)別并輸出用戶的單詞。

助手和機(jī)器人需要足夠快地向用戶發(fā)出響應(yīng)，因此處理延遲是不可察覺(jué)的。響應(yīng)可能是純文本、合成語(yǔ)音或圖像。

語(yǔ)音命令和聽(tīng)寫(xiě)

語(yǔ)音命令和聽(tīng)寫(xiě)系統(tǒng)是社交媒體平臺(tái)和醫(yī)療行業(yè)使用的常見(jiàn) ASR 應(yīng)用。

為了提供一個(gè)社交媒體示例，在移動(dòng)設(shè)備上錄制視頻之前，用戶可能會(huì)發(fā)出語(yǔ)音命令以激活美容過(guò)濾器：“給我紫色頭發(fā)”。該社交網(wǎng)絡(luò)應(yīng)用程序涉及一個(gè)支持 ASR 的子系統(tǒng)，該子系統(tǒng)以命令的形式接收用戶的話語(yǔ)，同時(shí)應(yīng)用程序同時(shí)處理攝像機(jī)輸入并應(yīng)用過(guò)濾器進(jìn)行屏幕顯示。

聽(tīng)寫(xiě)系統(tǒng)存儲(chǔ)語(yǔ)音中的文本，擴(kuò)展了語(yǔ)音人工智能系統(tǒng) 超越命令。為了提供醫(yī)療保健行業(yè)的一個(gè)例子，醫(yī)生口述包含醫(yī)學(xué)術(shù)語(yǔ)和名稱的語(yǔ)音注釋。準(zhǔn)確的文本輸出可以添加到患者電子病歷中的就診摘要中。

獨(dú)特的 ASR 應(yīng)用

除了這些常見(jiàn)用例之外，研究人員和企業(yè)家正在探索各種獨(dú)特的 ASR 應(yīng)用。以下兩個(gè)初創(chuàng)公司正在開(kāi)發(fā)以新穎方式使用該技術(shù)的產(chǎn)品。

互動(dòng)學(xué)習(xí)： Tarteel AI

ASR 的創(chuàng)造性應(yīng)用開(kāi)始出現(xiàn)在教育材料中，特別是以互動(dòng)學(xué)習(xí)的形式出現(xiàn)在兒童和成人中。

挑戰(zhàn)和解決辦法

雖然應(yīng)用程序現(xiàn)在運(yùn)行順利，但 Tarteel 面臨著一系列艱難的初始挑戰(zhàn)。首先，古蘭經(jīng)阿拉伯語(yǔ)沒(méi)有合適的 ASR 模型，最初迫使塔特爾嘗試通用 ASR 模型。

Tarteel Anas-Abou Allaban 的聯(lián)合創(chuàng)始人兼首席執(zhí)行官說(shuō)：“我們從設(shè)備上的語(yǔ)音人工智能框架開(kāi)始，就像智能手機(jī)一樣，但它們的設(shè)計(jì)更多是為了命令和短句，而不是精確的背誦?！??！八鼈円膊皇巧a(chǎn)級(jí)別的工具，甚至不接近。”

為了克服這一挑戰(zhàn)， Tarteel 構(gòu)建了一個(gè)自定義數(shù)據(jù)集來(lái)完善現(xiàn)有的 ASR 模型，以滿足應(yīng)用程序的性能目標(biāo)。然后，在他們的下一個(gè)原型中， ASR 模型確實(shí)以較低的字錯(cuò)誤率（ WER ）運(yùn)行，但仍不能滿足應(yīng)用程序的實(shí)際精度和延遲要求。

阿拉班指出，他在一些電話會(huì)議記錄中看到了 10-15% 的正確率，但在古蘭經(jīng)研究中看到高正確率是另一回事。他說(shuō)，應(yīng)用程序中超過(guò) 300 毫秒的處理延遲“變得非常煩人”。

Tarteel 通過(guò)調(diào)整其在 NVIDIA NeMo 框架中的 ASR 模型并在使用 Riva 在 Triton 推理服務(wù)器上部署之前使用 TensorRT 進(jìn)一步優(yōu)化其延遲來(lái)應(yīng)對(duì)這些挑戰(zhàn)。

數(shù)字人類服務(wù)：Ex-human

創(chuàng)業(yè)公司 Ex human 正在創(chuàng)造超現(xiàn)實(shí)的數(shù)字人與模擬人（你和我）互動(dòng)。他們目前的重點(diǎn)是為娛樂(lè)利基開(kāi)發(fā) B2B 數(shù)字人類服務(wù)，使之能夠創(chuàng)建具有獨(dú)特個(gè)性、知識(shí)和現(xiàn)實(shí)說(shuō)話聲音的聊天機(jī)器人或游戲角色。

在公司 Botify AI 應(yīng)用，人工智能實(shí)體包括名人，通過(guò)口頭和圖形交互與用戶互動(dòng)，無(wú)論您是在智能手機(jī)聊天窗口中打字還是使用語(yǔ)音。 NVIDIA Riva 自動(dòng)語(yǔ)音識(shí)別為數(shù)字人類的自然語(yǔ)言處理子系統(tǒng)提供文本輸入，作為大型語(yǔ)言模型（ LLM ）的一部分。

為了使虛擬交互可信，需要精確和快速的 ASR 。由于 LLM 是計(jì)算密集型的，并且需要大量的處理資源，因此對(duì)于交互來(lái)說(shuō)，它們可能運(yùn)行得太慢。

例如， Botify AI 應(yīng)用最先進(jìn)的 TTS 來(lái)產(chǎn)生語(yǔ)音音頻響應(yīng)，進(jìn)而使用另一種 AI 模型驅(qū)動(dòng)面部動(dòng)畫(huà)。該團(tuán)隊(duì)觀察到，當(dāng)響應(yīng)的周轉(zhuǎn)時(shí)間短于約三分之一秒時(shí)，機(jī)器人與用戶的可信交互處于最佳狀態(tài)。

挑戰(zhàn)和解決辦法

雖然 Botify 人工智能正在努力彌合人工智能生成的真實(shí)視頻與真實(shí)人類之間的差距，但 Ex-human 團(tuán)隊(duì)對(duì)其客戶行為數(shù)據(jù)的分析感到驚訝?！八麄冋诖蛟熳约旱男聞?dòng)漫人物，”Ex-human 的創(chuàng)始人兼首席執(zhí)行官阿泰姆·羅迪切夫（ Artem Rodichev ）說(shuō)。

通過(guò)使用為 Botify AI 生態(tài)系統(tǒng)微調(diào)的 ASR 模型，用戶可以與自己喜愛(ài)的個(gè)性進(jìn)行交流或創(chuàng)建自己的個(gè)性。在上傳自定義人臉的背景下，構(gòu)建新動(dòng)畫(huà)角色的令人驚訝的模式出現(xiàn)了，通過(guò)自定義角色將對(duì)話帶入生活。 Rodichev 解釋說(shuō)，他的團(tuán)隊(duì)需要快速調(diào)整他們的人工智能模型，以處理例如在風(fēng)格上只是一個(gè)點(diǎn)或一條線的嘴。

Rodichev 和他的團(tuán)隊(duì)通過(guò)仔細(xì)選擇工具和 SDK 以及評(píng)估并行處理的機(jī)會(huì)，克服了 Ex-human 架構(gòu)中的許多挑戰(zhàn)。 Rodichev 警告說(shuō)：“由于延遲非常重要，我們使用 NVIDIA TensorRT 優(yōu)化了 ASR 模型和其他模型，并依賴于 Triton 推理服務(wù)器。”

Botify AI 用戶是否準(zhǔn)備好與數(shù)字人類而不是模擬人類互動(dòng)？數(shù)據(jù)顯示，用戶平均每天花 40 分鐘與 Botify 人工智能數(shù)字人在一起，在這段時(shí)間內(nèi)發(fā)送他們最喜歡的數(shù)百條信息。

開(kāi)始使用 ASR

您可以開(kāi)始在自己的設(shè)計(jì)和項(xiàng)目中包括 ASR 功能，從免提語(yǔ)音命令到實(shí)時(shí)轉(zhuǎn)錄。 Riva 等高級(jí) SDK 在世界級(jí)的準(zhǔn)確性、速度、延遲和易集成性方面表現(xiàn)出高性能，所有這些都與您的新想法一致。

關(guān)于作者

David Taubenheim 是 NVIDIA Inception 項(xiàng)目的高級(jí)解決方案架構(gòu)師，該項(xiàng)目是初創(chuàng)企業(yè)的加速器。他目前的技術(shù)重點(diǎn)領(lǐng)域是加速計(jì)算和對(duì)話 AI 使能器。 David 擁有國(guó)立技術(shù)大學(xué)的電氣工程碩士學(xué)位和伊利諾伊大學(xué)香檳分校的電氣工程學(xué)士學(xué)位。

審核編輯：郭婷

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

NVIDIA

NVIDIA

+關(guān)注

關(guān)注
14

文章
4817

瀏覽量
102637
語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
38

文章
1703

瀏覽量
112425

評(píng)論

相關(guān)推薦

Transformer模型在語(yǔ)音識(shí)別和語(yǔ)音生成中的應(yīng)用優(yōu)勢(shì)

隨著人工智能技術(shù)的飛速發(fā)展，語(yǔ)音識(shí)別和語(yǔ)音生成作為人機(jī)交互的重要組成部分，正逐漸滲透到我們生活的各個(gè)方面。而Transformer模型，自其誕生以來(lái)，憑借其

發(fā)表于 07-03 18:24 ?842次閱讀

人工智能的語(yǔ)音識(shí)別技術(shù)詳解

隨著科技的飛速發(fā)展，人工智能（AI）技術(shù)已經(jīng)滲透到我們生活的方方面面，其中語(yǔ)音識(shí)別技術(shù)作為AI領(lǐng)域的重要分支，更是以其獨(dú)特的魅力和廣泛的應(yīng)用

發(fā)表于 07-01 11:39 ?883次閱讀

語(yǔ)音數(shù)據(jù)集：探索、挑戰(zhàn)與應(yīng)用

隨著人工智能技術(shù)的飛速發(fā)展，語(yǔ)音識(shí)別技術(shù)已經(jīng)滲透到我們生活的方方面面，從智能手機(jī)助手到智能家居設(shè)備，再到自動(dòng)駕駛汽車，都離不開(kāi)這項(xiàng)

發(fā)表于 12-28 13:56 ?480次閱讀

離線語(yǔ)音識(shí)別與在線語(yǔ)音識(shí)別有什么不一樣？

離線語(yǔ)音識(shí)別與在線語(yǔ)音識(shí)別有什么不一樣？離線語(yǔ)音識(shí)別和在線

發(fā)表于 12-12 14:36 ?1093次閱讀

情感語(yǔ)音識(shí)別：技術(shù)發(fā)展與挑戰(zhàn)

一、引言情感語(yǔ)音識(shí)別是人工智能領(lǐng)域的重要研究方向，它通過(guò)分析人類語(yǔ)音中的情感信息，實(shí)現(xiàn)人機(jī)之間的情感交互。本文將探討情感語(yǔ)音識(shí)別

發(fā)表于 11-28 18:26 ?560次閱讀

離線語(yǔ)音識(shí)別及控制是怎樣的技術(shù)？

引言：隨著人工智能的飛速發(fā)展，離線語(yǔ)音識(shí)別技術(shù)成為了一項(xiàng)備受矚目的創(chuàng)新。離線語(yǔ)音識(shí)別技術(shù)能夠?qū)⑷?/div>
發(fā)表于 11-24 17:44 ?1025次閱讀

離線語(yǔ)音識(shí)別及控制是怎樣的技術(shù)？

引言：　隨著人工智能的飛速發(fā)展，離線語(yǔ)音識(shí)別技術(shù)成為了一項(xiàng)備受矚目的創(chuàng)新。離線語(yǔ)音識(shí)別技術(shù)能夠

發(fā)表于 11-24 17:41

情感語(yǔ)音識(shí)別：技術(shù)發(fā)展與未來(lái)趨勢(shì)

的技術(shù)發(fā)展特征提取技術(shù)：特征提取是情感語(yǔ)音識(shí)別的關(guān)鍵步驟之一。目前，基于深度學(xué)習(xí)模型的特征提取技術(shù)已經(jīng)取得了顯著的進(jìn)展。這些模型能夠

發(fā)表于 11-23 14:28 ?540次閱讀

情感語(yǔ)音識(shí)別技術(shù)的挑戰(zhàn)與未來(lái)發(fā)展

情感語(yǔ)音識(shí)別技術(shù)作為人工智能領(lǐng)域的重要分支，已經(jīng)取得了顯著的進(jìn)展。然而，在實(shí)際應(yīng)用中，情感語(yǔ)音識(shí)別技術(shù)

發(fā)表于 11-16 16:48 ?400次閱讀

情感語(yǔ)音識(shí)別技術(shù)的現(xiàn)狀與未來(lái)

一、引言情感語(yǔ)音識(shí)別技術(shù)是近年來(lái)人工智能領(lǐng)域的研究熱點(diǎn)之一，它通過(guò)分析人類語(yǔ)音中的情感信息，為智能客服、心理健康監(jiān)測(cè)、娛樂(lè)產(chǎn)業(yè)等多個(gè)領(lǐng)域提供了重要的支持。本文將探討情感

發(fā)表于 11-15 16:36 ?576次閱讀

情感語(yǔ)音識(shí)別技術(shù)的應(yīng)用與未來(lái)發(fā)展

一、引言隨著科技的飛速發(fā)展，情感語(yǔ)音識(shí)別技術(shù)已經(jīng)成為人機(jī)交互的重要發(fā)展方向。情感語(yǔ)音識(shí)別技術(shù)能

發(fā)表于 11-12 17:30 ?669次閱讀

離線語(yǔ)音識(shí)別和控制的工作原理及應(yīng)用

引言　　離線語(yǔ)音識(shí)別是指在沒(méi)有網(wǎng)絡(luò)連接的情況下，通過(guò)在本地設(shè)備上進(jìn)行語(yǔ)音信號(hào)處理和識(shí)別，實(shí)現(xiàn)語(yǔ)音命令的轉(zhuǎn)化和執(zhí)行。隨著智能設(shè)備的普及，離

發(fā)表于 11-07 18:01

語(yǔ)音識(shí)別技術(shù)在教育領(lǐng)域的應(yīng)用與挑戰(zhàn)

輔導(dǎo)：通過(guò)語(yǔ)音識(shí)別技術(shù)，可以將教師的口頭講解或?qū)W生的問(wèn)題轉(zhuǎn)化為文字形式，方便學(xué)生回顧和復(fù)習(xí)。同時(shí)，結(jié)合自然語(yǔ)言處理技術(shù)，可以自動(dòng)分析文本信息

發(fā)表于 11-02 18:44 ?635次閱讀

語(yǔ)音識(shí)別技術(shù)在安全領(lǐng)域的應(yīng)用與挑戰(zhàn)

隨著社會(huì)對(duì)安全需求的不斷增加，語(yǔ)音識(shí)別技術(shù)在安全領(lǐng)域的應(yīng)用越來(lái)越廣泛。本文將探討語(yǔ)音識(shí)別技術(shù)在安

發(fā)表于 10-26 14:48 ?560次閱讀

語(yǔ)音識(shí)別技術(shù)在智能客服領(lǐng)域的應(yīng)用與挑戰(zhàn)

一、引言隨著人工智能技術(shù)的不斷發(fā)展，智能客服成為了許多行業(yè)的重要應(yīng)用。語(yǔ)音識(shí)別技術(shù)作為智能客服的重要組成部分，對(duì)于提高客戶滿意度和提升企業(yè)效率具有重要意義。本文將探討

發(fā)表于 10-25 10:37 ?603次閱讀

搜索歷史

探索自動(dòng)語(yǔ)音識(shí)別技術(shù)的獨(dú)特應(yīng)用

評(píng)論

Transformer模型在語(yǔ)音識(shí)別和語(yǔ)音生成中的應(yīng)用優(yōu)勢(shì)

人工智能的語(yǔ)音識(shí)別技術(shù)詳解

語(yǔ)音數(shù)據(jù)集：探索、挑戰(zhàn)與應(yīng)用

離線語(yǔ)音識(shí)別與在線語(yǔ)音識(shí)別有什么不一樣？

情感語(yǔ)音識(shí)別：技術(shù)發(fā)展與挑戰(zhàn)

離線語(yǔ)音識(shí)別及控制是怎樣的技術(shù)？

離線語(yǔ)音識(shí)別及控制是怎樣的技術(shù)？

情感語(yǔ)音識(shí)別：技術(shù)發(fā)展與未來(lái)趨勢(shì)

情感語(yǔ)音識(shí)別技術(shù)的挑戰(zhàn)與未來(lái)發(fā)展

情感語(yǔ)音識(shí)別技術(shù)的現(xiàn)狀與未來(lái)

情感語(yǔ)音識(shí)別技術(shù)的應(yīng)用與未來(lái)發(fā)展

離線語(yǔ)音識(shí)別和控制的工作原理及應(yīng)用

語(yǔ)音識(shí)別技術(shù)在教育領(lǐng)域的應(yīng)用與挑戰(zhàn)

語(yǔ)音識(shí)別技術(shù)在安全領(lǐng)域的應(yīng)用與挑戰(zhàn)

語(yǔ)音識(shí)別技術(shù)在智能客服領(lǐng)域的應(yīng)用與挑戰(zhàn)