0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

語音AI簡介

星星科技指導員 ? 來源:NVIDIA ? 作者:MikikoBazeley ? 2022-08-15 15:44 ? 次閱讀

人工智能AI )已經(jīng)將合成語音從單調(diào)的機器人呼叫和幾十年前的 GPS 導航系統(tǒng)轉(zhuǎn)變?yōu)?a href="http://srfitnesspt.com/v/tag/11230/" target="_blank">智能手機智能揚聲器中虛擬助理的優(yōu)美音調(diào)。

對于組織來說,為其特定行業(yè)和領(lǐng)域使用定制的最新語音 AI 技術(shù)從未如此容易。

語音 AI 正被用于 power 虛擬助理 ,擴展呼叫中心, 使數(shù)字化身人性化 , 增強 AR 體驗 ,并通過自動化臨床記錄為患者提供無摩擦的醫(yī)療體驗。

根據(jù) Gartner Research ,到 2023 年,客戶將傾向于使用語音接口啟動 70% 的自助式客戶互動 ( 2019 年為 40% )。對個性化和自動化體驗的需求只會繼續(xù)增長。

在這篇文章中,我將討論語音 AI ,它是如何工作的,語音識別技術(shù)的好處,以及語音 AI 用例的示例。

什么是語音人工智能,其好處是什么?

語音 AI 將 AI 用于基于語音的技術(shù):自動語音識別( ASR ),也稱為語音對文本和文本對語音( TTS )。例如,虛擬會議中的自動實時字幕顯示,以及向虛擬助理添加基于語音的界面。

Sim i 通常,基于語言的應用程序,如聊天機器人、文本分析和數(shù)字助理,將語音 AI 與自然語言處理( NLP )一起作為大型應用程序或系統(tǒng)的一部分。有關(guān)更多信息,請參閱 對話 AI 詞匯表 。

語音 AI 有很多好處:

High availability :語音 AI 應用程序可以在人工代理時間內(nèi)外響應客戶呼叫,使聯(lián)絡中心能夠更高效地運行。

Real-time insights: 實時記錄被指定為以客戶為中心的業(yè)務分析的輸入,如情緒分析、客戶體驗分析和欺詐檢測。

Instant scalability: 在高峰時,語音 AI 應用程序可以自動擴展,以處理客戶的數(shù)萬個請求。

Enhanced experiences :語音人工智能通過減少等待時間、快速解決客戶查詢并提供可定制語音界面的人性化交互,提高了客戶滿意度。

數(shù)字可訪問性: 從語音到文本再到文本再到語音應用,語音 AI 工具正在幫助那些有閱讀和聽力障礙的人從生成的語音和書面文本中學習。

誰在使用語音 AI 以及如何使用?

今天,語音 AI 正在徹底改變世界上最大的行業(yè),如金融、電信和統(tǒng)一通信即服務( UCaaS )。

深度學習、基于語音的技術(shù)起步的公司以及擴展現(xiàn)有基于語音的 conversational AI 平臺的成熟公司都受益于語音 AI 。

以下是語音 AI 提高效率和業(yè)務成果的一些具體示例。

呼叫中心轉(zhuǎn)錄

全球約有 1000 萬呼叫中心代理 每天接聽 20 億個電話 。呼叫中心用例包括以下所有內(nèi)容:

趨勢分析

法規(guī)遵從性

實時安全或欺詐分析

實時情緒分析

實時翻譯

例如,自動語音識別記錄客戶和呼叫中心代理之間的實時對話,以進行文本分析,然后用于為代理提供 快速解決客戶查詢 的實時建議。

臨床記錄

在醫(yī)療保健領(lǐng)域,語音 AI 應用程序改善了患者與醫(yī)療專業(yè)人員和理賠代表的聯(lián)系。 ASR automates note-taking 在患者 – 醫(yī)生對話和索賠代理信息提取期間。

虛擬助理

每個行業(yè)都有虛擬助理,可以增強用戶體驗。 ASR 用于為虛擬助手轉(zhuǎn)錄音頻查詢。然后,文本到語音

生成虛擬助理的合成語音。除了使交易情境人性化之外,虛擬助理還幫助視力受損者與非盲文文本、語音障礙者以及兒童進行互動。

語音 AI 是如何工作的?

語音 AI 使用自動語音識別和文本到語音技術(shù)為對話應用程序提供語音接口。典型的語音人工智能管道包括數(shù)據(jù)預處理階段、神經(jīng)網(wǎng)絡模型訓練和后處理。

在本節(jié)中,我將討論 ASR 和 TTS 管道中的這些階段。

pYYBAGL5-ZSAIWzvAAC2jikvp4w185.png

圖 3 :。對話 AI 應用的語音接口

自動語音識別

為了讓機器能夠聽到并與人類對話,它們需要一種將聲音轉(zhuǎn)換為代碼的通用媒介。設備或應用程序如何通過聲音“看到”世界?

ASR pipeline 將包含語音的給定原始音頻文件處理并轉(zhuǎn)錄為相應的文本,同時最小化稱為 字錯誤率 ( WER )的度量。

WER 用于測量和比較不同類型的語音識別系統(tǒng)和算法的性能。它是由錯誤數(shù)除以正在轉(zhuǎn)錄的剪輯中的單詞數(shù)來計算的。

ASR 管道必須完成一系列任務,包括特征提取、聲學建模以及語言建模。

poYBAGL5-Z-AHxBmAADo1DelT24904.png

圖 4 :。 ASR 管道

特征提取任務涉及將原始模擬音頻信號轉(zhuǎn)換為頻譜圖,頻譜圖是表示信號在不同頻率下隨時間變化的響度的視覺圖表,類似于熱圖。轉(zhuǎn)換過程的一部分涉及傳統(tǒng)的信號預處理技術(shù),如 standardization 和 windowing 。

然后使用 Acoustic modeling 來建模音頻信號與語言中語音單位之間的關(guān)系。它將音頻片段映射到最可能不同的語音單元和相應的字符。

ASR 管道中的最后一項任務涉及語言建模。 language model 添加了上下文表示并更正了聲學模型的錯誤。換句話說,當您擁有聲學模型中的字符時,您可以將這些字符轉(zhuǎn)換為單詞序列,這些單詞可以進一步處理為短語和句子。

歷史上,這一系列任務是使用生成方法執(zhí)行的,該方法要求使用語言模型、發(fā)音模型和聲學模型將發(fā)音轉(zhuǎn)換為音頻波形。然后,可以使用 高斯混合模型 或 隱馬爾可夫模型 來嘗試查找最可能與音頻波形中的聲音匹配的單詞。

這種統(tǒng)計方法在實施和部署的時間和精力上不太準確,而且更加密集。當試圖確保音頻數(shù)據(jù)的每個時間步與字符的正確輸出相匹配時,尤其如此。

然而,端到端的深度學習模型,如 連接主義時間分類 ( CTC )模型和 注意序列到序列模型 ,可以直接從音頻信號生成轉(zhuǎn)錄本,并且具有較低的 WER 。

換言之, Jasper 、 QuartzNet 和 Citrinet 等基于深度學習的模型使公司能夠創(chuàng)建成本更低、功能更強大、更精確的語音 AI 應用程序。

文本到語音

TTS 或 speech synthesis 管道負責將文本轉(zhuǎn)換為自然發(fā)音的語音,這種語音是人工生成的,具有類似人類的語調(diào)和清晰的發(fā)音。

poYBAGL5-aiAX2mUAAC5B3vkGZE767.png

圖 5 :。 TTS 管道

TTS 管道可能必須完成許多不同的任務,包括文本分析、 linguistic analysis 和波形生成。

在 text analysis 階段,原始文本(帶有符號、縮寫等)被轉(zhuǎn)換為完整的單詞和句子,擴展縮寫,并分析表達式。輸出被傳遞到語言分析中,以精煉語調(diào)、持續(xù)時間,并以其他方式理解語法結(jié)構(gòu)。結(jié)果,產(chǎn)生 spectrogram 或 mel 頻譜圖以轉(zhuǎn)換為連續(xù)的類人音頻。

我之前介紹的方法是一個典型的兩步過程,需要一個合成網(wǎng)絡和一個 vocoder 網(wǎng)絡。這是兩個獨立的網(wǎng)絡,用于從文本生成頻譜圖(使用 Tacotron architecture 或 FastPitch )和從頻譜圖或其他中間表示(如 WaveGlow 或 HiFiGAN )生成音頻的后續(xù)目的。

除了兩階段方法外, TTS 管道的另一個可能實現(xiàn)涉及使用端到端的深度學習模型,該模型使用單個模型直接從文本生成音頻。神經(jīng)網(wǎng)絡直接從文本 – 音頻對中訓練,不依賴中間表示。

端到端方法降低了復雜性,因為它減少了網(wǎng)絡之間的錯誤傳播,減少了對單獨培訓管道的需要,并最大限度地降低了手動注釋持續(xù)時間信息的成本。

傳統(tǒng)的 TTS 方法也傾向于產(chǎn)生更多機器人和不自然的聲音,影響用戶參與,尤其是面向消費者的應用程序和服務。

構(gòu)建語音 AI 系統(tǒng)的挑戰(zhàn)

成功的語音 AI 應用程序必須啟用以下功能。

獲取最先進的模型

從頭開始創(chuàng)建訓練有素、準確的深度學習模型既昂貴又耗時。

通過在前沿模型發(fā)布后立即提供對其的訪問,即使是數(shù)據(jù)和資源受限的公司也可以在其產(chǎn)品和服務中使用高度精確、經(jīng)過預訓練的模型和 transfer learning 。

高精度

要在全球或任何行業(yè)或領(lǐng)域部署,必須對模型進行定制,以適應多種語言(世界上 6500 種口語的一小部分)、方言、口音和上下文。一些域使用 特定術(shù)語和技術(shù)術(shù)語 。

實時性能

由多個深度學習模型組成的管道必須以毫秒為單位運行推斷,以實現(xiàn)實時交互,精確到 300 毫秒,因為大多數(shù)用戶在 100 毫秒左右開始注意到 滯后和通信故障 ,在此之前,對話或體驗開始感覺不自然。

靈活且可擴展的部署

公司需要不同的部署模式,甚至可能需要混合使用云、內(nèi)部部署和邊緣部署。成功的系統(tǒng)支持擴展到需求波動的數(shù)十萬并發(fā)用戶。

數(shù)據(jù)所有權(quán)和隱私

公司應該能夠為其行業(yè)和領(lǐng)域?qū)嵤┻m當?shù)陌踩珜嵺`,例如在本地或組織的云中進行安全數(shù)據(jù)處理。例如,可能要求遵守 HIPAA 或其他法規(guī)的醫(yī)療保健公司限制數(shù)據(jù)訪問和數(shù)據(jù)處理。

語音 AI 的未來

由于計算基礎設施、語音 AI 算法的進步,對遠程服務的需求增加,以及現(xiàn)有和新興行業(yè)令人興奮的新用例,基于語音 AI 的產(chǎn)品和服務現(xiàn)在有了一個強大的生態(tài)系統(tǒng)和基礎設施。

當前的語音 AI 應用程序在推動業(yè)務成果方面功能強大,但下一代語音 AI 應用程序必須能夠處理多語言、多領(lǐng)域和多用戶對話。

能夠成功地將語音 AI 技術(shù)集成到其核心運營中的組織將具備良好的能力,能夠根據(jù)尚未列出的用例擴展其服務和產(chǎn)品。

關(guān)于作者

MikikoBazeley 是 Mailchimp 的高級 ML 操作和平臺工程師。她擁有豐富的工程師、數(shù)據(jù)科學家和數(shù)據(jù)分析師經(jīng)驗,為初創(chuàng)公司和高增長公司利用機器學習和數(shù)據(jù)開發(fā)面向消費者和企業(yè)的產(chǎn)品。她積極貢獻有關(guān)開發(fā) ML 產(chǎn)品的最佳實踐的內(nèi)容,并在數(shù)據(jù)科學職業(yè)生涯中發(fā)言和指導非傳統(tǒng)候選人。

審核編輯:郭婷

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29383

    瀏覽量

    267678
  • 機器學習
    +關(guān)注

    關(guān)注

    66

    文章

    8323

    瀏覽量

    132166
  • 深度學習
    +關(guān)注

    關(guān)注

    73

    文章

    5437

    瀏覽量

    120794
收藏 人收藏

    評論

    相關(guān)推薦

    AI降噪算法通信語音模塊A-59

    語音模塊
    深圳德宇科技有限公司
    發(fā)布于 :2024年08月21日 14:45:06

    基于瑞薩電子Reality AI Tools工具的語音反欺騙應用示例

    探索使用瑞薩電子硬件和AI軟件平臺的Reality AI Tools語音反欺騙應用示例。
    的頭像 發(fā)表于 08-20 15:13 ?357次閱讀
    基于瑞薩電子Reality <b class='flag-5'>AI</b> Tools工具的<b class='flag-5'>語音</b>反欺騙應用示例

    杭州國芯微AIoT產(chǎn)品系列及方案列表

    產(chǎn)品簡介GX8002是針對tws耳機、智能手表、眼鏡等可穿戴設備推出的超低功耗AI語音芯片,具備體積小、功耗低、成本低等優(yōu)勢。芯片集成了國芯自研的第二代神經(jīng)網(wǎng)絡處理器gxNPU V200和自研的硬件
    發(fā)表于 08-16 21:14

    SoundHound AI語音助手賦能歐洲汽車,引領(lǐng)智能駕駛新風尚

    近日,全球領(lǐng)先的AI語音技術(shù)獨角獸企業(yè)SoundHound AI宣布了一項重要合作成果:其集成ChatGPT技術(shù)的先進語音助手SoundHound Chat
    的頭像 發(fā)表于 08-01 17:49 ?591次閱讀

    啟英泰倫CI13LC系列:打造AI語音芯片性價比之王!

    語音部分應用領(lǐng)域CI13XX系列:高性能AI語音芯片領(lǐng)航者2021年,啟英泰倫推出了3代高性能AI語音芯片CI13XX系列,該系列芯片基于自
    的頭像 發(fā)表于 07-12 08:15 ?320次閱讀
    啟英泰倫CI13LC系列:打造<b class='flag-5'>AI</b><b class='flag-5'>語音</b>芯片性價比之王!

    啟英泰倫CI13LC系列:打造AI語音芯片性價比之王!

    。 CI13XX系列:高性能AI語音芯片領(lǐng)航者 2021年,啟英泰倫推出了3代高性能AI語音芯片CI13XX系列,該系列芯片基于自研的BNPU(腦神經(jīng)網(wǎng)絡處理器)3.0,擁有高達240
    的頭像 發(fā)表于 07-11 15:23 ?225次閱讀
    啟英泰倫CI13LC系列:打造<b class='flag-5'>AI</b><b class='flag-5'>語音</b>芯片性價比之王!

    聆思CSK6視覺語音大模型AI開發(fā)板入門資源合集(硬件資料、大模型語音/多模態(tài)交互/英語評測SDK合集)

    本帖最后由 jf_40317719 于 2024-6-18 17:39 編輯 視覺語音大模型 AI 開發(fā)套件( CSK6-MIX )是圍繞 CSK6011A 芯片設計的具備豐富語音圖像功能
    發(fā)表于 06-18 17:33

    語音降噪的原理

    在專業(yè)音頻設備中,語音降噪是很重要的一個環(huán)節(jié)。隨著AI人工智能的快速發(fā)展,各種AI人工智能降噪方法應運而生。
    的頭像 發(fā)表于 06-03 17:21 ?1257次閱讀
    <b class='flag-5'>語音</b>降噪的原理

    蘋果iOS 18備忘錄將搭載AI升級功能,新增語音轉(zhuǎn)文字和文本摘要功能

    其中,針對語音備忘錄,蘋果將在該應用中加入一個較大的錄音按鍵,據(jù)稱將占據(jù)應用界面的顯著位置。用戶只需輕按此鍵即可開始錄音,隨后,系統(tǒng)內(nèi)置的AI模型會將語音轉(zhuǎn)換為文字。
    的頭像 發(fā)表于 05-11 10:50 ?628次閱讀

    USB AI話務語音降噪音頻方案

    USB AI話務語音降噪音頻方案
    的頭像 發(fā)表于 04-25 18:16 ?445次閱讀
    USB <b class='flag-5'>AI</b>話務<b class='flag-5'>語音</b>降噪音頻方案

    AI語音與機器視覺開發(fā)應用系統(tǒng)

    一、簡介 AI語音與機器視覺開發(fā)應用系統(tǒng)是一款集成AI語音、機器視覺、深度學習基礎、嵌入式Linux于一體的高端教學科研實驗平臺。 整個教學
    的頭像 發(fā)表于 01-26 11:24 ?335次閱讀
    <b class='flag-5'>AI</b><b class='flag-5'>語音</b>與機器視覺開發(fā)應用系統(tǒng)

    【開源項目】基于ESP32的語音識別控制AI小夜燈

    一、項目簡介 使用ESP32-S3N8R8模塊作為主控芯片,S3內(nèi)核增加了用于加速神經(jīng)網(wǎng)絡計算和信號處理等的指令,這使得我們可以使用它來快速解析訓練好的語音模型進行語音識別的功能。 二、原理解
    發(fā)表于 12-19 14:05

    在線研討會 | 大模型時代語音 AI 模型的訓練、優(yōu)化與應用

    AI 大模型在語音識別、自然語言處理等領(lǐng)域已經(jīng)取得了令人矚目的成就。語音 AI(Speech AI)技術(shù)已經(jīng)廣泛應用在數(shù)字人、實時翻譯、
    的頭像 發(fā)表于 12-15 15:50 ?534次閱讀
    在線研討會 | 大模型時代<b class='flag-5'>語音</b> <b class='flag-5'>AI</b> 模型的訓練、優(yōu)化與應用

    語音數(shù)據(jù)集:AI語音技術(shù)的靈魂

    一、引言 在人工智能領(lǐng)域,語音技術(shù)被譽為“未來人機交互的入口”,而語音數(shù)據(jù)集則是AI語音技術(shù)的靈魂。本文將深入探討語音數(shù)據(jù)集的重要性、構(gòu)建方
    的頭像 發(fā)表于 12-14 14:33 ?900次閱讀

    語音數(shù)據(jù)集:推動AI語音技術(shù)的核心力量

    一、引言 隨著人工智能的快速發(fā)展,語音技術(shù)作為人機交互的重要手段,正發(fā)揮著越來越重要的作用。而語音數(shù)據(jù)集則是推動AI語音技術(shù)的核心力量。本文將詳細介紹
    的頭像 發(fā)表于 12-12 11:32 ?614次閱讀