0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

語音交互設備中的ASR和TTS技術

安富利 ? 來源:安富利 ? 作者:安富利 ? 2022-06-16 17:23 ? 次閱讀

本期導讀

-Hi Siri,今天天氣怎么樣?

-今天天氣晴,18℃至27℃,空氣質量指數(shù)36,優(yōu)。

手機、手表、音箱等智能設備極大地便利了我們的生活,隨著語音交互設備的發(fā)展,智能交互依然面臨很多挑戰(zhàn)。

我們每天要說成百上千句話,長短不一。即便是一些轉瞬即逝的口頭語,也可以成為傳達自我意識的載體,向他人準確傳達信息。可語言似乎是人類群體特有的專利,在過往的時間中,想借助語言與其他物種、物體建立清晰明確溝通關系的可能性無限趨近于零,直到智能語音技術的出現(xiàn)。

作為最早落地的人工智能技術之一,AI語音技術已經得到了長足的發(fā)展。如今,智能語音技術已經被廣泛集成的就是家居產品之中。在即將到來的萬物互聯(lián)時代,以語音交互為主的智能設備無疑將極具競爭力與吸引力。仔細一想,一眾充滿科技感與未來感的智能設備,將天然具備人類最熟悉的“原始交互方式”,也頗有些化繁為簡、返璞歸真的意味。

語音交互設備的“助聽器”——ASR

在復雜環(huán)境中,我們總是可以忽略或弱化無關噪聲,集中注意力進行溝通,但語音交互設備在如此環(huán)境中只會無所適從,不免陷入“交互尚未開始,便已結束”的囧境。故此,設備擁有對各類“聲學場景”的聲源信號進行處理、優(yōu)化功能的必要性不言而喻。而借助降噪NS、語音增強SE等技術,可以對聲學場景中的非語音噪音信號進行抑制,從含有噪音的語音信號中提取純凈語音,提升語音識別效果,讓語音交互設備可以分辨、傾聽出目標聲音,進而為后續(xù)的語音交互掃清障礙。

在語音識別技術(ASR)的加持下,語音交互設備能對聲音信號進行特征提取,提取而出的“特征”會作為參數(shù),為模型計算做準備。簡單理解就是將語音信息數(shù)字化,再通過相應的模型對數(shù)字化信息進行計算。后續(xù)通過聲學模型計算得出相應的音素(即把聲音轉成音素),其目的是根據(jù)音素來找到對應的漢字或者單詞,最終轉換成設備可以理解的文本。

語音交互設備的“聲卡”——TTS

基于語音合成技術(TTS),語音交互設備可對文本逐句分析,進行詞匯、語法的和語義的分析,以確定句子的低層結構和每個字的所對應的音素組成,包括文本的斷句、字詞切分、多音字處理以及數(shù)字處理等。

在內置芯片神經網絡技術的支持下,語音交互設備可把處理好的文本所對應的單字或短語從語音合成庫中提取,使語言學描述轉化成言語波形,即把文字智能地轉化為自然語音流。至此,一次完整的語音交互便成功完成。當然,在特有的智能語音控制器作用下,文本輸出的語音音律將會更加流暢,使得聽者在聽取信息時感覺自然、毫無機器語音輸出的冷漠與生澀感。

寫在最后

誠然,已普遍應用于智能家居設備中的語音交互技術仍面臨諸多挑戰(zhàn),在設備喚醒率、識別率、誤報率、環(huán)境降噪等方面仍有改進的空間。但毫無疑問,在未來語音作為人類最自然、最便捷的溝通方式,將會成為所有設備和產品至關重要的入口和人與機器之間的通信紐帶,而強邏輯、無視覺或者弱視覺的智能語音技術也會找到更多用武之地。

原文標題:智能交互的盡頭是聊天?

文章出處:【微信公眾號:安富利】歡迎添加關注!文章轉載請注明出處。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • ASR
    ASR
    +關注

    關注

    2

    文章

    35

    瀏覽量

    18687
  • TTS
    TTS
    +關注

    關注

    0

    文章

    39

    瀏覽量

    10747
  • 語音交互
    +關注

    關注

    3

    文章

    282

    瀏覽量

    27951

原文標題:智能交互的盡頭是聊天?

文章出處:【微信號:AvnetAsia,微信公眾號:安富利】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    WT2605C TTS在線語音合成芯片:賦能多行業(yè)領域,引領產品智能化

    在當今科技日新月異的時代,語音技術正逐步滲透到我們生活的方方面面,而TTS(Text-To-Speech,文本到語音技術作為其中的重要一環(huán)
    的頭像 發(fā)表于 09-12 15:54 ?199次閱讀
    WT2605C <b class='flag-5'>TTS</b>在線<b class='flag-5'>語音</b>合成芯片:賦能多行業(yè)領域,引領產品智能化

    收款機TTS語音芯片新方案:WT3000T8,雙語合成流暢,字庫解碼多樣!

    一:方案背景概述隨著科技的飛速發(fā)展,人工智能和語音識別技術在各個領域都得到了廣泛應用。其中,文本轉語音TTS技術以其獨特的優(yōu)勢,在收款機
    的頭像 發(fā)表于 07-27 08:38 ?551次閱讀
    收款機<b class='flag-5'>TTS</b><b class='flag-5'>語音</b>芯片新方案:WT3000T8,雙語合成流暢,字庫解碼多樣!

    ESP32-WROOM跑了官方的語音識別asr例程,但是切換到語音識別就會出錯的原因?

    我是用的是ESP32-WROOM芯片,用的Vscode+IDF+ADF,我跑了一下官方的語音識別asr例程,但是我發(fā)現(xiàn),語音喚醒可以,但是一旦切換到
    發(fā)表于 07-19 08:27

    【算能RADXA微服務器試用體驗】+ GPT語音與視覺交互:4,文字轉語音

    文字轉語音使用的技術簡稱為TTS。一般情況下我用的都是在線的EDGE-TTS服務。但非常幸運的是,BM1684X上居然有適配好的本地運行TTS
    發(fā)表于 07-15 23:18

    整合離線語音識別ASRTTS,內存映射時發(fā)生內存不足怎么解決?

    整合TTSASR,發(fā)現(xiàn)識別模型和TTS字典映射沖突,應該是只有4M的數(shù)據(jù)空間可以映射導致的,換了16M模組也不行,應該不是flash的問題,測試找到返回錯誤0x101的位置是 按頁映射的函數(shù)里
    發(fā)表于 06-28 07:34

    智能語音交互技術如何助力設備實現(xiàn)人機自然對話

    隨著現(xiàn)代人工智能在各行業(yè)的普及,智能語音交互技術也越來越多的在日常工作、生活應用,智能語音交互
    的頭像 發(fā)表于 05-23 15:16 ?638次閱讀
    智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b><b class='flag-5'>技術</b>如何助力<b class='flag-5'>設備</b>實現(xiàn)人機自然對話

    智能語音交互技術如何助力設備實現(xiàn)人機自然對話

    智能語音交互技術是指通過語音識別、語音合成和自然語言理解等技術,實現(xiàn)人與機器之間自然語言的交流和
    的頭像 發(fā)表于 05-23 15:14 ?319次閱讀

    WT3000T8-TTS語音合成芯片及應用場景介紹

    TTS語音合成芯片是一種能夠將文本信息轉化為自然語音的專用芯片。它通過內置的語音合成算法和音頻處理單元,實現(xiàn)了文本到語音的高效轉換,為各種智
    的頭像 發(fā)表于 04-18 18:03 ?759次閱讀

    玩轉語音合成芯片(TTS芯片),看這一篇就夠了

    什么是語音合成芯片:語音合成芯片也稱為TTS芯片,即文字轉語音芯片,是一種能夠將輸入的文字信息轉換為語音輸出的芯片。通過
    的頭像 發(fā)表于 03-19 18:13 ?1199次閱讀
    玩轉<b class='flag-5'>語音</b>合成芯片(<b class='flag-5'>TTS</b>芯片),看這一篇就夠了

    什么是自動語音識別(ASR)?如何使用深度學習和GPU加速ASR

    ASR 是自然語言中一項頗具挑戰(zhàn)性的任務,它由語音分割、聲學建模和語言建模等一系列子任務組成,根據(jù)噪聲和未分割的輸入數(shù)據(jù)形成預測(標簽序列)。
    發(fā)表于 02-28 15:01 ?4123次閱讀
    什么是自動<b class='flag-5'>語音</b>識別(<b class='flag-5'>ASR</b>)?如何使用深度學習和GPU加速<b class='flag-5'>ASR</b>

    設備更聰明 |離線自然說,開啟智能語音交互新體驗!

    離線語音識別是指不需要依賴網絡,在本地設備實現(xiàn)語音識別的過程,通常以端側AI語音芯片作為載體來進行數(shù)據(jù)的采集、計算和決策。但是語音芯片的存儲
    的頭像 發(fā)表于 01-10 08:15 ?839次閱讀
    讓<b class='flag-5'>設備</b>更聰明 |離線自然說,開啟智能<b class='flag-5'>語音</b><b class='flag-5'>交互</b>新體驗!

    離線語音識別技術:掌控未來的語音交互

    離線語音識別技術的核心優(yōu)勢在于其獨立性和實時性。在沒有網絡連接的情況下,設備依然能夠迅速識別用戶的語音指令,實現(xiàn)各種功能。這使得語音
    的頭像 發(fā)表于 12-13 11:12 ?512次閱讀
    離線<b class='flag-5'>語音</b>識別<b class='flag-5'>技術</b>:掌控未來的<b class='flag-5'>語音</b><b class='flag-5'>交互</b>

    情感語音識別技術在人機交互的應用與展望

    一、引言 隨著人工智能技術的不斷發(fā)展,人機交互已經滲透到日常生活的方方面面。情感語音識別作為人機交互的關鍵
    的頭像 發(fā)表于 11-22 10:40 ?677次閱讀

    情感語音識別在人機交互的應用與挑戰(zhàn)

    。 二、情感語音識別在人機交互的應用 智能客服:智能客服可以利用情感語音識別技術,對用戶的語音
    的頭像 發(fā)表于 11-15 15:42 ?490次閱讀

    情感語音識別技術在人機交互的應用與挑戰(zhàn)

    ?一、引言 隨著人工智能技術的不斷發(fā)展,人機交互已經成為了研究的熱點之一。情感語音識別技術作為人機交互
    的頭像 發(fā)表于 11-09 15:27 ?729次閱讀