0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音喚醒

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:通信信號處理研究所 ? 作者:通信信號處理研究 ? 2021-01-02 11:32 ? 次閱讀

1. 概述

人工智能技術(shù)迅猛發(fā)展,人機語音交互更加自然,搭載語音喚醒、識別技術(shù)的智能設(shè)備也越來越多。語音喚醒在學(xué)術(shù)上稱為 keyword spotting(簡稱 KWS),即在連續(xù)語流中實時檢測出說話人特定片段(比如:叮當(dāng)叮當(dāng)、Hi Siri 等),是一種小資源的關(guān)鍵詞檢索任務(wù),也可以看作是一類特殊的語音識別,應(yīng)用在智能設(shè)備上起到了保護(hù)用戶隱私、降低設(shè)備功耗的作用,經(jīng)常扮演一個激活設(shè)備、開啟系統(tǒng)的入口角色,在手機助手、車載、可穿戴設(shè)備、智能家居、機器人等運用得尤其普遍。

喚醒效果好壞的判定指標(biāo)主要有召回率 (recall,俗稱喚醒率)、虛警率 (false alarm,俗稱誤喚醒)、響應(yīng)時間和功耗四個指標(biāo)。召回率表示正確被喚醒的次數(shù)占總的應(yīng)該被喚醒次數(shù)的比例。虛警率表示不該被喚醒卻被喚醒的概率,工業(yè)界常以 12 或者 24 小時的誤喚醒次數(shù)作為系統(tǒng)虛警率的評價指標(biāo)。響應(yīng)時間是指用戶說出喚醒詞后,設(shè)備的反應(yīng)時間,過大的響應(yīng)時間會造成較差的用戶體驗。功耗是指喚醒系統(tǒng)的耗電情況,多數(shù)智能設(shè)備都是電池供電,且需要保證長時續(xù)航,要求喚醒系統(tǒng)必須是低耗能的。一個好的喚醒系統(tǒng)應(yīng)該保證較高的召回率、較低的虛警率、響應(yīng)延時短、功耗低。

喚醒技術(shù)落地的難點是要求在低功耗下達(dá)到高性能要求。一方面是目前很多智能設(shè)備為了控制成本,搭載的都是一些低端芯片,計算能力有限,需要喚醒模塊盡可能的減少計算計算量以減少能源消耗;一方面用戶使用場景多種多樣,設(shè)備也常沒有經(jīng)過專業(yè)聲學(xué)設(shè)計,遠(yuǎn)場、大噪聲、強干擾、高回聲、高混響等情況下仍然面臨召回率低、虛警率高的問題。

針對此問題,騰訊 AI Lab 近期發(fā)表一篇論文,針對復(fù)雜聲學(xué)環(huán)境,特別是噪聲和干擾人聲場景,對送給喚醒模型的聲學(xué)信號進(jìn)行前處理,以提升其語音信號質(zhì)量。本論文已被 Interspeech 2020 接收。

很多智能設(shè)備安裝有多個麥克風(fēng),因此多通道的前端處理技術(shù)被應(yīng)用到喚醒的前端信號處理中。當(dāng)目標(biāo)說話人與干擾聲源分布在不同方向時,多通道的語音增強技術(shù),例如波束形成 (beamformer), 能夠有效的增強目標(biāo)說話人,抑制其它干擾聲源。但是這一做法依賴較準(zhǔn)確的目標(biāo)說話人方向定位。在實際環(huán)境中,由于有干擾聲源的存在,使得很難從帶噪數(shù)據(jù)中準(zhǔn)確估計目標(biāo)說話人的方位,特別是當(dāng)有多人在同時說話時,也無法判斷哪一個是目標(biāo)說話人。因此本文采用“耳聽八方” (多音區(qū)) 的思路,在空間中設(shè)定若干待增強的方向(look direction),然后區(qū)別于傳統(tǒng)的波束形成做法(這個做法已發(fā)表于 ICASSP 2020 [1]),本文提出了一個基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)(multi-look)語音增強模型,可同時增強多個指定的方向聲源。這些多個方向增強輸出的信號再通過注意力機制進(jìn)行特征融合送予喚醒模型。由于前端的增強是通過神經(jīng)網(wǎng)絡(luò)處理的,這樣多音區(qū)的增強模型與喚醒模型可以進(jìn)行聯(lián)合優(yōu)化,實現(xiàn)真正的前后端一體的多音區(qū)語音喚醒。

基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音增強模型是首個完全基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音增強模型。相比于特定方向的語音增強,本文提出的模型可同時增強多個方向聲源。同時這種基于神經(jīng)網(wǎng)絡(luò)的方法,在性能上顯著優(yōu)于基于傳統(tǒng)的波束形成做法。完全基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)前端,與喚醒模型聯(lián)合訓(xùn)練,前后一體的做法進(jìn)一步提升模型的魯棒性和穩(wěn)定性。此模型適用于多麥克風(fēng)設(shè)備的語音喚醒。

以下為方案詳細(xì)解讀。

2. 方案詳解

傳統(tǒng)的多音區(qū)語音處理的思路,是在空間中設(shè)定若干待增強的方向(look direction),每個方向分別應(yīng)用一個波束形成,增強這個方向的聲源,最終本文將每個方向增強輸出的信號輪流送給喚醒模塊,只要有一個方向觸發(fā)喚醒,則喚醒成功。這種基于多音區(qū)的多波束喚醒技術(shù)大大提高了噪聲下的喚醒性能,然而需要多次調(diào)用喚醒模塊,因此計算量較單路喚醒也成倍增加,功耗變大制約了應(yīng)用。針對這一情況,作者在早前一點的工作中 [1] 將注意力 (attention) 機制引入到喚醒框架下,如圖 1 所示,多個 look-direction 增強的信號提取特征后通過 attention 層映射成單通道輸入特征,再送入單路喚醒網(wǎng)絡(luò)層,與單路喚醒相比僅僅增加了一層網(wǎng)絡(luò),既保證了喚醒性能,計算量又大大降低。

057c3e98-4458-11eb-8b86-12bb97331649.png

圖 1:基于多波束特征融合的喚醒模型 [1]

以上介紹的基于波束形成的多音區(qū)喚醒 [1],前端的信號處理(波束形成)和喚醒模塊還沒有做到聯(lián)合調(diào)優(yōu)。因此本文提出了一個基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音增強模型。該模型讀取單個通道的語譜特征和多通道的相位差特征,同時根據(jù)預(yù)設(shè)的若干音區(qū)方向(look direction),作者分別提取對應(yīng)的方向特征 (directionalfeature)。這些方向特征表征每個時頻點是否被特定音區(qū)方向的聲源信號占據(jù),從而驅(qū)動網(wǎng)絡(luò)在輸出端增強距離每個音區(qū)方向最近的那個說話人。為了避免因為音區(qū)和說話人的空間分布導(dǎo)致目標(biāo)說話人經(jīng)過多音區(qū)增強模型處理后失真,實驗中使用一個原始麥克風(fēng)信號與多個方向增強輸出的信號一起通過注意力機制進(jìn)行特征融合送予喚醒模型,由于前端的增強是通過神經(jīng)網(wǎng)絡(luò)處理的,這樣多音區(qū)的增強模型與喚醒模型可以進(jìn)行聯(lián)合優(yōu)化,實現(xiàn)真正的前后端一體的多音區(qū)語音喚醒。完整的模型結(jié)構(gòu)在圖 2 中描述。

05ff7c04-4458-11eb-8b86-12bb97331649.png

圖 2: 本文提出的基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音增強和喚醒模型 [2]

圖 3 是一個多音區(qū)增強的實例。兩個說話人分別位于圖 (a) 所示位置,麥克風(fēng)采集的兩人同時說話信號譜如圖 (b). 作者設(shè)定了 4 個待增強的方向(0 度,90 度,180 度和 270 度)。多音區(qū)增強模型將會在 0 度和 90 度方向增強藍(lán)色說話人,180 度和 270 度方向?qū)鰪姾谏f話人, 增強后的 4 個方向語譜如圖 (c)。

06514aca-4458-11eb-8b86-12bb97331649.png

圖 3: 多音區(qū)增強網(wǎng)絡(luò)輸出實例

在圖 4 中,作者對比了基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)增強喚醒模型與基于波束形成的多音區(qū)增強喚醒模型和基線的單通道喚醒模型??梢钥闯鎏貏e是在小于 6dB 的信干比聲學(xué)環(huán)境下,本文提出的做法顯著超越其它方法。不同方法喚醒率測試均在控制誤喚醒為連續(xù) 12 小時干擾噪聲下 1 次的條件下進(jìn)行的。

078bea08-4458-11eb-8b86-12bb97331649.png

圖 4: 多音區(qū)喚醒模型的性能對比

3.總結(jié)及展望

本文提出的多音區(qū)語音增強和喚醒的做法,大幅降級了喚醒前端語音增強與喚醒結(jié)合使用的計算量,在未知目標(biāo)聲源方位的情形下,同時增強的多個方向聲源信號的特征融合可保證目標(biāo)語音得到增強,給準(zhǔn)確的喚醒提供了保障。在論文中測試的多說話人帶噪聲的復(fù)雜聲學(xué)環(huán)境下,喚醒率達(dá)到 95%。

多音區(qū)的語音增強模型已經(jīng)與聲紋模型結(jié)合,形成多音區(qū)的說話人驗證,提升聲紋系統(tǒng)在復(fù)雜遠(yuǎn)場聲學(xué)環(huán)境下的魯棒性。未來這一工作可與語音識別等其它語音任務(wù)相結(jié)合。

原文標(biāo)題:論文解讀丨基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音喚醒

文章出處:【微信公眾號:通信信號處理研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

責(zé)任編輯:haq

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴

原文標(biāo)題:論文解讀丨基于神經(jīng)網(wǎng)絡(luò)的多音區(qū)語音喚醒

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    怎么對神經(jīng)網(wǎng)絡(luò)重新訓(xùn)練

    重新訓(xùn)練神經(jīng)網(wǎng)絡(luò)是一個復(fù)雜的過程,涉及到多個步驟和考慮因素。 引言 神經(jīng)網(wǎng)絡(luò)是一種強大的機器學(xué)習(xí)模型,廣泛應(yīng)用于圖像識別、自然語言處理、語音識別等領(lǐng)域。然而,隨著時間的推移,數(shù)據(jù)分布可能會
    的頭像 發(fā)表于 07-11 10:25 ?370次閱讀

    BP神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)的區(qū)別

    BP神經(jīng)網(wǎng)絡(luò)和人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks,簡稱ANNs)之間的關(guān)系與區(qū)別,是神經(jīng)網(wǎng)絡(luò)領(lǐng)域中一個基礎(chǔ)且重要的話題。本文將從定義、結(jié)構(gòu)、算法、應(yīng)用及未來發(fā)展等多個方面,詳細(xì)闡述BP
    的頭像 發(fā)表于 07-10 15:20 ?584次閱讀

    rnn是遞歸神經(jīng)網(wǎng)絡(luò)還是循環(huán)神經(jīng)網(wǎng)絡(luò)

    RNN(Recurrent Neural Network)是循環(huán)神經(jīng)網(wǎng)絡(luò),而非遞歸神經(jīng)網(wǎng)絡(luò)。循環(huán)神經(jīng)網(wǎng)絡(luò)是一種具有時間序列特性的神經(jīng)網(wǎng)絡(luò),能夠處理序列數(shù)據(jù),具有記憶功能。以下是關(guān)于循環(huán)
    的頭像 發(fā)表于 07-05 09:52 ?433次閱讀

    rnn是什么神經(jīng)網(wǎng)絡(luò)模型

    RNN(Recurrent Neural Network,循環(huán)神經(jīng)網(wǎng)絡(luò))是一種具有循環(huán)結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)模型,它能夠處理序列數(shù)據(jù),并對序列中的元素進(jìn)行建模。RNN在自然語言處理、語音識別、時間序列預(yù)測等
    的頭像 發(fā)表于 07-05 09:50 ?457次閱讀

    人工神經(jīng)網(wǎng)絡(luò)模型的分類有哪些

    人工神經(jīng)網(wǎng)絡(luò)(Artificial Neural Networks, ANNs)是一種模擬人腦神經(jīng)元網(wǎng)絡(luò)的計算模型,它在許多領(lǐng)域,如圖像識別、語音識別、自然語言處理、預(yù)測分析等有著廣泛的應(yīng)用。本文將
    的頭像 發(fā)表于 07-05 09:13 ?759次閱讀

    遞歸神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)

    。 遞歸神經(jīng)網(wǎng)絡(luò)的概念 遞歸神經(jīng)網(wǎng)絡(luò)是一種具有短期記憶功能的神經(jīng)網(wǎng)絡(luò),它能夠處理序列數(shù)據(jù),如時間序列、文本、語音等。與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)不同
    的頭像 發(fā)表于 07-04 14:54 ?543次閱讀

    bp神經(jīng)網(wǎng)絡(luò)和反向傳播神經(jīng)網(wǎng)絡(luò)區(qū)別在哪

    神經(jīng)網(wǎng)絡(luò)在許多領(lǐng)域都有廣泛的應(yīng)用,如語音識別、圖像識別、自然語言處理等。然而,BP神經(jīng)網(wǎng)絡(luò)也存在一些問題,如容易陷入局部最優(yōu)解、訓(xùn)練時間長、對初始權(quán)重敏感等。為了解決這些問題,研究者們提出了一些改進(jìn)的BP
    的頭像 發(fā)表于 07-04 09:51 ?336次閱讀

    反向傳播神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

    神經(jīng)網(wǎng)絡(luò)在許多領(lǐng)域都有廣泛的應(yīng)用,如語音識別、圖像識別、自然語言處理等。然而,BP神經(jīng)網(wǎng)絡(luò)也存在一些問題,如容易陷入局部最優(yōu)解、訓(xùn)練時間長、對初始權(quán)重敏感等。為了解決這些問題,研究者們提出了一些改進(jìn)的BP
    的頭像 發(fā)表于 07-03 11:00 ?515次閱讀

    bp神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)

    Network)有相似之處,但它們之間還是存在一些關(guān)鍵的區(qū)別。 一、引言 神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)元結(jié)構(gòu)的計算模型,它由大量的神經(jīng)元(或稱為節(jié)點)組成,這些神經(jīng)元通過權(quán)重連接在一起
    的頭像 發(fā)表于 07-03 10:14 ?489次閱讀

    bp神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)區(qū)別是什么

    BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Network)和卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)是兩種不同類型的人工神經(jīng)網(wǎng)絡(luò),它們在
    的頭像 發(fā)表于 07-03 10:12 ?710次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的原理是什么

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,簡稱CNN)是一種深度學(xué)習(xí)模型,廣泛應(yīng)用于圖像識別、語音識別、自然語言處理等領(lǐng)域。本文將詳細(xì)介紹卷積神經(jīng)網(wǎng)絡(luò)的原理,包括其
    的頭像 發(fā)表于 07-02 14:44 ?430次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)和bp神經(jīng)網(wǎng)絡(luò)的區(qū)別

    卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,簡稱CNN)和BP神經(jīng)網(wǎng)絡(luò)(Backpropagation Neural Networks,簡稱BPNN)是兩種
    的頭像 發(fā)表于 07-02 14:24 ?1702次閱讀

    神經(jīng)網(wǎng)絡(luò)架構(gòu)有哪些

    、語音識別、自然語言處理等多個領(lǐng)域。本文將對幾種主要的神經(jīng)網(wǎng)絡(luò)架構(gòu)進(jìn)行詳細(xì)介紹,包括前饋神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、卷積神經(jīng)網(wǎng)絡(luò)、生成對抗
    的頭像 發(fā)表于 07-01 14:16 ?482次閱讀

    如何訓(xùn)練和優(yōu)化神經(jīng)網(wǎng)絡(luò)

    神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域的重要分支,廣泛應(yīng)用于圖像識別、自然語言處理、語音識別等多個領(lǐng)域。然而,要使神經(jīng)網(wǎng)絡(luò)在實際應(yīng)用中取得良好效果,必須進(jìn)行有效的訓(xùn)練和優(yōu)化。本文將從神經(jīng)網(wǎng)絡(luò)的訓(xùn)練過程
    的頭像 發(fā)表于 07-01 14:14 ?314次閱讀

    卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點

    卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)點? 卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)是一種基于深度學(xué)習(xí)的神經(jīng)網(wǎng)絡(luò)模型,在圖像識別、語音識別、自然語言處理等領(lǐng)域有著廣泛
    的頭像 發(fā)表于 12-07 15:37 ?3872次閱讀