汤姆私人影院,中国毛茸茸bbxx

用過智能音箱的小伙伴可能會(huì)有過這樣的經(jīng)歷，當(dāng)你和朋友同時(shí)對(duì)它講話時(shí)，它有時(shí)候同時(shí)面對(duì)兩位小主的臨幸會(huì)感覺很凌亂，不知道該聽誰的，分不清到底是誰在向它發(fā)出指令誰才是它的主人。

其實(shí)這涉及到語音識(shí)別領(lǐng)域一個(gè)重要的問題Speaker diarization(即說話人分類技術(shù))，這一技術(shù)的目的在于從音頻流中分離出不同人說話的語音，并將分離出的語音歸并到所屬的說話人上，其核心問題在于解決“who speak when”。這一技術(shù)對(duì)于理解對(duì)話、視頻標(biāo)注以及移動(dòng)端語音識(shí)別具有重要的意義。

對(duì)于Speaker diarization來說，其處理過程一般分為四個(gè)步驟：

語音分割：將不同說話人的語音片段分割出來，在音頻流中標(biāo)記分割點(diǎn)；

音頻特征抽取：利用諸如MFCC、說話人因子或i-vector等來從片段中抽取特征；

聚類：當(dāng)檢測(cè)到多個(gè)說話人并獲取了對(duì)應(yīng)語音片段的特征后需要利用聚類方法將相應(yīng)的片段歸類到對(duì)應(yīng)的說話人中去。

重分割：優(yōu)化聚類結(jié)果來提升說話人分類的精度。

近年來，基于神經(jīng)網(wǎng)絡(luò)的音頻處理系統(tǒng)促進(jìn)了這一領(lǐng)域的快速發(fā)展，但要訓(xùn)練一個(gè)在任意情況下能夠準(zhǔn)確快速識(shí)別分類說話人的模型并不是一件簡(jiǎn)單的事情。與標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)分類任務(wù)不同的是，說話人分類模型需要對(duì)新出現(xiàn)的說話人有著足夠魯棒的識(shí)別和分類性能，而在訓(xùn)練的過程中卻無法囊括現(xiàn)實(shí)中各式各樣的說話人。這在很大程度上限制了語音識(shí)別系統(tǒng)特別是在線系統(tǒng)的實(shí)時(shí)能力。

雖然已有很多工作在這個(gè)領(lǐng)域進(jìn)行了努力，但目前整個(gè)Speaker diarization系統(tǒng)中依然存在著非監(jiān)督學(xué)習(xí)的部分——聚類過程。聚類的表現(xiàn)對(duì)于整個(gè)系統(tǒng)有著重要的作用，但目前大多數(shù)算法都是無監(jiān)督的方法，這使得我們無法通過語音樣本的監(jiān)督學(xué)習(xí)來改進(jìn)這些算法。此外典型的聚類方法如k均值和譜聚類等非監(jiān)督算法對(duì)于在線說話人識(shí)別時(shí)，應(yīng)對(duì)不斷輸入的音頻流很難有效聚類。

為了進(jìn)一步提高模型的表現(xiàn)，谷歌的研究人員提出了一種監(jiān)督學(xué)習(xí)方法來實(shí)現(xiàn)語音特征的聚類。在最近發(fā)表的論文“Fully Supervised Speaker Diarization”中，研究人員提出了一個(gè)名為unbounded interleaved-state recurrentneural network (UIS-RNN)的聚類算法來提高了模型的性能。在語音識(shí)別數(shù)據(jù)集上達(dá)到了7.6%的錯(cuò)誤率，超過了其先前基于聚類方法（8.8%）和深度網(wǎng)絡(luò)嵌入方法（9.9%）。

這一方法與通常聚類方法的主要區(qū)別在于研究人員使用了參數(shù)共享的循環(huán)神經(jīng)網(wǎng)絡(luò)為所有的說話人（embeddings）建模，并通過循環(huán)神經(jīng)網(wǎng)絡(luò)的不同狀態(tài)來識(shí)別說話人，這就能將不同的語音片段與不同的人對(duì)應(yīng)起來。

具體來看，每一個(gè)人的語音都可以看做權(quán)值共享的RNN的一個(gè)實(shí)例，由于生成的實(shí)例不受限所以可以適應(yīng)多個(gè)說話人的場(chǎng)景。將RNN在不同輸入下的狀態(tài)對(duì)應(yīng)到不同的說話人即可實(shí)現(xiàn)通過監(jiān)督學(xué)習(xí)來實(shí)現(xiàn)語音片段的歸并。通過完整的監(jiān)督模型，可以得到語音中說話人的數(shù)量，并可以通過RNN攜帶時(shí)變的信息，這將會(huì)對(duì)在線系統(tǒng)的性能帶來質(zhì)的提升。

這一論文的主要貢獻(xiàn)如下：

提出了無界間隔狀態(tài)(. Unbounded interleaved-state )RNN，一個(gè)可以通過監(jiān)督學(xué)習(xí)訓(xùn)練的對(duì)于時(shí)變數(shù)據(jù)分割和聚類的算法；

全監(jiān)督的說話人分類系統(tǒng)；

數(shù)據(jù)集上誤差提升到7.6%；

提高線上任務(wù)表現(xiàn)。

那么它具體是怎么工作的呢？假設(shè)我們有四個(gè)人同時(shí)對(duì)著這個(gè)AI說話(這是個(gè)例子，模型其實(shí)可以處理更多的人)。那么每個(gè)人將會(huì)得到一個(gè)自己的RNN實(shí)例，擁有相同的初始狀態(tài)和參數(shù)。隨著語音片段的特征不斷被送入到網(wǎng)絡(luò)中而更新狀態(tài)。

例如下面的藍(lán)色人在實(shí)例化后，他將一直保持RNN的狀態(tài)，直到黃色的語音片段進(jìn)入并開啟新的RNN實(shí)例，這時(shí)在最頂部輸出的狀態(tài)就成為了黃色了。但后面如果藍(lán)色繼續(xù)說話，藍(lán)色RNN狀態(tài)也會(huì)相應(yīng)的重新轉(zhuǎn)移到藍(lán)色上。下圖最后的虛線顯示了y7各種不同的狀態(tài)。對(duì)于新出現(xiàn)的綠色說話人來說，將重新開啟一個(gè)新的實(shí)例。

利用RNN對(duì)說話人語音進(jìn)行表示，將能夠利用RNN參數(shù)從不同的說話人和言語中學(xué)習(xí)到高層級(jí)的知識(shí)，這對(duì)于標(biāo)記豐富的數(shù)據(jù)集來說將會(huì)得到更對(duì)更好的結(jié)果。利用帶有時(shí)間戳的說話人標(biāo)簽數(shù)據(jù)，可以通過隨機(jī)梯度下降法來訓(xùn)練模型，可用于新的說話人，并提高在線任務(wù)的表現(xiàn)。

在未來研究人員將會(huì)改進(jìn)這一模型用于離線解碼上下文信息的整合；同時(shí)還希望直接利用聲學(xué)特征代替d-vectors作為音頻特征，這樣就能實(shí)現(xiàn)完整的端到端模型了。

其實(shí)，谷歌先前的工作為這一方法打下了堅(jiān)實(shí)的基礎(chǔ)。去年的論文“SPEAKER DIARIZATION WITH LSTM”中就提出了利用LSTM與d-vertor結(jié)合來提升模型的表現(xiàn)。

但這篇論文中使用的聚類算法依然是無監(jiān)督的方法，這也為這次新工作的提出奠定了基礎(chǔ)。

除此之外，研究人員們還嘗試了利用視覺輔助的方法來識(shí)別誰在說話，并在論文“Looking to Listen at the Cocktail Party”中提出了利用視覺信息識(shí)別混合場(chǎng)景下說話人的方法：

相信不久后，家里的各種小可愛智能音響將可以清楚的分辨出誰是爸爸誰是媽媽，誰才是它的主人。對(duì)于嘈雜多人環(huán)境下語音指令的準(zhǔn)確性和對(duì)話系統(tǒng)的交互表現(xiàn)有著重要的作用。同時(shí)對(duì)于音視頻分析和音頻高維語義信息的抽取學(xué)習(xí)將會(huì)有很大的促進(jìn)作用。如果可以準(zhǔn)確識(shí)別對(duì)話中每個(gè)人的對(duì)話、時(shí)長(zhǎng)、分布，甚至可以分析出每個(gè)用戶的語言習(xí)慣、說話節(jié)奏等高級(jí)特征，與其他技術(shù)結(jié)合將能夠在行為識(shí)別、情感分析甚至語音加密等方面帶來重要的影響。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6104

瀏覽量
104780
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4726

瀏覽量
100311
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1197

瀏覽量
24590

原文標(biāo)題：聽不清誰在講話？谷歌新模型助力分辨聲音的主人

文章出處：【微信號(hào)：thejiangmen，微信公眾號(hào)：將門創(chuàng)投】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

深非監(jiān)督學(xué)習(xí)-Hierarchical clustering 層次聚類python的實(shí)現(xiàn)

【深度學(xué)習(xí)基礎(chǔ)-17】非監(jiān)督學(xué)習(xí)-Hierarchical clustering 層次聚類-python實(shí)現(xiàn)

發(fā)表于 04-28 10:07

一種聚類個(gè)數(shù)自適應(yīng)的聚類方法（簡(jiǎn)稱SKKM）

在數(shù)據(jù)挖掘算法中，K均值聚類算法是一種比較常見的無監(jiān)督學(xué)習(xí)方法，簇間數(shù)據(jù)對(duì)象越相異，簇內(nèi)數(shù)據(jù)對(duì)象越相似，說明該聚

發(fā)表于 11-03 16:13 ?12次下載

<b class='flag-5'>一種</b><b class='flag-5'>聚</b><b class='flag-5'>類</b>個(gè)數(shù)自適應(yīng)的<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>方法</b>（簡(jiǎn)稱SKKM）

一種改進(jìn)的BIRCH算法聚類方法

為解決傳統(tǒng)BIRCH算法對(duì)數(shù)據(jù)對(duì)象輸入順序敏感、聚類結(jié)果不穩(wěn)定的問題，提出了一種改進(jìn)的BIRCH算法。該算法將雷達(dá)信號(hào)偵察數(shù)據(jù)的脈沖載頻、脈沖重復(fù)間隔和脈沖寬度分別進(jìn)行

發(fā)表于 11-10 15:52 ?1次下載

<b class='flag-5'>一種</b>改進(jìn)的BIRCH算法<b class='flag-5'>聚</b><b class='flag-5'>類</b><b class='flag-5'>方法</b>

采用無監(jiān)督學(xué)習(xí)的方法，用深度摘要網(wǎng)絡(luò)總結(jié)視頻

中科院和英國(guó)倫敦大學(xué)瑪麗女王學(xué)院的研究人員就生成視頻摘要提出了一種新方法，采用無監(jiān)督學(xué)習(xí)的方法，

發(fā)表于 01-15 10:49 ?7052次閱讀

采用無<b class='flag-5'>監(jiān)督學(xué)習(xí)</b>的<b class='flag-5'>方法</b>，用深度摘要網(wǎng)絡(luò)總結(jié)視頻

基于半監(jiān)督學(xué)習(xí)框架的識(shí)別算法

問題，對(duì)半監(jiān)督學(xué)習(xí)中的協(xié)同訓(xùn)練算法進(jìn)行改進(jìn)，提出了一種基于多學(xué)習(xí)器協(xié)同訓(xùn)練模型的人體行為識(shí)別方法．這是一

發(fā)表于 01-21 10:41 ?1次下載

深度解析機(jī)器學(xué)習(xí)三類學(xué)習(xí)方法

在機(jī)器學(xué)習(xí)(Machine learning)領(lǐng)域。主要有三類不同的學(xué)習(xí)方法：監(jiān)督學(xué)習(xí)(Supervised learning)、非監(jiān)督學(xué)習(xí)

發(fā)表于 05-07 09:09 ?1.4w次閱讀

Python無監(jiān)督學(xué)習(xí)的幾種聚類算法包括K-Means聚類,分層聚類等詳細(xì)概述

無監(jiān)督學(xué)習(xí)是機(jī)器學(xué)習(xí)技術(shù)中的一類，用于發(fā)現(xiàn)數(shù)據(jù)中的模式。本文介紹用Python進(jìn)行無監(jiān)督學(xué)習(xí)的幾種聚類

發(fā)表于 05-27 09:59 ?3w次閱讀

利用機(jī)器學(xué)習(xí)來捕捉內(nèi)部漏洞的工具運(yùn)用無監(jiān)督學(xué)習(xí)方法可發(fā)現(xiàn)入侵者

Darktrace新網(wǎng)絡(luò)安全公司與劍橋大學(xué)的數(shù)學(xué)家合作，開發(fā)了一種利用機(jī)器學(xué)習(xí)來捕捉內(nèi)部漏洞的工具。它運(yùn)用無監(jiān)督學(xué)習(xí)方法，查看大量未標(biāo)記的數(shù)據(jù)，并找到不遵循典型模式的碎片。這些原始數(shù)據(jù)

發(fā)表于 11-22 16:01 ?1210次閱讀

密度峰值聚類算法實(shí)現(xiàn)LGG的半監(jiān)督學(xué)習(xí)

　　基于圖的局部與全局一致性（LGC）半監(jiān)督學(xué)習(xí)方法具有較高的標(biāo)注正確率，但時(shí)間復(fù)雜度較高，難以適用于數(shù)據(jù)規(guī)模較大的實(shí)際應(yīng)用場(chǎng)景。從縮小圖的規(guī)模人手，提出一種全局

發(fā)表于 03-11 11:21 ?21次下載

華裔女博士提出：Facebook提出用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架

【導(dǎo)讀】Facebook的研究人員近日提出了一種用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架。

發(fā)表于 04-26 09:45 ?1719次閱讀

基于成對(duì)學(xué)習(xí)和圖像聚類的肺癌亞型識(shí)別

基因診斷是近年來提高肺癌治愈率的一種新型且有效的方法，但這種方法存在基因檢測(cè)時(shí)間長(zhǎng)、費(fèi)用高、侵入式取樣損傷大的問題。文中提出了基于成對(duì)學(xué)習(xí)和

發(fā)表于 05-10 11:20 ?4次下載

基于特征組分層和半監(jiān)督學(xué)習(xí)的鼠標(biāo)軌跡識(shí)別方法

傳統(tǒng)時(shí)間序列分類方法存在鼠標(biāo)軌跡特征挖掘不充分、數(shù)據(jù)不平衡與標(biāo)記樣本量少等問題，造成識(shí)別效果較差。結(jié)合特征組分層和半監(jiān)督學(xué)習(xí)，提出

發(fā)表于 05-13 15:41 ?9次下載

融合零樣本學(xué)習(xí)和小樣本學(xué)習(xí)的弱監(jiān)督學(xué)習(xí)方法綜述

等現(xiàn)實(shí)挑戰(zhàn)，很多學(xué)者針對(duì)數(shù)據(jù)依賴小的弱監(jiān)督學(xué)習(xí)方法開展研究，出現(xiàn)了小樣本學(xué)習(xí)、零樣本學(xué)習(xí)等典型研究方向。對(duì)此，本文主要介紹了弱

發(fā)表于 02-09 11:22 ?2172次閱讀

一種基于偽標(biāo)簽半監(jiān)督學(xué)習(xí)的小樣本調(diào)制識(shí)別算法

一種基于偽標(biāo)簽半監(jiān)督學(xué)習(xí)的小樣本調(diào)制識(shí)別算法來源：《西北工業(yè)大學(xué)學(xué)報(bào)》，作者史蘊(yùn)豪等摘要：針對(duì)有標(biāo)簽樣本較少條件下的通信信號(hào)調(diào)制識(shí)別問題，提出了一種基于偽標(biāo)簽半

發(fā)表于 02-10 11:37 ?771次閱讀

深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法綜述

應(yīng)用中往往難以實(shí)現(xiàn)。因此，無監(jiān)督學(xué)習(xí)在深度學(xué)習(xí)中扮演著越來越重要的角色。本文旨在綜述深度學(xué)習(xí)中的無監(jiān)督學(xué)習(xí)方法，包括自編碼器、生成對(duì)抗網(wǎng)絡(luò)、

發(fā)表于 07-09 10:50 ?281次閱讀