亚洲国产成人爱av在线播放,囯产欧美一区二区三区米奇,免费成人毛片不卡

Google 的研究人員創(chuàng)建了一個(gè)視聽(tīng)模型，可以通過(guò)算法將視頻中的多個(gè)聲音分離，得到一個(gè)清晰的單個(gè)語(yǔ)音。

一位二次元朋友說(shuō)他有一種能力，就是在 B 站開(kāi)彈幕看視頻時(shí)，想看視頻就看視頻，想看彈幕就看彈幕，兩者可以自動(dòng)分離，不會(huì)互相干擾。類似的，人類在聽(tīng)覺(jué)上也有一種選擇能力，就是人在集中注意力聽(tīng)某個(gè)聲音時(shí)，可以自動(dòng)忽略其他聲音或噪音，感覺(jué)像是把要聽(tīng)的聲音放大了一樣，這種現(xiàn)象叫做雞尾酒會(huì)效應(yīng)。

這種能力對(duì)我們來(lái)說(shuō)好像很自然，但對(duì)于計(jì)算機(jī)可是個(gè)不小的挑戰(zhàn)。最近，Google 的研究人員創(chuàng)建了一個(gè)視聽(tīng)模型，可以通過(guò)算法將視頻中的多個(gè)聲音分離，得到一個(gè)清晰的單個(gè)語(yǔ)音。簡(jiǎn)單來(lái)說(shuō)，你可以選擇只聽(tīng)視頻中某個(gè)人講話的聲音，而不用擔(dān)心被干擾。

結(jié)合視覺(jué)聽(tīng)覺(jué)信號(hào)，識(shí)別并分離音軌

利用這種技術(shù)制作的視頻可以將特定人物的聲音增強(qiáng)，把其他無(wú)關(guān)的聲音去掉。在普通的單音軌視頻中，用戶可以點(diǎn)擊自己想關(guān)注的人物，或者算法會(huì)結(jié)合上下段內(nèi)容來(lái)自動(dòng)選擇突出誰(shuí)的聲音。這項(xiàng)技術(shù)可以用于增強(qiáng)視頻中的語(yǔ)音，提高視聽(tīng)效果。

這項(xiàng)技術(shù)的原理是結(jié)合視頻中的聽(tīng)覺(jué)和視覺(jué)信號(hào)，以此來(lái)識(shí)別并分離語(yǔ)音。就像識(shí)別唇語(yǔ)的原理一樣，一個(gè)人說(shuō)話時(shí)發(fā)出的聲音和他嘴部的運(yùn)動(dòng)存在某種關(guān)聯(lián)，所以可以利用這一點(diǎn)，來(lái)辨別某段聲音是誰(shuí)發(fā)出的。在視覺(jué)信號(hào)的幫助下，即使是在多種聲音混雜的環(huán)境中，單個(gè)聲音的特征也變得更明顯，更重要的是，你還可以在聽(tīng)到清晰聲音的同時(shí)看到人嘴部的運(yùn)動(dòng)，更容易接收并理解信息。

研究人員用 10 萬(wàn)個(gè)高質(zhì)量的 YouTube 視頻為樣本，從視頻中提取清晰的演講片段，沒(méi)有背景音樂(lè)、沒(méi)有觀眾鼓掌、沒(méi)有噪音，并且視頻中只有一個(gè)說(shuō)話的人。他們共提取出 2000 個(gè)小時(shí)的訓(xùn)練數(shù)據(jù)，用這些干凈的視頻來(lái)合成“雞尾酒會(huì)”的效果。這樣就可以訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型，將合成的視頻分離出多個(gè)單獨(dú)的音軌，也就是每個(gè)人單獨(dú)的聲音。將每一幀中嘴部運(yùn)動(dòng)的視覺(jué)信息提取出來(lái)，然后找到聲譜圖中對(duì)應(yīng)的部分。這樣就可以訓(xùn)練神經(jīng)網(wǎng)絡(luò)，從聲音混雜的視頻中，根據(jù)人的嘴部運(yùn)動(dòng)來(lái)提取對(duì)應(yīng)的聲音碎片，最后輸出成具有單獨(dú)聲音軌道的視頻，每一個(gè)人的聲音都可以進(jìn)行單獨(dú)播放。

可以提高語(yǔ)音識(shí)別能力

這個(gè)黑科技在語(yǔ)音識(shí)別中尤其有用，比如 YouTube 自己的自動(dòng)字幕，如果視頻中有多種聲音混合，字幕就很難準(zhǔn)確顯示，而如果這幾種聲音能夠單獨(dú)分離播放，對(duì)應(yīng)的字幕也就更準(zhǔn)確，用戶也更容易理解。再往遠(yuǎn)處想，這項(xiàng)技術(shù)可以運(yùn)用到 Google Glass 這樣的智能眼鏡中，即使是在紛雜世界，你也可以只關(guān)注想關(guān)注的人，只聽(tīng) Ta 的聲音。除此之外，帶視頻能力的智能音箱可能是未來(lái)的大趨勢(shì)，有了語(yǔ)音分離能力，語(yǔ)音識(shí)別的能力也會(huì)更精準(zhǔn)、更強(qiáng)大。

這種強(qiáng)大的能力也可能帶來(lái)隱私問(wèn)題，比如間諜電影中經(jīng)常見(jiàn)到的天眼系統(tǒng)，如果再搭配語(yǔ)音分離的能力，豈不是可以做到視聽(tīng)上的全能？不過(guò)想達(dá)到那樣的效果，識(shí)別能力就要很精準(zhǔn)了。在此之前它的應(yīng)用可能只是 Google 自己的產(chǎn)品，比如增強(qiáng)視頻智能音箱的語(yǔ)音識(shí)別能力，還有讓 YouTube 的自動(dòng)字幕更智能。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴