0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

Google研究人員發(fā)現(xiàn)黑科技 只聽(tīng)你想聽(tīng)的聲音

454398 ? 來(lái)源:網(wǎng)絡(luò)整理 ? 作者: 工程師1 ? 2018-04-18 00:32 ? 次閱讀

Google 的研究人員創(chuàng)建了一個(gè)視聽(tīng)模型,可以通過(guò)算法視頻中的多個(gè)聲音分離,得到一個(gè)清晰的單個(gè)語(yǔ)音。

一位二次元朋友說(shuō)他有一種能力,就是在 B 站開(kāi)彈幕看視頻時(shí),想看視頻就看視頻,想看彈幕就看彈幕,兩者可以自動(dòng)分離,不會(huì)互相干擾。類似的,人類在聽(tīng)覺(jué)上也有一種選擇能力,就是人在集中注意力聽(tīng)某個(gè)聲音時(shí),可以自動(dòng)忽略其他聲音或噪音,感覺(jué)像是把要聽(tīng)的聲音放大了一樣,這種現(xiàn)象叫做雞尾酒會(huì)效應(yīng)。

這種能力對(duì)我們來(lái)說(shuō)好像很自然,但對(duì)于計(jì)算機(jī)可是個(gè)不小的挑戰(zhàn)。最近,Google 的研究人員創(chuàng)建了一個(gè)視聽(tīng)模型,可以通過(guò)算法將視頻中的多個(gè)聲音分離,得到一個(gè)清晰的單個(gè)語(yǔ)音。簡(jiǎn)單來(lái)說(shuō),你可以選擇只聽(tīng)視頻中某個(gè)人講話的聲音,而不用擔(dān)心被干擾。

結(jié)合視覺(jué)聽(tīng)覺(jué)信號(hào),識(shí)別并分離音軌

利用這種技術(shù)制作的視頻可以將特定人物的聲音增強(qiáng),把其他無(wú)關(guān)的聲音去掉。在普通的單音軌視頻中,用戶可以點(diǎn)擊自己想關(guān)注的人物,或者算法會(huì)結(jié)合上下段內(nèi)容來(lái)自動(dòng)選擇突出誰(shuí)的聲音。這項(xiàng)技術(shù)可以用于增強(qiáng)視頻中的語(yǔ)音,提高視聽(tīng)效果。

這項(xiàng)技術(shù)的原理是結(jié)合視頻中的聽(tīng)覺(jué)和視覺(jué)信號(hào),以此來(lái)識(shí)別并分離語(yǔ)音。就像識(shí)別唇語(yǔ)的原理一樣,一個(gè)人說(shuō)話時(shí)發(fā)出的聲音和他嘴部的運(yùn)動(dòng)存在某種關(guān)聯(lián),所以可以利用這一點(diǎn),來(lái)辨別某段聲音是誰(shuí)發(fā)出的。在視覺(jué)信號(hào)的幫助下,即使是在多種聲音混雜的環(huán)境中,單個(gè)聲音的特征也變得更明顯,更重要的是,你還可以在聽(tīng)到清晰聲音的同時(shí)看到人嘴部的運(yùn)動(dòng),更容易接收并理解信息。

研究人員用 10 萬(wàn)個(gè)高質(zhì)量的 YouTube 視頻為樣本,從視頻中提取清晰的演講片段,沒(méi)有背景音樂(lè)、沒(méi)有觀眾鼓掌、沒(méi)有噪音,并且視頻中只有一個(gè)說(shuō)話的人。他們共提取出 2000 個(gè)小時(shí)的訓(xùn)練數(shù)據(jù),用這些干凈的視頻來(lái)合成“雞尾酒會(huì)”的效果。這樣就可以訓(xùn)練一個(gè)卷積神經(jīng)網(wǎng)絡(luò)模型,將合成的視頻分離出多個(gè)單獨(dú)的音軌,也就是每個(gè)人單獨(dú)的聲音。將每一幀中嘴部運(yùn)動(dòng)的視覺(jué)信息提取出來(lái),然后找到聲譜圖中對(duì)應(yīng)的部分。這樣就可以訓(xùn)練神經(jīng)網(wǎng)絡(luò),從聲音混雜的視頻中,根據(jù)人的嘴部運(yùn)動(dòng)來(lái)提取對(duì)應(yīng)的聲音碎片,最后輸出成具有單獨(dú)聲音軌道的視頻,每一個(gè)人的聲音都可以進(jìn)行單獨(dú)播放。

可以提高語(yǔ)音識(shí)別能力

這個(gè)黑科技在語(yǔ)音識(shí)別中尤其有用,比如 YouTube 自己的自動(dòng)字幕,如果視頻中有多種聲音混合,字幕就很難準(zhǔn)確顯示,而如果這幾種聲音能夠單獨(dú)分離播放,對(duì)應(yīng)的字幕也就更準(zhǔn)確,用戶也更容易理解。再往遠(yuǎn)處想,這項(xiàng)技術(shù)可以運(yùn)用到 Google Glass 這樣的智能眼鏡中,即使是在紛雜世界,你也可以只關(guān)注想關(guān)注的人,只聽(tīng) Ta 的聲音。除此之外,帶視頻能力的智能音箱可能是未來(lái)的大趨勢(shì),有了語(yǔ)音分離能力,語(yǔ)音識(shí)別的能力也會(huì)更精準(zhǔn)、更強(qiáng)大。

這種強(qiáng)大的能力也可能帶來(lái)隱私問(wèn)題,比如間諜電影中經(jīng)常見(jiàn)到的天眼系統(tǒng),如果再搭配語(yǔ)音分離的能力,豈不是可以做到視聽(tīng)上的全能?不過(guò)想達(dá)到那樣的效果,識(shí)別能力就要很精準(zhǔn)了。在此之前它的應(yīng)用可能只是 Google 自己的產(chǎn)品,比如增強(qiáng)視頻智能音箱的語(yǔ)音識(shí)別能力,還有讓 YouTube 的自動(dòng)字幕更智能。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • Google
    +關(guān)注

    關(guān)注

    5

    文章

    1752

    瀏覽量

    57334
  • 谷歌
    +關(guān)注

    關(guān)注

    27

    文章

    6106

    瀏覽量

    104829
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    研究人員:微生物電池可能會(huì)對(duì)遠(yuǎn)程應(yīng)用產(chǎn)生巨大影響

    一粒土壤中可以包含宇宙般的微生物群,據(jù)估計(jì)數(shù)量可以多達(dá)100億?,F(xiàn)在,位于英國(guó)巴斯的一組研究人員正在開(kāi)發(fā)原型機(jī)技術(shù),以收集一些微生物物種呼出的電子。 這個(gè)想法是為了給低產(chǎn)出的傳感器和開(kāi)關(guān)供電,并可
    的頭像 發(fā)表于 06-29 17:17 ?1482次閱讀

    研究人員利用人工智能提升超透鏡相機(jī)的圖像質(zhì)量

    研究人員利用深度學(xué)習(xí)技術(shù)提高了直接集成在 CMOS 成像芯片上的超透鏡相機(jī)(左)的圖像質(zhì)量。超透鏡利用 1000 納米高的圓柱形氮化硅納米柱陣列(右圖)操縱光線。 研究人員利用深度學(xué)習(xí)技術(shù)提高了超
    的頭像 發(fā)表于 06-11 06:34 ?295次閱讀
    <b class='flag-5'>研究人員</b>利用人工智能提升超透鏡相機(jī)的圖像質(zhì)量

    MIT/三星研究人員利用活體拉曼光譜直接觀察葡萄糖指紋圖譜

    MIT/三星研究人員對(duì)葡萄糖拉曼光譜進(jìn)行活體觀測(cè) Direct observation of glucose fingerprint using in vivo Raman spectroscopy
    的頭像 發(fā)表于 06-05 06:35 ?285次閱讀
    MIT/三星<b class='flag-5'>研究人員</b>利用活體拉曼光譜直接觀察葡萄糖指紋圖譜

    研究人員利用定制光控制二維材料的量子特性

    的發(fā)展鋪平了道路。 由美國(guó)能源部SLAC國(guó)家加速器實(shí)驗(yàn)室和斯坦福大學(xué)研究人員領(lǐng)導(dǎo)的研究小組將這種方法應(yīng)用于一種名為六方氮化硼(hBN)的材料,這種材料由單層原子以蜂窩狀排列而成,其特性使其非常適合量子操縱。在實(shí)驗(yàn)中,科學(xué)家們利用一種電
    的頭像 發(fā)表于 05-06 06:29 ?197次閱讀
    <b class='flag-5'>研究人員</b>利用定制光控制二維材料的量子特性

    研究人員發(fā)現(xiàn)提高激光加工分辨率的新方法

    通過(guò)透明玻璃聚焦定制激光束可以在材料內(nèi)部形成一個(gè)小光斑。東北大學(xué)的研究人員研發(fā)了一種利用這種小光斑改進(jìn)激光材料加工、提高加工分辨率的方法。 他們的研究成果發(fā)表在《光學(xué)通訊》(Optics
    的頭像 發(fā)表于 04-18 06:30 ?279次閱讀
    <b class='flag-5'>研究人員</b><b class='flag-5'>發(fā)現(xiàn)</b>提高激光加工分辨率的新方法

    研究人員首次將光子濾波器和調(diào)制器組合在單個(gè)芯片上

    悉尼大學(xué)的研究人員將光子濾波器和調(diào)制器組合在單個(gè)芯片上,使他們能夠精確檢測(cè)寬帶射頻頻譜上的信號(hào)。這項(xiàng)工作使光子芯片更接近有朝一日,有可能取代光纖網(wǎng)絡(luò)中體積更大、更復(fù)雜的電子射頻芯片。
    的頭像 發(fā)表于 01-02 16:30 ?559次閱讀

    研究人員發(fā)現(xiàn)光子探測(cè)新技術(shù)

    ? 中佛羅里達(dá)大學(xué)研究員、納米科學(xué)技術(shù)中心教授Debashis Chanda開(kāi)發(fā)了一種新技術(shù)來(lái)檢測(cè)光子——從可見(jiàn)光到無(wú)線電頻率的基本粒子,在攜帶細(xì)胞通信方面起著重要作用。 這一進(jìn)步可能會(huì)導(dǎo)致各個(gè)領(lǐng)域
    的頭像 發(fā)表于 12-21 06:35 ?318次閱讀

    研究人員創(chuàng)造一種六角形心電圖貼片 實(shí)現(xiàn)遙感與數(shù)據(jù)傳輸功能

    導(dǎo)? ? 語(yǔ)在《Applied Physics Reviews》期刊上,研究人員提出了一種新型可穿戴心電圖貼片,旨在增強(qiáng)床旁診斷,檢測(cè)心血管疾病并幫助評(píng)估整體心臟健康狀況。該研究的重點(diǎn)在于利用有源干
    的頭像 發(fā)表于 12-13 16:44 ?419次閱讀

    研究人員設(shè)計(jì)一種新的3D噴墨打印技術(shù)

    據(jù)悉,一帶韌帶和肌腱的骨骼機(jī)械手現(xiàn)在可以通過(guò)一次3D打印完成 —— 這是通過(guò)一種新的增材制造方法實(shí)現(xiàn)的,這種方法可以同時(shí)以高分辨率打印剛性和彈性材料。 這項(xiàng)新工作是瑞士蘇黎世聯(lián)邦理工學(xué)院的研究人員
    的頭像 發(fā)表于 11-20 17:01 ?658次閱讀

    SC23 | 研究人員競(jìng)相使用 NVIDIA CUDA Quantum 大力推進(jìn)研究工作

    眾多企業(yè)機(jī)構(gòu)正通過(guò) NVIDIA 軟件和 GPU 上的混合量子計(jì)算獲得洞察,全球最大的化工企業(yè)巴斯夫就是其中之一。 巴斯夫的兩位研究人員 Michael Kuehn 和 Davide Vodola
    的頭像 發(fā)表于 11-14 20:05 ?545次閱讀
    SC23 | <b class='flag-5'>研究人員</b>競(jìng)相使用 NVIDIA CUDA Quantum 大力推進(jìn)<b class='flag-5'>研究</b>工作

    谷歌研究人員利用現(xiàn)有的耳機(jī)來(lái)測(cè)量心率

    谷歌的研究人員發(fā)現(xiàn),當(dāng)音樂(lè)播放時(shí),超聲波方法效果很好,但它在嘈雜的環(huán)境中還可能存在問(wèn)題,“APG信號(hào)有時(shí)會(huì)非常嘈雜,或可受到身體運(yùn)動(dòng)的嚴(yán)重干擾?!比欢?,他們發(fā)現(xiàn),他們可以通過(guò)使用多個(gè)頻率并找出其中最準(zhǔn)確的信號(hào)來(lái)克服運(yùn)動(dòng)問(wèn)題。
    的頭像 發(fā)表于 11-09 16:32 ?614次閱讀

    谷歌研究人員發(fā)現(xiàn)耳機(jī)和軟件可使用超聲波測(cè)量心率

    在9to5Google近日發(fā)現(xiàn)的一個(gè)新的研究博客中寫(xiě)道,他們嘗試了一種不同的方法,稱為聽(tīng)力體積描記術(shù)(audioplethysmography,APG),使用超聲波測(cè)量心率。他們用現(xiàn)成的有源降噪
    的頭像 發(fā)表于 11-09 16:32 ?1214次閱讀

    研究人員發(fā)現(xiàn)了迄今為止最快的半導(dǎo)體

    科學(xué)家們發(fā)現(xiàn)了他們所說(shuō)的迄今為止最快、最高效的半導(dǎo)體。盡管這種新材料是用地球上最稀有的元素之一制成,但研究人員表示,有可能會(huì)發(fā)現(xiàn)由更豐富的材料制成的替代物,其運(yùn)行速度相當(dāng)快。
    的頭像 發(fā)表于 11-08 16:28 ?565次閱讀

    加州大學(xué)研究人員推出首款穩(wěn)定的全固態(tài)熱晶體管

    加州大學(xué)洛杉磯分校(UCLA)的一組研究人員利用電場(chǎng)來(lái)調(diào)節(jié)半導(dǎo)體器件的傳熱,推出了首款穩(wěn)定的全固態(tài)熱晶體管。 該小組的研究詳細(xì)闡述了該設(shè)備的預(yù)期應(yīng)用和操作機(jī)制,該研究計(jì)劃發(fā)表在11月3日的《科學(xué)
    的頭像 發(fā)表于 11-07 15:42 ?497次閱讀

    小到一個(gè)分子!研究人員開(kāi)發(fā)一種微小的壓電電阻器

    使用壓阻的電子傳感器在許多設(shè)備中都很常見(jiàn),包括汽車、醫(yī)療可穿戴設(shè)備和智能手機(jī)。現(xiàn)在,澳大利亞的研究人員開(kāi)發(fā)了一種微小的壓電電阻器,小到一個(gè)分子,可以實(shí)現(xiàn)一系列全新的應(yīng)用。 該研究的作者之一、澳大利亞
    的頭像 發(fā)表于 10-31 16:52 ?809次閱讀