国产在线视频天天综合网,亚洲精品∨欧洲精品∨日韩精品,国产女乘客视频在线观看

只聽聲音，就能知道一個(gè)人長什么樣？

是的。

大名鼎鼎的麻省理工CSAIL（人工智能實(shí)驗(yàn)室），最近就發(fā)布了這樣一個(gè)令人驚訝的研究。只需要聽6秒的聲音片段，AI就能推斷出說話者的容貌。

詳細(xì)解釋之前，咱們一起試試先。

聽聽下面這段錄音，一共有六段。你能想象出來，說話的人長什么樣么？

怎么樣？你行么？

MIT研究人員，設(shè)計(jì)和訓(xùn)練的神經(jīng)網(wǎng)絡(luò)Speech2Face，就能通過短短的語音片段，推測出說話者的年齡、性別、種族等等多重屬性，然后重建說話人的面部。

下面就是AI聽聲識臉，給出的結(jié)果：

左邊一列是真實(shí)的照片，右邊一列是神經(jīng)網(wǎng)絡(luò)根據(jù)聲音推斷出來的長相。

講真，這個(gè)效果讓我們佩服。

這篇論文也入圍了今年的學(xué)術(shù)頂級會(huì)議CVPR 2019。

當(dāng)然這個(gè)研究也會(huì)引發(fā)一些隱私方面的擔(dān)憂。不過研究團(tuán)隊(duì)在論文中特別聲明，這個(gè)神經(jīng)網(wǎng)絡(luò)不追求完全精確還原單一個(gè)體的臉部圖像。

不同的語言也有影響。論文中舉了一個(gè)案例，同一男子分別說中文和英文，AI卻分別還原出了不同的面孔樣貌。當(dāng)然，這也跟口音、發(fā)聲習(xí)慣等相關(guān)。

另外，研究團(tuán)隊(duì)也表示，目前這套系統(tǒng)對還原白人和東亞人的面孔效果更好?？赡苡捎谟《群秃谌说臄?shù)據(jù)較少，還原效果還有待進(jìn)一步提高。

原理

從聲音推斷一個(gè)人的長相不是一種玄學(xué)，平時(shí)我們在打電話時(shí)會(huì)根據(jù)對方的聲音腦補(bǔ)出相貌特征。

這是因?yàn)?，年齡、性別、嘴巴形狀、面部骨骼結(jié)構(gòu)，所有這些都會(huì)影響人發(fā)出的聲音。此外，語言、口音、速度通常會(huì)體現(xiàn)出一個(gè)的民族、地域、文化特征。

AI正是根據(jù)語音和相貌的關(guān)聯(lián)性做出推測。

為此，研究人員提取了幾百萬個(gè)YouTube視頻，通過訓(xùn)練，讓深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)聲音和面部的相關(guān)性，找到說話的人一些基本特征，比如年齡、性別、種族等，并還原出相貌。

而且在這個(gè)過程中，不需要人類標(biāo)記視頻，由模型自我監(jiān)督學(xué)習(xí)。這就是文章中所說的Speech2Face模型。

將電話另一端通過卡通人物的方式顯示在你的手機(jī)上，可能是Speech2Face未來的一種實(shí)際應(yīng)用。

模型結(jié)構(gòu)

Speech2Face模型是如何還原人臉的，請看下圖：

給這個(gè)網(wǎng)絡(luò)輸入一個(gè)復(fù)雜的聲譜圖，它將會(huì)輸出4096-D面部特征，然后使用預(yù)訓(xùn)練的面部解碼器將其還原成面部的標(biāo)準(zhǔn)圖像。

訓(xùn)練模塊在圖中用橙色部分標(biāo)記。在訓(xùn)練過程中，Speech2Face模型不會(huì)直接用人臉圖像與原始圖像進(jìn)行對比，而是與原始圖像的4096-D面部特征對比，省略了恢復(fù)面部圖像的步驟。

在訓(xùn)練完成后，模型在推理過程中才會(huì)使用面部解碼器恢復(fù)人臉圖像。

訓(xùn)練過程使用的是AVSpeech數(shù)據(jù)集，它包含幾百萬個(gè)YouTube視頻，超過10萬個(gè)人物的語音-面部數(shù)據(jù)。

在具體細(xì)節(jié)上，研究使用的中每個(gè)視頻片段開頭最多6秒鐘的音頻，并從中裁剪出人臉面部趨于，調(diào)整到224×224像素。

△從原始圖像提取特征重建的人臉，以及從聲音推測的人臉

之前，也有人研究過聲音推測面部特征，但都是從人的聲音預(yù)測一些屬性，然后從數(shù)據(jù)庫中獲取最適合預(yù)測屬性的圖像，或者使用這些屬性來生成圖像。

然而，這種方法存在局限性，需要有標(biāo)簽來監(jiān)督學(xué)習(xí)，系統(tǒng)的魯棒性也較差。

由于人臉圖像中面部表情、頭部姿態(tài)、遮擋和光照條件的巨大變化，想要獲得穩(wěn)定的輸出結(jié)果，Speech2Face人臉模型的設(shè)計(jì)和訓(xùn)練變得非常重要。

一般從輸入語音回歸到圖像的簡單方法不起作用，模型必須學(xué)會(huì)剔除數(shù)據(jù)中許多不相關(guān)的變化因素，并隱含地提取人臉有意義的內(nèi)部表示。

為了解決這些困難，模型不是直接得到人臉圖像，而是回歸到人臉的低維中間表示。更具體地說，是利用人臉識別模型VGG-Face，并從倒數(shù)第二層的網(wǎng)絡(luò)提取一個(gè)4096-D面部特征。

模型的pipeline由兩個(gè)主要部分組成：

1、語音編碼器

語音編碼器模塊是一個(gè)CNN，將輸入的語音聲譜圖轉(zhuǎn)換成偽人臉特征，并預(yù)測面部的低維特征，隨后將其輸入人臉解碼器以重建人臉圖像。

2、面部解碼器

面部解碼器的輸入為低維面部特征，并以標(biāo)準(zhǔn)形式（正面和中性表情）產(chǎn)生面部圖像。

在訓(xùn)練過程中，人臉解碼器是固定的，只訓(xùn)練預(yù)測人臉特征的語音編碼器。語音編碼器是作者自己設(shè)計(jì)和訓(xùn)練的模型，而面部解碼器使用的是前人提出的模型。

將實(shí)驗(yàn)結(jié)果更進(jìn)一步，Speech2Face還能用于人臉檢索。把基于語音的人臉預(yù)測結(jié)果與數(shù)據(jù)庫中的人臉進(jìn)行比較，系統(tǒng)將給出5個(gè)最符合的人臉照片。

不足之處

若根據(jù)語言來預(yù)測種族，那么一個(gè)人說不同的語言會(huì)導(dǎo)致不同的預(yù)測結(jié)果嗎？

研究人員讓一個(gè)亞洲男性分別說英語和漢語，結(jié)果分別得到了2張不同的面孔。

模型有時(shí)候也能正確預(yù)測結(jié)果，比如讓一個(gè)亞洲小女孩說英文，雖然恢復(fù)出的圖像和本人有很大差距，但仍可以看出黃種人的面部特征。

研究人員表示，這個(gè)小女孩并沒有明顯的口音特征，所以他們的模型還要進(jìn)一步檢查來確定對語言的依賴程度。

在其他一些情況下，模型也會(huì)“翻車”。比如：變聲期之前的兒童，會(huì)導(dǎo)致模型誤判性別發(fā)生錯(cuò)誤；口音與種族特征不匹配；將老人識別為年輕人，或者是年輕人識別為老人。

作者團(tuán)隊(duì)

這個(gè)研究的作者，大部分來自MIT CSAIL。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

MIT

MIT

+關(guān)注

關(guān)注
3

文章
253

瀏覽量
23332
深度學(xué)習(xí)

深度學(xué)習(xí)

+關(guān)注

關(guān)注
73

文章
5442

瀏覽量
120805

原文標(biāo)題：MIT腦洞研究！只聽6秒語音，就知道你長什么樣，效果好得不敢信

文章出處：【微信號：CAAI-1981，微信公眾號：中國人工智能學(xué)會(huì)】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

SynSense時(shí)識科技與海南大學(xué)聯(lián)合研究成果發(fā)布

處理器Xylo和脈沖神經(jīng)網(wǎng)絡(luò)技術(shù)實(shí)現(xiàn)超低功耗的實(shí)時(shí)癲癇檢測系統(tǒng)，結(jié)果顯示系統(tǒng)準(zhǔn)確率高達(dá)93.3%，檢測延遲平均僅0.5秒，計(jì)算功耗僅為287.9微瓦。

發(fā)表于 10-23 14:40 ?134次閱讀

SynSense時(shí)識科技與海南大學(xué)聯(lián)合<b class='flag-5'>研究</b>成果發(fā)布

ai人工智能回答準(zhǔn)確率高嗎

人工智能（AI）回答的準(zhǔn)確率是一個(gè)相對的概念，會(huì)受到多個(gè)因素的影響，因此不能一概而論地說其準(zhǔn)確率高或低。以下是對AI回答準(zhǔn)確率及其影響因素的分析：一、AI回答準(zhǔn)確率的現(xiàn)狀在某些特定

發(fā)表于 10-17 16:30 ?498次閱讀

TLV320AIC23B為什么無法準(zhǔn)確得到8K采樣率？

能否幫忙解釋下TLV320AIC23B 規(guī)格書中提到的這句話的解釋，我們理解是在usb mode 下，由于超采樣關(guān)系，無法準(zhǔn)確得到8K采樣率，實(shí)際的采樣率應(yīng)該為8.021k。目前我們AIC23B

發(fā)表于 10-09 10:15

NIUSB6009 采集準(zhǔn)確率的問題？

NIUSB6009 采集準(zhǔn)確率的問題？一、本人做一個(gè)中間繼電器電性能實(shí)驗(yàn)的裝置 1、PLC帶動(dòng)中間繼電器吸合和釋放，（吸合用時(shí)1.5秒，釋放用時(shí)1.5秒）周而復(fù)始的運(yùn)動(dòng)。 2、中間繼電器的觸頭負(fù)載

發(fā)表于 09-23 15:59

NVIDIA文本嵌入模型NV-Embed的精度基準(zhǔn)

NVIDIA 的最新嵌入模型 NV-Embed —— 以 69.32 的分?jǐn)?shù)創(chuàng)下了嵌入準(zhǔn)確率的新紀(jì)錄海量文本嵌入基準(zhǔn)測試（MTEB）涵蓋 56 項(xiàng)嵌入任務(wù)。

發(fā)表于 08-23 16:54 ?1893次閱讀

準(zhǔn)確率高達(dá)97%!腦機(jī)接口讓漸凍癥患者重新“說話”

行業(yè)芯事行業(yè)資訊

電子發(fā)燒友網(wǎng)官方

發(fā)布于 :2024年08月16日 10:51:58

如何快速檢測原理圖中的元器件與PLM系統(tǒng)的一致性，提高原理圖設(shè)計(jì)準(zhǔn)確性

背景介紹保證原理圖中的元器件來源于公司的PLM系統(tǒng)、ERP系統(tǒng)的，是輸出有效BOM的根源，初始BOM的準(zhǔn)確率，能大大降低ECN的數(shù)量，提高生產(chǎn)備料的時(shí)效，縮短采購周期。然而，原理圖設(shè)計(jì)過程中，由于

發(fā)表于 05-13 17:40 ?548次閱讀

如何快速檢測原理圖中的元器件與PLM系統(tǒng)的一致性，提高原理圖設(shè)計(jì)<b class='flag-5'>準(zhǔn)確</b>性

OpenAI推出專用的AI檢測工具

OpenAI最近推出了一款全新的AI檢測工具，這款工具專門針對由DALL·E 3模型生成的圖片。令人印象深刻的是，該工具能夠精準(zhǔn)識別出這類圖片，其準(zhǔn)確率高達(dá)98%。這一舉措的主要目的是為了協(xié)助研究人員在內(nèi)容真實(shí)性方面進(jìn)行深入的研究

發(fā)表于 05-09 10:01 ?454次閱讀

自動(dòng)雨量監(jiān)測系統(tǒng)（準(zhǔn)確地預(yù)測降雨情況，提高預(yù)報(bào)的準(zhǔn)確率）

對工程的影響，及時(shí)采取相應(yīng)的措施，保障工程的安全運(yùn)行。在氣象預(yù)報(bào)方面，它可以幫助氣象工作者更準(zhǔn)確地預(yù)測降雨情況，提高預(yù)報(bào)的準(zhǔn)確率。

發(fā)表于 03-28 14:59 ?425次閱讀

谷歌AI預(yù)測洪災(zāi)準(zhǔn)確率提高，最多提前7天

3 月 22 日，據(jù)報(bào)道，Google 近期榮獲《Nature》認(rèn)可，發(fā)表其借助人工智能技術(shù)精準(zhǔn)預(yù)測洪災(zāi)的研究進(jìn)展。此舉或?qū)⑵平忾L期困擾全球 80 余國地區(qū)居民的洪水預(yù)警難題。

發(fā)表于 03-22 15:00 ?447次閱讀

在全志V853平臺(tái)上成功部署深度學(xué)習(xí)步態(tài)識別算法

模型針對相同條件下的識別準(zhǔn)確率數(shù)據(jù)。其中NM表示正常行走狀態(tài)、BG表示背包行走，CL表示穿外套行走。除了針對步態(tài)識別準(zhǔn)確率進(jìn)行了測試，本研究也對步態(tài)識別的實(shí)時(shí)性進(jìn)行了測試。對于單人步態(tài)識別，前處理

發(fā)表于 03-04 10:15

機(jī)器學(xué)習(xí)和代謝圖譜相結(jié)合，早期卵巢癌檢測準(zhǔn)確率高達(dá)93%

卵巢癌因不易察覺且晚確診而被視為無聲殺手。據(jù)報(bào)道，晚期卵巢癌患者的五年存活率僅為31％，而及早發(fā)現(xiàn)與治療，這一比例便可提高到90％以上。盡管從三十年前起已有專家嘗試以各種方式探尋早期檢測方法，但至今未能取得顯著進(jìn)展。

發(fā)表于 02-02 16:04 ?675次閱讀

如何準(zhǔn)確計(jì)算低電平分辨率編碼器TLE9243QK_BASE_BOARD的速度？

嗨，我正在使用低電平分辨率編碼器來控制 PMSM，我有一個(gè)問題，如何準(zhǔn)確計(jì)算低電平分辨率編碼器 TLE9243QK_BASE_BOARD 的速度？

發(fā)表于 01-22 07:08

請問要達(dá)到0.05%的測量精度，需要多少位分辨率和準(zhǔn)確度的ADC？

請問要達(dá)到0.05%的測量精度，需要多少位分辨率和準(zhǔn)確度的ADC。能不能推薦幾款，最好是能有2路同時(shí)輸入的高精度ADC.

發(fā)表于 12-18 06:54

酣暢淋漓的知識分享|精度、精確度、準(zhǔn)確度、分辨率怎么區(qū)別？#精度 #精確度 #準(zhǔn)確度 #分辨率

元器件分辨率

安泰小課堂
發(fā)布于 :2023年12月08日 13:46:05

搜索歷史

聽音辯貌?MIT最新研究!準(zhǔn)確率驚人

評論

SynSense時(shí)識科技與海南大學(xué)聯(lián)合研究成果發(fā)布

ai人工智能回答準(zhǔn)確率高嗎

TLV320AIC23B為什么無法準(zhǔn)確得到8K采樣率？

NIUSB6009 采集準(zhǔn)確率的問題？

NVIDIA文本嵌入模型NV-Embed的精度基準(zhǔn)

準(zhǔn)確率高達(dá)97%!腦機(jī)接口讓漸凍癥患者重新“說話”

如何快速檢測原理圖中的元器件與PLM系統(tǒng)的一致性，提高原理圖設(shè)計(jì)準(zhǔn)確性

OpenAI推出專用的AI檢測工具

自動(dòng)雨量監(jiān)測系統(tǒng)（準(zhǔn)確地預(yù)測降雨情況，提高預(yù)報(bào)的準(zhǔn)確率）

谷歌AI預(yù)測洪災(zāi)準(zhǔn)確率提高，最多提前7天

在全志V853平臺(tái)上成功部署深度學(xué)習(xí)步態(tài)識別算法

機(jī)器學(xué)習(xí)和代謝圖譜相結(jié)合，早期卵巢癌檢測準(zhǔn)確率高達(dá)93%

如何準(zhǔn)確計(jì)算低電平分辨率編碼器TLE9243QK_BASE_BOARD的速度？

請問要達(dá)到0.05%的測量精度，需要多少位分辨率和準(zhǔn)確度的ADC？

酣暢淋漓的知識分享|精度、精確度、準(zhǔn)確度、分辨率怎么區(qū)別？#精度 #精確度 #準(zhǔn)確度 #分辨率