国产放荡对白视频网站,日本高清一二三不卡区

以往，談及對合成語音的刻板印象，很多人會聯(lián)想到《星球大戰(zhàn)》中的C－3PO——那個有著近似人類外形金光閃閃的家伙，它是整個系列影片中毫無爭議的搞笑擔(dān)當(dāng)，其動作僵硬而滑稽，說起話來喋喋不休，聲音中混雜著輕微的交流聲和金屬質(zhì)感的回聲。直到今天，它那獨特的嗓音，仍然是很多科幻片中人工智能發(fā)聲的模板。

第一部《星球大戰(zhàn)》公映于1977年，彼時，個人電腦才剛剛走出實驗室，人們對于人工智能的想象力仍受限于時代。去年，該系列推出了最后一部作品《星球大戰(zhàn)：天行者崛起》，C－3PO的聲音還是人們熟悉的老樣子。而現(xiàn)實中，智能語音技術(shù)飛速發(fā)展，取而代之的是聽感越來越趨于自然、逼真的“合成人聲”，讓越來越多的企業(yè)于實現(xiàn)了與客戶的多模態(tài)互動。

合成人聲的用途相當(dāng)廣泛，我們熟知的便是手機(jī)中的語音助手，用戶可通過簡單的人機(jī)對話，獲知天氣、路況等實時信息，也可命令手機(jī)完成撥號、查詢等任務(wù)。這一類應(yīng)用被稱作實時語音合成，它對基于云的計算力提出了很高的要求，除了需要對聲音的自然度不斷地進(jìn)行優(yōu)化外，實時合成對于語音合成引擎和平臺架構(gòu)也都有著極高的要求，必須保障在極低的延遲下，提供準(zhǔn)確、穩(wěn)定、自然的聲音內(nèi)容。另一類常見的應(yīng)用是利用人工智能語音合成有聲內(nèi)容，這類應(yīng)用通常會在語音服務(wù)端進(jìn)行非實時的批量合成，然后再將有聲內(nèi)容文件提供給用戶。有聲內(nèi)容合成的主要挑戰(zhàn)在于如何通過多種角色扮演和豐富情感表達(dá)，降低聽眾單向接收有聲內(nèi)容的聽覺疲勞。

以往，有聲書需要由專業(yè)朗誦者來錄制，制作周期長達(dá)數(shù)月且成本高昂。如今，通過智能合成語音錄制有聲書，制作周期可縮短至幾小時，甚至是幾分鐘。即便在需要人工干預(yù)校對和聲音編輯的情況下，制作周期也可縮短至數(shù)周，節(jié)省了大量的人力、物力及時間成本，且得到的效果幾乎與真人朗誦別無二致。今年的“世界讀書日”，由周迅與公益組織紅丹丹聯(lián)合發(fā)起的為視障人士讀書活動，向我們展示了語音合成技術(shù)的新高度。在此之前，創(chuàng)建一個高質(zhì)量的語音合成模型需要以大量真人原聲為樣本進(jìn)行機(jī)器學(xué)習(xí)，樣本量通常會超過10小時或10000句。而這次公益活動的主辦方采用了由微軟最新開發(fā)的深度神經(jīng)網(wǎng)絡(luò)語音合成定制系統(tǒng)，只采集了半小時大約500句的周迅原聲錄音，便通過深度定制的語音模型，惟妙惟肖地復(fù)原了周迅的聲音。

這里所說的“復(fù)原”不只是周迅頗具特色的聲線，也包括周迅在朗讀時的語氣、情緒、語調(diào)、抑揚(yáng)頓挫等。可以想象，隨著這一技術(shù)的普及，有聲書行業(yè)也將隨之發(fā)生巨大的改變。微軟將在國際殘疾人日捐贈的100小時有聲書籍正昭示著這種改變的開始。

微軟深度神經(jīng)網(wǎng)絡(luò)是基于Azure云的端到端語音合成系統(tǒng)，由前端、聲學(xué)模型和聲碼器三部分組成。前端主要解決基于語義理解的文本發(fā)音問題，比如“2020”在表示年份和數(shù)字時的讀法不一樣，這是上下文關(guān)聯(lián)問題；再比如“堡”字，用于地名時應(yīng)讀作“鋪”，“解”用在姓氏上應(yīng)讀作“謝”，這都是多音字問題；還有“一會兒”這類詞，不能讀成三個字，后兩個字應(yīng)合并為兒化音，這是語言習(xí)慣問題。聲學(xué)模型負(fù)責(zé)為語音賦予韻律，比如語速、語調(diào)、停頓、重音和情緒變化等。最后一部分聲碼器負(fù)責(zé)還原語音的聲學(xué)特征，也就是一般所說的嗓音或聲線，如振幅、頻率、波長等。

深度神經(jīng)網(wǎng)絡(luò)模型是當(dāng)前最先進(jìn)的語音合成技術(shù)，但相應(yīng)的主流產(chǎn)品在合成效率、效果，以及所需聲音樣本量上，卻存在很大差異。以樣本量為例，微軟的語音合成定制技術(shù)處于行業(yè)領(lǐng)先地位，一般情況下，只需要不超過2000句的內(nèi)容，就可以做到非常逼真的還原。那么，在周迅的案例中，是如何做到只需500句甚至更少的聲音素材就達(dá)到類似效果呢？微軟還有一個“殺器”——通用模型。通用模型是在對海量語料庫進(jìn)行大數(shù)據(jù)分析的基礎(chǔ)上，不斷訓(xùn)練深度神經(jīng)網(wǎng)絡(luò)去學(xué)習(xí)人類語言與發(fā)聲特征后得到的。目前微軟通用語料庫的容量已經(jīng)超過3000小時，覆蓋了50多個語種，通過它提煉出來的通用模型已經(jīng)熟練掌握了這50多種語言的幾乎全部發(fā)聲規(guī)律，甚至包括真人說話時換氣和咽口水的細(xì)節(jié)都可以模仿出來。當(dāng)微軟需要基于像周迅這樣只有500句話甚至更少內(nèi)容的語料庫做語音定制時，便可以在通用模型基礎(chǔ)上，通過遷移學(xué)習(xí)法來建立周迅聲音的擴(kuò)展模型。

目前，微軟的語音合成定制系統(tǒng)只需要半小時左右的聲音樣本便可建立定制語音模型，與傳統(tǒng)TTS建模所需的至少10小時或10000句的聲音樣本量相比，是一個從量到質(zhì)的飛躍。這一飛躍使得面向更多的企業(yè)甚至于普通消費者的個人聲音定制成為可能。

微軟之所以能在語音合成領(lǐng)域保持領(lǐng)先地位，主要得益于其20多年來在算法和定制模型上所積累的深厚功力。自從1991年微軟研究院成立以來，微軟一直將語音作為主要的研究領(lǐng)域，儲備、積累了大量的人工智能相關(guān)技術(shù)。2018年9月，微軟率先開始測試基于深度神經(jīng)網(wǎng)絡(luò)的端到端語音合成系統(tǒng)，為人工智能語音技術(shù)的發(fā)展揭開了新的一頁。

前不久，微軟將其定制的通用中文發(fā)聲與市場上的主流產(chǎn)品進(jìn)行了盲測對比，微軟的MOS得分（5分制）為4．35，居于領(lǐng)先地位，表明合成語音與真人聲音已經(jīng)非常接近（真人的MOS得分為4．41）。

除了語音助手和有聲書籍錄制外，語音合成技術(shù)還廣泛應(yīng)用于智能語音客服領(lǐng)域，這也是微軟目前在to B領(lǐng)域的主要發(fā)力點，比如很多航空公司、電商平臺、電信運營商等都在嘗試使用微軟的智能語音客服來緩解人工壓力。智能語音客服可以解決很多常見的標(biāo)準(zhǔn)化問題，減少客戶的等待時間，為客戶帶來更好的服務(wù)體驗。在應(yīng)對突發(fā)事件方面，智能語音客服更有得天獨厚的優(yōu)勢，很多突發(fā)事件都會造成客戶咨詢量在短時間內(nèi)爆發(fā)式增長，在這種情況下，企業(yè)如果增設(shè)人工客服，一方面可能在時間上來不及，另一方面?zhèn)}促上崗也可能導(dǎo)致服務(wù)質(zhì)量的難以保證。

目前，微軟為企業(yè)定制智能語音客服大致需要300至2000句語料訓(xùn)練，以滿足特定應(yīng)用場景的需求；對于需要定制適用于多場景、富有多種情緒甚至涵蓋多語種的品牌聲音的企業(yè)而言，語料訓(xùn)練則有更高要求。

上述兩種定制目前都會有人工參與測試和適當(dāng)調(diào)校并向客戶提供靈活的接入方式，即通過API或SDK接入微軟的Azure公有云，實現(xiàn)端到端的實時合成。如果客戶有特殊需求，產(chǎn)品也可部署在私有云甚至離線設(shè)備中。未來，這兩種系統(tǒng)都將實現(xiàn)自動化定制。實際上，微軟已經(jīng)邀請合作伙伴開始小范圍的自動化系統(tǒng)測試，可能在不久的將來正式發(fā)布此系列產(chǎn)品。

可以預(yù)期，伴隨著相關(guān)技術(shù)的發(fā)展，智能語音在個人及商業(yè)領(lǐng)域中的應(yīng)用場景將更加豐富，不斷細(xì)分的合成語音服務(wù)也會給我們帶來更多的體驗和驚喜。同時，微軟提出了人工智能六項倫理道德準(zhǔn)則：公平、可靠和安全、隱私和保證、包容、透明和責(zé)任。倡導(dǎo)負(fù)責(zé)任的人工智能。這些原則將為人工智能的發(fā)展保駕護(hù)航，予力全球每一人、每一組織，成就不凡！

責(zé)任編輯：haq

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

微軟

微軟

+關(guān)注

關(guān)注
4

文章
6541

瀏覽量
103826
神經(jīng)網(wǎng)絡(luò)

神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
42

文章
4726

瀏覽量
100335
人工智能

人工智能

+關(guān)注

關(guān)注
1789

文章
46397

瀏覽量
236615

FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

隨著人工智能技術(shù)的飛速發(fā)展，深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Network, DNN）作為其核心算法之一，在圖像識別、語音識別、自然語言處理等領(lǐng)域取得了顯著成果。然而，傳統(tǒng)的深度

發(fā)表于 07-24 10:42 ?479次閱讀

殘差網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)嗎

殘差網(wǎng)絡(luò)（Residual Network，通常簡稱為ResNet）是深度神經(jīng)網(wǎng)絡(luò)的一種，其獨特的結(jié)構(gòu)設(shè)計在解決深層網(wǎng)絡(luò)訓(xùn)練中的梯度消失和梯度爆炸問題上取得了顯著的突破，并因此成為

發(fā)表于 07-11 18:13 ?865次閱讀

簡單認(rèn)識深度神經(jīng)網(wǎng)絡(luò)

處理數(shù)據(jù)，從而解決各種復(fù)雜的數(shù)據(jù)驅(qū)動問題。本文將詳細(xì)探討深度神經(jīng)網(wǎng)絡(luò)的定義、基本結(jié)構(gòu)、工作原理及其在多個領(lǐng)域的應(yīng)用。

發(fā)表于 07-10 18:23 ?830次閱讀

人工神經(jīng)網(wǎng)絡(luò)模型的分類有哪些

人工神經(jīng)網(wǎng)絡(luò)（Artificial Neural Networks, ANNs）是一種模擬人腦神經(jīng)元網(wǎng)絡(luò)的計算模型，它在許多領(lǐng)域，如圖像識別、語音識別、自然語言處理、預(yù)測分析等有著廣泛的應(yīng)用。本文

發(fā)表于 07-05 09:13 ?788次閱讀

遞歸神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)嗎

。遞歸神經(jīng)網(wǎng)絡(luò)的概念遞歸神經(jīng)網(wǎng)絡(luò)是一種具有短期記憶功能的神經(jīng)網(wǎng)絡(luò)，它能夠處理序列數(shù)據(jù)，如時間序列、文本、語音等。與傳統(tǒng)的前饋神經(jīng)網(wǎng)絡(luò)不同

發(fā)表于 07-04 14:54 ?549次閱讀

循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

循環(huán)神經(jīng)網(wǎng)絡(luò)（Recurrent Neural Network，RNN）和卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，CNN）是深度學(xué)習(xí)領(lǐng)域中兩種非常重要的神經(jīng)網(wǎng)絡(luò)

發(fā)表于 07-04 14:24 ?807次閱讀

深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

在探討深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks, DNNs）與基本神經(jīng)網(wǎng)絡(luò)（通常指傳統(tǒng)神經(jīng)網(wǎng)絡(luò)或前向

發(fā)表于 07-04 13:20 ?503次閱讀

bp神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)嗎

Network）有相似之處，但它們之間還是存在一些關(guān)鍵的區(qū)別。一、引言 神經(jīng)網(wǎng)絡(luò)是一種模擬人腦神經(jīng)元結(jié)構(gòu)的計算模型，它由大量的神經(jīng)元（或稱為節(jié)點）組成，這些

發(fā)表于 07-03 10:14 ?509次閱讀

卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的是什么

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Networks，簡稱CNN）是一種深度學(xué)習(xí)模型，廣泛應(yīng)用于圖像識別、視頻分析、自然語言處理等領(lǐng)域。本文將詳細(xì)介紹卷積神經(jīng)網(wǎng)絡(luò)的

發(fā)表于 07-03 09:15 ?276次閱讀

深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

隨著人工智能技術(shù)的飛速發(fā)展，深度學(xué)習(xí)和卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network, CNN）作為其中的重要分支，已經(jīng)在多個領(lǐng)域取得了顯著的應(yīng)用成果。從圖像識別、語音識別

發(fā)表于 07-02 18:19 ?677次閱讀

卷積神經(jīng)網(wǎng)絡(luò)的原理是什么

卷積神經(jīng)網(wǎng)絡(luò)（Convolutional Neural Network，簡稱CNN）是一種深度學(xué)習(xí)模型，廣泛應(yīng)用于圖像識別、語音識別、自然語言處理等領(lǐng)域。本文將詳細(xì)介紹卷積

發(fā)表于 07-02 14:44 ?444次閱讀

深度神經(jīng)網(wǎng)絡(luò)模型有哪些

深度神經(jīng)網(wǎng)絡(luò)（Deep Neural Networks，DNNs）是一類具有多個隱藏層的神經(jīng)網(wǎng)絡(luò)，它們在許多領(lǐng)域取得了顯著的成功，如計算機(jī)視覺、自然語言處理、語音識別等。以下是一些常見

發(fā)表于 07-02 10:00 ?902次閱讀

神經(jīng)網(wǎng)絡(luò)架構(gòu)有哪些

神經(jīng)網(wǎng)絡(luò)架構(gòu)是機(jī)器學(xué)習(xí)領(lǐng)域中的核心組成部分，它們模仿了生物神經(jīng)網(wǎng)絡(luò)的運作方式，通過復(fù)雜的網(wǎng)絡(luò)結(jié)構(gòu)實現(xiàn)信息的處理、存儲和傳遞。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展，各種

發(fā)表于 07-01 14:16 ?492次閱讀

FPGA在深度學(xué)習(xí)應(yīng)用中或將取代GPU

、筆記本電腦或機(jī)架式服務(wù)器上訓(xùn)練神經(jīng)網(wǎng)絡(luò)時，這不是什么大問題。但是，許多部署深度學(xué)習(xí)模型的環(huán)境對 GPU 并不友好，比如自動駕駛汽車、工廠、機(jī)器人和許多智慧城市環(huán)境，在這些環(huán)境中硬件必須忍受熱、灰塵、濕度

發(fā)表于 03-21 15:19

詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

處理技術(shù)也可以通過深度學(xué)習(xí)來獲得更優(yōu)異的效果，比如去噪、超分辨率和跟蹤算法等。為了跟上時代的步伐，必須對深度學(xué)習(xí)與神經(jīng)網(wǎng)絡(luò)技術(shù)有所學(xué)習(xí)和研究。本文將介紹

發(fā)表于 01-11 10:51 ?1776次閱讀

搜索歷史

微軟或?qū)l(fā)布深度神經(jīng)網(wǎng)絡(luò)語音系列產(chǎn)品

評論

FPGA在深度神經(jīng)網(wǎng)絡(luò)中的應(yīng)用

殘差網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)嗎

簡單認(rèn)識深度神經(jīng)網(wǎng)絡(luò)

人工神經(jīng)網(wǎng)絡(luò)模型的分類有哪些

遞歸神經(jīng)網(wǎng)絡(luò)是循環(huán)神經(jīng)網(wǎng)絡(luò)嗎

循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積神經(jīng)網(wǎng)絡(luò)的區(qū)別

深度神經(jīng)網(wǎng)絡(luò)與基本神經(jīng)網(wǎng)絡(luò)的區(qū)別

bp神經(jīng)網(wǎng)絡(luò)是深度神經(jīng)網(wǎng)絡(luò)嗎

卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練的是什么

深度學(xué)習(xí)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用

卷積神經(jīng)網(wǎng)絡(luò)的原理是什么

深度神經(jīng)網(wǎng)絡(luò)模型有哪些

神經(jīng)網(wǎng)絡(luò)架構(gòu)有哪些

FPGA在深度學(xué)習(xí)應(yīng)用中或將取代GPU

詳解深度學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)與卷積神經(jīng)網(wǎng)絡(luò)的應(yīng)用