在线无码av,国产欧美日韩午夜在线观看

前方有好消息傳來！

時(shí)隔3年后，國際多通道語音分離和識(shí)別大賽CHiME-7再次“上線”。當(dāng)?shù)貢r(shí)間8月25日，CHiME-7 Workshop在Meta公司都柏林研發(fā)中心舉行，官方組委會(huì)現(xiàn)場(chǎng)公布了大賽成績(jī)：

科大訊飛聯(lián)合中科大語音及語言信息處理國家工程研究中心（NERC-SLIP）、國家智能語音創(chuàng)新中心，在參與的多設(shè)備多場(chǎng)景遠(yuǎn)場(chǎng)語音識(shí)別任務(wù)（DASR）中獲得全部?jī)蓚€(gè)賽道的第一名。

繼2016年以來參與CHiME-4、CHiME-5、CHiME-6三屆比賽并奪冠后，訊飛聯(lián)合團(tuán)隊(duì)堅(jiān)持技術(shù)創(chuàng)新，此次在參與任務(wù)主賽道中語音識(shí)別錯(cuò)誤率21%，相比賽事官方給出的基線系統(tǒng)，相對(duì)降低了60%以上。連續(xù)四屆拿下冠軍、領(lǐng)跑國際競(jìng)爭(zhēng)對(duì)手的同時(shí)，科大訊飛在核心源頭技術(shù)上也實(shí)現(xiàn)了自我突破。

語音識(shí)別任務(wù)難度加碼！“群雄逐鹿”再領(lǐng)頭

作為有“最難語音識(shí)別任務(wù)”之稱的語音領(lǐng)域權(quán)威賽事，CHiME（Computational Hearing in Multisource Environments）系列比賽發(fā)起于2011年，致力于集聚學(xué)術(shù)界和工業(yè)界優(yōu)秀的學(xué)術(shù)力量，持續(xù)突破語音識(shí)別技術(shù)水平，不斷在更高噪聲、更高混響、更高對(duì)話復(fù)雜度的場(chǎng)景下提出具有創(chuàng)新性的解決方案，解決著名的“雞尾酒會(huì)問題”，難點(diǎn)在于怎樣在充滿噪聲的雞尾酒會(huì)，分辨并聽清多人同時(shí)交談的聲音。

參與CHiME-7的團(tuán)隊(duì)高手如云，如中科院聲學(xué)所、西北工業(yè)大學(xué)、劍橋大學(xué)、帕德博恩大學(xué)、捷克布爾諾理工大學(xué)、日本電信NTT、英偉達(dá)、俄羅斯STC等國內(nèi)外知名研究機(jī)構(gòu)、高校和企業(yè)。

本次CHiME-7中的語音識(shí)別任務(wù)由馬爾凱理工大學(xué)、卡內(nèi)基梅隆大學(xué)、約翰霍普金斯大學(xué)、東京都立大學(xué)的學(xué)者們共同組織，稱為“多設(shè)備多場(chǎng)景遠(yuǎn)場(chǎng)語音識(shí)別任務(wù)（DASR）”。

在CHiME-6的基礎(chǔ)上，CHiME-7進(jìn)一步提升了難度，不僅在對(duì)話場(chǎng)景、麥克風(fēng)設(shè)備類型上進(jìn)行了擴(kuò)充，同時(shí)要求參賽者只能使用統(tǒng)一的一套算法系統(tǒng)進(jìn)行測(cè)試，這對(duì)語音識(shí)別系統(tǒng)的魯棒性提出了極高的要求。具體如下：

在考察場(chǎng)景中，擴(kuò)大了CHiME-6測(cè)試集范圍，同時(shí)新增加了兩個(gè)數(shù)據(jù)集DiPCo和Mixer 6；

三個(gè)數(shù)據(jù)集分別使用不同的麥克風(fēng)設(shè)備，包含線性陣列、環(huán)形陣列、分布式麥克風(fēng)等；

數(shù)據(jù)集中多人對(duì)話場(chǎng)景更加豐富，除朋友聚會(huì)之外還新增了采訪、打電話等場(chǎng)景。

CHiME-7官方給出的任務(wù)圖例

該任務(wù)分為主賽道（Main Track，默認(rèn)提交）和子賽道（Sub Track，自由提交），具有很高的挑戰(zhàn)性，也與真實(shí)復(fù)雜場(chǎng)景中的語音識(shí)別要求更為貼近：

主賽道需要首先要完成遠(yuǎn)場(chǎng)數(shù)據(jù)下的說話人角色分離任務(wù)，即從連續(xù)的多人說話語音中切分出不同說話人片段、判斷出每個(gè)片段是哪個(gè)說話人，然后再進(jìn)行語音識(shí)別；

子賽道中說話人角色分離的信息是人工標(biāo)注的，參賽者可以直接使用，在人工分離邊界的基礎(chǔ)上直接進(jìn)行語音識(shí)別。

此次比賽核心考察指標(biāo)為DA-WER(Diarization Attributed WER)，即綜合考察系統(tǒng)對(duì)多個(gè)說話人的角色分離效果，以及語音識(shí)別效果。

科大訊飛聯(lián)合團(tuán)隊(duì)參加了所有兩個(gè)賽道，在主賽道和子賽道分別以21%和16%語音識(shí)別錯(cuò)誤率拿下雙冠，將真實(shí)說話人角色分離情況下的語音識(shí)別錯(cuò)誤率與使用人工標(biāo)注間的差別控制在5%，這也標(biāo)志著在實(shí)際環(huán)境中的應(yīng)用效果將得到進(jìn)一步提升。

主賽道語音識(shí)別成績(jī)，排名指標(biāo)DA-WER取自三個(gè)數(shù)據(jù)集上的平均值，值越低成績(jī)?cè)胶?/p>

主賽道說話人角色分離成績(jī)，排名指標(biāo)DER代表說話人角色分離錯(cuò)誤率，值越低成績(jī)?cè)胶?/p>

子賽道語音識(shí)別成績(jī)，排名指標(biāo)DA-WER取自三個(gè)數(shù)據(jù)集上的平均值，值越低成績(jī)?cè)胶?/p>

面對(duì)挑戰(zhàn)，我們的“新招數(shù)”有哪些？

如何突破語音交疊、遠(yuǎn)場(chǎng)混響與噪聲干擾、隨意的對(duì)話風(fēng)格等重重難關(guān)，在更復(fù)雜的語音素材里精準(zhǔn)實(shí)現(xiàn)說話人角色分離和語音識(shí)別？

基于長期技術(shù)積累，以及訊飛語音識(shí)別技術(shù)在落地應(yīng)用中的實(shí)踐和反饋，聯(lián)合團(tuán)隊(duì)創(chuàng)新并使用了多種技術(shù)方法。

基于記憶模塊的多說話人特征神經(jīng)網(wǎng)絡(luò)說話人角色分離算法 (Neural Speaker Diarization Using Memory-Aware Multi-Speaker Embedding , NSD-MA-MSE)

該方法旨在解決高噪聲、高混響、高說話人重疊段場(chǎng)景的說話人角色分離問題。基于對(duì)大規(guī)模的說話人聚類得到的類中心向量，團(tuán)隊(duì)設(shè)計(jì)了一種記憶模塊，可以利用該模塊與當(dāng)前目標(biāo)人片段，通過注意力機(jī)制計(jì)算來得到更加精確的目標(biāo)說話人特征。整體上，團(tuán)隊(duì)采用序列到序列的方式來預(yù)測(cè)多個(gè)說話人的輸出幀級(jí)語音/非語音概率。該模型極大降低了說話人角色分離錯(cuò)誤率，有效地幫助了后續(xù)的分離和識(shí)別模塊。

陣列魯棒的通道挑選算法（Array-Robust Channel Selection）

該算法基于波束語音信噪比挑選準(zhǔn)則，即使對(duì)于不同的陣列分布場(chǎng)景，也能夠自動(dòng)挑選出有效通道，從而減少下游任務(wù)無效噪聲和語音干擾。同時(shí)，團(tuán)隊(duì)提出了一種空間-說話人同步感知的迭代說話人角色分離算法（Spatial-and-Speaker-Aware Iterative Diariazation Algorithm，SSA-IDA），通過結(jié)合陣列空間建模和機(jī)器學(xué)習(xí)長時(shí)建模的優(yōu)勢(shì)，迭代修正說話人角色分離系統(tǒng)中聲學(xué)特性相似的說話人錯(cuò)分情況，從而更加精確捕捉目標(biāo)說話人的信息。

該算法不僅有效的降低了環(huán)境干擾噪聲，而且可以進(jìn)一步消除干擾說話人的語音，從而大幅降低下游語音識(shí)別任務(wù)的難度。

場(chǎng)景自適應(yīng)自監(jiān)督表征學(xué)習(xí)方案（Scene Adaptive Self-Supervised Learning Method）

該方案用于匹配復(fù)雜場(chǎng)景的語音識(shí)別，將經(jīng)過前端處理后的音頻作為自監(jiān)督模型的輸入，并提取高層次表征作為指導(dǎo)標(biāo)簽，實(shí)現(xiàn)了對(duì)特定場(chǎng)景的快速自適應(yīng)匹配；同時(shí)，結(jié)合層級(jí)漸進(jìn)式學(xué)習(xí)和一致性正則約束，進(jìn)一步提高了預(yù)訓(xùn)練模型對(duì)下游語音識(shí)別任務(wù)的魯棒性。利用預(yù)訓(xùn)練模型的層級(jí)信息進(jìn)行融合，實(shí)現(xiàn)了語音識(shí)別在復(fù)雜場(chǎng)景的效果提升。

望過去、向未來：更好的AI離不開更好的語音識(shí)別

連續(xù)四屆獲得CHiME冠軍背后，是科大訊飛在語音識(shí)別技術(shù)和應(yīng)用上踏過的漫長之路：

從2010年國內(nèi)首批開展深度神經(jīng)網(wǎng)絡(luò)語音識(shí)別研究，到全球首個(gè)中文語音識(shí)別深度神經(jīng)網(wǎng)絡(luò)（DNN）上線、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）語音識(shí)別全面升級(jí)、全球首創(chuàng)基于全序列卷積神經(jīng)網(wǎng)絡(luò)（DFCNN）的語音識(shí)別，近幾年持續(xù)探索無監(jiān)督預(yù)訓(xùn)練、多模態(tài)在語音識(shí)別上的應(yīng)用；

從2010年推出語音輸入的訊飛輸入法上線、訊飛語音云發(fā)布，到落地教育、醫(yī)療、城市、工業(yè)、金融、汽車等各行各業(yè)，還有面向你我生活學(xué)習(xí)工作的訊飛翻譯機(jī)、智能辦公本、AI學(xué)習(xí)機(jī)、訊飛聽見、錄音筆、智能耳機(jī)……

不論是大型國際會(huì)議、全球賽事，還是身邊的一通電話、一次詢問，在繁雜的聲音世界里，是持續(xù)進(jìn)化的語音識(shí)別技術(shù)讓機(jī)器更了解我們所言所語。

面向未來，科大訊飛在CHiME-7中的技術(shù)成果鏈接著更多的應(yīng)用可能：

立志于讓機(jī)器人走進(jìn)每個(gè)家庭的“訊飛超腦2030”計(jì)劃里，似乎可以看到未來人和機(jī)器自然交互的新場(chǎng)景。CHiME-7中的技術(shù)成果能夠讓機(jī)器人面向每個(gè)家庭成員實(shí)現(xiàn)更精準(zhǔn)的語音識(shí)別，再加上多模感知、多維表達(dá)、認(rèn)知智能和AI運(yùn)動(dòng)智能算法等有機(jī)結(jié)合，實(shí)現(xiàn)系統(tǒng)性創(chuàng)新——家庭陪伴機(jī)器人不僅能夠聽清、聽懂每位家庭成員的需求，還能真正做到情感陪伴與日常生活照顧……

**智能語音是萬物互聯(lián)機(jī)器溝通的入口，也是人工智能賦能千行萬業(yè)、浸潤千家萬戶的秘鑰；**智能語音是我們的初心，是載譽(yù)的過往和現(xiàn)在，也是燦爛的將來。

審核編輯：劉清

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

機(jī)器人

機(jī)器人

+關(guān)注

關(guān)注
210

文章
27990

瀏覽量
205547
信噪比

信噪比

+關(guān)注

關(guān)注
3

文章
251

瀏覽量
28537
語音識(shí)別

語音識(shí)別

+關(guān)注

關(guān)注
38

文章
1703

瀏覽量
112421
深度神經(jīng)網(wǎng)絡(luò)

深度神經(jīng)網(wǎng)絡(luò)

+關(guān)注

關(guān)注
0

文章
61

瀏覽量
4506

原文標(biāo)題：四連冠！科大訊飛獲國際多通道語音分離與識(shí)別大賽CHiME-7冠軍

文章出處：【微信號(hào)：iFLYTEK1999，微信公眾號(hào)：科大訊飛】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

科大訊飛將首發(fā)多模態(tài)視覺交互及超擬人虛擬人交互

近日，科大訊飛傳來喜訊，第七屆世界聲博會(huì)暨2024科大訊飛全球1024開發(fā)者節(jié)將于10月24日至

發(fā)表于 10-11 16:48 ?250次閱讀

科大訊飛AI總部園區(qū)正式啟用

近日，安徽省科技創(chuàng)新領(lǐng)域迎來又一重大里程碑，科大訊飛AI總部園區(qū)（訊飛小鎮(zhèn)）正式宣告啟用，標(biāo)志著這一集前沿科技、創(chuàng)新研發(fā)與高端人才于一體的智

發(fā)表于 09-03 16:06 ?391次閱讀

科大訊飛發(fā)布智能辦公本Air 2

近日，科大訊飛隆重舉辦了智能辦公本新品發(fā)布會(huì)，正式推出了集前沿科技與高效辦公于一體的訊飛智能辦公本Air 2系列。此次發(fā)布，不僅彰顯了

發(fā)表于 08-08 10:43 ?535次閱讀

科大訊飛AI學(xué)習(xí)機(jī)暑期重磅升級(jí)

大模型等AI技術(shù)的迅猛發(fā)展，正深刻改變著整個(gè)教育領(lǐng)域，傳統(tǒng)的教與學(xué)迎來全面革新。作為國內(nèi)人工智能教育的先行者，科大訊飛過去25年間屢獲人工智能國際大

發(fā)表于 07-08 09:38 ?477次閱讀

科大訊飛發(fā)布訊飛星火大模型V4.0

在科技創(chuàng)新的浪潮中，科大訊飛再度引領(lǐng)潮流，于北京隆重發(fā)布了訊飛星火大模型V4.0及其在多領(lǐng)域的人

發(fā)表于 07-01 10:33 ?773次閱讀

科大訊飛星火大模型新添功能，語音臺(tái)歷即將面世

　4月26日，科大訊飛宣布訊飛星火大模型V3.5春季更新，新增功能包括：支持長文本、長圖文、長語音

發(fā)表于 04-28 11:30 ?405次閱讀

科大訊飛華中總部已封頂年內(nèi)交付使用

科大訊飛華中總部已封頂年內(nèi)交付使用科大訊飛華中總部位于武漢經(jīng)開區(qū)車谷資本島，投資額50億；計(jì)

發(fā)表于 04-16 14:49 ?1356次閱讀

科大訊飛子公司訊飛醫(yī)療正式申請(qǐng)港交所上市

科大訊飛旗下控股子公司訊飛醫(yī)療已于1月26日正式向港交所遞交上市申請(qǐng)，計(jì)劃在香港主板上市。這是科大

發(fā)表于 02-04 13:57 ?1138次閱讀

科大訊飛發(fā)布“訊飛星火V3.5”：基于全國產(chǎn)算力訓(xùn)練的全民開放大模型

科大訊飛，作為中國領(lǐng)先的智能語音和人工智能公司，近日宣布推出首個(gè)基于全國產(chǎn)算力訓(xùn)練的全民開放大模型“訊飛

發(fā)表于 02-04 11:28 ?1402次閱讀

科大訊飛發(fā)布星火語音大模型

科大訊飛行業(yè)資訊

北京中科同志科技股份有限公司
發(fā)布于 :2024年01月31日 09:17:28

舒適打字體驗(yàn)與強(qiáng)大功能合一：科大訊飛AI智能鍵盤D1的優(yōu)勢(shì)解析

，能有效提高我們的工作效率。二、語音輸入，解放雙手在忙碌的工作中，我們經(jīng)常需要快速輸入大量文字。科大訊飛AI智能鍵盤D1配備了高效的語音

發(fā)表于 01-03 11:04 ?505次閱讀

科技創(chuàng)新與智能助力：揭秘科大訊飛智能鍵盤D1的獨(dú)特魅力

魅力，從多個(gè)功能角度進(jìn)行介紹，并探討其適用于年會(huì)采購、企業(yè)送禮以及辦公采購等場(chǎng)景。 ? 一、語音翻譯：打破語言壁壘智能鍵盤D1搭載了科大訊飛自主研發(fā)的

發(fā)表于 01-03 11:02 ?558次閱讀

科大訊飛AI機(jī)械鍵盤D1的前瞻性設(shè)計(jì)：告別傳統(tǒng)，迎接智能化時(shí)代

大模型是科大訊飛AI智能鍵盤D1的核心技術(shù)，它能夠?yàn)橛脩籼峁┲悄芙貓D、語音翻譯、語音打字、智能辦公助手等豐富功能，讓辦公變得更加輕松高效。

發(fā)表于 12-29 16:22 ?694次閱讀

科大訊飛語音控制模塊怎么用

科大訊飛語音控制模塊是一種人機(jī)交互技術(shù)，它利用語音識(shí)別和語音合成技術(shù)，使用戶可以通過

發(fā)表于 12-25 13:58 ?1517次閱讀

科大訊飛ICDAR 2023收獲四項(xiàng)冠軍，圖文識(shí)別理解能力持續(xù)進(jìn)階

and Recognition）近期傳來好消息： ? 科大訊飛研究院與中科大語音及語言信息處理國家工程研究中心（以下簡(jiǎn)稱研究中心）在多行公

發(fā)表于 11-03 14:09 ?543次閱讀