隨著大數(shù)據(jù)時(shí)代的到來(lái),音頻、視頻、文字日益成為文化信息傳播的主流方式,其中文字這種載體表現(xiàn)形式最為直觀。無(wú)論是政企會(huì)議、公檢法辦案,還是教學(xué)培訓(xùn)、記者采訪、個(gè)人錄音等場(chǎng)合均需要形成完整的文字記錄材料,音視頻文件也需要形成字幕。為解決各類場(chǎng)景下的音頻轉(zhuǎn)文字問(wèn)題,語(yǔ)音轉(zhuǎn)寫應(yīng)運(yùn)而生。
什么是語(yǔ)音轉(zhuǎn)寫?
此次重磅上線的語(yǔ)音轉(zhuǎn)寫(Long Form Automatic Speech Recognition),是基于科大訊飛獨(dú)立研究的深度全序列卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別框架(Deep Fully Convolutional Neural Network, DFCNN)建立聲學(xué)模型和語(yǔ)言模型,能將非結(jié)構(gòu)化的音頻數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化的文本數(shù)據(jù),讓信息傳遞更高效,也為后續(xù)的數(shù)據(jù)檢索和數(shù)據(jù)挖掘提供基礎(chǔ)。簡(jiǎn)單的一句話表達(dá)就是:把音頻數(shù)據(jù)轉(zhuǎn)換成文本數(shù)據(jù)。按照音頻轉(zhuǎn)寫的方式可以分為:已錄制音頻轉(zhuǎn)寫和實(shí)時(shí)音頻流轉(zhuǎn)寫。
已錄制音頻(recorded audio):將已經(jīng)錄制好的完整音頻文件傳輸至云端的轉(zhuǎn)寫后臺(tái),轉(zhuǎn)寫完畢之后輸出音頻對(duì)應(yīng)的完整文字結(jié)果。
實(shí)時(shí)音頻流(real-time streaming):在采集音頻的同時(shí)連續(xù)上傳音頻流至云端,云端實(shí)時(shí)返回文字結(jié)果,可以實(shí)現(xiàn)文字和聲音的同步展現(xiàn)。
具備的優(yōu)勢(shì)
核心技術(shù)
此次語(yǔ)音轉(zhuǎn)寫的識(shí)別引擎采用擁有科大訊飛自主研發(fā)全新推出的深度全序列卷積神經(jīng)網(wǎng)絡(luò)DFCNN識(shí)別框架。DFCNN使用大量的卷積層直接對(duì)整句語(yǔ)音信號(hào)進(jìn)行建模,更好的表達(dá)了語(yǔ)音的長(zhǎng)時(shí)相關(guān)性,并且直接將一句語(yǔ)音轉(zhuǎn)化成一張圖像作為輸入,即通過(guò)“觀看”語(yǔ)譜圖即可知道語(yǔ)音中表達(dá)的內(nèi)容,最終獲得了相比目前業(yè)界最好的語(yǔ)音識(shí)別框架——雙向遞歸神經(jīng)網(wǎng)絡(luò)更優(yōu)的性能,即識(shí)別率相對(duì)提升了15%以上。并且遙遙領(lǐng)先于同類競(jìng)品,近場(chǎng)高10-15個(gè)絕對(duì)點(diǎn),遠(yuǎn)場(chǎng)高20個(gè)絕對(duì)點(diǎn)以上。
數(shù)據(jù)安全
轉(zhuǎn)寫系統(tǒng)接入訊飛開發(fā)平臺(tái)統(tǒng)一的賬戶體系,采用公鑰與私鑰結(jié)合的認(rèn)證方式保證用戶的賬戶安全,接口統(tǒng)一采用https加密方式進(jìn)行數(shù)據(jù)傳輸,用戶上傳的語(yǔ)音文件臨時(shí)存儲(chǔ)在內(nèi)網(wǎng)存儲(chǔ),待轉(zhuǎn)寫完成,確保結(jié)果無(wú)誤后予以粉粹刪除,從數(shù)據(jù)傳送和存儲(chǔ)上全面保障用戶的數(shù)據(jù)安全。
使用場(chǎng)景
電話銷售與客服
傳統(tǒng)的電話銷售與客服包含了通話錄音、通話質(zhì)檢等。針對(duì)這個(gè)產(chǎn)品的質(zhì)量控制就是質(zhì)檢,包括通話的質(zhì)量、服務(wù)的質(zhì)量、業(yè)務(wù)解決質(zhì)量以及滿意度等等。質(zhì)檢團(tuán)隊(duì)的配置比例一般是50:1~80:1。有沒(méi)有更好的手段可以對(duì)全部坐席人員的工作成效進(jìn)行評(píng)估呢?語(yǔ)音轉(zhuǎn)寫就可以很好解決這樣的局面,如果坐席團(tuán)隊(duì)50000人的話,那么質(zhì)檢團(tuán)隊(duì)就需要1000人,但語(yǔ)音轉(zhuǎn)寫可以將坐席通話轉(zhuǎn)換成文字,讓電話質(zhì)檢和信息同步更有效率,同時(shí),也為基于文本建模的數(shù)據(jù)挖掘提供原料基礎(chǔ)。
舉個(gè)小栗子:陳先生是某衛(wèi)視的一名編導(dǎo),整理視頻字幕是他的家常便飯,這種機(jī)械又耗時(shí)的工作經(jīng)常讓他喘不過(guò)氣,語(yǔ)音轉(zhuǎn)寫就成了解決問(wèn)題的利器!
面對(duì)越來(lái)越多以及越來(lái)越嚴(yán)苛的視頻字幕生成需求,傳統(tǒng)的字幕生成方法早已無(wú)法滿足,以往字幕生成通過(guò)生成軟件或者專門的字幕組來(lái)人工完成,而現(xiàn)在利用語(yǔ)音轉(zhuǎn)寫可以大大提高效率,解放雙手??焖賹⒁曨l中的音頻文件轉(zhuǎn)寫成帶有的時(shí)間戳的文字信息,輕松生成與視頻相對(duì)應(yīng)的字幕文件。
會(huì)議發(fā)言角色多、發(fā)言信息量大、會(huì)議時(shí)間較長(zhǎng)等原因都會(huì)讓會(huì)議記錄者抓狂,會(huì)議紀(jì)要的整理就更加步履維艱。面對(duì)這種局面,語(yǔ)音轉(zhuǎn)寫可以將線上或者線下的會(huì)議和訪談的音頻記錄轉(zhuǎn)換成文字存稿,讓后期的信息檢索以及精細(xì)整理更方便快捷。
場(chǎng)景營(yíng)銷
場(chǎng)景營(yíng)銷是基于網(wǎng)民的上網(wǎng)行為始終處在輸入場(chǎng)景、搜索場(chǎng)景和瀏覽場(chǎng)景這三大場(chǎng)景之一的一種新營(yíng)銷理念。而語(yǔ)音轉(zhuǎn)寫可以通過(guò)對(duì)轉(zhuǎn)寫結(jié)果與用戶自定義的關(guān)鍵詞進(jìn)行搜索匹配,結(jié)合對(duì)應(yīng)時(shí)間戳信息,進(jìn)行線上廣告投放。
訊飛開放平臺(tái)在多地進(jìn)行了機(jī)房部署,服務(wù)器集群每天承載高達(dá)30億的語(yǔ)音交互量。每個(gè)IDC機(jī)房采用BGP或三網(wǎng)接入,保障接入速率和成功率。核心硬件方面采用內(nèi)存雙通道策略,GPU+CPU復(fù)合運(yùn)算組合,提高引擎速度。
訊飛開放平臺(tái)同時(shí)為開發(fā)者提供多種技術(shù)支持方式,并且提供一整套的服務(wù)支撐方案,保證服務(wù)的穩(wěn)定性和質(zhì)量。
”人生在勤,不索何獲?!备黜?xiàng)技術(shù)日新月異,語(yǔ)音轉(zhuǎn)寫走進(jìn)時(shí)代浪潮,也期待大家一起利用語(yǔ)音轉(zhuǎn)寫創(chuàng)造更多驚喜!點(diǎn)擊閱讀原文就可以進(jìn)入訊飛開放平臺(tái)體驗(yàn)語(yǔ)音轉(zhuǎn)寫服務(wù),新用戶有5小時(shí)免費(fèi)使用福利哦。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
6760瀏覽量
88618 -
語(yǔ)音識(shí)別
+關(guān)注
關(guān)注
38文章
1703瀏覽量
112421 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8832瀏覽量
137137
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論