0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線(xiàn)課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

科大訊飛引領(lǐng)語(yǔ)音識(shí)別技術(shù)新篇章

訊飛開(kāi)放平臺(tái) ? 來(lái)源:訊飛開(kāi)放平臺(tái) ? 2024-10-14 10:11 ? 次閱讀

無(wú)論是《2011太空漫游》中的 HAL 還是《星球大戰(zhàn)》中的 C-3PO,人們長(zhǎng)期以來(lái)一直幻想著能夠與機(jī)器對(duì)話(huà)。

智能手機(jī)助手到智能家居系統(tǒng),再到車(chē)載語(yǔ)音控制系統(tǒng),語(yǔ)音識(shí)別技術(shù)如今似乎已成為生活中不可或缺的一部分。但在某些場(chǎng)景,表現(xiàn)得并不如人意?!凹∪狻焙汀半u肉”、“北麓”和“北路”,語(yǔ)言的歧義性、語(yǔ)境的依賴(lài)性,以及溝通雙方所需的共同知識(shí)背景,都是當(dāng)前需要克服的難題。

美國(guó)學(xué)者愛(ài)德華·霍爾在1976年的著作《超越文化》中,提出了“高語(yǔ)境文化”與“低語(yǔ)境文化”的概念。高語(yǔ)境文化,被認(rèn)為是一種注重細(xì)節(jié)、強(qiáng)調(diào)推斷和推理、強(qiáng)調(diào)群體認(rèn)同和文化多樣性的文化。中文,是其中典型的代表。因此,在電影《流浪地球》中我們可以看到這樣的場(chǎng)景,MOSS與劉培強(qiáng)的交流中,多次強(qiáng)調(diào)避免使用比喻、反問(wèn)和暗示,以減少理解上的誤差。

不僅是中文,不同語(yǔ)言之間在語(yǔ)音、語(yǔ)法、詞匯上的差異,以及個(gè)體獨(dú)特的口音和發(fā)音習(xí)慣,都為語(yǔ)音識(shí)別技術(shù)帶來(lái)了額外的挑戰(zhàn)。

在語(yǔ)音識(shí)別技術(shù)的應(yīng)用已相當(dāng)成熟、跨文化交流增多的今天,如何進(jìn)一步提高語(yǔ)音識(shí)別的準(zhǔn)確率,改善人機(jī)交互體驗(yàn),為人與人之間交流打破國(guó)界、地域的阻礙?

深耕語(yǔ)音技術(shù)領(lǐng)域25年,在AI技術(shù)飛速躍遷的今天,科大訊飛發(fā)布了語(yǔ)音識(shí)別大模型,將語(yǔ)音識(shí)別的準(zhǔn)確率和多語(yǔ)種識(shí)別的效果,提升到了一個(gè)新的高度。

01無(wú)處不在,語(yǔ)音識(shí)別持續(xù)進(jìn)化

技術(shù)角度來(lái)看,語(yǔ)音識(shí)別是一項(xiàng)融合多學(xué)科知識(shí)的前沿技術(shù),覆蓋了數(shù)學(xué)與統(tǒng)計(jì)學(xué)、聲學(xué)與語(yǔ)言學(xué)、計(jì)算機(jī)與人工智能等基礎(chǔ)學(xué)科和前沿學(xué)科。簡(jiǎn)而言之,它的核心任務(wù)是將輸入的語(yǔ)音信號(hào)轉(zhuǎn)換為與之匹配度最高的文字序列。

1952年,貝爾實(shí)驗(yàn)室研制出世界上第一個(gè)能識(shí)別10個(gè)英文數(shù)字發(fā)音的實(shí)驗(yàn)系統(tǒng),揭開(kāi)了人類(lèi)使用計(jì)算機(jī)識(shí)別語(yǔ)音的序幕。進(jìn)入90年代,伴隨個(gè)人電腦和互聯(lián)網(wǎng)普及,語(yǔ)音識(shí)別逐漸走出實(shí)驗(yàn)室,走進(jìn)公眾視野。2009年之后,深度神經(jīng)網(wǎng)絡(luò)(DNN)的引入,使得語(yǔ)音識(shí)別的準(zhǔn)確率顯著提升,相關(guān)產(chǎn)品開(kāi)始大規(guī)模普及,技術(shù)進(jìn)入新的發(fā)展階段,深入到我們?nèi)粘I畹姆椒矫婷妗?/p>

大模型技術(shù)引爆的人工智能新一輪應(yīng)用熱潮,其感知能力、認(rèn)知能力、生成能力正重構(gòu)人機(jī)交互方式,不斷刷新用戶(hù)期待,在千行百業(yè)落地應(yīng)用。語(yǔ)音識(shí)別作為最早落地的人工智能技術(shù)之一,也悄然發(fā)生著變革。

經(jīng)過(guò)海量數(shù)據(jù)訓(xùn)練、擁有強(qiáng)大自然語(yǔ)言理解能力的大模型,給語(yǔ)音研究帶來(lái)了新的技術(shù)邏輯,創(chuàng)造了語(yǔ)音技術(shù)發(fā)展的全新機(jī)會(huì)。

通過(guò)學(xué)習(xí)更多的語(yǔ)言知識(shí)和上下文信息,大模型能實(shí)現(xiàn)更精準(zhǔn)的語(yǔ)義理解,準(zhǔn)確識(shí)別出語(yǔ)音內(nèi)容;同時(shí),基于更統(tǒng)一的多任務(wù)建模能力,通過(guò)在中文、英文和其他語(yǔ)種的語(yǔ)料上進(jìn)行訓(xùn)練,有助于提升語(yǔ)料稀缺小語(yǔ)種的效果。

科大訊飛作為語(yǔ)音領(lǐng)域的佼佼者,如今正在引領(lǐng)著語(yǔ)音識(shí)別技術(shù)的未來(lái)發(fā)展。

02語(yǔ)音行業(yè)翹楚,首發(fā)星火語(yǔ)音大模型

智能語(yǔ)音是萬(wàn)物互聯(lián)機(jī)器溝通的入口,也是人工智能賦能千行萬(wàn)業(yè)、浸潤(rùn)千家萬(wàn)戶(hù)的秘鑰。

25年前創(chuàng)業(yè)之初,科大訊飛的夢(mèng)想和使命就是要實(shí)現(xiàn)人機(jī)信息溝通無(wú)障礙,并始終保持初心,長(zhǎng)期致力于智能語(yǔ)音技術(shù)的源頭創(chuàng)新及產(chǎn)業(yè)化應(yīng)用。

從2010年國(guó)內(nèi)首批開(kāi)展深度神經(jīng)網(wǎng)絡(luò)語(yǔ)音識(shí)別研究,到全球首個(gè)中文語(yǔ)音識(shí)別深度神經(jīng)網(wǎng)絡(luò)(DNN)上線(xiàn)、循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)語(yǔ)音識(shí)別全面升級(jí)、全球首創(chuàng)基于全序列卷積神經(jīng)網(wǎng)絡(luò)(DFCNN)的語(yǔ)音識(shí)別,再到近幾年持續(xù)探索無(wú)監(jiān)督預(yù)訓(xùn)練、多模態(tài)在語(yǔ)音識(shí)別上的應(yīng)用,訊飛不斷挑戰(zhàn)語(yǔ)音識(shí)別實(shí)際應(yīng)用中的技術(shù)難題。

2023年,在有“最難語(yǔ)音識(shí)別任務(wù)”之稱(chēng)的語(yǔ)音領(lǐng)域權(quán)威賽事——國(guó)際多通道語(yǔ)音分離和識(shí)別大賽CHiME中,訊飛在大牛如云的參賽隊(duì)伍中,力壓群雄,第四次拿下冠軍。

除中英以外,科大訊飛已具備其他69種語(yǔ)言的語(yǔ)音識(shí)別能力,其中有35個(gè)語(yǔ)種準(zhǔn)確率超過(guò)90%(數(shù)據(jù)來(lái)源于實(shí)際應(yīng)用)。同時(shí),訊飛開(kāi)放平臺(tái)還在新加坡、俄羅斯、印度、日本等國(guó)家部署了海外站點(diǎn),將語(yǔ)音識(shí)別、語(yǔ)音合成等技術(shù),開(kāi)放給海內(nèi)外開(kāi)發(fā)者。

大模型時(shí)代浪潮下,科大訊飛基于深厚的技術(shù)積累,2024年1月31日正式推出星火語(yǔ)音大模型,引領(lǐng)萬(wàn)物互聯(lián)時(shí)代的人機(jī)交互革命。在語(yǔ)音識(shí)別方面,中文、英語(yǔ)、法語(yǔ)、俄語(yǔ)等首批37個(gè)主流語(yǔ)種的語(yǔ)音識(shí)別效果超過(guò)OpenAI Whisper V3。其中,13個(gè)重點(diǎn)語(yǔ)種識(shí)別率達(dá)94%,24個(gè)主要語(yǔ)種識(shí)別率達(dá)90%。

03高準(zhǔn)確率+高識(shí)別率 語(yǔ)音識(shí)別大模型上線(xiàn)

讓更多人能享受到新技術(shù)帶來(lái)的便利,近期,基于星火語(yǔ)音大模型的語(yǔ)音識(shí)別大模型已在訊飛開(kāi)放平臺(tái)上線(xiàn),面向開(kāi)發(fā)者開(kāi)放調(diào)用,可以將短音頻(≤60秒)精準(zhǔn)識(shí)別成文字,除中文普通話(huà)和英文外,支持37個(gè)語(yǔ)種自動(dòng)判別,說(shuō)話(huà)過(guò)程中可以無(wú)縫切換語(yǔ)種,實(shí)時(shí)返回對(duì)應(yīng)語(yǔ)種的文字結(jié)果,并提供公有云接口及私有化部署方案。

與傳統(tǒng)的語(yǔ)音識(shí)別產(chǎn)品相比,語(yǔ)音識(shí)別大模型有著獨(dú)特的優(yōu)勢(shì):

高識(shí)別率,高準(zhǔn)確率

基于統(tǒng)一建模的星火多語(yǔ)種語(yǔ)音識(shí)別大模型,極大提升了語(yǔ)音識(shí)別準(zhǔn)確度,真實(shí)還原語(yǔ)音內(nèi)容,提高信息獲取效率

多語(yǔ)種自動(dòng)判別

支持中文、英語(yǔ)、日語(yǔ)、韓語(yǔ)、俄語(yǔ)、法語(yǔ)等37個(gè)語(yǔ)種的自動(dòng)判別,在說(shuō)話(huà)過(guò)程中可以無(wú)縫切換語(yǔ)種,助力跨文化交流更自由

指定語(yǔ)種準(zhǔn)確率更高

對(duì)于已明確語(yǔ)種的場(chǎng)景,也可以指定語(yǔ)種進(jìn)行識(shí)別,進(jìn)一步提升正確率

智能標(biāo)點(diǎn)

數(shù)字、標(biāo)點(diǎn)、大小寫(xiě)和識(shí)別結(jié)果同步預(yù)測(cè),使口語(yǔ)表達(dá)變規(guī)整,帶來(lái)更流暢的閱讀體驗(yàn)

在開(kāi)發(fā)者資源方面,除了基礎(chǔ)的WebAPI,訊飛開(kāi)放平臺(tái)還提供了不同平臺(tái)的SDK,包括Android、LinuxiOS、Windows,幫助開(kāi)發(fā)者將語(yǔ)音識(shí)別大模型能力快速集成到產(chǎn)品中。

目前,語(yǔ)音識(shí)別大模型能力已搭載在訊飛星火APP和訊飛翻譯機(jī)等產(chǎn)品中。

打開(kāi)訊飛星火APP,用語(yǔ)音與星火進(jìn)行對(duì)話(huà),你所說(shuō)的語(yǔ)音會(huì)快速被識(shí)別為精準(zhǔn)的文字,讓你直觀感受到語(yǔ)音識(shí)別大模型帶來(lái)的高準(zhǔn)確率和高識(shí)別率。

持續(xù)進(jìn)步的語(yǔ)音識(shí)別技術(shù)正進(jìn)一步拓展人機(jī)交互的場(chǎng)景邊界,在客戶(hù)服務(wù)、語(yǔ)音搜索、游戲娛樂(lè)、會(huì)議記錄、教育培訓(xùn)等領(lǐng)域,為人類(lèi)帶來(lái)更加便捷、高效和智能的生活方式。

正如梅拉妮·米歇爾在《AI 3.0》書(shū)中強(qiáng)調(diào),自動(dòng)語(yǔ)音識(shí)別是深度學(xué)習(xí)在自然語(yǔ)言處理中的第一個(gè)重大成就,也是迄今為止人工智能在所有領(lǐng)域中取得的最重要的成就。這不僅是對(duì)語(yǔ)音識(shí)別技術(shù)的認(rèn)可,更是對(duì)未來(lái)人機(jī)交互無(wú)限可能的預(yù)示。

點(diǎn)擊閱讀原文,免費(fèi)領(lǐng)取語(yǔ)音識(shí)別大模型試用包,至高20萬(wàn)次服務(wù)量(中文)。

文末彩蛋

2023年,科大訊飛與統(tǒng)信軟件宣布達(dá)成戰(zhàn)略合作,充分發(fā)揮各自技術(shù)和產(chǎn)品優(yōu)勢(shì),共同探索新的商業(yè)模式,推動(dòng)AI技術(shù)在各行各業(yè)的深度應(yīng)用。

統(tǒng)信軟件是全球主流操作系統(tǒng)產(chǎn)品與服務(wù)提供商,統(tǒng)信UOS桌面版發(fā)貨量累計(jì)超過(guò)600萬(wàn),服務(wù)器版發(fā)貨量增速更是位列行業(yè)前列。

近日,訊飛星火、訊飛智文已正式上架統(tǒng)信應(yīng)用商店,讓全球用戶(hù)可通過(guò)統(tǒng)信應(yīng)用商店一鍵輕松暢享AI樂(lè)趣,感受前所未有的便捷應(yīng)用與服務(wù)體驗(yàn)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29347

    瀏覽量

    267630
  • 語(yǔ)音識(shí)別
    +關(guān)注

    關(guān)注

    38

    文章

    1703

    瀏覽量

    112410
  • 科大訊飛
    +關(guān)注

    關(guān)注

    19

    文章

    778

    瀏覽量

    61082

原文標(biāo)題:對(duì)標(biāo)Open AI Whisper,語(yǔ)音識(shí)別進(jìn)入下一個(gè) level

文章出處:【微信號(hào):訊飛開(kāi)放平臺(tái),微信公眾號(hào):訊飛開(kāi)放平臺(tái)】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    重慶市第五人民醫(yī)院引領(lǐng)醫(yī)療電能質(zhì)量革命,點(diǎn)亮“健康”新篇章

    重慶市第五人民醫(yī)院引領(lǐng)醫(yī)療電能質(zhì)量革命,點(diǎn)亮“健康”新篇章
    的頭像 發(fā)表于 10-14 15:36 ?115次閱讀
    重慶市第五人民醫(yī)院<b class='flag-5'>引領(lǐng)</b>醫(yī)療電能質(zhì)量革命,點(diǎn)亮“健康”<b class='flag-5'>新篇章</b>

    科大與軟通動(dòng)力深化戰(zhàn)略合作,共繪AI產(chǎn)業(yè)新藍(lán)圖

    在北京這座科技創(chuàng)新的璀璨之城,科大與軟通動(dòng)力兩大行業(yè)巨頭再次攜手,于近日隆重簽署了深化戰(zhàn)略合作協(xié)議。此次合作不僅標(biāo)志著雙方在2023年成功建立戰(zhàn)略伙伴關(guān)系后的又一重大飛躍,更是雙方合作深度與廣度的全面升級(jí),共同開(kāi)啟了人工智能
    的頭像 發(fā)表于 07-17 17:46 ?1085次閱讀

    科大發(fā)布星火大模型V4.0

    在科技創(chuàng)新的浪潮中,科大再度引領(lǐng)潮流,于北京隆重發(fā)布了星火大模型V4.0及其在多領(lǐng)域的人
    的頭像 發(fā)表于 07-01 10:33 ?771次閱讀

    智能制造新篇章:ZR執(zhí)行器引領(lǐng)行業(yè)創(chuàng)新

    智能制造新篇章:ZR執(zhí)行器引領(lǐng)行業(yè)創(chuàng)新 在智能制造的風(fēng)潮中,一場(chǎng)行業(yè)變革正悄然上演。而在這場(chǎng)變革中,ZR執(zhí)行器以其卓越的性能和創(chuàng)新的特性,成為了引領(lǐng)行業(yè)創(chuàng)新的重要力量。它的出現(xiàn),不僅為智能制造帶來(lái)
    的頭像 發(fā)表于 06-14 17:31 ?756次閱讀

    高校嵌入式教學(xué)實(shí)驗(yàn)箱,開(kāi)啟智慧教學(xué)新篇章

    高校嵌入式教學(xué)實(shí)驗(yàn)箱,開(kāi)啟智慧教學(xué)新篇章
    的頭像 發(fā)表于 05-23 08:32 ?403次閱讀
    高校嵌入式教學(xué)實(shí)驗(yàn)箱,開(kāi)啟智慧教學(xué)<b class='flag-5'>新篇章</b>

    機(jī)械制造ERP:無(wú)錫哲引領(lǐng)行業(yè)數(shù)字化轉(zhuǎn)型新篇章

    一背景下,無(wú)錫哲憑借其專(zhuān)業(yè)的SAP解決方案,為機(jī)械制造企業(yè)提供了高效、可靠的ERP系統(tǒng),引領(lǐng)行業(yè)數(shù)字化轉(zhuǎn)型的新篇章。 無(wú)錫哲作為SAP領(lǐng)域的專(zhuān)業(yè)服務(wù)商,深知機(jī)械制造行業(yè)的特性和需求
    的頭像 發(fā)表于 05-13 16:13 ?317次閱讀

    科大星火大模型新添功能,語(yǔ)音臺(tái)歷即將面世

     4月26日,科大宣布星火大模型V3.5春季更新,新增功能包括:支持長(zhǎng)文本、長(zhǎng)圖文、長(zhǎng)語(yǔ)音
    的頭像 發(fā)表于 04-28 11:30 ?399次閱讀

    科大華中總部已封頂 年內(nèi)交付使用

    科大華中總部已封頂 年內(nèi)交付使用 科大華中總部位于武漢經(jīng)開(kāi)區(qū)車(chē)谷資本島,投資額50億;計(jì)
    的頭像 發(fā)表于 04-16 14:49 ?1356次閱讀

    維融合通信系統(tǒng):開(kāi)啟企業(yè)溝通新篇章,引領(lǐng)行業(yè)變革

    維融合通信系統(tǒng)以其前瞻性的技術(shù)設(shè)計(jì)和卓越的性能表現(xiàn),正開(kāi)啟企業(yè)溝通的新篇章,引領(lǐng)行業(yè)變革。該系統(tǒng)不僅為企業(yè)提供了高效、便捷的通信解決方案,更通過(guò)跨界融合與創(chuàng)新,推動(dòng)了整個(gè)通信行業(yè)的進(jìn)
    的頭像 發(fā)表于 04-10 16:31 ?337次閱讀

    首個(gè)鴻蒙生態(tài)創(chuàng)新中心在深揭幕,開(kāi)啟鴻蒙產(chǎn)業(yè)新篇章共繪鴻蒙原生應(yīng)用開(kāi)發(fā)新篇章

    深圳走向全國(guó)乃至全球鴻蒙生態(tài)繁榮發(fā)展的新篇章。借由創(chuàng)新中心搭建的這一公共技術(shù)服務(wù)平臺(tái),鴻蒙生態(tài)將涌入更多技術(shù)專(zhuān)業(yè)人才,同時(shí)形成“虹吸效應(yīng)”,吸納產(chǎn)業(yè)鏈上下游伙伴共商、共謀、共享鴻蒙產(chǎn)業(yè)發(fā)展大計(jì)。相信
    發(fā)表于 03-20 09:55

    科大發(fā)布“星火V3.5”:基于全國(guó)產(chǎn)算力訓(xùn)練的全民開(kāi)放大模型

    科大,作為中國(guó)領(lǐng)先的智能語(yǔ)音和人工智能公司,近日宣布推出首個(gè)基于全國(guó)產(chǎn)算力訓(xùn)練的全民開(kāi)放大模型“
    的頭像 發(fā)表于 02-04 11:28 ?1402次閱讀

    科大發(fā)布星火語(yǔ)音大模型

    科大行業(yè)資訊
    北京中科同志科技股份有限公司
    發(fā)布于 :2024年01月31日 09:17:28

    科技創(chuàng)新與智能助力:揭秘科大智能鍵盤(pán)D1的獨(dú)特魅力

    魅力,從多個(gè)功能角度進(jìn)行介紹,并探討其適用于年會(huì)采購(gòu)、企業(yè)送禮以及辦公采購(gòu)等場(chǎng)景。 ? 一、語(yǔ)音翻譯:打破語(yǔ)言壁壘 智能鍵盤(pán)D1搭載了科大自主研發(fā)的
    的頭像 發(fā)表于 01-03 11:02 ?557次閱讀
    科技創(chuàng)新與智能助力:揭秘<b class='flag-5'>科大</b><b class='flag-5'>訊</b><b class='flag-5'>飛</b>智能鍵盤(pán)D1的獨(dú)特魅力

    語(yǔ)音數(shù)據(jù)集:開(kāi)啟智能語(yǔ)音技術(shù)新篇章

    隨著人工智能技術(shù)的飛速發(fā)展,語(yǔ)音數(shù)據(jù)集在推動(dòng)智能語(yǔ)音技術(shù)的進(jìn)步中發(fā)揮著越來(lái)越重要的作用。語(yǔ)音數(shù)據(jù)集是訓(xùn)練和優(yōu)化
    的頭像 發(fā)表于 12-29 11:06 ?546次閱讀

    科大語(yǔ)音控制模塊怎么用

    科大語(yǔ)音控制模塊是一種人機(jī)交互技術(shù),它利用語(yǔ)音識(shí)別語(yǔ)音
    的頭像 發(fā)表于 12-25 13:58 ?1513次閱讀