0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

微軟院士:Speech DDK技能太強了,語音識別超專業(yè)翻譯人士水平

漁翁先生 ? 來源:電子發(fā)燒友網(wǎng) ? 作者:尹志堅 ? 2018-12-19 16:53 ? 次閱讀

【導(dǎo)讀】2016年152層殘差網(wǎng)絡(luò)圖像識別精準(zhǔn)率96%,2017年語音識別基準(zhǔn)測試誤差率5.1%,2018年1月文本理解測試精準(zhǔn)率88.5%,3月機器翻譯研究系統(tǒng)精準(zhǔn)率達到69.9%,12月語音合成測試版在Azure正式上線,并首次達到超過專業(yè)翻譯人士的水平,微軟人工智能AI)再次刷新世界紀(jì)錄。

12月18日,在IoT In Action峰會上,微軟全球資深院士首席語音科學(xué)家黃學(xué)東博士介紹智能語音和語言上的最新進展。首款媲美專業(yè)發(fā)音人的實時在線語音合成系統(tǒng)預(yù)覽版在Azure上正式運營服務(wù)。

黃學(xué)東博士表示,微軟在云服務(wù)上提供了世界級的語音合成服務(wù),所有的互聯(lián)網(wǎng)內(nèi)容提供商都可以享受這個世界級的技術(shù)。它不僅解決了過去20年機器語音識別錯誤率居高不下的難題,更是人工智能語音和語言上的一次歷史性突破——采用先進深度網(wǎng)絡(luò)學(xué)習(xí),簡化了傳統(tǒng)語音合成的架構(gòu)。

從以上圖片可以看出,左邊紫色系統(tǒng)架構(gòu)下,微軟通過端到端的深度學(xué)習(xí)優(yōu)化,為大家提供前所未有的、最自然的語音合成系統(tǒng)。

“基于神經(jīng)網(wǎng)絡(luò)的語音合成系統(tǒng)”是業(yè)界第一個實時的在語音上上線的人工智能服務(wù)。黃學(xué)東博士指出,大家可以享受更好的語音合成質(zhì)量、更快的引擎性能、更廣的全球服務(wù)部署。所有的內(nèi)容提供商,不管是有沒有音頻、你的內(nèi)容都可以轉(zhuǎn)換成自然的聲音表達,不管是在開車還是在睡覺,都可以享受高質(zhì)量的交互。

同時,微軟聯(lián)合全球合作伙伴一起推出強大的語音麥克風(fēng)陣列開發(fā)系統(tǒng)(Speech Devices SDK簡稱Speech DDK),它可以在25m之外都可以轉(zhuǎn)寫你的聲音,DDK不僅可供用戶免費使用,還可以整合到任何硬件設(shè)備中去,通過微軟云服務(wù)為用戶提供最先進的、世界一流的語音交互服務(wù)。

DDK讓智能音箱“說話”。這是一款眼觀六路的智能音箱系統(tǒng),為企業(yè)級的會議轉(zhuǎn)寫提供前所未有的智能服務(wù)。

可以看到,它不僅僅是業(yè)界第一臺多人原場會議轉(zhuǎn)錄系統(tǒng),而且是業(yè)界第一臺“睜開雙眼”的智能音箱。

隨著語音識別技術(shù)不斷取得進步。放眼未來,各國間的語言溝通障礙不再有任何問題,人類離人工智能真正的目標(biāo)又將推進一小步。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 微軟
    +關(guān)注

    關(guān)注

    4

    文章

    6543

    瀏覽量

    103830
  • 神經(jīng)網(wǎng)絡(luò)

    關(guān)注

    42

    文章

    4729

    瀏覽量

    100347
  • 語音識別
    +關(guān)注

    關(guān)注

    38

    文章

    1706

    瀏覽量

    112437
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46435

    瀏覽量

    236661
  • 語音合成
    +關(guān)注

    關(guān)注

    2

    文章

    87

    瀏覽量

    16126
收藏 人收藏

    評論

    相關(guān)推薦

    WTK6900FC語音識別模塊

    語音識別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月25日 17:35:07

    唯創(chuàng)知音WT2605C用在離在線語音識別方案# #語音芯片 #語音識別 #唯創(chuàng)知音

    語音識別
    WT-深圳唯創(chuàng)知音電子有限公司
    發(fā)布于 :2024年09月12日 17:24:28

    語音識別和自然語言處理的區(qū)別和聯(lián)系

    語音識別和自然語言處理是人工智能領(lǐng)域的兩個重要分支,它們在很多方面有著緊密的聯(lián)系,同時也存在一些明顯的區(qū)別。本文將詳細(xì)介紹語音識別和自然語言處理的區(qū)別和聯(lián)系。 一、
    的頭像 發(fā)表于 07-05 10:09 ?1055次閱讀

    智慧酒店語音識別芯片,提升酒店的智能化水平

    隨著人工智能技術(shù)的飛速發(fā)展,語音識別技術(shù)逐漸成熟并廣泛應(yīng)用于各個領(lǐng)域。在智慧酒店建設(shè)中,語音識別芯片的出現(xiàn)極大地推動了酒店的智能化進程。這些芯片通過內(nèi)置先進的
    的頭像 發(fā)表于 05-27 11:19 ?322次閱讀
    智慧酒店<b class='flag-5'>語音</b><b class='flag-5'>識別</b>芯片,提升酒店的智能化<b class='flag-5'>水平</b>

    微軟網(wǎng)頁版PPT新增語音識別及字幕生成功能

    據(jù)報道,微軟計劃于今年六月份推出網(wǎng)頁版PowerPoint全新語音識別功能。此項功能將能夠監(jiān)控PowerPoint視頻中的聲音,進而自動生成字幕。
    的頭像 發(fā)表于 05-16 14:36 ?328次閱讀

    微軟“數(shù)字技能賦能”項目拓展在華合作

    微軟近日宣布,與中國教育發(fā)展基金會和全國高等院校計算機基礎(chǔ)教育研究會攜手合作,共同推進“數(shù)字技能賦能”項目。此次合作旨在將微軟在智能技術(shù)、綠色數(shù)字技能、數(shù)據(jù)處理和可視化分析以及低代碼開
    的頭像 發(fā)表于 03-22 09:19 ?465次閱讀

    PLC常用專業(yè)英文詞匯翻譯總結(jié)

    PLC編程中我們經(jīng)常會遇到一些專業(yè)英文詞匯,對于入門的學(xué)員來說過理解起來是非常困難的。本文總結(jié)了一些PLC常用專業(yè)英文詞匯,并做已翻譯。
    的頭像 發(fā)表于 03-19 11:40 ?2236次閱讀

    恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識別引擎

    恩智浦發(fā)布新一代智能語音技術(shù)組合的語音識別引擎。本文將探討開發(fā)人員在嵌入式語音控制設(shè)計中面臨的挑戰(zhàn)、恩智浦新的Speech to Inten
    的頭像 發(fā)表于 01-26 09:15 ?684次閱讀
    恩智浦發(fā)布新一代智能<b class='flag-5'>語音</b>技術(shù)組合的<b class='flag-5'>語音</b><b class='flag-5'>識別</b>引擎

    重塑翻譯識別技術(shù):開源語音識別模型Whisper的編譯優(yōu)化與部署

    模型介紹Whisper模型是一個由OpenAI團隊開發(fā)的通用語音識別模型。它的訓(xùn)練基于大量不同的音頻數(shù)據(jù)集,是一個多任務(wù)模型,可以執(zhí)行語音識別、語言
    的頭像 發(fā)表于 01-06 08:33 ?3235次閱讀
    重塑<b class='flag-5'>翻譯</b>與<b class='flag-5'>識別</b>技術(shù):開源<b class='flag-5'>語音</b><b class='flag-5'>識別</b>模型Whisper的編譯優(yōu)化與部署

    離線語音識別與在線語音識別有什么不一樣?

    離線語音識別與在線語音識別有什么不一樣? 離線語音識別和在線
    的頭像 發(fā)表于 12-12 14:36 ?1102次閱讀

    情感語音識別的應(yīng)用與挑戰(zhàn)

    一、引言 情感語音識別是一種通過分析人類語音中的情感信息實現(xiàn)智能化和個性化人機交互的技術(shù)。本文將探討情感語音識別的應(yīng)用領(lǐng)域、優(yōu)勢以及所面臨的
    的頭像 發(fā)表于 11-30 10:40 ?564次閱讀

    離線語音識別及控制是怎樣的技術(shù)?

    引言:隨著人工智能的飛速發(fā)展,離線語音識別技術(shù)成為了一項備受矚目的創(chuàng)新。離線語音識別技術(shù)能夠?qū)⑷说?b class='flag-5'>語音轉(zhuǎn)化為可理解的文本,無需依賴網(wǎng)絡(luò)連接,
    的頭像 發(fā)表于 11-24 17:44 ?1027次閱讀
    離線<b class='flag-5'>語音</b><b class='flag-5'>識別</b>及控制是怎樣的技術(shù)?

    離線語音識別及控制是怎樣的技術(shù)?

    引言:  隨著人工智能的飛速發(fā)展,離線語音識別技術(shù)成為了一項備受矚目的創(chuàng)新。離線語音識別技術(shù)能夠?qū)⑷说?b class='flag-5'>語音轉(zhuǎn)化為可理解的文本,無需依賴網(wǎng)絡(luò)連
    發(fā)表于 11-24 17:41

    情感語音識別的研究方法與實踐

    一、引言 情感語音識別是指通過計算機技術(shù)和人工智能算法自動識別和理解人類語音中的情感信息。為了提高情感語音
    的頭像 發(fā)表于 11-16 16:26 ?772次閱讀

    離線語音識別和控制的工作原理及應(yīng)用

    引言   離線語音識別是指在沒有網(wǎng)絡(luò)連接的情況下,通過在本地設(shè)備上進行語音信號處理和識別,實現(xiàn)語音命令的轉(zhuǎn)化和執(zhí)行。隨著智能設(shè)備的普及,離
    發(fā)表于 11-07 18:01