伊人久久久久久久久久,国产女人久久精品,国产一级a爱做片777

谷歌語(yǔ)音輸入法可離線識(shí)別啦！

這次出手的，又是谷歌 AI 團(tuán)隊(duì)。剛剛，他們?yōu)槠煜碌囊豢?a target="_blank">手機(jī)輸入法 Gboard （不要跟谷歌拼音輸入法搞混了啊~）上線了新功能：離線語(yǔ)音識(shí)別。目前這一新功能，只能在其自家的產(chǎn)品 Pixel 系列手機(jī)上使用。

廣大已經(jīng)下載或正在趕往下載路上的 Pixel 圈外人士，包括 iOS 用戶(hù)可能都會(huì)失望了。

他們是這樣描述這款新功能的配置的：端到端、全神經(jīng)、本地部署的語(yǔ)音識(shí)別系統(tǒng)。

在其最近的論文 “Streaming End-to-End Speech Recognition for Mobile Devices” 中，他們提出了一種基于 RNN-T（RNN transducer）的訓(xùn)練模型。

它非常緊湊，可滿(mǎn)足在手機(jī)上部署。這意味著不會(huì)出現(xiàn)太多網(wǎng)絡(luò)延遲或紊亂，即使用戶(hù)處于脫機(jī)狀態(tài)，這款語(yǔ)音識(shí)別系統(tǒng)也始終可用。該模型始終以字符級(jí)工作，因此即便你說(shuō)話，它也會(huì)逐個(gè)字符地輸出單詞，就好像有人在實(shí)時(shí)鍵入并準(zhǔn)確在虛擬鍵盤(pán)聽(tīng)寫(xiě)出你說(shuō)的話。

例如，下面兩張圖片中展示的是在聽(tīng)寫(xiě)系統(tǒng)中輸入相同句子時(shí)的情況展示：左側(cè)為服務(wù)器端，右側(cè)為本地端。哪邊的語(yǔ)音識(shí)別體驗(yàn)更好呢？

總結(jié)起來(lái)就是，“離線狀態(tài)下，沒(méi)有任何延遲。”這也是谷歌此次亮出的大殺器。

發(fā)生延遲是因?yàn)槟愕恼Z(yǔ)音數(shù)據(jù)必須從手機(jī)傳輸?shù)椒?wù)器上，解析完成后再返回。這可能需要幾毫秒甚至幾秒的時(shí)間。萬(wàn)一語(yǔ)音數(shù)據(jù)包在以太網(wǎng)中丟失，則需要更長(zhǎng)的時(shí)間。

將語(yǔ)音轉(zhuǎn)換成毫秒級(jí)的文本需要相當(dāng)多的計(jì)算力。這不只簡(jiǎn)單是聽(tīng)到聲音然后寫(xiě)一個(gè)單詞那么簡(jiǎn)單，而是需要理解一個(gè)人講話的含義，以及背后涉及的很多有關(guān)語(yǔ)言和意圖的上下文語(yǔ)境。

在手機(jī)上是可以做到這一點(diǎn)的，但如此的話，又會(huì)很損耗電池電量。

語(yǔ)音識(shí)別模型簡(jiǎn)史

一般來(lái)講，語(yǔ)音識(shí)別系統(tǒng)由幾個(gè)部分組成：將音頻片段（通常為 10 毫秒幀）映射到音素的聲學(xué)模型、將音素連接起來(lái)形成單詞的發(fā)聲模型，以及一個(gè)表達(dá)給定模型的語(yǔ)言模型。在早期系統(tǒng)，這些組件是相對(duì)獨(dú)立優(yōu)化的。

2014 年左右，研究人員開(kāi)始專(zhuān)注于訓(xùn)練單個(gè)神經(jīng)網(wǎng)絡(luò)，將輸入音頻波形直接映射到輸出句子。通過(guò)在給定一系列音頻特征的情況下生成一系列單詞或字形來(lái)學(xué)習(xí)模型，這種 sequence-to-sequence 的方法促使了 attention-based 和 listen-attend-spell（LAS）模型的誕生。雖然這些模型在準(zhǔn)確性方面表現(xiàn)出極大的前景，但它們通常會(huì)檢查整個(gè)輸入序列，并且在輸入時(shí)不允許輸出，這是實(shí)時(shí)語(yǔ)音轉(zhuǎn)錄的必要特征。

同時(shí)，一種稱(chēng)為 connectionist temporal classification（CTC）的技術(shù)有助于減少當(dāng)時(shí)識(shí)別系統(tǒng)的延時(shí)問(wèn)題。這對(duì)于后來(lái)創(chuàng)建 RNN-T 架構(gòu)是一次重要的里程碑，也被看作是 CTC 技術(shù)的一次泛化。

（編者注：CTC，其全稱(chēng)為 Connectionist Temporal Classfication，由 Graves 等人于 2006 年提出，用于訓(xùn)練遞歸神經(jīng)網(wǎng)絡(luò)（RNN）以解決時(shí)序可變的序列問(wèn)題。它可用于在線手寫(xiě)識(shí)別或識(shí)別語(yǔ)音音頻中音素等任務(wù)。發(fā)展到如今，CTC 早已不是新名詞，它在工業(yè)界的應(yīng)用十分成熟。例如，在百度近日公布的在線語(yǔ)音識(shí)別輸入法中，其最新語(yǔ)音模型在CTC 的基礎(chǔ)上還融合了 Attention 等新技術(shù)。）

何為RNN-T？

RNN-T 是一種不采用注意力機(jī)制的 sequence-to-sequence 模型。與大多數(shù) sequence-to-sequence 模型（通常需要處理整個(gè)輸入序列（在語(yǔ)音識(shí)別中即是波形）以產(chǎn)生輸出句子）不同，RNN-T 會(huì)連續(xù)處理輸入樣本和流輸出符號(hào)。

輸出符號(hào)是字母表的字符。RNN-T 會(huì)逐個(gè)輸出字符，并在適當(dāng)?shù)奈恢幂斎肟崭瘛Ｋㄟ^(guò)反饋循環(huán)執(zhí)行此操作，該訓(xùn)練將模型預(yù)測(cè)的符號(hào)反饋到其中以預(yù)測(cè)下一個(gè)符號(hào)。如下圖所示。

用輸入音頻樣本 x 和預(yù)測(cè)符號(hào) y 表示 RNN-T。預(yù)測(cè)符號(hào)（Softmax 層的輸出）通過(guò)預(yù)測(cè)網(wǎng)絡(luò)反饋到模型中。

有效訓(xùn)練這樣的模型已經(jīng)很困難，但隨著新開(kāi)發(fā)的訓(xùn)練技術(shù)進(jìn)一步將單詞錯(cuò)誤率降低了 5%，它的計(jì)算強(qiáng)度變得更高。為了解決這個(gè)問(wèn)題，研究人員開(kāi)發(fā)了一個(gè)并行實(shí)現(xiàn)過(guò)程，因此 RNN-T 損失功能可以在 Google Cloud TPU v2 上大批量運(yùn)行。訓(xùn)練中實(shí)現(xiàn)了大約 3 倍的加速。

離線識(shí)別

在傳統(tǒng)的語(yǔ)音識(shí)別引擎中，聲學(xué)、發(fā)聲和語(yǔ)音模型組合成一個(gè)大的圖搜索（search graph），其邊緣用語(yǔ)音單元及其概率標(biāo)記。當(dāng)語(yǔ)音波形呈現(xiàn)給識(shí)別系統(tǒng)時(shí)，“解碼器”在給定輸入信號(hào)的情況下會(huì)搜索圖中相似度最高的路徑，并讀出該路徑所采用字序列。通常，解碼器采用基礎(chǔ)模型的有限狀態(tài)傳感器（Finite State Transducer, FST）表示。然而，盡管有復(fù)雜的解碼技術(shù)，圖搜索仍很困難，因?yàn)樯a(chǎn)模型幾乎有 2GB 大小。這可不是在移動(dòng)電話上想托管就可以實(shí)現(xiàn)的，因此這種方法需要在線連接才能正常使用。

為了提高語(yǔ)音識(shí)別的有效性，研究人員嘗試直接在設(shè)備上托管新模型以避免通信網(wǎng)絡(luò)的延遲和固有的不可靠性。因此，端到端的方法不需要在大型解碼器圖上進(jìn)行搜索。相反，解碼器包括通過(guò)單個(gè)神經(jīng)網(wǎng)絡(luò)的集束搜索（beam search）。RNN-T 與傳統(tǒng)的基于服務(wù)器端的模型具有相同的精度，但前者只有 450MB，而且更加智能地使用參數(shù)和打包信息。但即便在如今的智能手機(jī)上，450MB 還是占用了很大的空間，例如通過(guò)大型網(wǎng)絡(luò)是信號(hào)傳播可能會(huì)很慢。

因此，研究人員通過(guò)使用參數(shù)量化和混合內(nèi)核技術(shù)進(jìn)一步減小了模型大小。這項(xiàng)技術(shù)早在 2016 年就已發(fā)布，并在 TensorFlow Lite 版本中提供公開(kāi)的模型優(yōu)化工具包。模型量化相對(duì)于訓(xùn)練的浮點(diǎn)模型提供 4 倍壓縮，在運(yùn)行時(shí)實(shí)現(xiàn)了 4 倍加速，這使得 RNN-T 比單核上的實(shí)時(shí)語(yǔ)音運(yùn)行得更快。壓縮后，最終模型大小只占 80MB。

效果如何？

谷歌公開(kāi)這一新功能后，TechCrunch 評(píng)論稱(chēng)，“鑒于 Google 的其他產(chǎn)品幾乎沒(méi)有是離線工作的，那么你會(huì)在離線狀態(tài)下寫(xiě)一封電子郵件嗎？當(dāng)然，在網(wǎng)絡(luò)條件不好的情況下，這款應(yīng)用新功能可能會(huì)解決了用戶(hù)痛點(diǎn)，但顯然，這還是有點(diǎn)諷刺（雞肋）?！?/p>

而這也一度吸引來(lái)了 HackerNews 上不少用戶(hù)評(píng)論，他們也將部分矛頭指向了所謂的“離線功能”：

“離線功能雖然不是最主要的吸引力，但正如本文中提到的，延遲問(wèn)題的減少是巨大的。他們可能沒(méi)有提及的是對(duì)隱私問(wèn)題的影響。不過(guò)，用戶(hù)一般不會(huì)離線處理事物，但如果需要來(lái)回的穩(wěn)定數(shù)據(jù)包流，連接網(wǎng)絡(luò)也是很麻煩的問(wèn)題?！?/p>

不過(guò)，經(jīng)過(guò)嘗試后的用戶(hù)還是非?？春茫骸拔抑皇菍⑽业?Pixel1 代切換到飛行模型，并嘗試了語(yǔ)音輸入。果然，它的離線工作速度很快！這令人非常印象深刻（我之前嘗試過(guò)，但過(guò)去它只能理解一些特殊的短語(yǔ)。）

有多好方法可以實(shí)現(xiàn)這一功能呢，但我認(rèn)為任何應(yīng)用都能從這次語(yǔ)音的改進(jìn)中受益?！?/p>

為此，營(yíng)長(zhǎng)也特意下載了 Gboard、訊飛、百度三家語(yǔ)音輸入法，試看它們?cè)陲w行模式下的效果如何。

Round 1

Gboard：目前非 Pixel 手機(jī)中離線語(yǔ)音尚無(wú)法使用，且針對(duì)某些機(jī)型甚至不支持語(yǔ)音。不過(guò)，打字還是比較絲滑流暢的。

Round 2

訊飛：可下載離線語(yǔ)音包，不過(guò)在正常網(wǎng)絡(luò)通暢情況下，語(yǔ)音識(shí)別的速度和準(zhǔn)確性還是相當(dāng)高的。

Round 3

百度：也可下載離線語(yǔ)音，無(wú)網(wǎng)絡(luò)連接狀態(tài)下，語(yǔ)音識(shí)別效果還是可以的。

不知國(guó)內(nèi)經(jīng)常使用訊飛、百度輸入法的小伙伴們，看到這一消息有何想法？歡迎留言。

聲明：本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6104

瀏覽量
104783
輸入法

輸入法

+關(guān)注

關(guān)注
0

文章
48

瀏覽量
9663
語(yǔ)音識(shí)別

語(yǔ)音識(shí)別

+關(guān)注

關(guān)注
38

文章
1703

瀏覽量
112422

原文標(biāo)題：Google又逆天：語(yǔ)音輸入離線實(shí)時(shí)輸出文字，僅占80MB！然而……

文章出處：【微信號(hào)：rgznai100，微信公眾號(hào)：rgznai100】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

TLV320AIC3204N1_L有語(yǔ)音輸入、IN1_R沒(méi)語(yǔ)音輸入時(shí)，采集IN1_R的數(shù)據(jù)聲音是IN1_L端的聲音，為什么？

使用方式：IN1_L與IN1_R分別單端輸入，DSP模式與DSP5509進(jìn)行數(shù)據(jù)交互。當(dāng)IN1_L有語(yǔ)音輸入、IN1_R沒(méi)語(yǔ)音輸入時(shí)，采集IN1_R的數(shù)據(jù)，發(fā)現(xiàn)聲音是IN1_L端的聲音。請(qǐng)問(wèn)是什么原因呢？或者有什么解決辦法嗎？

發(fā)表于 10-16 06:16

物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語(yǔ)音識(shí)別方案_離線語(yǔ)音識(shí)別芯片分析

01 物聯(lián)網(wǎng)系統(tǒng)中為什么要使用離線語(yǔ)音識(shí)別芯片物聯(lián)網(wǎng)系統(tǒng)中使用離線語(yǔ)音識(shí)別芯片的原因主要基于以

發(fā)表于 09-26 17:56 ?300次閱讀

物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的<b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>方案_<b class='flag-5'>離線</b><b class='flag-5'>語(yǔ)音</b><b class='flag-5'>識(shí)別</b>芯片分析

瑞芯微RK3566鴻蒙開(kāi)發(fā)板Android11修改第三方輸入法為默認(rèn)輸入法

本文適用于觸覺(jué)智能所有支持Android11系統(tǒng)的開(kāi)發(fā)板修改第三方輸入法為默認(rèn)輸入法。本次使用的是觸覺(jué)智能的Purple Pi OH鴻蒙開(kāi)源主板，搭載了瑞芯微RK3566芯片，類(lèi)樹(shù)莓派設(shè)計(jì)，是Laval官方社區(qū)主薦的一款鴻蒙開(kāi)發(fā)板。

發(fā)表于 09-24 09:43 ?236次閱讀

瑞芯微RK3566鴻蒙開(kāi)發(fā)板Android11修改第三方<b class='flag-5'>輸入法</b>為默認(rèn)<b class='flag-5'>輸入法</b>

什么是離線語(yǔ)音識(shí)別芯片？與在線語(yǔ)音識(shí)別的區(qū)別

離線語(yǔ)音識(shí)別芯片適用于智能家電等，特點(diǎn)為小詞匯量、低成本、安全性高、響應(yīng)快，無(wú)需聯(lián)網(wǎng)。在線語(yǔ)音識(shí)別功能更廣泛、

發(fā)表于 07-22 11:33 ?319次閱讀

【AWTK使用經(jīng)驗(yàn)】如何添加中文輸入法

目前需要在AWTK程序中用到中文輸入法，并且要自定義輸入法的聯(lián)想詞，此時(shí)需要用到AWStudio添加軟鍵盤(pán)和輸入法。下面將介紹如何使用AWStudio在項(xiàng)目中添加

發(fā)表于 06-20 08:25 ?905次閱讀

【AWTK使用經(jīng)驗(yàn)】如何添加中文<b class='flag-5'>輸入法</b>

安信可推出了一款A(yù)I離線語(yǔ)音識(shí)別的產(chǎn)品—VC系列模組

VC系列模組是安信可開(kāi)發(fā)的一款A(yù)I離線語(yǔ)音識(shí)別的產(chǎn)品，主芯片是云知聲推出的離線語(yǔ)音

發(fā)表于 04-15 10:29 ?475次閱讀

澎湃微離線語(yǔ)音識(shí)別應(yīng)用實(shí)例

隨著科技的飛速發(fā)展，人機(jī)交互的方式也在不斷演變。在鍵盤(pán)、觸摸屏之后，語(yǔ)音識(shí)別技術(shù)正逐漸成為人機(jī)交互的新寵。從技術(shù)路線上來(lái)講語(yǔ)音識(shí)別又分為在線語(yǔ)音

發(fā)表于 03-15 14:11 ?313次閱讀

離線語(yǔ)音在燈帶上的應(yīng)用

離線語(yǔ)音識(shí)別，一種無(wú)需依賴(lài)云端計(jì)算即可在本地設(shè)備上實(shí)現(xiàn)語(yǔ)音交互的技術(shù)，正在逐漸滲透到家居照明的領(lǐng)域中。與傳統(tǒng)的在線語(yǔ)音

發(fā)表于 12-20 11:03 ?731次閱讀

離線語(yǔ)音識(shí)別與在線語(yǔ)音識(shí)別有什么不一樣？

離線語(yǔ)音識(shí)別與在線語(yǔ)音識(shí)別有什么不一樣？離線語(yǔ)音

發(fā)表于 12-12 14:36 ?1092次閱讀

離線語(yǔ)音識(shí)別，“自然說(shuō)”為產(chǎn)品賦能

相比于云端語(yǔ)音識(shí)別，離線語(yǔ)音識(shí)別技術(shù)具有更高的識(shí)別準(zhǔn)確率和更快的響應(yīng)速度。因?yàn)?/div>
發(fā)表于 12-11 11:20 ?409次閱讀

離線語(yǔ)音識(shí)別及控制是怎樣的技術(shù)？

引言：隨著人工智能的飛速發(fā)展，離線語(yǔ)音識(shí)別技術(shù)成為了一項(xiàng)備受矚目的創(chuàng)新。離線語(yǔ)音識(shí)別技術(shù)能夠?qū)⑷?/div>
發(fā)表于 11-24 17:44 ?1025次閱讀

離線語(yǔ)音識(shí)別及控制是怎樣的技術(shù)？

、什么是離線語(yǔ)音識(shí)別 　離線語(yǔ)音識(shí)別是指在設(shè)備本地進(jìn)行語(yǔ)音

發(fā)表于 11-24 17:41

方言離線語(yǔ)音控制場(chǎng)景解決方案

　　隨著科技的不斷發(fā)展，離線語(yǔ)音識(shí)別技術(shù)已經(jīng)變得越來(lái)越成熟。在日常生活中，老人或小孩可能會(huì)遇到一些困難，如操作復(fù)雜的電子設(shè)備。為了解決這一問(wèn)題，離線

發(fā)表于 11-17 17:57

離線語(yǔ)音識(shí)別和控制的工作原理及應(yīng)用

引言離線語(yǔ)音識(shí)別是指在沒(méi)有網(wǎng)絡(luò)連接的情況下，通過(guò)在本地設(shè)備上進(jìn)行語(yǔ)音信號(hào)處理和識(shí)別，實(shí)現(xiàn)語(yǔ)音命令

發(fā)表于 11-07 18:04 ?832次閱讀

離線語(yǔ)音識(shí)別和控制的工作原理及應(yīng)用

引言　　離線語(yǔ)音識(shí)別是指在沒(méi)有網(wǎng)絡(luò)連接的情況下，通過(guò)在本地設(shè)備上進(jìn)行語(yǔ)音信號(hào)處理和識(shí)別，實(shí)現(xiàn)語(yǔ)音

發(fā)表于 11-07 18:01

搜索歷史

谷歌語(yǔ)音輸入法可離線識(shí)別啦！

評(píng)論

TLV320AIC3204N1_L有語(yǔ)音輸入、IN1_R沒(méi)語(yǔ)音輸入時(shí)，采集IN1_R的數(shù)據(jù)聲音是IN1_L端的聲音，為什么？

物聯(lián)網(wǎng)系統(tǒng)智能控制產(chǎn)品的語(yǔ)音識(shí)別方案_離線語(yǔ)音識(shí)別芯片分析

瑞芯微RK3566鴻蒙開(kāi)發(fā)板Android11修改第三方輸入法為默認(rèn)輸入法

什么是離線語(yǔ)音識(shí)別芯片？與在線語(yǔ)音識(shí)別的區(qū)別

【AWTK使用經(jīng)驗(yàn)】如何添加中文輸入法

安信可推出了一款A(yù)I離線語(yǔ)音識(shí)別的產(chǎn)品—VC系列模組

澎湃微離線語(yǔ)音識(shí)別應(yīng)用實(shí)例

離線語(yǔ)音在燈帶上的應(yīng)用

離線語(yǔ)音識(shí)別與在線語(yǔ)音識(shí)別有什么不一樣？

離線語(yǔ)音識(shí)別，“自然說(shuō)”為產(chǎn)品賦能

離線語(yǔ)音識(shí)別及控制是怎樣的技術(shù)？

離線語(yǔ)音識(shí)別及控制是怎樣的技術(shù)？

方言離線語(yǔ)音控制場(chǎng)景解決方案

離線語(yǔ)音識(shí)別和控制的工作原理及應(yīng)用

離線語(yǔ)音識(shí)別和控制的工作原理及應(yīng)用

搜索歷史

谷歌語(yǔ)音輸入法可離線識(shí)別啦！

評(píng)論

谷歌語(yǔ)音輸入法可離線識(shí)別啦！