據(jù)產(chǎn)業(yè)分析師預(yù)測,2019年蘋果AirPods出貨量將超過5000萬臺,2021年更是有望破億!這款從發(fā)布被人嘲笑,到后來成功引領(lǐng)市場的產(chǎn)品,早已成為各家追趕超越的對象。
耳機行業(yè)近幾十年來沒有發(fā)生重大變革,TWS耳機的出現(xiàn)讓整個市場未來將有數(shù)百億美元的成長空間。
AirPods已經(jīng)成為蘋果增長最快的配件產(chǎn)品,在手機銷量整體滑坡的現(xiàn)在,每一個手機廠商都在找自己的突破點,如何重新占領(lǐng)市場先機成為了尤為重要的關(guān)鍵。
AirPods這種TWS耳機不僅使音頻市場重獲生機,也成為了蘋果這樣的手機廠商的救命稻草,由AirPods引出的:語音交互、骨聲紋識別支付、加入eSIM獨立使用等已成為TWS耳機下一個戰(zhàn)場。
TWS耳機被稱之為2019消費電子市場最大亮點,智能語音識別的加入將TWS耳機市場蛋糕持續(xù)擴大,更是吸引了五大玩家入局:
運營商入局:聯(lián)通、移動,讓耳機產(chǎn)品獨立使用成為可能;
互聯(lián)網(wǎng)巨頭搶占入口:亞馬遜、谷歌、微軟、百度;
電商與支付加入:微信、支付寶,骨聲紋識別、安全支付,由手機支付到骨聲紋支付的變革。
手機廠商持續(xù)加碼:蘋果、華為、小米、三星、索尼、OPPO、榮耀、一加、魅族,均已推出自家多款耳機產(chǎn)品。
內(nèi)容平臺緊跟其后:QQ音樂、網(wǎng)易音樂、喜馬拉雅FM,為TWS耳機提供源源不斷的生命力。
市場很久沒有這么熱鬧,仿佛回到了智能手機爆發(fā)初期的繁榮階段,接下來八仙過海,各取所需,各顯神通。
上一輪的智能音箱爭奪戰(zhàn)中,我們看到以蘋果、谷歌、亞馬遜、百度、阿里、騰訊、小米等為代表的先頭部隊,這些巨頭的加入,讓中小企業(yè)只能選擇站隊,投靠到各自的陣營,以獲取內(nèi)容、流量、補貼等賴以生存的資源。
通過我愛音頻網(wǎng)分析,智能耳機的風(fēng)口比音箱將要來得更猛,更觸手可及,今天我們一起來探討如何抓住智能耳機的風(fēng)口。
一、TWS耳機飛速發(fā)展,蘋果靠Airpods領(lǐng)跑市場
IDC最近發(fā)布的2019年第一季度全球智能手機市場的調(diào)研報告。數(shù)據(jù)顯示,全球智能手機出貨量為 3.108 億臺,同比下降 6.6%。其中排在全球出貨量前六位的廠商也大部分處于同比下降的狀態(tài),Apple甚至下降超過了 30%。
與手機市場的遇冷相比,TWS藍(lán)牙耳機則是以一種不可思議的速度在發(fā)展。根據(jù)Counterpoint的數(shù)據(jù)顯示,在2018年第四季度中,AirPods的出貨量占到了市場的60%,達(dá)1250萬臺。
據(jù)Above Avalon報道,最近三年假日AirPods在谷歌上的峰值搜索興趣,索引為100(代表最大搜索興趣)。2016年的峰值為10,2017年為20,2018年為100,同比增長了500%,這樣的增長速度實在令人吃驚。
由此可見TWS耳機的市場容量的巨大,音頻和手機廠商也都紛紛加入這個領(lǐng)域,勢必也要從這塊巨大的蛋糕上狠狠切下一塊。
而在2019年的3月20日,Apple推出全新的TWS真無線藍(lán)牙耳機——Airpods2,這次升級,主控芯片換成了全新的H1,而功能上除了支持了無線充電之外,還有一個非常重要的一點,那就是語音喚醒。
二、TWS耳機語音喚醒方案實現(xiàn)的細(xì)節(jié)
Airpods的成功源于其優(yōu)質(zhì)的體驗,而Airpods2代此次升級了語音喚醒,語音喚醒是智能語音非常重要的一環(huán),手機上面早就大量支持比如iPhone的Hey Siri、小米9的小愛同學(xué)、samsung galaxy S10的Hi Bixby等等。
而在耳機端,大量的耳機依然使用的是觸摸或者按鍵喚醒的方式來激活語音助手。物理觸摸或者點按的方式與語音激活,兩者體驗的差距當(dāng)然是不言而喻的。
Apple率先支持了語音喚醒,那么其他廠商是否能夠跟上,又要如何實現(xiàn)。又有哪些技術(shù)細(xì)節(jié)需要去考量?
首先TWS 耳機本地喚醒詞的應(yīng)用由語音辨識及誤喚醒處理 2 個部份組成:
1、喚醒詞語音辯識(本地語音命令亦同)
喚醒詞辯識需由前端信號處理把用戶聲音與背景聲音的信噪比拉高以利在不同應(yīng)用場景讓喚醒詞識得到最高喚醒率,我們列出從麥克風(fēng)采集到用戶的聲音信息數(shù)據(jù)開始,至喚醒詞識別結(jié)束。
依序完成喚醒詞識別所需要的算法排列如下:
MIC→(LPSD 或 VAD)→(BF)→(NS 或 NR)→(KWD)
算法名稱及參考供應(yīng)商
LPSD 或 VAD, LPSD(Low Power Sound Detection), VAD(Voice Active Detection),參考供應(yīng)商 DSPC,Seneory;
BF, BF(Beam Forming) 參考供應(yīng)商 DSPC;
NS 或 NR, NS(Noise Suppression, Noise Reduction) 參考供應(yīng)商 DSPC;
KWD, KWD(Key Word Detection) 參考供應(yīng)商 Sensory, AI Speech, Nuance, Cyberon。
眼下市場上真正能提供出足夠算力,使用單一藍(lán)牙芯片就能集成上述算法并低功耗做到本地喚醒詞功能的有高通的:QCC512x 及 QCC302x。
絡(luò)達(dá)、瑞昱、恒玄等芯片產(chǎn)品建議搭配QuickLogic S3、Ambiq Apollo2、 Apollo3 或樓氏 IA-610、IA-611 智能麥克風(fēng)芯片以達(dá)到在高算力低功耗要求下,滿足本地喚醒詞的功能。
所有的算法或芯片都必須以合法的方式取得使用權(quán)力及各種必要技術(shù)支持,這些供應(yīng)商內(nèi) Quicklogic 的 EOS S3 是最早與宇恒互動 OVVP 算法做全面系統(tǒng)整合應(yīng)用于實際客戶產(chǎn)品上的,S3 芯片內(nèi)部還帶有 891 個可編程的Logic Cell,設(shè)計非常獨特,可以滿足特殊硬件接口的需要。
2、喚醒詞或語音命令誤喚醒誤觸發(fā)處理
誤喚醒或誤觸發(fā)的定義:
TWS 耳機用戶,非用戶本人說出喚醒詞或語音命令后,語音助手不回應(yīng)或語音命令不動作,自己說出喚醒詞后,卻能喚醒或運行戴耳機用戶的語音助手或語音命令。
市場上幾個不同方案的說明:
2-1、基本處理
一般在喚醒詞算法群內(nèi),BF 可以起到一定減低誤喚醒率的作用,但與聲源的方向有關(guān),在雙麥克風(fēng)的間隔距離夠遠(yuǎn),產(chǎn)品結(jié)構(gòu)聲學(xué)架構(gòu)調(diào)試恰當(dāng)狀況下 DSPC 的 BF 算法可以做到3db~6db。
這部份細(xì)節(jié)可以請教 DSPC 代理商聆感智能科技,他們有很專業(yè)的聲學(xué)專家及實驗室可以給需要的 TWS 耳機業(yè)者充分的聲學(xué)相關(guān)設(shè)計服務(wù)。
2-2、使用 vpu 骨傳導(dǎo)傳感器
參考HUAWEI華為 FreeBuds2 Pro 應(yīng)用 vpu(Voice Peak Up)。
vpu 嚴(yán)格說起來是使用一種 壓電材料技術(shù)(因無法從datasheet內(nèi)得知相關(guān)信息,只能從類似產(chǎn)品推論)的單軸加速度傳感器(Voice Pick Up Sensor is a high performance accelerometer 引自Sonion Datasheet Description),主要是用來感測聲帶運動使用,是Sonion(聲揚)公司的產(chǎn)品。
以-25dbv/g 這條輸出強度線來看,最大帶寬可以從 100hz 到 8khz 完整的含蓋了人的聲譜范圍,整段頻譜的響應(yīng)并不平坦(特別是 3khz~5khz 剛好在人聲的高頻段),需要后段用加了高頻負(fù)反饋的放大器整平。
這個傳感器還有個優(yōu)點就是低功耗(VDD=1.8V 時只要 55ua 電流),由于輸出的是模擬信號,同時電平不足,拿來做 VAD 時若 A/D 采樣的分辨率夠,有機會可以不通過運放先做個 VAD 讓傳感器 Always On 感測到人聲后才打開麥克風(fēng),這樣可以達(dá)到降功耗的效果,但因 vpu 是模擬輸出需要搭配芯片內(nèi)的 A/D 轉(zhuǎn)換器及算法,這還得看芯片的功耗換麥克風(fēng)的功耗是不是劃的來。
這類單軸骨傳導(dǎo)傳加速度感器在產(chǎn)品結(jié)構(gòu)內(nèi)的放置點,需要考慮用戶使用過程中松脫后導(dǎo)致 vpu 輸出聲信息強度滑落的補償問題。
HUAWEI華為 FreeBuds2 pro需要支持骨聲紋支付,所以要較好的保證取到能做聲紋辯識用的聲音,在 vpu 保證不了足夠的動態(tài)范圍條件下,聲帶寬范圍的放大器是免不了的,這樣在功耗,器件數(shù)量及組裝工藝,測試難度上都會有相當(dāng)?shù)脑黾印?/p>
加了高頻負(fù)反饋放大器后拉升了低頻加大了動態(tài)范圍,同時也把人體運動低頻信號又給拉了上來,vpu 自帶天然的高通濾波效果又變差了,后面還又要加上高通濾波算法,過濾掉因人體運動引起傳感器機械瞬態(tài)變化引發(fā)的多次諧波干擾,另外在通話,音樂應(yīng)用場景下喇叭振動的串?dāng)_問題還得要處理解決。
所以從我愛音頻網(wǎng)拆解的HUAWEI華為 FreeBuds2 pro 板上證實確實有運放,并且還加了個 DA14195 來處理各種算法及 A/D 的接口,這款產(chǎn)品使用喚醒詞的感度大約 76db(在 OVVP 感度規(guī)格區(qū)間內(nèi))。
而喚醒詞誤喚醒處理可以達(dá)到19db~22db(在 OVVP 的語音強隔離護(hù)罩規(guī)格區(qū)間內(nèi))也是挺不錯的,使用加速度骨傳導(dǎo)傳感器感測聲帶振動與只使用麥克風(fēng)感測用戶說話聲音的差異是,在說喚醒詞或語音命令時肯定,聲量要大一些(差約 7db 左右),這大廠設(shè)計出來的產(chǎn)品還是很有代表性。
另外這個產(chǎn)品也有幾條本地語音命令,科技感十足外還充分發(fā)揮了 vpu 的優(yōu)勢,跟蘋果不同的是用戶說話要稍微“大聲一點”,但誤喚醒處理又比蘋果強很多,且沒有聲源方向限制,任何方向都可以。
但使用 vpu來感測用戶說話聲音,輔助完成安全度需求較高的支付功能,不知道無“清音”的語音聲譜結(jié)構(gòu)缺陷是不是比較嚴(yán)重的影響了用戶體驗。
使用骨傳導(dǎo)傳感器,未做清音補償狀況下會讓,Recode 聽成 code,Strange 聽成 change,HUAWEI 聽成 AWEI,,河聽成了鵝,,福聽成了無,錢聽成了言。
聲結(jié)構(gòu)的改變會讓人工智能語音識別產(chǎn)生嚴(yán)重錯誤,知乎上看到很多關(guān)于這方面的投訴,用戶很刻意的大聲說都沒辦法完成支付或聲紋學(xué)習(xí),似乎感覺這個問題解決的并不好,當(dāng)然也可能 Freebuds2 pro 內(nèi)的字詞識別引擎處理的不好或某種不良所導(dǎo)致。
從產(chǎn)業(yè)角度看 HUAWEI 起了個好頭領(lǐng)先蘋果超過數(shù)月,將 TWS 耳機智能化腳步推快了幾步,并在耳機產(chǎn)品數(shù)十年關(guān)注音質(zhì)好壞,噪聲水平之外,注入了智能語音應(yīng)用的亮點與活水,教育了群眾,活絡(luò)了產(chǎn)業(yè),讓產(chǎn)業(yè)有了再擴張及引動新浪潮的可能。
2-3、使用 MEMS 加速度計骨傳導(dǎo)傳感器(上行降噪)
Apple Airpods,使用多重手段(LPSD、BF、骨導(dǎo)降噪)在背了“不改變用戶使用習(xí)慣”的大鍋條件下,喚醒詞誤喚醒處里約有 7db~9db 的效果(用戶背后 0.5 米環(huán)境噪聲 45db 與僅做 BF及 NS 處里的喚醒詞開發(fā)板對比)。
AirPods支持喚醒詞(本地,云端或本地+手機),所有的語音命令都在云端,在云端的優(yōu)點是詞匯的彈性無限,只要語義近似全都能用,識別精度更高,抗噪能力較強,占用本地芯片的資源較少,缺點是無法聯(lián)網(wǎng)或聯(lián)網(wǎng)品質(zhì)不好時使用體驗急速劣化甚至無法使用,響應(yīng)速度較慢。
市場上能用于上行降噪的加速度傳感器除了使用壓電材料的 vpu(模擬輸出)外,ST 意法半導(dǎo)體使用 MEMS 技術(shù)的LIS25BA(TDM 接口)是市場上唯一的產(chǎn)品,LIS25BA 是一個全數(shù)字產(chǎn)品,內(nèi)含 A/D 及 TDM 接口,相關(guān)信息可以向 ST意法半導(dǎo)體索取。
雖然市場上有傳感器可用,但受限于權(quán)利保護(hù)覆蓋面強大嚴(yán)謹(jǐn)?shù)奶O果專利及擔(dān)負(fù)改變上行聲音數(shù)據(jù)聲結(jié)構(gòu)所造成風(fēng)險的技術(shù)難度,眼下市場上還沒有可流通的專用降噪算法,DSPC,Sensory,高通這些知名算法大拿都還沒有明顯動靜,但一些國內(nèi) MEMS麥克風(fēng)的廠家及一些國內(nèi)算法公司已隱隱傳出動靜。
下面將對骨傳導(dǎo)上行降噪算法的難度提出一些看法,因技術(shù)能力與知識范圍有限,謬誤之處還請包涵指教。這里簡單的談下骨傳導(dǎo)與麥克風(fēng)融合的上行降噪技術(shù)。
在進(jìn)入主題前首先為大家介紹一篇來自肖新華先生在 2009 年提出的研究生畢業(yè)論文,讓大家對后面提及的”TWS耳機語音算法技術(shù)難度”有個衡量基礎(chǔ):
《國防科學(xué)技術(shù)大學(xué)研究生院工程碩士學(xué)位論文:面向骨傳導(dǎo)語音消噪算法及硬件實現(xiàn)技術(shù)研究》
資料來源、論文作者:肖新華
這是一篇以非負(fù)稀疏編碼 NNSC(Non-Negative Sparse Coding)為消噪核心主體并帶上一個使用AMDF (Average Magnitude Difference Function)技術(shù)的 VAD 算法配合消除風(fēng)噪,槍炮聲,摩擦聲。
這并非蘋果公司使用的降噪技術(shù),但可以讓大家對骨傳導(dǎo)降噪或 VAD 做個初步了解,這篇論文以人為可懂度衡量對象,用骨傳導(dǎo)傳感器感測的聲帶振動為主聲源,一個傳統(tǒng)麥克風(fēng)做噪音拾取噪聲源,通過算法完成降噪處里。
但現(xiàn)在可懂度的衡量對象除了人還有機器(語音識別算法),而機器對于可懂度的要求要比人高很多,因為機器對語音識別的整體智能還遠(yuǎn)不如人。
這里整理了一張對照表,以蘋果的 TWS 耳機做為參照標(biāo)準(zhǔn),比較使用 2 種完全不同性質(zhì)的聲傳感器所感測到的聲音信息數(shù)據(jù)在處理完降噪問題后要等于 1種聲傳感器所感測到的聲音信息數(shù)據(jù),將可能將要面臨到多少問題及挑戰(zhàn)。
下面依據(jù)上表把問題做文字條列敘述式的整理:
1)雙麥上行降噪算法技術(shù)的終極目標(biāo):只留下用戶說話的聲音,最大程度消去或壓制,非用戶
本人聲帶運動所發(fā)出的所有聲音,但必須讓降噪處理后的上行聲音信息數(shù)據(jù)與使用傳統(tǒng)麥克
風(fēng)拾取到的用戶原始說話聲音信息數(shù)據(jù)完全相等。
2)算法使用了加速度骨傳導(dǎo)傳感,改變了過去由空氣介質(zhì)傳導(dǎo)聲能量,推動某種材料做成的
膜體轉(zhuǎn)換成電能,改成了軟骨肌肉皮膚介質(zhì)來傳導(dǎo)聲音,但算法仍用到 2 個使用空氣介質(zhì)傳導(dǎo)
的麥克風(fēng)來補償加速度骨傳導(dǎo)傳感器感測不到清音的缺陷,空氣傳導(dǎo)穩(wěn)定度高變數(shù)少,并經(jīng)多
年應(yīng)用對其了解較為透徹,而通過軟骨肌肉皮膚介質(zhì)來傳導(dǎo)聲音,除了不穩(wěn)定變數(shù)多另外相關(guān)
應(yīng)用還在積壘過程,全球積壘最多應(yīng)用經(jīng)驗的非蘋果公司莫屬。
3)下面我們列了幾個算法需要完成的等式:
-1、加速度骨傳導(dǎo)傳感器+雙麥克風(fēng)=雙麥克風(fēng)
-2、(軟骨肌肉皮膚汗液,油漬,粉塵介質(zhì)傳遞變數(shù))+空氣溫濕度介質(zhì)傳遞變數(shù)=空氣溫濕
度介質(zhì)傳遞變數(shù)
-3、單獨濁音+(濁音+清音)=濁音+清音
-4、產(chǎn)品結(jié)構(gòu)及耳廓結(jié)構(gòu)嚴(yán)重影響+產(chǎn)品結(jié)構(gòu)影響=產(chǎn)品結(jié)構(gòu)影響
-5、人體運動嚴(yán)重影響+人體運動不影響=人體運動不影響
-6、人為算法融合拼接補償 2 種不同材料,不同傳導(dǎo)介質(zhì)結(jié)構(gòu),不同響應(yīng)相位嚴(yán)遲,低頻調(diào)
制=嚴(yán)絲合縫混然一體
4)對于麥克風(fēng)上行信息數(shù)據(jù)來說,這些是信息數(shù)據(jù)是用來聽的,可存儲的,可傳遞信息的,是具有廣闊延申再應(yīng)用的聲音信息數(shù)據(jù),并且需滿足現(xiàn)存于市場上千百個聲音應(yīng)用軟硬件的需求。
項目決策者必需慎之又慎,規(guī)劃項目時慢 2 步?jīng)Q定,然后系統(tǒng)性的觀察謹(jǐn)慎的測試為上。
蘋果公司在 2012 年以前啟動研發(fā)并于 2012 年 9 月 28 日提交 13/631,716 號專利,2014 年 4 月 3日提出WO 2014/051969 A1 專利,2016 年 9 月 8 日 Airpods 上市,2019 年 3 月 20 日 Airpods二代上市。
這么大的龍頭企業(yè)漫漫 8年的歲月積壘,別小看這個技術(shù),更何況現(xiàn)在國內(nèi)市場上這些可能的算法供應(yīng)者,都不可能具備蘋果公司這樣長期的積累,要實現(xiàn)彎道超車還有待觀察。
從這里可以合理推測,蘋果公司在 W1 或 H1 芯片內(nèi)這個上行降噪技術(shù)可能是用到最大算力的程序,其中 H1 芯片估計還保留了一定的算力資源給未來做下行環(huán)境降噪用。
現(xiàn)在市場上的TWS 耳機藍(lán)牙芯片產(chǎn)品,在低功耗的要求下,需要滿足這個算法的算力需求,高通最高階 QCC512x 的 DSP在次功耗的限制下,要實現(xiàn)也需要持續(xù)努力。
5)加速度骨傳導(dǎo)傳感器加入各種了機械瞬態(tài)變化及環(huán)境應(yīng)力老化的物理特征,很多聲應(yīng)用信息技術(shù)與算法模型,需要更系統(tǒng)性的重新摸索探究,而其中因補償清音及拼接融合2個不同傳感器感測到的聲音信息數(shù)據(jù),導(dǎo)致聲諧波組成的結(jié)構(gòu)變化,對現(xiàn)存云端語音語義識別算法的可懂性能造成多大影響?需要仔細(xì)測試評估,人耳不易聽出來的變化但對語音識別算法來說確可能致命。
6)在 Airpods 1代上市的過去幾年裏 DSPC,Sensory 這些大咖算法供應(yīng)商并沒有下一步動作。這是一個有很大算法需求的高報酬市場,這些供應(yīng)商的保持沉默,這背后原因值得去細(xì)思探討。
7)算法需要解決相位失真,總諧波失真壓制,信噪比保證,非用戶語音的噪聲判斷轉(zhuǎn)換壓制比(純濁音,純清音),算法延遲,骨導(dǎo)聲與麥克風(fēng)聲在不同情緒,音量條件下融合自適應(yīng)或權(quán)重變化曲線,人體運動信息低頻調(diào)制及多次諧波抑制,清濁音互換響應(yīng)狀態(tài),降噪處理后的聲諧波結(jié)構(gòu)變化,耳機松脫后音量頻響包絡(luò)補償。
8)算法要解決加速度骨傳導(dǎo)傳感器感測到的濁音聲帶運動與雙麥克風(fēng)在不同情緒,音量條件下所感測到的濁音+清音 2 個不同聲音間的實時同步,重疊,拼接,融合處里所產(chǎn)生的諧波失真修補,平滑,濾波或壓制。
9)上行降噪最重要的應(yīng)用場景就是在通話場景,使用骨傳導(dǎo)與麥克風(fēng)融合降噪技術(shù)在大音量通話場景下就像把擴音器的麥克風(fēng)貼在喇叭上,相移量足不足夠可能引起嚴(yán)重的串?dāng)_,所以不能只盯在降噪上。
對于器件密度極高的 TWS 耳機來說,使用骨傳導(dǎo)傳感器來感測完整人聲的應(yīng)用,被自身加噪才是最大問題,同時還需要用麥克風(fēng)聲信息數(shù)據(jù)來補償清音的聲音缺陷信息數(shù)據(jù)。
在通話場景時關(guān)掉降噪算法或降低融合權(quán)重,做個偽骨傳導(dǎo)降噪或者用戶能拿到廠家給的有蘋果50%降噪效果功能的算法產(chǎn)品,卻需承擔(dān) 100%的侵權(quán)風(fēng)險可能!
喇叭造成的串?dāng)_圖
10)為穩(wěn)定的取得最完整的用戶聲帶運動信息數(shù)據(jù),如何最佳化設(shè)計耳機結(jié)構(gòu),找尋加速度骨傳導(dǎo)傳感器所在的位置及適當(dāng)使用導(dǎo)聲材料,單軸的 vpu在位置,導(dǎo)聲材料,產(chǎn)品結(jié)構(gòu),運動松脫,耳廓結(jié)構(gòu),生產(chǎn)工藝問題上影響遠(yuǎn)大于 3 軸的 LIS25BA,這是所以蘋果用了 3 軸加速度計的可能原因。
11)利用不同人發(fā)出不同音量大小的/ s /,/ sh /,/ f /,/ he /……等純清音,單由雙麥克風(fēng)檢拾出來的聲音,對比融合骨傳導(dǎo)聲音信息及麥克風(fēng)聲音信息降噪算法后的聲音,驗證融合算法自適應(yīng)權(quán)重調(diào)整的處理效果,這里是一個兩難的選擇,因為清音處理的越好降噪效果就要打折,降噪效果越好清音就越聽不清楚。
若因而導(dǎo)致喚醒詞,語音命令或云端語音辯識服務(wù)器,手機語音輸入法,翻譯,語音轉(zhuǎn)文字 APP 的辯識效果打了大折扣,在解決這個問題前,去使用到Amazon,Google, Microsoft,百度,阿里,騰訊,科大訊飛語音助手云端語音辯識的產(chǎn)品就要面臨比較大的風(fēng)險。
骨傳導(dǎo)上行降噪在形成實際產(chǎn)品前有很多細(xì)微的研發(fā)生產(chǎn)測試支節(jié)參數(shù)需要仔細(xì)琢磨調(diào)試,耗時極長,大家可以從 iFixit 拆解 Airpods 從其內(nèi)大量使用黏著劑固定,就能看出為了滿足測試和維持性能指標(biāo),其組裝工藝的巨大難度,一個帶骨傳導(dǎo)上行降噪的產(chǎn)品,在相關(guān)技術(shù)確定成熟了的條件下,從外觀規(guī)劃開始到出貨花個 1 年估計算快的了,或許遠(yuǎn)遠(yuǎn)不夠。
2-4、使用 ST LIS2DW12(SPI 接口)加速度計傳感器+OVVP 算法(骨聲紋用戶說話識別)
傳感器選型:OVVP 算法因為對噪聲密度,分辨率,帶寬,ODR 及傳感器內(nèi)部高低通濾波器有一定的限制及要求,眼下需指定搭配性價比最高的 ST LIS2DW12 傳感器。
OVVP 算法與手機聲紋識別比較說明:
這是我們客戶曾經(jīng)提過的一個代表性的問題,使用貴司的 OVVP 算法看起來跟使用手機 上的聲紋識別效果類似,為何還要多此一舉呢,下面我們做個對比 :
1)聲紋識別需要針對特定字詞做學(xué)習(xí)訓(xùn)練 OVVP 不用 ;
2)聲紋識別只能對用戶訓(xùn)練過的字詞做局部保護(hù),OVVP 則是對每個字詞做全局性保護(hù),
3)聲紋識別的安全級別遠(yuǎn)高于 OVVP;
4)聲紋識別易受用戶環(huán)境,情緒,聲啞病痛影響,OVVP 不會;
5)聲紋識別只能對用戶訓(xùn)練過的字詞產(chǎn)生語音強隔離效果,OVVP 則對每個字詞都能強隔離;
6)OVVP 算法是使用用戶既有的加速度傳感器與聲紋識別一樣不需外加硬件成本;
7)OVVP 算法可同時并存雙擊,計步,心率……等算法,聲紋識別則無關(guān);
8)聲紋識別沒有伴聲記號,OVVP 的伴聲記號可以用來做 2 次研發(fā)延展應(yīng)用;
利用伴聲記號與手機語音應(yīng)用APP,強聯(lián)結(jié)提升用戶體驗:
伴聲記號是經(jīng)由加速度傳感器感測到用戶說話時的聲帶運動,通過 OVVP 算法處理后,隨著用戶說話的字詞產(chǎn)生的信息數(shù)據(jù),最大的特征是只有戴耳機的用戶“說話的時候”才會產(chǎn)生這個信息,戴耳機用戶旁邊的人說話聲音小于語音強隔離護(hù)罩時,是無法產(chǎn)生這個信息數(shù)據(jù)的,我們客戶產(chǎn)品語音強隔離護(hù)罩,能做到 50cm 100db 的程度。
伴聲記號用法:
伴聲記號(下圖),是與麥克風(fēng)聲音數(shù)據(jù)一同通過藍(lán)牙傳送到手機端,通過 2 者同步后相互參照,可以知道用戶何時說話及說了什么話。
翻譯軟件很多人用過,特別是谷歌翻譯,相當(dāng)好用, 翻譯軟件選擇好翻譯的語種后,說話前要先按下屏幕上的麥克風(fēng)按鍵,然后說一句話,說完后停下等待翻成另一個語言,然后從手機喇叭播出,這個按下屏幕上的麥克風(fēng)按鍵可以用伴聲記號取代。
只要用戶說話就自動壓下屏幕上的麥克風(fēng)按鍵,停止說話就翻譯成另一個語言,通過喇叭播放出來,不用去按麥克風(fēng)按鍵的翻譯軟件是不是更自然方便。
而帶著伴聲記號的用戶說話聲可以讓語音辯識算法,除了肯定是近場拾取到用戶自己說話的聲音之外,快速得到聲音的起點,停點這 3 個重要信息可以有效優(yōu)化語音識別算法的應(yīng)用體驗。
這類語音應(yīng)用軟件除了翻譯軟件外還有很多,如,微信語音短信息,錄音機,語音輸入法,語音助手,語言學(xué)習(xí),手機駕駛模式,語音轉(zhuǎn)文字……等。
而與伴聲記號同時存在的聲音強隔離護(hù)罩,更是讓用戶在多人高密度及較吵雜環(huán)境,語音識別算法不用兼顧遠(yuǎn)場拾音問題,可以得到相互最低影響的效果。當(dāng)然若能再有骨傳導(dǎo)上行降噪能力,肯定是美事一樁,完美的不要不要的了。
伴聲記號可以通過藍(lán)牙送到手機端,搭配麥克風(fēng)信息數(shù)據(jù),用在語音助手,自動錄音,自動翻譯,自動發(fā)送微信語音信息,語音輸入法,駕駛模式,游戲……等各類語音相關(guān)應(yīng)用。
OVVP 應(yīng)用到的相關(guān)技術(shù):
OVVP(Own Voice Vibration Peak-up)技術(shù)在應(yīng)用上尊循一個最大的原則,就是不改變?nèi)魏卧械穆曇籼幚砺窂缴系男畔?shù)據(jù)參數(shù)結(jié)構(gòu),因為這些是多年積累下來的經(jīng)驗與技術(shù)結(jié)晶,任何的改動都有機會引發(fā)不可收拾的風(fēng)險,碰觸到眾多人的利益,所以我們另辟一個新路徑以輔助性角色為客戶的 TWS 耳機在人工智能語音應(yīng)用區(qū)塊,以最完整專利配套零風(fēng)險的為客戶創(chuàng)造價值。
下方是在 TWS 耳機內(nèi) OVVP 的運作框架圖:
OVVP 算法技術(shù)細(xì)節(jié)簡述
1)算法涉及卡爾曼濾波,F(xiàn)FT 極窄帶聲譜面積分割計算,曲線擬合,為了不驚動藍(lán)牙芯片原廠能讓算法直接用于藍(lán)牙芯片應(yīng)用層。通過泛化,降維,查表,不斷優(yōu)化簡省整體延遲時間,使用內(nèi)存資源,功耗及算力,從算法做出功能到給客戶做測試, 1年多的時間才逐漸成熟,更別說骨傳導(dǎo)上行降噪了。
2)加速度傳感器感測到 感測到的X,Y,Z三軸聲帶運動信息數(shù)據(jù),亦涉及X,Y,Z 三軸信息亦涉及互相關(guān)及歸一化。
3)在最少影響極窄帶區(qū)間頻響的條件下,如何有效的將加速度傳感器感測到的聲帶運動信息數(shù)據(jù)與用戶自體運動所帶起的多次諧波及喇叭串?dāng)_間進(jìn)行分辨與壓制。
三、語音算法各家公司專利保護(hù)重點分析
蘋果專利的完整程度及保護(hù)范圍級為完美, WO2014051969A1,201380046944.6 這2個專利把使用加速度傳感器本地喚醒詞與上行降噪應(yīng)用保護(hù)的滴水不漏,從帶算法芯片,方案,模塊,產(chǎn)品到銷售整個鏈條都被包含進(jìn)去。
知名上市公司需要非常慎重的對待,對提供使用傳感器做骨傳導(dǎo)降噪或 VAD 應(yīng)用的一定需要查詢清楚是否有足夠保護(hù)的專利或請對方提出具備閃躲蘋果專利的具體對策,簽署不侵權(quán)保證書,同時給出承擔(dān)被訴后損失的承諾,項目負(fù)責(zé)人簡單的問方案商有沒有專利問題。
另外對于使用 vpu 做 VAD 當(dāng)然就需要查看確認(rèn)華為的 201811199154.2 專利,要特別提醒的是蘋果的2個專利一樣覆蓋到了 vpu 基本上耳機用任何加速度骨傳導(dǎo)傳感器的上行降噪或 VAD 都被包含在內(nèi)。
當(dāng)然,用MEMS 加速度傳感器做 VAD 宇恒公司的 200910190129.2,201810437831.3 也是特別需要去關(guān)注的。
專利侵權(quán)的判斷中許多人員(特別是工程師或技術(shù)人員)會容易遇到認(rèn)知誤區(qū),認(rèn)為使用的技術(shù)比權(quán)利要求上的技術(shù)特征多,方法不完全相同,就不侵權(quán)。
其實侵權(quán)的判定是只要專利證書有效合法,滿足權(quán)力要求內(nèi)所有技術(shù)特征或技術(shù)框架,不管再往上疊加多少技術(shù),不管你知道這個技術(shù)或應(yīng)用技巧再久,專利沒有被無效之前,侵權(quán)都是成立的。
另外技術(shù)特征或技術(shù)框架的判定有相同(完全一樣)及等同(相似),“等同”這里允許一定的模糊空間,若有爭議則可以再從專利說明書內(nèi)去補充或其他行業(yè)信息內(nèi)去舉證。
之所以以前行業(yè)內(nèi)專利侵權(quán)訴訟不多或經(jīng)常不了了之,是因為舉證成本,審理時間相對于產(chǎn)業(yè)變化速度及回報效益不成比例。
但現(xiàn)在整體智識產(chǎn)權(quán)維權(quán)大環(huán)境有了結(jié)構(gòu)性的改變,就算不能短時間內(nèi)在法院取得勝訴判決,在電商渠道卻可以很快的斬斷侵權(quán)者的利益,商譽及市占率的大量丟失。
特別是 TWS 耳機 AirPods目前已經(jīng)成為蘋果公司營收最重要的上升機會,該公司應(yīng)對侵權(quán)會實施更加嚴(yán)苛的方式。
上市公司或知名企業(yè)的項目負(fù)責(zé)人需要慎重,以免對任職企業(yè)造成巨大傷害,而解決專利侵權(quán)的辦法只有自己提早佈局創(chuàng)新,或合法取得授權(quán)及購買擁權(quán)產(chǎn)品,別無他法。
下方列出近 一年國內(nèi)專利保護(hù)較重大的變化:
1、2019 年 1 月 1 日開始實施的電商法(關(guān)聯(lián)法條 41 條~45 條)
2、38 個部門和單位聯(lián)合印發(fā)《關(guān)于對知識產(chǎn)權(quán)(專利)領(lǐng)域嚴(yán)重失信主體開展聯(lián)合懲戒的
合作備忘錄》
3、深圳經(jīng)濟特區(qū)知識產(chǎn)權(quán)保護(hù)條例(經(jīng)市第六屆人民代表大會常務(wù)委員會第二十九次會議于
2018 年 12 月 27 日通過,并將于 2019 年 3 月 1 日實施其中關(guān)聯(lián)法條 19~27,43~46)
新的仲裁單位與訴訟法院有:
3-1、2018 年 12 月 25 日成立的中國(深圳)知識產(chǎn)權(quán)保護(hù)中心
3-2、2018 年 7 月 28 日在琶洲環(huán)球貿(mào)易中心成立的廣州互聯(lián)網(wǎng)法院
3-3、2018 年 9 月 09 日北京互聯(lián)網(wǎng)法院掛牌成立
四、專利侵權(quán)分析
1、蘋果公司專利 201380046944.6
使用專利摘要,專利說明書及個人音頻設(shè)備唯一獨權(quán)內(nèi)的技術(shù)特征做分析,專利內(nèi)用了一個模糊的字眼,骨傳導(dǎo)拾取換能器,在說明書[0005]條尾端也提到了加速計,這個專利適用的對象是 TWS 耳機成品制造商,只要用到骨傳導(dǎo)拾取換能器(包含了 MEMS 加速度計及 vpu),并用到專利中的 20 條權(quán)利要求中的某條權(quán)利,基本上就會導(dǎo)致侵權(quán)。
其中很關(guān)鍵的地方是,使用“軟材料”在殼內(nèi)填充改善傳感器取得聲帶振動所產(chǎn)生聲波的效果,這點要請聲學(xué)研發(fā)人員特別關(guān)注,這是搞聲學(xué)的人最常用的手段,而下圖表示 TWS 耳機廠家可能拿骨傳導(dǎo)拾取換能器來做的 6 種功能,都在蘋果專利的保護(hù)范圍內(nèi)。
蘋果公司專利 WO2014051969A1
使用專利摘要及 2 個獨權(quán)及權(quán)利要求 2.5 內(nèi)的技術(shù)特征做分析,這個專利用了 37 個權(quán)利要求主要保護(hù) VAD,噪聲抑制及清濁音互融的應(yīng)用,基本上只要用了加速度計(MEMS,vpu 都算)及麥克風(fēng)就滿足權(quán)利要求的技術(shù)特征,其中權(quán)利要求 5 把麥克風(fēng)陣列給補充了進(jìn)去。
所以看到這幾個權(quán)利要可以很明確的說,不管骨傳導(dǎo)上行降噪算法的提供者用的是 MEMS 或vpu 加速度傳感器加上麥克風(fēng)(不管是 1 個或多個)都是侵權(quán)。
當(dāng)然,若是不用麥克風(fēng)或加速度傳感器其中任何一種傳感器,就有機會閃躲掉這個專利,更好的辦法是擁有比蘋果更早的專利做保護(hù),這個專利強的地方是判斷侵權(quán)非常簡單,不用找專業(yè)鑒定單位就可以做出清楚的侵權(quán)判斷。
目前推測蘋果公司有 2 個方法可以選擇:
方法1:
拉出電商法,通過各電商平臺的維權(quán)渠道投訴,就可以很快的讓侵權(quán)產(chǎn)品下架,判斷方法是,先看產(chǎn)品規(guī)格或功能介紹有沒有 VAD,噪聲抑制功能若有,則再看產(chǎn)品內(nèi)有沒有加速度計(MEMS 或 vpu),若有,就是侵權(quán)了。
上電商平臺投訴渠道買個侵權(quán)產(chǎn)品拆解拍照寫好侵權(quán)對比書,上傳,15 天內(nèi)被訴商家提不出反投訴或相應(yīng)不侵權(quán)證據(jù),侵權(quán)產(chǎn)品就等著下架吧,省錢有效。
方法 2:
直接從市場取證,鑒定,上法院起訴,交壓金,封所倉庫。
知名品牌廠商如:HUAWEI華為,VIVO,OPPO,聯(lián)想,小米客戶群體與蘋果重疊面積較大,蘋果的更為重視。
關(guān)于華強北的市場,因為客群與蘋果不重疊,被投訴主體太小,可以起到幫蘋果培養(yǎng)未來潛力客戶。
這項專利很嚴(yán)格,需要市場上的同行謹(jǐn)慎規(guī)避。
2、華為公司專利 201811199154.2
使用專利摘要及 1 個方法獨權(quán) 14 及權(quán)利要求 15 內(nèi)的技術(shù)特征做分析,華為這個專利可以用圖窮匕見來形容,前面系統(tǒng)獨權(quán) 1 及權(quán)利要求 2~13 基本上好閃好躲又多屬芯片內(nèi)的處理或算法軟件,不易取證鑒定,但是方法獨權(quán) 14 及權(quán)利要求 15 同樣的非常嚴(yán)格,容易涉及侵權(quán)。
把重點突顯在使用骨振動傳感器來控制拾音設(shè)備開始拾音,這個權(quán)利要求滿足 TWS 耳機行業(yè)內(nèi)極為關(guān)鍵的低功耗要求,華為在專利說明書[0047]條里提到 Sonion 公司的骨傳導(dǎo)傳感器,就是 vpu 了。
所以華為這個專利侵不侵權(quán)很好判,首先確定是否有 vpu,然后用實體耳機通過量電流的方式確認(rèn),說話前后的電流差別及比對麥克風(fēng)的拾音時機即可。
所以想利用 vpu 做 VAD 來降低功耗的方案,估計不好實現(xiàn),另外這個專利的權(quán)利要求 2~13 條其內(nèi)每條都是算法或功能性軟件,華為將這些算法或功能軟件逐條拆解成權(quán)利要求,也方便他日后使用專利維權(quán)打擊對手。
3、宇恒公司專利 200910190129.2
使用專利摘要及 2 個獨權(quán)內(nèi)的技術(shù)特征做分析,使用加速度傳感器,感測聲帶,雙擊或計步運動,通過算法處里計算后,查找(判斷,對比)是否落在預(yù)設(shè)閥值區(qū)間,得出用戶“何時說話”判斷結(jié)果,協(xié)助決定語音助手鍵碼或何時說話判斷結(jié)果(命令字)是否要通過藍(lán)牙傳送到手機。
只要依據(jù)加速度傳感器獲取用戶聲帶運動的 VAD,做為“是否傳送出語音助手鍵碼的參考或何時說話判斷結(jié)果”,不管是否還帶有上行降噪功能都算是侵權(quán),這個專利的申請時間落在 2009 年,是個能夠攻防一體的專利。
宇恒公司專利201010224769.3,201010224780.X,201010224803.7,201010230464.3,
201010243048.7,201120374763.4,包含進(jìn)去了加速度,陀螺儀,地磁儀,氣壓計多種慣性傳感器感測聲音的應(yīng)用,申請時間都落在 2010 年~2011 年,能在傳感器 VAD 應(yīng)用上,起到絕佳的防御作用。
有興趣做骨傳導(dǎo)上行降噪算法的團隊或公司,宇恒互動有興趣將專利提供出來,一起研究如何用這些專利組合找出方法,至少先在中國突破蘋果專利封鎖,增加談判籌碼,降低自己及未來客戶的風(fēng)險。
宇恒公司專利 201810437831.3使用專利摘要及 2 個獨權(quán)與權(quán)利要求 16 內(nèi)的技術(shù)特征做分析,使用 1 個或 2 個,單軸或多軸,模擬或數(shù)字加速度傳感器來感測聲帶振動和/或人體面部皮膚肌肉及肢體運動,產(chǎn)生傳感器 VAD 的控制信號,不管用的是 MEMS 或 vpu 加速度傳感器及是否還帶有上行降噪功能都算是侵權(quán)。
使用 MEMS 或 vpu 加速度計做 VAD 或上行降噪應(yīng)用,先把專利風(fēng)險考慮完,再看這些應(yīng)用是否滿足功能指標(biāo)要求,系統(tǒng)性充分全面的測試過再用聲結(jié)構(gòu)的改變是非常難實現(xiàn)的。
海內(nèi)外知名人工智能語音應(yīng)用巨頭,在對OVVP算法了解過程中,非常著重要求專利說明,顯然這個問題對這類企業(yè)來說影響很大。
總結(jié)
隨著旗艦手機逐漸取消3.5mm接口以便實現(xiàn)輕薄化的趨勢,續(xù)航、傳輸、音質(zhì)、價格等痛點得到了改善,對整個TWS耳機市場的放量帶來了巨大的成長空間。
根據(jù)GFK數(shù)據(jù),2016年無線耳機出貨量僅918萬臺,市場規(guī)模不足20億元。到2018年無線耳機出貨量同比增加41%,市場規(guī)模將達(dá)54億美金。到了2020年TWS無線耳機的市場規(guī)模將達(dá)到110億美金。
智研咨詢預(yù)計2018-2020年全球TWS耳機將實現(xiàn)高速增長,出貨量分別達(dá)到6500萬臺,1億臺和1.5億臺,年復(fù)合增速達(dá)51.9%。預(yù)計隨著 無線耳機音質(zhì),功能性持續(xù)改善及與人工智能語音APP應(yīng)用深度擴展聯(lián)結(jié),未來無線耳機的滲透率有望繼續(xù)提升。
這樣巨大的銷量增長空間,讓每一個想要入局有實力的廠商都有可能抓住商機,風(fēng)口起飛。
評論
查看更多