語(yǔ)音識(shí)別是一門交叉學(xué)科。近二十年來,語(yǔ)音識(shí)別技術(shù)取得顯著進(jìn)步,開始從實(shí)驗(yàn)室走向市場(chǎng)。人們預(yù)計(jì),未來10年內(nèi),語(yǔ)音識(shí)別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。 語(yǔ)音識(shí)別聽寫機(jī)在一些領(lǐng)域的應(yīng)用被美國(guó)新聞界評(píng)為1997年計(jì)算機(jī)發(fā)展十件大事之一。很多專家都認(rèn)為語(yǔ)音識(shí)別技術(shù)是2000年至2010年間信息技術(shù)領(lǐng)域十大重要的科技發(fā)展技術(shù)之一。 語(yǔ)音識(shí)別技術(shù)所涉及的領(lǐng)域包括:信號(hào)處理、模式識(shí)別、概率論和信息論、發(fā)聲機(jī)理和聽覺機(jī)理、人工智能等等。
語(yǔ)音識(shí)別原理:
語(yǔ)音識(shí)別系統(tǒng)本質(zhì)上是一種多維模式識(shí)別系統(tǒng)。它與一般的模式識(shí)別系統(tǒng)類似,包括語(yǔ)音預(yù)處理、語(yǔ)音特征提取、語(yǔ)音模式庫(kù)和語(yǔ)音模式匹配等基本單元,如圖1所示。
1)語(yǔ)音預(yù)處理:包括預(yù)加重、反混疊濾波、端點(diǎn)檢測(cè)、噪聲濾波等處理過程,用以去除聲門激勵(lì)、口鼻輻射、高于1/2 采樣頻率的高頻和噪聲信號(hào)的影響,實(shí)現(xiàn)語(yǔ)音信號(hào)的數(shù)字化。
2)語(yǔ)音特征提?。簩?duì)經(jīng)過預(yù)處理后的語(yǔ)音信號(hào)進(jìn)行特征參數(shù)分析。該過程就是從原始語(yǔ)音信號(hào)中抽取出能夠反映語(yǔ)音本質(zhì)的特征參數(shù),形成特征矢量序列。可選擇的語(yǔ)音特征參數(shù)包括: 時(shí)域參數(shù)、頻域參數(shù)、聲道的形狀函數(shù)、隨機(jī)模型的概率函數(shù)、量化矢量和超音段信息函數(shù)等。
3)語(yǔ)音模式庫(kù):即聲學(xué)參數(shù)模板,它是用聚類分析等方法,從一個(gè)講話者或多個(gè)講話者多次重復(fù)的語(yǔ)音參數(shù)中經(jīng)過長(zhǎng)時(shí)間訓(xùn)練得到的。
4)語(yǔ)音模式匹配:將輸入語(yǔ)音的特征參數(shù)同訓(xùn)練得到的語(yǔ)音模式庫(kù)進(jìn)行比較分析,從而得到識(shí)別結(jié)果。
? ?隨著信息技術(shù)的飛速發(fā)展,人們尋求一種更為直接的人機(jī)對(duì)話方式,聲控電腦就是再此基礎(chǔ)上發(fā)展起來的。聲控電腦使用語(yǔ)音識(shí)別技術(shù),而語(yǔ)音識(shí)別是目前一種熱門技術(shù)。電腦語(yǔ)音識(shí)別系統(tǒng),可以用聲音直接控制電腦工作,是人機(jī)接口中最具有人性化的方式。
聲控電腦原理
聲控電腦是由人的聲音發(fā)出指令來控制電腦工作的,可是電腦本身不能識(shí)別人的聲音,因此必須讓電腦先了解熟悉人講話的聲音及腔調(diào)來建立參考樣本,將原先訓(xùn)練好的聲音特色保存為語(yǔ)音參考樣本存入電腦。原理流程如圖1所示。
DSP組成及控制
(1)組成
DSP語(yǔ)音識(shí)別芯片;數(shù)字/模擬轉(zhuǎn)換電路;語(yǔ)音提示語(yǔ)ROM;參數(shù)存儲(chǔ)SRAM。
數(shù)字/模擬轉(zhuǎn)換電路是將語(yǔ)音模擬信號(hào)轉(zhuǎn)換成數(shù)字信號(hào),交DSP芯片做分析處理,然后將其存儲(chǔ)在SRAM中。如果要說出所講的聲音,同樣是經(jīng)過數(shù)字/模擬轉(zhuǎn)換電路將其轉(zhuǎn)換為模擬信號(hào),經(jīng)驅(qū)動(dòng)電路,可以將聲音還原。
?。?)控制
SETUSER選取某一使用者(最多支持8人)。
GETSTATVS取回主控CPU狀態(tài)值。
TRAIN語(yǔ)音參考樣本輸入。
RECOG語(yǔ)音識(shí)別對(duì)比。
SAVESTATVS存儲(chǔ)主控CPU狀態(tài)值。
COMPARE識(shí)別對(duì)比找出最相近的一組樣本。
聲控系統(tǒng)硬件電路
將20PIN排針插座,連接至8051單片機(jī)控制板上,DSP和8051的信號(hào)傳輸都由此總線來完成。8051用于主控系統(tǒng),主要做聲控系統(tǒng)的人機(jī)接口處理,所用到的接口包括鍵盤及LCD信息顯示,并以8051單片機(jī)來控制DSP芯片用于語(yǔ)音識(shí)別。如果將RS232與PC機(jī)連接,便可以將信息傳回PC而顯示在屏幕上。除可以顯示信息外,還可以做程序設(shè)計(jì)時(shí)修改錯(cuò)誤,在系統(tǒng)開發(fā)時(shí)相當(dāng)有用。系統(tǒng)組成原理如圖2所示。
本系統(tǒng)采用DSP控制芯片,使硬件成本降低,可以獨(dú)立操作,不必靠個(gè)人電腦來做語(yǔ)音識(shí)別的控制,最主要的是其語(yǔ)音識(shí)別效果佳且穩(wěn)定
AP70032單片機(jī)語(yǔ)音識(shí)別電路設(shè)計(jì)
新型單片語(yǔ)音識(shí)別電路HL7003-02,電路結(jié)構(gòu)簡(jiǎn)單、外圍元器件少,設(shè)計(jì)、制作、調(diào)式及操作十分容易,適合愛好者制作各種由語(yǔ)控制的游藝機(jī)、家電控制、智能玩具、語(yǔ)音門鎖、門鐘等等方面。它是根據(jù)用戶自己的聲音輸入而識(shí)別的音晶片識(shí)音辯識(shí)的單片IC,它能識(shí)別12個(gè)不同的字句,可控制不同的輸出開關(guān),完成指定的功能。
電路特點(diǎn):內(nèi)置麥克風(fēng)放大器,內(nèi)置A/D轉(zhuǎn)換器,12個(gè)1.5秒長(zhǎng)的字句識(shí)別。多功能I/O口,2個(gè)普通輸入腳,4個(gè)觸發(fā)輸入腳,2個(gè)輸出端口,包含一個(gè)4輸出口及一個(gè)輸出口,2個(gè)LED輸出驅(qū)動(dòng)動(dòng),不同的編碼方式,可做成專用的線路,2.4V~3.3V工作電壓,低功耗,自動(dòng)斷電功能。
單片語(yǔ)音識(shí)別電路HL7003-02
1、通電后,先按①鍵,LED1和POA1(LED3)同時(shí)亮,此時(shí)立刻對(duì)著話筒發(fā)話(語(yǔ)音長(zhǎng)度不超過1.5秒),POA1滅,LED1亮,再對(duì)著話筒進(jìn)行“學(xué)習(xí)”,LED2、POA1同時(shí)亮,表示“學(xué)習(xí)”成功。接著再按②鍵,LED1、POA2同時(shí)亮。依此類推,直至1~12鍵全部學(xué)習(xí)完畢。也可以對(duì)某一鍵或某幾個(gè)鍵進(jìn)行無序輸入和學(xué)習(xí)。
2、學(xué)習(xí)完畢,即可進(jìn)行語(yǔ)音識(shí)別操作,12路輸出可分別控制不同的電器(或動(dòng)作),12路語(yǔ)音識(shí)別可任意操作,即喊一句便控制一種電器的開或關(guān)。第11鍵為輸出轉(zhuǎn)換鍵,每轉(zhuǎn)換控制一種電器都需按一下該鍵。
3、若需清除“學(xué)習(xí)”內(nèi)容,應(yīng)按清除鍵“C”,再次輸入時(shí),須重新按照第1步方法進(jìn)行“學(xué)習(xí)”。
4、PIM1接“1”(高電平),為12鍵模式,應(yīng)用電路見圖。PIM1接“0”(低電平),為8鍵模式,應(yīng)用電路見圖2。POSL接“0”,POA1~POA12輸出為低電平,POSL接“1”,POA1~POA12輸出為高電平。
評(píng)論
查看更多