水聲被動定位中的機器學(xué)習(xí)方法研究進(jìn)展綜述
來源:《信號處理》,作者牛海強等
摘 要:?本文對基于機器學(xué)習(xí)方法的水聲被動定位研究進(jìn)展進(jìn)行了綜述。所涉及的機器學(xué)習(xí)方法有多層感知機(前饋神經(jīng)網(wǎng)絡(luò))、支持向量機、隨機森林及以卷積網(wǎng)絡(luò)層和全連接層為主要組成單元的深度神經(jīng)網(wǎng)絡(luò)。本文通過重點引述近幾年發(fā)表在國際期刊和會議上的相關(guān)前沿研究工作,詳細(xì)論述了將機器學(xué)習(xí)方法應(yīng)用于水聲被動定位的關(guān)鍵理論基礎(chǔ)、單水聽器和陣列前端信號預(yù)處理算法設(shè)計及幾種典型的機器學(xué)習(xí)模型。此外,還指出了現(xiàn)有算法在推向?qū)嶋H應(yīng)用中面臨的困難及挑戰(zhàn)。最后,基于作者的思考,文章展望了未來基于機器學(xué)習(xí)的水聲定位算法的幾個潛在的研究方向。
關(guān)鍵詞:水聲被動定位;機器學(xué)習(xí);深度學(xué)習(xí);神經(jīng)網(wǎng)絡(luò);監(jiān)督學(xué)習(xí)
1?引言
近幾年,機器學(xué)習(xí)方法(尤其是深度學(xué)習(xí)方法)在語音識別[1]、圖像處理[2]、自然語言理解[3]等科學(xué)領(lǐng)域取得了突破性進(jìn)展,促進(jìn)了自動駕駛、人臉識別、語音個人助理、醫(yī)學(xué)影像分析等領(lǐng)域的技術(shù)變革。不僅如此,機器學(xué)習(xí)方法也在深刻影響著其他自然科學(xué)領(lǐng)域(如地球物理學(xué)[4-7])的發(fā)展方向。從統(tǒng)計學(xué)的角度看,機器學(xué)習(xí)方法是一種最優(yōu)化方法。利用大量統(tǒng)計數(shù)據(jù)對具有特定結(jié)構(gòu)、包含未知參數(shù)的數(shù)學(xué)模型進(jìn)行訓(xùn)練,可生成含有訓(xùn)練數(shù)據(jù)內(nèi)在統(tǒng)計特征的擬合器。從這個角度看,機器學(xué)習(xí)方法是一種可應(yīng)用于最優(yōu)化問題求解的普適性的框架。因此,其可被應(yīng)用于其他多個自然科學(xué)領(lǐng)域。水聲遠(yuǎn)程被動定位問題是根據(jù)觀測到的遠(yuǎn)距離聲源輻射的聲壓數(shù)據(jù),通過合適的信號處理算法,在空域內(nèi)尋找聲源最優(yōu)或最可能的位置。顯然,給定合適的經(jīng)過預(yù)處理之后的訓(xùn)練數(shù)據(jù),該問題可用機器學(xué)習(xí)方法進(jìn)行求解。例如,將機器學(xué)習(xí)用于分類問題時,模型的輸出為可能類型的概率分布。類似地,尋找最優(yōu)聲源位置也可作為機器學(xué)習(xí)的分類問題進(jìn)行求解,此時模型輸出為聲源距離或深度的概率分布。本文對基于機器學(xué)習(xí)的水聲被動定位算法進(jìn)行綜述,通過對目前最新的研究成果進(jìn)行引述,重點討論和給出所涉及到的算法理論基礎(chǔ)、單陣元及陣列的前端信號預(yù)處理算法、模型選擇和訓(xùn)練及性能評價等。
將機器學(xué)習(xí)方法應(yīng)用到水聲被動定位,可以追溯到上世紀(jì)九十年代。1991年,Steinberg[8]等人將神經(jīng)網(wǎng)絡(luò)用于對均勻介質(zhì)中點聲源的定位。同年,Ozard[9]等人仿真研究了在匹配場處理中利用神經(jīng)網(wǎng)絡(luò)進(jìn)行距離和深度判別。之后,Caiti[10-11]等人(1994、1996)利用徑向基函數(shù)神經(jīng)網(wǎng)絡(luò)估計海底沉積層的特性。另外,Michalopoulou[12](1995)、Stephan[13](1998)和Benson[14](2000)等人分別將神經(jīng)網(wǎng)絡(luò)用于海底分類和地聲參數(shù)反演??偟膩碚f,以上工作為神經(jīng)網(wǎng)絡(luò)在水聲學(xué)中的應(yīng)用作了探索性的研究。但是,受限于當(dāng)時的計算資源及缺乏高效的訓(xùn)練算法,加之當(dāng)時主流的被動定位算法——匹配場定位[15-19],正處于飛速發(fā)展階段,在之后的很長一段時間,機器學(xué)習(xí)方法在水聲學(xué)領(lǐng)域并沒有受到足夠重視,而基于物理場聲學(xué)建模的匹配場處理方法則成為水聲被動定位的研究熱點。然而,盡管匹配場處理方法經(jīng)過幾十年的發(fā)展取得了巨大的進(jìn)步,目前也被廣泛應(yīng)用于相關(guān)的工程實踐,但是匹配場處理方法在實際應(yīng)用中仍然面臨著諸多困難和挑戰(zhàn),如典型的環(huán)境失配問題。海洋是一種時變、空變的復(fù)雜聲信道,導(dǎo)致實測聲場與理論建模聲場之間必然存在一定的偏差和失配,這種失配有時會給匹配場定位造成較大影響。為克服和降低海洋環(huán)境參數(shù)不確定性對匹配場定位的影響,研究人員相繼提出了一些將環(huán)境參數(shù)納入未知參數(shù)集的改進(jìn)的匹配場處理方法,如環(huán)境聚焦匹配場處理[20-24]或貝葉斯匹配場定位[25-26]。但同時這些方法帶來的問題是計算量顯著增加,增加了實時處理的難度。
由于匹配場處理方法的局限性及近幾年機器學(xué)習(xí)理論和技術(shù)的新發(fā)展,一些基于機器學(xué)習(xí)的水聲被動定位方法開始重新嶄露頭角,相關(guān)研究和報道也陸續(xù)出現(xiàn)。2017年,Lefort[27]等人利用水箱實驗數(shù)據(jù)模擬研究了在起伏海洋環(huán)境下非線性回歸算法的定位性能,表明機器學(xué)習(xí)算法在水聲目標(biāo)定位中有一定的優(yōu)勢和潛力。同年,Niu[28-29]等人提出了一類可行的基于機器學(xué)習(xí)算法的水下聲源定位方法,系統(tǒng)性研究了前饋神經(jīng)網(wǎng)絡(luò)、支持向量機和隨機森林三種機器學(xué)習(xí)模型的聲源定位性能,并首次通過海試實測實驗數(shù)據(jù)驗證了機器學(xué)習(xí)算法的定位性能。2018年,Wang[30]等人將實測數(shù)據(jù)作為實驗數(shù)據(jù),利用廣義回歸神經(jīng)網(wǎng)絡(luò)對聲源進(jìn)行定位。同年,Huang[31]等人嘗試將仿真聲場作為訓(xùn)練數(shù)據(jù),利用多層的深度卷積神經(jīng)網(wǎng)絡(luò)對聲源進(jìn)行定位。2019年,Liu[32]等人利用集合卷積網(wǎng)絡(luò)對深海直達(dá)聲區(qū)進(jìn)行聲源測距。Niu[33]等人利用50層殘差卷積神經(jīng)網(wǎng)絡(luò)和單水聽器對不確知環(huán)境條件下的聲源進(jìn)行定位。所有這些工作都表明了機器學(xué)習(xí)方法在水聲被動定位中的應(yīng)用潛力。同時,值得注意的是,相關(guān)研究在國際水聲學(xué)領(lǐng)域也開始顯示出影響力,越來越多的學(xué)者投入到相關(guān)研究中。以美國聲學(xué)學(xué)會年會為例,基于機器學(xué)習(xí)的水聲定位或反演研究在2016年的兩次會議上還較為少見。到2018年11月的秋季年會,相關(guān)的會議報告[34- 40]已明顯增加。由此可見,該研究方向正處于快速發(fā)展階段,并逐步在整個水聲學(xué)領(lǐng)域產(chǎn)生影響力。
2?定位算法
到目前為止,水聲遠(yuǎn)程被動定位中所涉及的機器學(xué)習(xí)方法,絕大多數(shù)屬于有監(jiān)督學(xué)習(xí)類算法。即利用有標(biāo)注的數(shù)據(jù)對機器學(xué)習(xí)模型進(jìn)行訓(xùn)練。若機器學(xué)習(xí)模型的輸出為連續(xù)的,則為回歸器。若模型輸出為多個離散值,則將這種機器學(xué)習(xí)模型稱之為分類器。理論上,利用回歸器或分類器對聲源距離和深度進(jìn)行估計都是可行的。定位算法的框圖如圖1所示。定位算法分為兩個階段:訓(xùn)練階段和預(yù)測階段。
圖1 機器學(xué)習(xí)定位算法框圖
Fig.1 Localization algorithm using machine learning
在圖1所示的訓(xùn)練階段,原始聲壓數(shù)據(jù)經(jīng)過前端預(yù)處理(見第2.2節(jié))之后作為機器學(xué)習(xí)模型的輸入。用于訓(xùn)練的標(biāo)注數(shù)據(jù)為聲源位置或與聲源位置相關(guān)的量。對于回歸器,標(biāo)注為連續(xù)的聲源距離或深度[28],對于分類器,標(biāo)注一般采用位向量[28](即組成元素為0和1)對聲源距離或深度進(jìn)行編碼表示。給定對應(yīng)的標(biāo)注之后,結(jié)合模型輸出,就可以利用特定的訓(xùn)練損失函數(shù)對機器學(xué)習(xí)模型進(jìn)行訓(xùn)練,目的是得到模型中的未知參量。幾種典型的機器學(xué)習(xí)模型及對應(yīng)的訓(xùn)練損失函數(shù)見第2.3節(jié)。在訓(xùn)練階段訓(xùn)練好的機器學(xué)習(xí)模型可用于預(yù)測階段對未知數(shù)據(jù)的預(yù)測,預(yù)測階段機器學(xué)習(xí)模型的輸入為經(jīng)過同樣預(yù)處理之后的測量數(shù)據(jù)。對于回歸器,模型的輸出為聲源距離或深度;對于分類器,輸出為聲源距離或深度的概率分布,一般取概率最大值為聲源位置的估計值。
2.1?理論基礎(chǔ)
雖然在某些應(yīng)用中機器學(xué)習(xí)模型被認(rèn)為是無法解釋的“黑盒子”模型,但是將機器學(xué)習(xí)方法應(yīng)用到水聲被動定位中,是有合理的物理理論基礎(chǔ)的。如引言所述,機器學(xué)習(xí)模型實際上是一個函數(shù)擬合器,它將輸入按照一定的規(guī)則映射為輸出。在水聲學(xué)中,不同位置(距離和深度)處的聲源所產(chǎn)生的聲場是不同的。具體來說,不同位置處聲源對應(yīng)的信道響應(yīng)是不同的,而聲源激勵一般來說與位置無關(guān)。因此,我們可以將預(yù)處理之后的物理量映射為聲源位置或與聲源位置相關(guān)的量。以某淺海環(huán)境下單陣元為例,圖2所示為仿真得到的單個陣元接收信號幅度的距離-頻率圖,可見不同距離處對應(yīng)不同的頻率干涉結(jié)構(gòu)。同樣,在深海直達(dá)聲區(qū),也存在類似的干涉結(jié)構(gòu)[32]。因此,這種特征[32-33]可用來作為機器學(xué)習(xí)模型的輸入。陣列信號的采樣協(xié)方差矩陣也包含類似的信息(矩陣的對角線元素對應(yīng)每個陣元信號的幅度,非對角線元素對應(yīng)不同陣元信號間的相位差)。第2.2節(jié)所述的前端預(yù)處理算法的目的是將原始測量信號轉(zhuǎn)換為信道響應(yīng)或近似信道響應(yīng),從而盡量減小訓(xùn)練數(shù)據(jù)和預(yù)測數(shù)據(jù)可能存在的差異。在實際應(yīng)用中,二者差異一般由聲源激勵不同引起,包括相位和幅度差異。對于陣列信號采用的歸一化采樣協(xié)方差矩陣[28-29]以及單陣元信號采用的分段歸一化幅度[32-33],就是為了減小這種差異。
圖2 接收信號的干涉結(jié)構(gòu)(距離-頻率圖)
Fig.2 Interference structure of received signals (range-frequency)
2.2?前端預(yù)處理算法
其中,nf為每一分段的頻點數(shù)。向量
即為預(yù)處理之后機器學(xué)習(xí)模型輸入的單個樣本點。
p(?f?)=S(?f?)g(f,r)+ε(?f?)
(1)
其中,S(?f?)為復(fù)數(shù)聲源激勵項,g(f,r)為與聲源位置有關(guān)的信道響應(yīng)或格林函數(shù),ε(?f?)為噪聲。因為一般情況下聲源激勵項與聲源位置無關(guān),并且訓(xùn)練數(shù)據(jù)與預(yù)測數(shù)據(jù)的聲源激勵可能會存在差異,為使機器學(xué)習(xí)模型的輸入數(shù)據(jù)保持相同的特征,預(yù)處理算法的目的是消除或減小聲源激勵譜幅度和相位的影響[28-29]。
首先,復(fù)聲壓數(shù)據(jù)被歸一化為[28-29]
(2)
若噪聲為零,公式(2)的歸一化方法可將聲源激勵的幅度譜的影響完全消除。在較高信噪比情況下,聲源幅度譜的影響可被有效抑制。
然后,利用歸一化后的復(fù)聲壓,可得到多次快拍平均的采樣協(xié)方差矩陣(SCM)[28-29]:
(3)
其中,Ns為快拍數(shù)。由公式(1)和(3)可見,在較高信噪比的條件下,聲源激勵相位的影響可被有效抑制和減弱。公式(2)和(3)保證了將與聲源激勵近似無關(guān)的物理量作為用于水聲被動定位的機器學(xué)習(xí)模型輸入,而非原始測量的聲壓。由于公式(3)計算得到的采樣協(xié)方差矩陣是共軛對稱的,因此為提高計算效率和較少內(nèi)存占用,可取上三角矩陣對應(yīng)元素的實部和虛部作為機器學(xué)習(xí)模型的輸入。對于單頻信號,L個水聽器數(shù)據(jù)經(jīng)預(yù)處理之后每個樣本點的輸入維數(shù)為L×(L+1)。若考慮輸入為多頻信號,可將多個頻點的數(shù)據(jù)拼接為一個長向量作為模型輸入。
公式(2)和(3)是針對陣列信號的預(yù)處理方法。對于單陣元信號,水聲被動定位也是可行的,比如典型的利用波導(dǎo)不變量原理進(jìn)行測距?;诓▽?dǎo)不變量的測距方法,實際上是利用寬帶信號的干涉結(jié)構(gòu),即不同距離上干涉結(jié)構(gòu)不同。從另一個角度出發(fā),波導(dǎo)不變量測距方法利用的是寬帶信號的幅度譜,基于機器學(xué)習(xí)的定位方法也可借鑒這一點。因此,類似于陣列信號預(yù)處理方法的出發(fā)點,對于單陣元的寬帶信號,預(yù)處理算法使得訓(xùn)練數(shù)據(jù)和預(yù)測數(shù)據(jù)的特征分布保持一致。記單陣元接收到的F個頻率的復(fù)聲壓矢量為p=[p1,…,pf,…,pF],對應(yīng)的幅度譜可寫為:
q=[|p1|,…,|pf|,…,|pF|]
(4)
然后,將公式(4)向量中的元素歸一化到[0, 1]區(qū)間[33]:
(5)
與陣列信號預(yù)處理相似,為降低訓(xùn)練數(shù)據(jù)和測試數(shù)據(jù)聲源譜不一致造成的影響,對于緩變的聲源譜,可用如下的分段歸一化方法[33]:
(6)
在線實時融冰技術(shù),將可以有效防止輸電線路覆冰災(zāi)害,減少輸電線路覆冰承載參數(shù),降低輸電線路設(shè)計成本。文獻(xiàn)[7]提出一種自融冰導(dǎo)線設(shè)計方法,并設(shè)計了自融冰設(shè)備,為實現(xiàn)輸電線路實時在線融冰提供了新思路和新方法。
另外,除了以上預(yù)處理算法外,還可以利用協(xié)方差矩陣的本征向量[31]作為模型的輸入。該方法將多次快拍平均的采樣協(xié)方差矩陣進(jìn)行分解,理論上可將整個空間分解為模態(tài)信號空間和噪聲空間。然后取前M個較大本征值(即理想情況下的前M階簡正波)對應(yīng)的本征向量作為機器學(xué)習(xí)模型的輸入。理想情況下,由于只取前M個特征向量,故該方法可抑制部分噪聲。但同時存在的問題是若采樣協(xié)方差矩陣統(tǒng)計不充分,子空間的分解可能存在一定的問題。另外,信號有效模態(tài)數(shù)M的值不太好確定,與海洋傳播環(huán)境及信號頻率等密切相關(guān)。總之,機器學(xué)習(xí)模型輸入特征的提取和構(gòu)造是一個非常值得研究的問題,關(guān)系到機器學(xué)習(xí)模型的學(xué)習(xí)效率和穩(wěn)健性。
2.3?典型機器學(xué)習(xí)模型
根據(jù)現(xiàn)有文獻(xiàn),用于水聲被動定位的機器學(xué)習(xí)模型有支持向量機、隨機森林、前饋神經(jīng)網(wǎng)絡(luò)、深度神經(jīng)網(wǎng)絡(luò)以及集成神經(jīng)網(wǎng)絡(luò)模型等。其中,支持向量機、隨機森林和單隱層的前饋神經(jīng)網(wǎng)絡(luò)屬于淺層模型,對于小訓(xùn)練數(shù)據(jù)集具有很好的定位性能。而深度神經(jīng)網(wǎng)絡(luò)屬于深度學(xué)習(xí)模型,學(xué)習(xí)能力更強,可構(gòu)建高度復(fù)雜的機器學(xué)習(xí)模型,但同時需要的訓(xùn)練數(shù)據(jù)也越多。在訓(xùn)練數(shù)據(jù)不足的情況下,機器學(xué)習(xí)模型可能會出現(xiàn)過擬合的現(xiàn)象。選擇哪種模型取決于訓(xùn)練數(shù)據(jù)集的大小及水聲被動定位具體的應(yīng)用場景(見第3節(jié)中對海試試驗結(jié)果的概述)。下面對這幾種模型進(jìn)行簡要介紹。
支持向量機[41]是一種典型的分類模型,它通過使間隔(margin)最大化的策略尋找一個超平面實現(xiàn)輸入樣本的分類。如果訓(xùn)練數(shù)據(jù)空間是線性可分的,可通過硬間隔最大化得到線性支持向量機分類器;若輸入空間是近似線性可分時,可通過引入松弛變量即軟間隔最大化,得到線性分類器;當(dāng)訓(xùn)練數(shù)據(jù)為線性不可分時,可通過核技巧實現(xiàn)非線性支持向量機。以二分類為例,首先假設(shè)輸入樣本空間{xn;?n=1,2,…,N}是線性可分的,對應(yīng)的類型為sn∈{1, -1},則分類模型具有以下的形式:
yn=wTxn+b
(7)
其中,w和b是待求解的權(quán)重和偏置項。用于分類的超平面滿足wTxn+b=0,若估計值yn在超平面之上(yn>0),則對應(yīng)的估計類型為
相反,若yn位于超平面之下(yn<0),則估計類型為
樣本點xn到超平面的垂直距離d等于點xn與其在超平面上投影點x0之間的距離,滿足:
(8)
因此,距離d可寫為[28]:
(9)
間隔距離dM定義為從超平面到間隔邊界上最近的樣本點(即支持向量)的距離。模型參數(shù)可由最大化間隔求解得到:
(10)
公式(10)等價于求解如下優(yōu)化問題:
(11)
若訓(xùn)練數(shù)據(jù)是線性不可分的,可引入松弛變量ξn≥0,使得部分樣本點有一定的誤分類。此時對應(yīng)的優(yōu)化問題為[41]:
n=1,…,N
(12)
其中,參數(shù)C>0控制間隔最大化和誤分類之間的權(quán)重。另外,對于非線性的分類問題,公式(7)可寫為:
yn=wT
(xn)+b
(13)
其中
(xn)表示特征空間的變換。對于該類問題,可通過核函數(shù)的技巧進(jìn)行求解。與支持向量機分類器不同,支持向量回歸器則是最小化如下ε敏感度的誤差函數(shù)[41]:
(14)
其中,rn是樣本xn對應(yīng)的真實的聲源位置。
隨機森林模型[42- 43]是決策樹模型的推廣,它將輸入數(shù)據(jù)劃分到不同的特征空間中。即從根節(jié)點開始,對樣本的某一特征進(jìn)行測試,根據(jù)測試結(jié)果將樣本分配到相應(yīng)的子節(jié)點(每個子節(jié)點對應(yīng)特征的一個取值),然后依次遞歸,最終將樣本劃分到不同葉節(jié)點。若輸入樣本{xn;?n=1,2,…,N}是D維空間中的向量。按照決策樹的思想,通過在第i維空間上定義一個截止門限c,輸入數(shù)據(jù)可被劃分到左右兩個區(qū)域(或特征空間):
(15)
在每個分支處的代價函數(shù)可寫為:
(16)
nleft和nright分別為劃分到左右兩個區(qū)域中的樣本點數(shù),H(·)為純凈度函數(shù)。對于分類問題,一種表達(dá)純凈度的函數(shù)為基尼指數(shù)(Gini Index):
(17)
nm為區(qū)域xm內(nèi)的樣本點數(shù),lm為區(qū)域xm對應(yīng)的標(biāo)注預(yù)測,表示區(qū)域內(nèi)樣本數(shù)量最多的類型標(biāo)注:
(18)
其中,rk為聲源位置對應(yīng)的預(yù)測類型,tn為樣本xn對應(yīng)的標(biāo)注,且
(19)
對于回歸算法,區(qū)域的標(biāo)注預(yù)測lm和純凈度函數(shù)H(·)為:
(20)
(21)
其中rn為對應(yīng)樣本的聲源位置(標(biāo)注)。單個決策樹模型容易產(chǎn)生過擬合的問題,而隨機森林則是一種通過統(tǒng)計自助抽樣集成,綜合多個決策樹的模型,穩(wěn)健性更好。對于給定的訓(xùn)練集,隨機森林模型通過自助法產(chǎn)生Mr個訓(xùn)練集,在每個訓(xùn)練集上訓(xùn)練產(chǎn)生一個決策樹。最終通過多個決策樹的統(tǒng)計結(jié)果,樣本被歸為出現(xiàn)頻次最多的類型。
另一類機器學(xué)習(xí)模型是前饋神經(jīng)網(wǎng)絡(luò)[41],一般也被稱之為多層感知機,它具有前向直連的非循環(huán)結(jié)構(gòu)。記輸入層L1為D維的向量x=[x1,…,xD]T,與輸入層相連的第二層L2含有M個神經(jīng)元,每個神經(jīng)元的激活值為輸入層單元的線性組合:
(22)
其中,
和
被稱之為權(quán)重和偏置,上標(biāo)代表當(dāng)前的層數(shù)。該層神經(jīng)網(wǎng)絡(luò)的輸出為激活值經(jīng)過一個激活函數(shù)f(·)的變換:
zj=f(aj)
(23)
激活函數(shù)有多種選擇,包括sigmoid函數(shù)、tanh函數(shù)、ReLU函數(shù)等。以sigmoid函數(shù)為例,其數(shù)學(xué)形式為:
(24)
可以看出該函數(shù)為單調(diào)遞增函數(shù),當(dāng)a→+
,?f(a)→1,當(dāng)a→-
,?f(a)→0。以此類推,第三層L3中K個神經(jīng)元對應(yīng)的激活值為:
(25)
若該層為輸出層,對于多分類問題,一般采用softmax函數(shù)作為激活函數(shù),對應(yīng)的K個輸出為:
(26)
yk表示樣本屬于第k個類型的概率,滿足0≤yk≤1且∑kyk=1。記tn為二進(jìn)制的位向量(one-hot vector),向量中僅有一個數(shù)為非零,其在向量中的位置代表相應(yīng)的類型。訓(xùn)練神經(jīng)網(wǎng)絡(luò)時,互熵一般作為訓(xùn)練的代價函數(shù):
(27)
對于N個樣本,對應(yīng)的平均互熵及最優(yōu)的權(quán)重分別為[41]:
(28)
(29)
對于回歸問題,一般將平方誤差函數(shù)作為最小化的代價函數(shù)[41]:
(30)
其中,rn為聲源位置(標(biāo)注)。神經(jīng)網(wǎng)絡(luò)的訓(xùn)練一般采用誤差反向傳播算法進(jìn)行權(quán)重的更新。
深度神經(jīng)網(wǎng)絡(luò)一般被認(rèn)為是在深度方向上擁有許多層結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)。例如,上文介紹的具有多個隱層的前饋神經(jīng)網(wǎng)絡(luò)也是一種深度神經(jīng)網(wǎng)絡(luò),層與層之間通過全連接的方式進(jìn)行互連。除了前饋神經(jīng)網(wǎng)絡(luò),在圖像和語音處理領(lǐng)域,被廣泛采用的深度神經(jīng)網(wǎng)絡(luò)還有深度卷積神經(jīng)網(wǎng)絡(luò)及循環(huán)神經(jīng)網(wǎng)絡(luò)。深度卷積神經(jīng)網(wǎng)絡(luò)的基本組成單元為卷積層,通過權(quán)值參數(shù)共享的方式極大地減少了待求解的參數(shù)數(shù)量。循環(huán)神經(jīng)網(wǎng)絡(luò)則主要用來對序列進(jìn)行建模,典型特點為具有有向環(huán)的結(jié)構(gòu)。到目前為止,循環(huán)神經(jīng)網(wǎng)絡(luò)還未在水聲被動定位中有所應(yīng)用,因此本文僅簡要介紹卷積神經(jīng)網(wǎng)絡(luò)。對于卷積層,記輸入樣本I的維度為W×H×D,在圖像處理中代表寬、高及通道數(shù),對于水聲定位,輸入可為一維或二維。卷積操作即為輸入I與卷積核K的卷積(convolution),在卷積網(wǎng)絡(luò)算法實現(xiàn)中,經(jīng)常用互相關(guān)(cross-correlation)代替卷積,二者的區(qū)別在于是否對卷積核進(jìn)行翻轉(zhuǎn)。對于單個通道D=1,數(shù)學(xué)表達(dá)式為:
(31)
卷積操作后的輸出經(jīng)常被稱之為特征圖(feature map),卷積核的維度通常遠(yuǎn)小于輸入的維度。然后,與其他神經(jīng)網(wǎng)絡(luò)類似,卷積之后的輸出經(jīng)過一個激活函數(shù)(卷積網(wǎng)絡(luò)中一般為修正線性單元ReLU),最后經(jīng)過一個池化層(pooling)對輸出進(jìn)行進(jìn)一步修正處理。例如,常見的兩種池化操作為最大池化和平均池化,分別對某一矩形區(qū)域內(nèi)的元素取最大值或平均值。多個卷積層的級聯(lián)可構(gòu)成深度卷積神經(jīng)網(wǎng)絡(luò),深度越深,模型的表達(dá)能力越強,但同時帶來的問題是梯度消失問題,導(dǎo)致模型越難訓(xùn)練。為此,有研究人員提出殘差神經(jīng)網(wǎng)絡(luò)(ResNet)[44]來緩解深度模型的訓(xùn)練問題。與常規(guī)卷積神經(jīng)網(wǎng)絡(luò)模擬輸入x與輸出H(x)之間的映射不同,殘差網(wǎng)絡(luò)模擬的是輸入輸出的殘差函數(shù)F(x),即H(x)=F(x)+x。圖3所示的瓶頸(bottleneck)結(jié)構(gòu)[44]是一種實現(xiàn)殘差網(wǎng)絡(luò)的基本單元。
圖3 殘差網(wǎng)絡(luò)中的瓶頸結(jié)構(gòu)
Fig.3 Bottleneck structure in ResNet
另外,還有研究人員利用集成神經(jīng)網(wǎng)絡(luò)對聲源進(jìn)行測距[32]。集成神經(jīng)網(wǎng)絡(luò)模型是利用集成學(xué)習(xí)的思想(類似單個決策樹和隨機森林之間的關(guān)系),并綜合多個神經(jīng)網(wǎng)絡(luò)模型,對結(jié)果進(jìn)行統(tǒng)計預(yù)測,可在一定程度上提高模型的穩(wěn)健性和性能。
機器學(xué)習(xí)模型的訓(xùn)練可在現(xiàn)有主流框架上進(jìn)行高效地訓(xùn)練,如TensorFlow[45]和Scikit-learn[46]等。
2.4?性能評價
為度量機器學(xué)習(xí)方法的定位性能,有三種常見的評價準(zhǔn)則,分別是均方誤差(MSE)、平均絕對值誤差(MAE)以及平均絕對百分比誤差(MAPE)。記測試樣本數(shù)為N、第i個樣本對應(yīng)的距離或深度的真實值為gi、第i個樣本對應(yīng)的距離或深度的預(yù)測值為yi,則均方誤差的計算公式為:
(32)
平均絕對誤差的計算公式為:
(33)
平均絕對百分比誤差的計算公式為:
(34)
對于同一數(shù)據(jù)集,這三種評價準(zhǔn)則的結(jié)果并不完全一致,一般情況下,可選擇一種或多種度量對定位結(jié)果進(jìn)行比較和評價。
2.5?與匹配場定位的區(qū)別
基于機器學(xué)習(xí)的水聲定位方法,與經(jīng)典的匹配場定位相比,有以下幾點明顯區(qū)別:
(1)算法的執(zhí)行策略和效率不同。機器學(xué)習(xí)方法可以被認(rèn)為是一種離線訓(xùn)練、在線預(yù)測的策略。大量密集的計算集中在模型的訓(xùn)練階段,訓(xùn)練好的模型在預(yù)測階段進(jìn)行輕量級的計算,因此可較為容易地實現(xiàn)數(shù)據(jù)的實時處理。相反,匹配場處理方法采用的則是在一個參數(shù)空間內(nèi)進(jìn)行在線匹配的策略,如果參數(shù)空間較大(如同時包含環(huán)境參數(shù)),則計算效率會顯著降低,導(dǎo)致無法進(jìn)行實時處理。
(2)用于定位的代價函數(shù)不同。機器學(xué)習(xí)方法根據(jù)回歸或者分類任務(wù),大多采用最小均方誤差或最小化互熵等訓(xùn)練的代價函數(shù)。而匹配場處理大多采用相關(guān)處理的方式。
(3)大數(shù)據(jù)處理的能力。機器學(xué)習(xí)方法可以很自然的采用大數(shù)據(jù)集結(jié)合深度學(xué)習(xí)模型進(jìn)行訓(xùn)練,數(shù)據(jù)量越大,在統(tǒng)計意義上越有可能逼近真實的數(shù)據(jù)分布,并且可以同時利用仿真數(shù)據(jù)和實測數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)。匹配場處理方法一般情況下無法有效處理大數(shù)據(jù)。
3?部分海試實驗數(shù)據(jù)概述
本節(jié)對近幾年公開發(fā)表文獻(xiàn)中所涉及的海試實驗數(shù)據(jù)處理中用到的機器學(xué)習(xí)模型和應(yīng)用場景進(jìn)行總結(jié)和概括,以便于讀者了解目前機器學(xué)習(xí)方法應(yīng)用于水聲被動定位的概況。表1總結(jié)給出了對應(yīng)的試驗海域及類型、傳感器和訓(xùn)練數(shù)據(jù)類型、機器學(xué)習(xí)模型及定位類型。在文獻(xiàn)[28-30]中,實際測量數(shù)據(jù)被用于機器學(xué)習(xí)模型的訓(xùn)練,由于訓(xùn)練數(shù)據(jù)規(guī)模較小,模型均為結(jié)構(gòu)較為簡單的淺層模型。采用實驗數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)的好處是可避免對未知環(huán)境的聲場理論建模,從而最大限度避免了環(huán)境失配造成的影響,但同時對應(yīng)用場景有較大的限制,即訓(xùn)練好的機器學(xué)習(xí)模型僅適用于某一特定海域相似環(huán)境條件下(如固定式陣列的岸基系統(tǒng))的聲源定位。對于缺乏實驗數(shù)據(jù)的場景,文獻(xiàn)[31-33]利用環(huán)境參數(shù)生成的仿真聲場作為模型的訓(xùn)練數(shù)據(jù),結(jié)果表明深度學(xué)習(xí)算法的定位性能優(yōu)于傳統(tǒng)的匹配場處理定位算法。在文獻(xiàn)[31-32]中,由于環(huán)境參數(shù)的先驗信息較為準(zhǔn)確,因此仿真聲場數(shù)據(jù)集的規(guī)模不大。而文獻(xiàn)[33]的應(yīng)用場景是不確知海底參數(shù)情況下的聲源定位。為降低海底參數(shù)的不確定性,訓(xùn)練數(shù)據(jù)采用基于多種假定海洋環(huán)境參數(shù)生成的仿真聲場,訓(xùn)練數(shù)據(jù)樣本數(shù)超過上千萬個,對應(yīng)的深度學(xué)習(xí)模型也更加復(fù)雜,采用了50層的深度殘差網(wǎng)絡(luò),可適用于多種不同海底環(huán)境參數(shù)下的聲源被動定位。由表1也可以看出,水聲被動定位中用到的機器學(xué)習(xí)模型逐漸向大數(shù)據(jù)集、深度學(xué)習(xí)模型演進(jìn)。究其原因,主要是在推向?qū)嶋H應(yīng)用中,針對實測數(shù)據(jù)集有限和環(huán)境不確定性的應(yīng)對策略。
表1 部分海試實驗機器學(xué)習(xí)定位方法總結(jié)
Tab.1 Summary of machine learning methods in sea experimental data processing
4?現(xiàn)有模型存在的問題及解決思路
從近期公開發(fā)表的相關(guān)文獻(xiàn)來看,基于機器學(xué)習(xí)的水聲被動定位方法具有較好的應(yīng)用前景和潛力。但同時,這類方法作為水聲學(xué)領(lǐng)域中一種新興的技術(shù),尚處于起步階段,在推向?qū)嶋H應(yīng)用時還面臨著多個問題和挑戰(zhàn)。具體來說有以下幾點:
(1)不確知海洋環(huán)境下的聲源被動定位。對于實際應(yīng)用,海洋環(huán)境是時變和空變的,海底參數(shù)的準(zhǔn)確獲取也具有相當(dāng)大的難度。在不確知海洋環(huán)境條件下,如何訓(xùn)練機器學(xué)習(xí)模型成為關(guān)鍵。一種思路是收集不同水文、不同海底參數(shù)條件下的實測數(shù)據(jù),將實測數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),對機器學(xué)習(xí)模型進(jìn)行訓(xùn)練。但難點在于不同環(huán)境條件下、不同聲源位置的實測數(shù)據(jù)獲取難度較大。另外一種思路是利用仿真聲場數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),這種方法的好處是可以低成本地獲取足夠多環(huán)境條件下的訓(xùn)練數(shù)據(jù)樣本,不足之處是訓(xùn)練數(shù)據(jù)的質(zhì)量依賴于聲場建模的準(zhǔn)確度,如目前復(fù)雜的二維或三維海洋聲場的準(zhǔn)確建模仍然具有挑戰(zhàn)性。
(2)低信噪比條件下的聲源被動定位。目前的研究都集中在較高信噪比條件下的定位,現(xiàn)有模型在低信噪比條件下定位性能會急劇下降。相應(yīng)的解決思路是利用傳統(tǒng)的陣列信號處理方法(如波束形成或空域濾波等)提高信噪比[33],或者通過將帶噪聲的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù),也可能提高機器學(xué)習(xí)模型在低信噪比條件下的定位穩(wěn)健性。
(3)多聲源同時定位。在實際應(yīng)用中,存在多聲源同時存在(或在同一方向上)的可能性?,F(xiàn)有的機器學(xué)習(xí)模型目前考慮僅有一個聲源存在,如何建立針對多聲源情況的機器學(xué)習(xí)模型,也是水聲被動定位中亟待解決的問題。
5?結(jié)論
本文對目前基于機器學(xué)習(xí)的水聲被動定位方法進(jìn)行了綜述和回顧,介紹了前端信號預(yù)處理算法、幾種典型的機器學(xué)習(xí)模型、評價準(zhǔn)則,并對部分海試試驗結(jié)果進(jìn)行了概述。作者還簡要討論了基于機器學(xué)習(xí)的水聲被動定位與經(jīng)典的匹配場處理方法之間的區(qū)別。同時針對目前機器學(xué)習(xí)方法存在的問題,給出了相應(yīng)的解決思路?;跈C器學(xué)習(xí)的水聲被動定位具有很好的發(fā)展?jié)摿凸こ袒瘧?yīng)用前景,該研究方向開始逐漸引起國際水聲學(xué)界的興趣,正處于快速發(fā)展時期。以作者的觀點看,針對第4節(jié)所述的難點,未來的幾個潛在的研究方向為:大數(shù)據(jù)和深度學(xué)習(xí)模型相結(jié)合的定位方法;低信噪比條件下的機器學(xué)習(xí)定位方法;適用于多聲源定位的機器學(xué)習(xí)模型和方法。
審核編輯:符乾江
評論
查看更多