IEEE x ATEC
IEEE x ATEC科技思享會(huì)是由專業(yè)技術(shù)學(xué)會(huì)IEEE與前沿科技探索社區(qū)ATEC聯(lián)合主辦的技術(shù)沙龍。邀請(qǐng)行業(yè)專家學(xué)者分享前沿探索和技術(shù)實(shí)踐,助力數(shù)字化發(fā)展。
在社會(huì)數(shù)字化進(jìn)程中,隨著網(wǎng)絡(luò)化、智能化服務(wù)的不斷深入,伴隨服務(wù)衍生出的各類風(fēng)險(xiǎn)不容忽視。本期分享會(huì)的主題是《網(wǎng)絡(luò)欺詐的風(fēng)險(xiǎn)與對(duì)抗》。五位嘉賓將從不同的技術(shù)領(lǐng)域和觀察視角,圍繞網(wǎng)絡(luò)欺詐場(chǎng)景下的風(fēng)險(xiǎn)及對(duì)抗技術(shù)展開分享。
以下是莊福振研究員的演講,《NN模型在金融風(fēng)控場(chǎng)景中的應(yīng)用》。
《NN模型在金融風(fēng)控場(chǎng)景中的應(yīng)用》
很高興能來參加IEEE x ATEC科技思享會(huì)。我今天分享的題目是《NN模型在金融風(fēng)控場(chǎng)景中的應(yīng)用》。我今天的演講內(nèi)容主要分成三個(gè)部分:背景,研究工作,我們的一點(diǎn)總結(jié)。
眾所周知,在過去十幾年中,第三方在線支付市場(chǎng)發(fā)展迅速。同時(shí),與在線交易相關(guān)的犯罪活動(dòng)也大大增加,并且這種交易欺詐行為嚴(yán)重威脅了在線支付行業(yè)。2016年,互聯(lián)網(wǎng)犯罪投訴中心就收到了近380萬投訴,導(dǎo)致超過13億的財(cái)務(wù)損失。在線交易欺詐中,最常見的是賬戶被盜以及卡被盜。賬戶被盜指的是未經(jīng)授權(quán)的賬戶操作或欺詐者在控制了某人的付款賬戶后進(jìn)行的交易,通常由于憑證泄露造成的??ū槐I表示某人卡的相關(guān)信息,例如卡號(hào)、賬單信息等已被欺詐者獲取并用于未經(jīng)授權(quán)的一些收費(fèi)。
下面我分享一下我們和螞蟻集團(tuán)聯(lián)合做的一些研究工作。主要有三個(gè)工作,一個(gè)是基于神經(jīng)層級(jí)分解機(jī)的用戶事件序列分析(SIGIR 2020),第二個(gè)是基于雙重重要性感知分解機(jī)的欺詐檢測(cè) (AAAI 2021),第三個(gè)是我們?cè)诳山忉尫矫嫣岢龅睦脤蛹?jí)可解釋網(wǎng)絡(luò)建模用戶行為序列的跨領(lǐng)域欺詐檢測(cè) (WWW 2020)。
一、基于神經(jīng)層級(jí)分解機(jī)的用戶事件序列分析
首先是基于神經(jīng)層級(jí)分解機(jī)的用戶事件序列分析。在支付業(yè)務(wù)中,每個(gè)人都從注冊(cè)系統(tǒng)、登錄系統(tǒng),再到把自己選擇的商品放入購物車,最后做交易或者付款。根據(jù)用戶的賬戶動(dòng)態(tài),我們可以判定下次付款到底是不是一個(gè)欺詐行為。用戶的賬戶動(dòng)態(tài)有豐富的數(shù)據(jù)序列信息可供利用。單純只關(guān)注特征組合的工作或者單純關(guān)注序列信息的工作,都只能從單獨(dú)的角度去建模用戶事件序列行為,每個(gè)事件僅通過簡(jiǎn)單的嵌入、拼接或者全連接,而難以獲得更好的事件表示。我們希望設(shè)立一個(gè)層次化的模型同時(shí)結(jié)合這兩方面進(jìn)行建模,從而對(duì)欺詐檢測(cè)進(jìn)行分析。
右圖有兩個(gè)案例,一個(gè)是我們?cè)诙拱晟峡戳穗娪埃ㄈ鐖D1),同樣也是一個(gè)用戶行為序列,這里面最大的一個(gè)貢獻(xiàn)是怎么去做這個(gè)事件的表示。我們剛才看到,每個(gè)事件實(shí)際上都包含了很多的特征。
如圖2所示,一個(gè)事件的特征包含X1到Xn這么多個(gè)特征。我們?cè)谟脩舻氖录蛄欣铮╡1到eT的T個(gè)事件,每個(gè)事件在場(chǎng)景里面有56個(gè)特征,包括50個(gè)類別型特征和6個(gè)數(shù)字型特征。事件內(nèi)部的特征之間的組合實(shí)際上更具判別性地來判定、預(yù)測(cè)欺詐檢驗(yàn)。例如在1分鐘之內(nèi)進(jìn)行的跨國(guó)交易,我們就很容易判斷這是一筆盜卡行為。我們希望用FM模型去建模這種特征組合關(guān)系。FM是一種在嵌入空間中自動(dòng)進(jìn)行二階特征組合的模型??匆幌拢▓D2)事件的表示:vi跟vj是兩個(gè)特征的向量化的空間的表示,它是兩兩特征之間的一個(gè)組合,Xi跟Xj實(shí)際上是一個(gè)權(quán)重的表示。最后我們會(huì)得到一個(gè)事件的表示,從特征的交互得到一個(gè)特征的事件表示。
當(dāng)這個(gè)事件表示完后,我們希望得到一個(gè)比較好的序列表示,即我們對(duì)這個(gè)序列進(jìn)行提取一個(gè)比較好的特征表示。每個(gè)用戶序列實(shí)際上包含多個(gè)事件,兩個(gè)事件組合發(fā)生,對(duì)欺詐行為檢測(cè)更具有判別性。同樣的,我們也希望去考慮事件之間的序列的影響。比如說我們先做A事件再做B事件,可能會(huì)導(dǎo)致欺詐的可能性變大。我們希望我們的模型能夠去建模這種序列的影響。從剛才的角度出發(fā),事件組合的建模,我們用S來表示,同樣也是因子分解機(jī)去做的。不同事件兩兩組合,qi和qj也是它的一個(gè)權(quán)重。對(duì)于序列影響,我們從兩方面去考慮,一是從事件自身的重要性去考慮,它有一個(gè)自注意力機(jī)制來表示就是Sself;還有一個(gè)是我們用RNN網(wǎng)絡(luò)來去建模事件的歷史序列行為信息,也就是雙向的LSTM去建模。最后,我們可得出這個(gè)序列是由三部分組成:事件的組合;事件的自注意力機(jī)制;事件本身具有的一個(gè)特征。把三者組合在一起得到整體的序列表示。
右邊這張圖是我們提出的一個(gè)框架,也叫做神經(jīng)層級(jí)分解機(jī)。從底部開始,是有事件的特征。我們對(duì)哪個(gè)事件特征進(jìn)行編碼后,就可以去做這個(gè)事件的表示,學(xué)習(xí)做這個(gè)序列的提取。提取后,我們可以看到模型做一個(gè)多層感知機(jī)的輸出。我們同樣可以在這個(gè)Feature上面去做一個(gè)線性的分類。最終我們把這兩部分當(dāng)成一個(gè)Sigmoid的一個(gè)參數(shù),得到0到1之間的輸出,我們最終的一個(gè)優(yōu)化函數(shù)其實(shí)是一個(gè)交叉熵的損失函數(shù),N是對(duì)所有有標(biāo)記的數(shù)據(jù)進(jìn)行學(xué)習(xí)。這是我們的模型的一個(gè)框架。
在這個(gè)實(shí)驗(yàn)中,我們利用工業(yè)界里面的一個(gè)真實(shí)的數(shù)據(jù)集。例如LAZADA這樣一個(gè)東南亞的電商平臺(tái),我們從這個(gè)平臺(tái)上面拿到了三個(gè)國(guó)家的數(shù)據(jù)集。這個(gè)數(shù)據(jù)集正例是欺詐行為,負(fù)例是正常的交易行為,可以看到正常交易行為和異常的欺詐行為,相差非常大、類別非常不平衡。我們的公開數(shù)據(jù)集上、電影上的數(shù)據(jù)集也做了一個(gè)實(shí)驗(yàn)。在基準(zhǔn)的算法比較上,我們采用了比較先進(jìn)的一些算法,比如W&D(Wide & deep)寬度和深度,還有NFM、DeepFM、xDeepFM,以及M3利用混合模型同時(shí)學(xué)習(xí)序列的長(zhǎng)短期依賴的模型。
我們的評(píng)價(jià)指標(biāo)是采用真實(shí)工業(yè)場(chǎng)景里面比較關(guān)注的低用戶打擾率時(shí)的召回率,即我們?cè)诮o出結(jié)果時(shí),我們希望對(duì)前面頭部的百分之多少的用戶打電話告訴他們這可能是一個(gè)欺詐行為。例如打1000個(gè)電話,這1000個(gè)應(yīng)該都是有欺詐行為,即這個(gè)比例應(yīng)該是越高越好的,因此我們采用的評(píng)價(jià)指標(biāo)更關(guān)注于ROC曲線的頭部(FPR<=1%) 。這里面有一個(gè)消融的
審核編輯 :李倩
-
模型
+關(guān)注
關(guān)注
1文章
3066瀏覽量
48580 -
STM
+關(guān)注
關(guān)注
1文章
555瀏覽量
42318
原文標(biāo)題:【北航莊福振分享】NN模型在金融風(fēng)控場(chǎng)景中的應(yīng)用
文章出處:【微信號(hào):IEEE_China,微信公眾號(hào):IEEE電氣電子工程師】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論