AlphaPose升級(jí)了!上海交大MVIG組(盧策吾團(tuán)隊(duì))構(gòu)建了CrowdPose數(shù)據(jù)集,用來(lái)衡量算法在擁擠場(chǎng)景中的性能。同時(shí)提出了一個(gè)高效的算法來(lái)解決擁擠人群中的姿態(tài)估計(jì)問(wèn)題,實(shí)驗(yàn)結(jié)果遠(yuǎn)高于當(dāng)前最好的算法。
AlphaPose升級(jí)了!
擁擠人群場(chǎng)景下的AlphaPose
這個(gè)實(shí)時(shí)多人姿態(tài)估計(jì)系統(tǒng),現(xiàn)在可以處理最具挑戰(zhàn)的擁擠人群場(chǎng)景了:
上海交大MVIG組(盧策吾團(tuán)隊(duì))建了一個(gè)新的數(shù)據(jù)集——CrowdPose,用來(lái)衡量算法在擁擠場(chǎng)景中的性能;
同時(shí)提出了一個(gè)高效的算法來(lái)解決擁擠人群中的姿態(tài)估計(jì)問(wèn)題:相比OpenPose提升18mAP、相比Mask-RCNN提升8mAP。
論文已被CVPR2019接收。
論文鏈接:
https://arxiv.org/abs/1812.00324
代碼鏈接:
https://github.com/MVIG-SJTU/AlphaPose
CrowdPose——擁擠人群姿態(tài)估計(jì)數(shù)據(jù)集
為了衡量人體姿態(tài)估計(jì)算法的性能,學(xué)術(shù)界與工業(yè)界建立了越來(lái)越多的公開(kāi)數(shù)據(jù)集,如MPII,MSCOCO和AI Challenger。然而,這些數(shù)據(jù)集的圖片通常采集自日常的生活場(chǎng)景,缺乏擁擠人群場(chǎng)景的數(shù)據(jù)。
主流數(shù)據(jù)集的擁擠場(chǎng)景分布如圖1所示。對(duì)于由數(shù)據(jù)驅(qū)動(dòng)的深度學(xué)習(xí)方法來(lái)說(shuō),數(shù)據(jù)集的分布不均衡,意味著算法性能的不均衡。
圖1 主流公開(kāi)數(shù)據(jù)集于CrowdPose數(shù)據(jù)集的擁擠場(chǎng)景數(shù)據(jù)分布。三個(gè)主流數(shù)據(jù)集的數(shù)據(jù)中,非擁擠數(shù)據(jù)占據(jù)了絕大部分比例,而CrowdPose數(shù)據(jù)集有著均勻的數(shù)據(jù)分布。
隨著學(xué)術(shù)界對(duì)人體姿態(tài)研究的深入,算法追求像素級(jí)的精度,簡(jiǎn)單場(chǎng)景下的性能已經(jīng)逐步逼近人類(lèi)的精度,但在擁擠場(chǎng)景中往往會(huì)失效,如圖2所示。
圖2 隨著擁擠程度的加劇,現(xiàn)有開(kāi)源系統(tǒng)的性能急劇下降。相較于非擁擠的情況,擁擠時(shí)算法性能最多下降了20mAP。
針對(duì)這樣的情況,上海交大MVIG組的研究者開(kāi)源了CrowdPose數(shù)據(jù)集。CrowdPose數(shù)據(jù)集中的圖片,有著均勻分布的擁擠程度。既可以評(píng)估算法在日常非擁擠情況下的表現(xiàn),也可以評(píng)估其在極度擁擠時(shí)的性能。
目前,數(shù)據(jù)集開(kāi)源了2萬(wàn)張圖片,評(píng)估工具也已經(jīng)上線。在未來(lái)的幾個(gè)月時(shí)間內(nèi),研究者將會(huì)不斷擴(kuò)大數(shù)據(jù)的規(guī)模,開(kāi)源一個(gè)更大的數(shù)據(jù)集。
實(shí)時(shí)全局競(jìng)爭(zhēng)匹配算法
在擁擠人群的場(chǎng)景下,傳統(tǒng)的二步法模型往往會(huì)失效。主要原因在于:人群過(guò)于密集,重合程度太高,每個(gè)人的位置難以用人體檢測(cè)框表示。
圖3 人體檢測(cè)框難以表達(dá)人的位置。
研究者們提出了一個(gè)全局競(jìng)爭(zhēng)匹配算法,減少了姿態(tài)估計(jì)模型對(duì)于人體框的依賴(lài),同時(shí)提高了模型對(duì)于復(fù)雜人體場(chǎng)景的魯棒性,在擁擠場(chǎng)景中的表現(xiàn)超越了現(xiàn)有的方法。
圖4 本研究中的全局競(jìng)爭(zhēng)匹配算法概覽。模型對(duì)于每個(gè)檢測(cè)到的人體框輸出一系列候選關(guān)鍵點(diǎn)。人體實(shí)例與關(guān)鍵點(diǎn)實(shí)例構(gòu)建成一個(gè)稀疏圖模型。通過(guò)求解稀疏圖模型的最佳匹配問(wèn)題,可得到全局最優(yōu)的人體姿態(tài)估計(jì)方案,對(duì)密集擁擠的場(chǎng)景有很強(qiáng)的魯棒性。
研究者們?cè)O(shè)計(jì)了一個(gè)關(guān)節(jié)點(diǎn)候選損失函數(shù),通過(guò)控制模型輸出響應(yīng)程度不同的多峰值熱度圖,在人體框不準(zhǔn)確的情況下,模型盡可能地輸出候選關(guān)節(jié)點(diǎn)可能的位置。
在得到每個(gè)人體框的候選關(guān)節(jié)點(diǎn)后,通過(guò)聚類(lèi)與鏈接,消除冗余結(jié)果的同時(shí),構(gòu)建出一個(gè)人體實(shí)例-候選關(guān)節(jié)的圖模型。該圖模型表征了人體實(shí)例與每個(gè)關(guān)節(jié)點(diǎn)之間的連接關(guān)系與概率。
借助此模型,人體姿態(tài)估計(jì)問(wèn)題可轉(zhuǎn)化成圖模型中的最佳匹配問(wèn)題。由于人體姿態(tài)問(wèn)題的特殊,該圖模型具有很強(qiáng)的稀疏性,經(jīng)過(guò)研究者們的分析,優(yōu)化匹配問(wèn)題的時(shí)間復(fù)雜度與傳統(tǒng)的NMS算法相當(dāng)。
該方法由于建立了一個(gè)全局的圖模型,在匹配過(guò)程中考慮到了整體的連接方式,因此能很好地改善了二步法中缺乏全局視野的不足。
姿態(tài)估計(jì)各場(chǎng)景性能大幅提升
在實(shí)驗(yàn)中,研究者們對(duì)比了該算法與其他開(kāi)源系統(tǒng)與算法之間的性能。
在CrowdPose數(shù)據(jù)集中,比當(dāng)前最好的算法提升了5.2mAP。除此之外,在極度擁擠的子集中,提升了6.2mAP。相較于OpenPose和Detectron(Mask R-CNN)等姿態(tài)估計(jì)開(kāi)源系統(tǒng),性能提升的同時(shí),運(yùn)行速度快了2到3倍。
表1 在CrowdPose數(shù)據(jù)集上的定量對(duì)比實(shí)驗(yàn)
表2 三個(gè)場(chǎng)景子集中的性能評(píng)估與運(yùn)行速度對(duì)比(簡(jiǎn)單、一般、擁擠)。
本文的方法分?jǐn)?shù)提升的同時(shí),運(yùn)行速度也大大增強(qiáng)。
未來(lái)方向
論文中,研究者們提出了一種新的競(jìng)爭(zhēng)匹配模型,以解決擁擠場(chǎng)景的人體姿態(tài)檢測(cè)問(wèn)題。接下來(lái),研究者們會(huì)優(yōu)化競(jìng)爭(zhēng)匹配模型,對(duì)其他形式的擁擠檢測(cè)問(wèn)題(如擁擠實(shí)例分割)開(kāi)展進(jìn)一步研究。
-
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1198瀏覽量
24592 -
開(kāi)源系統(tǒng)
+關(guān)注
關(guān)注
0文章
25瀏覽量
13668 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5439瀏覽量
120794
原文標(biāo)題:AlphaPose升級(jí)!上海交大盧策吾團(tuán)隊(duì)開(kāi)源密集人群姿態(tài)估計(jì)代碼
文章出處:【微信號(hào):AI_era,微信公眾號(hào):新智元】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論