0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一份深度學(xué)習(xí)“人體姿勢估計(jì)”全指南,從DeepNet到HRNet

電子工程師 ? 來源:lq ? 2019-05-08 17:10 ? 次閱讀

從DeepNet到HRNet,這有一份深度學(xué)習(xí)“人體姿勢估計(jì)”全指南

幾十年來,人體姿態(tài)估計(jì)(Human Pose estimation)在計(jì)算機(jī)視覺界備受關(guān)注。它是理解圖像和視頻中人物行為的關(guān)鍵一步。

在近年深度學(xué)習(xí)興起后,人體姿態(tài)估計(jì)領(lǐng)域也發(fā)生了翻天覆地的變化。

今天,文摘菌就從深度學(xué)習(xí)+二維人體姿態(tài)估計(jì)的開山之作DeepPose開始講起,為大家盤點(diǎn)近幾年這一領(lǐng)域的最重要的論文。

什么是人體姿勢估計(jì)?

人體姿態(tài)估計(jì)(Human Pose Estimation,以下簡稱為HPE)被定義為圖像或視頻中,人體關(guān)節(jié)(也被稱為關(guān)鍵點(diǎn)-肘部、手腕等)的定位問題。它也被定義為,在所有關(guān)節(jié)姿勢組成的空間中搜索特定姿勢。

二維姿態(tài)估計(jì)-運(yùn)用二維坐標(biāo)(x,y)來估計(jì)RGB圖像中的每個(gè)關(guān)節(jié)的二維姿態(tài)。

三維姿態(tài)估計(jì)-運(yùn)用三維坐標(biāo)(x,y,z)來估計(jì)RGB圖像中的三維姿態(tài)。

HPE有一些非??岬膽?yīng)用,在動(dòng)作識(shí)別(action recognition)、動(dòng)畫(animation)、游戲(gaming)等領(lǐng)域都有著廣泛的應(yīng)用。例如,一個(gè)非?;鸬纳疃葘W(xué)習(xí)APP —— HomeCourt,可以使用姿態(tài)估計(jì)(Pose Estimation)來分析籃球運(yùn)動(dòng)員的動(dòng)作。

為什么人體姿勢估計(jì)這么難?

靈活、小而幾乎看不見的關(guān)節(jié)、遮擋、衣服和光線變化都為人體姿態(tài)估計(jì)增加了難度。

二維人體姿態(tài)估計(jì)的不同方法

傳統(tǒng)方法

關(guān)節(jié)姿態(tài)估計(jì)的傳統(tǒng)方法是使用圖形結(jié)構(gòu)框架。這里的基本思想是,將目標(biāo)對(duì)象表示成一堆“部件(parts)”的集合,而部件的組合方式是可以發(fā)生形變的(非死板的)。

一個(gè)部件表示目標(biāo)對(duì)象某部分圖形的模板?!皬椈伞憋@示部件之間的連接方式,當(dāng)部件通過像素位置和方向進(jìn)行參數(shù)化后,其所得到的結(jié)構(gòu)可以對(duì)與姿態(tài)估計(jì)非常相關(guān)的關(guān)節(jié)進(jìn)行建模。(結(jié)構(gòu)化預(yù)測任務(wù))

然而,上述方法的局限性在于,姿勢模型并非構(gòu)建在圖像數(shù)據(jù)之上。因此,研究者把大部分精力都放在了構(gòu)建更具表現(xiàn)力的模型上了。

可形變部件模型(Deformable part models)- Yang和Ramanan使用表示復(fù)雜關(guān)節(jié)關(guān)系的部件混合模型。可形變部件模型是一個(gè)模板集合,這些模板的組合方式是可發(fā)生形變的,每個(gè)模型都有全局模板+部件模板。這些模板與圖像相匹配用以以識(shí)別/檢測對(duì)象,這種基于部件的模型可以很好地模擬關(guān)節(jié)。然而,這是以有限的表現(xiàn)力為代價(jià)實(shí)現(xiàn)的,并沒有用到全局信息

基于深度學(xué)習(xí)的方法

傳統(tǒng)姿態(tài)估計(jì)方法有其難以克服的局限性,但這一局面因?yàn)镃NN的出現(xiàn)而被打破。隨著Toshev等人對(duì)“DeepPose”的引入,人體姿態(tài)估計(jì)的研究開始從傳統(tǒng)方法轉(zhuǎn)向深度學(xué)習(xí)。

近年來,大多數(shù)姿態(tài)估計(jì)系統(tǒng)(pose estimation systems)都普遍采用ConvNets作為其主構(gòu)模塊,這在很大程度上取代了手工制作的特征和圖形模板;這種方法相比傳統(tǒng)方法取得了巨大提升。

在下一節(jié)中,我將按時(shí)間順序總結(jié)幾篇論文,這些論文代表了HPE的演進(jìn),從google的DeepPose開始(這不是一個(gè)詳盡的列表,而是一個(gè)個(gè)人認(rèn)為能夠顯示該領(lǐng)域最近進(jìn)展和會(huì)議重要成果的論文合集)。

論文涵蓋

1. DeepPose

2. 使用卷積網(wǎng)絡(luò)的高效目標(biāo)定位(Efficient Object Localization Using Convolutional Networks)

3. 卷積姿態(tài)機(jī)(Convolutional Pose Machines)

4. 基于誤差反饋的人體姿態(tài)估計(jì)(Human Pose Estimation with Iterative Error Feedback)

5. 用于人體姿態(tài)估計(jì)的堆疊式沙漏網(wǎng)絡(luò)(Stacked Hourglass Networks for Human Pose Estimation)

6. 人體姿態(tài)估計(jì)和跟蹤的簡單基線(Simple Baselines for Human Pose Estimation and Tracking)

7. 人體姿態(tài)估計(jì)的高分辨率深度學(xué)習(xí)(Deep High-Resolution Representation Learning for Human Pose Estimation)

DeepPose:通過深度神經(jīng)網(wǎng)絡(luò)(CVPR'14)進(jìn)行人體姿態(tài)估計(jì)

DeepPose是第一篇將深度學(xué)習(xí)應(yīng)用于HPE的重要論文。它實(shí)現(xiàn)了SOTA(state of the art)性能并擊敗了現(xiàn)有的模型。在這種方法中,姿勢估計(jì)被表述為一個(gè)基于CNN的身體關(guān)節(jié)回歸問題。

他們還使用一系列這樣的回歸器來改進(jìn)姿勢估計(jì)并獲得更好的估計(jì)結(jié)果。這種方法所做的一件重要事情是以整體的方式評(píng)估姿勢,也就是說,即使某些關(guān)節(jié)是隱藏的,如果擺出的姿勢是作為一個(gè)整體,也可以對(duì)其進(jìn)行估計(jì)。本文認(rèn)為,CNN很自然地提供了這種推理,并通過結(jié)果證明了其強(qiáng)大。

模型

該模型由一個(gè)Alexnet后端(7層)和一個(gè)額外的最終層組成,這個(gè)最終層的輸出為2k關(guān)節(jié)坐標(biāo)。(xi,yi)?2fori∈{1,2…k},k為關(guān)節(jié)數(shù)量

使用L2損失對(duì)模型進(jìn)行回歸訓(xùn)練。

這個(gè)模型實(shí)現(xiàn)的一個(gè)有趣的想法是,使用級(jí)聯(lián)回歸器(cascaded regressors)對(duì)預(yù)測進(jìn)行細(xì)化,從而對(duì)初始的粗糙預(yù)測進(jìn)行了改進(jìn),得到較好的估計(jì)。圖像被剪切到預(yù)測到的關(guān)節(jié)周圍,并被送入下一階段,這樣,后續(xù)的姿勢回歸器可以看到更高分辨率的圖像,從而學(xué)習(xí)更細(xì)比例的特征,從而最終獲得更高的精度。

結(jié)果

本文使用了LSP(Leeds sports dataset,利茲[2]運(yùn)動(dòng)數(shù)據(jù)集)和FLIC(Frames Labeled In Cinema,電影院標(biāo)記幀)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn),并以PCP(Percentage of Correct Parts,部件正確率)指標(biāo)和其他方法進(jìn)行了比較。查看附錄,可以找到一些主流的評(píng)估指標(biāo)(如PCP&PCK)的定義。

評(píng)語

本文將深度學(xué)習(xí)(CNN)應(yīng)用于人體姿勢估計(jì)(HPE),并在這方面啟發(fā)了大量研究。

回歸到XY位置是比較困難的,并且增加了學(xué)習(xí)復(fù)雜性,這削弱了其泛化能力,因此在某些區(qū)域表現(xiàn)不佳。

最近的SOTA方法將問題轉(zhuǎn)化為估算尺寸為W0×H0,{H1,H2,...,Hk} 的K個(gè)熱圖(heatmap),其中每個(gè)熱圖中Hk表示kth關(guān)鍵點(diǎn)的位置置信度(共K個(gè)關(guān)鍵點(diǎn))。下一篇論文將重點(diǎn)介紹這一觀點(diǎn)。

使用卷積網(wǎng)絡(luò)(CVPR'15)進(jìn)行有效的目標(biāo)定位

這種方法通過并行方式對(duì)圖像進(jìn)行多分辨率處理來生成一組熱圖(heatmap),同時(shí)在不同的尺度上捕獲特征。輸出的結(jié)果是一個(gè)離散的熱圖而不是連續(xù)回歸。熱圖預(yù)測關(guān)節(jié)在每個(gè)像素發(fā)生的概率。這個(gè)輸出模型是非常成功的,很多后續(xù)論文都是預(yù)測熱圖而不是直接回歸。

模型

采用多分辨率CNN結(jié)構(gòu)(粗糙熱圖模型)實(shí)現(xiàn)滑動(dòng)窗口探測器,從而產(chǎn)出粗糙熱圖。

本文的主要目的是恢復(fù)初始模型中,由于池化而造成的空間精度損失。他們通過使用一個(gè)額外的“姿態(tài)優(yōu)化”——ConvNet來實(shí)現(xiàn)這一點(diǎn),ConvNet可以優(yōu)化粗糙熱圖的定位結(jié)果。

但是,與標(biāo)準(zhǔn)的級(jí)聯(lián)模型不同,它們重用現(xiàn)有的卷積特性。這不僅減少了級(jí)聯(lián)中可訓(xùn)練參數(shù)的數(shù)量,而且由于粗糙模型和精細(xì)模型是聯(lián)合訓(xùn)練的,因此可以作為粗熱圖模型的調(diào)節(jié)器。

從本質(zhì)上講,該模型包括用于粗定位的基于熱圖的部件模型、用于在每個(gè)關(guān)節(jié)的指定(x,y)位置采樣和裁剪卷積特征的模塊以及用于微調(diào)的附加卷積模型。

這種方法的一個(gè)關(guān)鍵特征是聯(lián)合使用一個(gè)ConvNet和一個(gè)圖形模型,圖形模型學(xué)習(xí)關(guān)節(jié)之間的典型空間關(guān)系。

訓(xùn)練

該模型通過最小化我們的預(yù)測熱圖到目標(biāo)熱圖的均方誤差(MSE,Mean Squared-Error)距離進(jìn)行訓(xùn)練(目標(biāo)是以標(biāo)準(zhǔn)真值(x,y)關(guān)節(jié)位置為中心的二維常方差高斯(σ≈1.5像素))。

結(jié)果

評(píng)論

熱圖比直接關(guān)節(jié)回歸更有效。

聯(lián)合使用CNN和圖形模型(Graphical Model)

然而,這些方法缺乏結(jié)構(gòu)建模。由于受限于身體部位比例、左右對(duì)稱性、穿插限制、關(guān)節(jié)限制(例如肘部不向后彎曲)和物理連接(例如手腕與肘部的精確相關(guān))等約束,二維人體姿勢呈現(xiàn)出高度結(jié)構(gòu)化。對(duì)這種結(jié)構(gòu)約束進(jìn)行建模,應(yīng)該可以更容易地確定可見的關(guān)鍵點(diǎn),并使咬合處關(guān)鍵點(diǎn)估計(jì)成為可能。接下來的幾篇論文,他們將用一些新穎方式來解決這個(gè)問題。

卷積擺位機(jī)(CVPR'16)(Convolutional Pose Machines)

摘要

這是一篇有趣的論文,使用了一種稱為姿態(tài)機(jī)(Pose Machine)的東西。姿態(tài)機(jī)由圖像特征計(jì)算模塊和預(yù)測模塊組成。卷積式姿態(tài)機(jī)是完全可微分的,其多級(jí)結(jié)構(gòu)可以進(jìn)行端到端的訓(xùn)練。它們?yōu)閷W(xué)習(xí)豐富的隱式空間模型提供了一個(gè)連續(xù)的預(yù)測框架,其對(duì)人體姿勢的預(yù)測效果非常好。

本文的一個(gè)主要?jiǎng)訖C(jī)是學(xué)習(xí)長范圍的空間關(guān)系,它們表明,這可以通過使用更大的感受野(receptive fields)來實(shí)現(xiàn)。

模型

g1()和g2()預(yù)測熱圖(即論文中的信念圖(belief maps)),整體架構(gòu)如上圖所示。Stage1是圖像特征計(jì)算模塊,Stage2是預(yù)測模塊;下面是一個(gè)詳細(xì)的架構(gòu)。

CPM(卷積姿態(tài)機(jī))通常包含不止兩個(gè)階段,階段數(shù)目一般來講都是超參數(shù),通常取3。第一階段是固定的,大于2的階段一般都只是階段2的重復(fù)。第2階段將熱圖和圖像證據(jù)作為輸入。輸入的熱圖為下一個(gè)階段增添了空間背景。(已經(jīng)在論文中進(jìn)行了詳細(xì)的闡述與討論)

總體來說,CPM通過后續(xù)階段來對(duì)熱圖進(jìn)行細(xì)化。

論文在每一個(gè)階段都會(huì)使用中間監(jiān)督學(xué)習(xí),從而來避免梯度消失的問題,這是一個(gè)深度多層神經(jīng)網(wǎng)絡(luò)的常見問題。

結(jié)論/結(jié)果

MPII:PCKh-0.5得分達(dá)到87.95%的水平狀態(tài),比最接近的競爭者高出6.11%,值得注意的是,在腳踝(最具挑戰(zhàn)性的部分),我們的PCKh@0.5得分是78.28%,這比最接近的競爭對(duì)手高出了10.76%。

LSP:模型達(dá)到84.32%的水平狀態(tài)(添加MPII訓(xùn)練數(shù)據(jù)時(shí)為90.5%)。

評(píng)論

介紹了一種新穎的CPM框架,該框架顯示了MPII,F(xiàn)LIC和LSP數(shù)據(jù)集的SOTA性能。

基于誤差反饋的人體姿態(tài)估計(jì)(CVPR’16)

摘要

這是一篇內(nèi)容豐富并非常復(fù)雜的論文,我試圖簡單地總結(jié)一下,希望不會(huì)遺漏太多。整個(gè)工作的思想非常直接:預(yù)測當(dāng)前估計(jì)的錯(cuò)誤并迭代糾正。引用作者的論述,他們不是一次性直接預(yù)測輸出,而是使用自校正模型,通過反饋誤差預(yù)測逐步改變初始解決方案,這個(gè)過程稱為迭代誤差反饋(IEF)。

讓我們來看看模型吧。

輸入由圖像I和前一輸出yt?1的表示組成。請記住,這是一個(gè)迭代的過程,相同的輸出在不斷地迭代過程中會(huì)慢慢地得到改進(jìn)。

輸入,xt=I⊕g(yt-1) 其中I是圖像,而yt-1是前一個(gè)輸出。

f(yt)輸出校正εt,并將其添加到當(dāng)前輸出yt,以生成yt+1,并且這里面還包含了校正更新的過程。

g(yt+1)中的每個(gè)關(guān)鍵點(diǎn)yt+1轉(zhuǎn)換為熱圖通道,以便它們可以堆疊到圖像I中,進(jìn)而也是為了形成下一個(gè)迭代過程的輸入。這個(gè)過程重復(fù)T次,直到我們得到一個(gè)精煉的yt+1,并通過添加εt,進(jìn)而來更接近標(biāo)準(zhǔn)真值。

在數(shù)學(xué)上,

?t=f(xt)

yt+1=yt+?t

xt+1=I⊕g(yt+1)

f和g是可學(xué)習(xí)的,f 是一個(gè)CNN。

需要注意的一點(diǎn)是,當(dāng)ConvNet f() 將I⊕g(t)作為輸入時(shí),它能夠?qū)W習(xí)關(guān)節(jié)輸入- 輸出空間的特征,這是非??岬?。

參數(shù) Θg和Θf是通過優(yōu)化以下等式來學(xué)習(xí):

其中,?t和(y,yt)是被預(yù)測出來的,并且分別是修正的目標(biāo)。函數(shù)(h)是距離的度量,例如二次損失。T是模型采取的修正步驟的數(shù)目。

案例

如你所見,姿勢在校正步驟中得到了改進(jìn)。

結(jié)果

評(píng)論

這是一篇非常好的論文,它介紹了一個(gè)新穎的算法,并且運(yùn)作良好。

用于人體姿態(tài)估計(jì)的堆疊式沙漏網(wǎng)絡(luò)

這是一篇具有里程碑意義的論文,它引入了一種新穎而直觀的架構(gòu),并擊敗了以往的所有方法。它被稱為堆疊式沙漏網(wǎng)絡(luò),因?yàn)榫W(wǎng)絡(luò)包括池化和上采樣層的步驟,這些層看起來像沙漏,并且這些被堆疊在一起。沙漏的設(shè)計(jì)是由于需要捕獲各種規(guī)模的信息。

雖然本地證據(jù)對(duì)于識(shí)別面部手等特征至關(guān)重要,但最終的姿勢估計(jì)需要全局背景。用于識(shí)別人的方向,肢體的排列以及相鄰關(guān)節(jié)的關(guān)系等內(nèi)容的線索,最好是在圖像的不同尺度中尋找(較小的分辨率捕獲更高階的特征和全局背景)。

網(wǎng)絡(luò)通過中間監(jiān)督執(zhí)行自下而上,自上而下的處理

自下而上處理(從高分辨率到低分辨率)自上而下處理(從低分辨率到高分辨率)

網(wǎng)絡(luò)使用skip connection來保留每個(gè)分辨率的空間信息,并將其傳遞給上采樣,進(jìn)一步沿著沙漏進(jìn)行傳遞。

每個(gè)盒子都是一個(gè)殘留模塊,如下圖所示;

中間監(jiān)督

中間監(jiān)督被應(yīng)用于每個(gè)沙漏階段的預(yù)測,即監(jiān)督堆棧中每個(gè)沙漏的預(yù)測,而不僅僅是最終的沙漏預(yù)測。

結(jié)果

它為什么這么好用呢?

沙漏可以捕獲各種規(guī)模的信息。通過這種方式,全局和本地信息都可以被完全捕獲并被網(wǎng)絡(luò)用于學(xué)習(xí)預(yù)測。

人體姿勢估計(jì)和跟蹤的簡單基線

以前的方法運(yùn)行的效果很好但是都很復(fù)雜。這項(xiàng)工作伴隨著提出來這樣一個(gè)問題。為啥不用一個(gè)簡單的模型?該模型在COCO上實(shí)現(xiàn)了73.7%的mAP創(chuàng)紀(jì)錄水平。網(wǎng)絡(luò)結(jié)構(gòu)非常簡單,最后由一個(gè)ResNet 和幾個(gè)反卷積層組成。(可能是估算熱圖的最簡單方法)

雖然沙漏網(wǎng)絡(luò)使用上采樣來增加特征圖分辨率并將卷積參數(shù)放入其他塊中,但此方法以非常簡單的方式將它們組合為反卷積層。令人驚訝的是,這樣一個(gè)簡單的架構(gòu)比具有skip connections的架構(gòu)表現(xiàn)更好,并且保留了每個(gè)分辨率的信息。

均方誤差(MSE)用作預(yù)測的熱圖和目標(biāo)熱圖之間的損失。關(guān)節(jié)k的目標(biāo)熱圖Hk是通過在第k個(gè)關(guān)節(jié)的標(biāo)準(zhǔn)真值位置上以std dev = 1像素為中心應(yīng)用2D高斯來生成的。

結(jié)果

用于人體姿勢估計(jì)的深度高分辨率表示學(xué)習(xí)[HRNet] (CVPR’19)

HRNet(高分辨率網(wǎng)絡(luò))模型在COCO數(shù)據(jù)集中的關(guān)鍵點(diǎn)檢測,多人姿態(tài)估計(jì)和姿態(tài)估計(jì)等任務(wù)上的表現(xiàn)均優(yōu)于現(xiàn)有方法,它是最新的。

HRNet遵循一個(gè)非常簡單的想法。以前的大多數(shù)論文都來自高→低→高分辨率表示。HRNet 在整個(gè)過程中都保持高分辨率的表示,并且這非常有效。

該架構(gòu)從作為第一階段的高分辨率子網(wǎng)開始,逐步逐個(gè)添加高到低分辨率的子網(wǎng),以形成更多的階段并連接并行的多分辨率子網(wǎng)。

通過在整個(gè)過程中反復(fù)進(jìn)行跨越多分辨率并行子網(wǎng)絡(luò)的信息交換來實(shí)現(xiàn)多尺度融合。

另一些專業(yè)人士認(rèn)為,與堆疊式沙漏不同,這種架構(gòu)不使用中間熱圖監(jiān)督學(xué)習(xí)。

使用MSE損失對(duì)熱圖進(jìn)行回歸復(fù)原,類似于簡單的基線。

結(jié)果

以下是其他一些我認(rèn)為也非常有趣的論文:

Flowing ConvNets for Human Pose Estimation in Videos (ICCV’15)[arXiv]

Learning Feature Pyramids for Human Pose Estimation (ICCV’17) [arXiv][code]

Realtime Multi-Person 2D Pose Estimation using Part Affinity Fields (CVPR’17)[arXiv][code]: Very popular real-time multi-person pose estimator (Better known as OpenPose)

Multi-Context Attention for Human Pose Estimation (CVPR’17)[arXiv][code]

Cascaded Pyramid Network for Multi-Person Pose Estimation (CVPR’18)[arXiv][code]

附錄

通用評(píng)估指標(biāo)

需要評(píng)估指標(biāo)來衡量人體姿勢估計(jì)模型的性能。

正確部件的百分比 - PCP:如果兩個(gè)預(yù)測的關(guān)節(jié)位置與真實(shí)肢體關(guān)節(jié)位置之間的距離小于肢體長度的一半(通常表示為PCP@0.5),則認(rèn)為肢體被檢測到(正確的部分)。

它測量肢體的檢出率。結(jié)果是,由于較短的肢體具有較小的閾值,因此它會(huì)對(duì)較短的肢體進(jìn)行懲罰。

PCP(正確部件的百分比)越高,模型越好。

正確關(guān)鍵點(diǎn)的百分比 - PCK:如果預(yù)測關(guān)節(jié)與真實(shí)關(guān)節(jié)之間的距離在特定閾值內(nèi),則檢測到的關(guān)節(jié)被認(rèn)為是正確的。閾值可以是:

PCKh@0.5表示閾值=頭骨鏈接的50%時(shí)

PCK@0.2 ==預(yù)測和真實(shí)關(guān)節(jié)之間的距離<0.2 *軀干直徑

有時(shí)將150 mm作為閾值。

緩解較短的肢體問題,因?yàn)檩^短的肢體具有較小的軀干和頭骨連接。

PCK通常被用于2D和3D(PCK3D)。再次強(qiáng)調(diào)聲明,越高越好。

檢測到的關(guān)節(jié)的百分比 - PDJ:如果預(yù)測關(guān)節(jié)和真實(shí)關(guān)節(jié)之間的距離在軀干直徑的某一部分內(nèi),則檢測到的關(guān)節(jié)被認(rèn)為是正確的。PDJ@0.2 =預(yù)測和真實(shí)關(guān)節(jié)之間的距離<0.2 *軀干直徑。

基于對(duì)象關(guān)鍵點(diǎn)相似度(OKS)的mAP:

常用于COCO關(guān)鍵點(diǎn)的挑戰(zhàn)。

其中di是檢測到的關(guān)鍵點(diǎn)與相應(yīng)的標(biāo)準(zhǔn)真值之間的歐幾里德距離,vi是標(biāo)準(zhǔn)真值的可見性標(biāo)志,s是對(duì)象尺度,ki控制衰減的每個(gè)關(guān)鍵點(diǎn)常量。

簡而言之,OKS扮演的角色與IoU在對(duì)象檢測中扮演的角色相同。它是根據(jù)人的尺度標(biāo)準(zhǔn)化的預(yù)測點(diǎn)和標(biāo)準(zhǔn)真值點(diǎn)之間的距離計(jì)算出來的。更多詳細(xì)信息,以及標(biāo)準(zhǔn)平均精度和召回分?jǐn)?shù)在論文中皆有報(bào)告:A P50(AP at OKS = 0.50) A P75, A P(the mean of A Pscores at 10 positions, OKS = 0.50, 0.55, . . . , 0.90, 0.95; A PMfor medium objects,A PMfor large objects, andA R(Average recall) at OKS = 0.50, 0.55, . . . , 0.90, 0.955。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 圖像
    +關(guān)注

    關(guān)注

    2

    文章

    1078

    瀏覽量

    40345
  • 數(shù)據(jù)集
    +關(guān)注

    關(guān)注

    4

    文章

    1197

    瀏覽量

    24590
  • 深度學(xué)習(xí)
    +關(guān)注

    關(guān)注

    73

    文章

    5431

    瀏覽量

    120790

原文標(biāo)題:從DeepNet到HRNet,這有一份深度學(xué)習(xí)“人體姿勢估計(jì)”全指南

文章出處:【微信號(hào):BigDataDigest,微信公眾號(hào):大數(shù)據(jù)文摘】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一份verilog HDL的視頻教程

    本人想通過業(yè)余時(shí)間自學(xué)FPGA開發(fā)由于沒有好的學(xué)習(xí)習(xí)慣,因此想找一份點(diǎn)的視頻教程自學(xué),望各位大俠給小弟一份視頻教程的種子,本人將不盛感激
    發(fā)表于 09-22 22:06

    求教智能家居學(xué)習(xí)資料求一份

    智能家居學(xué)習(xí)資料求一份
    發(fā)表于 03-06 13:56

    大家誰有CM4權(quán)威指南PDF,能傳一份

    大家誰有CM4權(quán)威指南PDF,能傳一份嗎謝謝了
    發(fā)表于 01-17 14:20

    一份CMOS RF模型設(shè)計(jì)指南請查收

    一份CMOS RF模型設(shè)計(jì)指南請查收
    發(fā)表于 05-25 06:33

    深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用覽(附鏈接)精選資料分享

    這是一份深度學(xué)習(xí)在計(jì)算機(jī)視覺領(lǐng)域的超應(yīng)用預(yù)覽~簡單回顧的話,2006年Geof...
    發(fā)表于 07-28 07:35

    各位大佬, 求一份學(xué)習(xí)資料!

    各位大佬, 求一份學(xué)習(xí)資料!
    發(fā)表于 05-09 11:34

    基于遺傳優(yōu)化的自適應(yīng)凸松弛人體姿勢估計(jì)

    針對(duì)凸松弛方法在解決三維人體姿勢估計(jì)的問題時(shí)存在迭代次數(shù)較多、準(zhǔn)確度不高的不足,提出種基于遺傳優(yōu)化的自適應(yīng)凸松弛人體
    發(fā)表于 01-16 16:41 ?1次下載

    2019一份機(jī)器學(xué)習(xí)深度學(xué)習(xí)的最佳書單

    深度學(xué)習(xí)大神Ian Goodfellow, Yoshua Bengio, Aaron Courville合著的經(jīng)典著作,花書的大名也是家喻戶曉了,這本書被譽(yù)為深度學(xué)習(xí)圣經(jīng)。所以最好的方
    的頭像 發(fā)表于 03-29 11:39 ?4680次閱讀

    PyCharm + Docker:打造最舒適的深度學(xué)習(xí)煉丹爐

    一份深度學(xué)習(xí)煉丹教程!
    的頭像 發(fā)表于 07-05 15:15 ?2391次閱讀
    PyCharm + Docker:打造最舒適的<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>煉丹爐

    一份深度學(xué)習(xí)學(xué)習(xí)筆記資料合集

    這些課程專為已有定基礎(chǔ)(基本的編程知識(shí),熟悉 Python、對(duì)機(jī)器學(xué)習(xí)有基本了解),想要嘗試進(jìn)入人工智能領(lǐng)域的計(jì)算機(jī)專業(yè)人士準(zhǔn)備。介紹顯示:“深度學(xué)習(xí)是科技業(yè)最熱門的技能之
    發(fā)表于 09-01 08:00 ?5次下載
    <b class='flag-5'>一份</b><b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的<b class='flag-5'>學(xué)習(xí)</b>筆記資料合集

    基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)方法

    基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)方法通過構(gòu)建特定的神經(jīng)網(wǎng)絡(luò)架構(gòu),將提取的特征信息根據(jù)相應(yīng)的特征融合方法進(jìn)行信息關(guān)聯(lián)處理,最終獲得人體姿態(tài)
    發(fā)表于 03-22 15:51 ?5次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的二維<b class='flag-5'>人體</b>姿態(tài)<b class='flag-5'>估計(jì)</b>方法

    基于深度學(xué)習(xí)的二維人體姿態(tài)估計(jì)算法

    近年來人體姿態(tài)估計(jì)作為計(jì)算機(jī)視覺領(lǐng)域的熱點(diǎn),在視頻監(jiān)控、人機(jī)交互、智慧校園等領(lǐng)域具有廣泛的應(yīng)用前景。隨著神經(jīng)網(wǎng)絡(luò)的快速發(fā)展,采用深度學(xué)習(xí)方法進(jìn)行二維
    發(fā)表于 04-27 16:16 ?7次下載
    基于<b class='flag-5'>深度</b><b class='flag-5'>學(xué)習(xí)</b>的二維<b class='flag-5'>人體</b>姿態(tài)<b class='flag-5'>估計(jì)</b>算法

    Yoga AI單個(gè)圖像進(jìn)行3D姿勢估計(jì)

    電子發(fā)燒友網(wǎng)站提供《Yoga AI單個(gè)圖像進(jìn)行3D姿勢估計(jì).zip》資料免費(fèi)下載
    發(fā)表于 10-26 11:23 ?0次下載
    Yoga AI<b class='flag-5'>從</b>單個(gè)圖像進(jìn)行3D<b class='flag-5'>姿勢</b><b class='flag-5'>估計(jì)</b>

    分享一份的放大電路資料

    分享一份的放大電路的基本原理PPT資料,文章內(nèi)有部分截圖,文末附完整版PPT獲取方式。
    發(fā)表于 12-19 14:26 ?427次閱讀

    AI深度相機(jī)-人體姿態(tài)估計(jì)應(yīng)用

    我們非常高興地發(fā)布個(gè)新的代碼示例,展示虹科AI深度相機(jī)SDK的驚人功能。只需6行源代碼,您就可以實(shí)時(shí)準(zhǔn)確地估計(jì)和跟蹤人體姿態(tài)!我們最新的代碼示例使用AI機(jī)器
    的頭像 發(fā)表于 07-31 17:42 ?933次閱讀
    AI<b class='flag-5'>深度</b>相機(jī)-<b class='flag-5'>人體</b>姿態(tài)<b class='flag-5'>估計(jì)</b>應(yīng)用