0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

CMU的研究人員Yichong Xu等提出了一種半監(jiān)督算法排序回歸

zhKF_jqr_AI ? 來源:未知 ? 作者:李倩 ? 2018-07-08 09:56 ? 次閱讀

參數(shù)回歸(nonparametric regression)是一種在實踐中很有吸引力的方法,因為它非常靈活,對未知回歸函數(shù)的先驗結(jié)構(gòu)假定限制相對寬松。然而,相應(yīng)的代價是它需要大量標注數(shù)據(jù),且隨著維度的增加而指數(shù)級增長——所謂維度的詛咒(curse of dimensionality)。標注數(shù)據(jù)極為耗時耗力,而在很多場景下,序信息ordinal information)的獲取則相對而言成本較低。有鑒于此,CMU的研究人員Yichong Xu等提出了一種半監(jiān)督算法排序回歸(Ranking-Regression),結(jié)合少量標注樣本,加上大量未標注樣本的序信息,逃脫維度的詛咒。

非參數(shù)方法

在監(jiān)督學(xué)習(xí)問題中,我們有一些標注過的數(shù)據(jù)(觀測),然后尋找一個能夠較好地擬合這些數(shù)據(jù)的函數(shù)。

給定一些數(shù)據(jù)點,尋找擬合這些數(shù)據(jù)點的函數(shù),我們首先想到的就是線性回歸:

其中:

y為因變量(即目標變量);

w為模型的參數(shù);

X為觀測及其特征矩陣;

?為對應(yīng)于隨機、不可預(yù)測的模型錯誤的變量。

我們可以看到,線性回歸的過程,其實就是找出能夠最好地擬合觀測的參數(shù)w,因此,線性回歸屬于參數(shù)方法。

然而,線性回歸假定線性模型可以很好地擬合數(shù)據(jù),這一假定未必成立。很多數(shù)據(jù)之間的關(guān)系是非線性的,而且很難用線性關(guān)系逼近。在這種情況下,我們需要用其他模型才能較好地擬合數(shù)據(jù),比如,多項式回歸。

綠線為線性回歸,紅線為多項式回歸;圖片來源:ardianumam.wordpress.com

無論是線性回歸,還是多項式回歸,預(yù)先都對模型的結(jié)構(gòu)有比較強的假定,例如數(shù)據(jù)可以通過線性函數(shù)或多項式函數(shù)來擬合,而這些假定不一定成立。因此,許多場景下,我們需要使用非參數(shù)回歸,也就是說,我們不僅需要找到回歸函數(shù)的參數(shù),還需要找到回歸函數(shù)的結(jié)構(gòu)。

圖片來源:Brmccune;許可: CC BY-SA 3.0

例如,通常用于分類的K近鄰算法,其實還可以用于回歸。用于回歸的K近鄰算法,其基本流程和一般的用于分類的K近鄰算法差不多,唯一的區(qū)別是,分類時,目標變量的分類為它的最近鄰中最常見的分類(眾數(shù)),而回歸時,目標變量的值為它的最近鄰的均值(或中位數(shù))。用于回歸的K近鄰算法,就是一種非參數(shù)回歸方法。

當(dāng)然,非參數(shù)方法的靈活性不是沒有代價的。由于不僅回歸函數(shù)的參數(shù)未知,回歸函數(shù)的結(jié)構(gòu)也未知,相比參數(shù)方法,我們需要更多的標注數(shù)據(jù)來訓(xùn)練,以得到較好的結(jié)果。而隨著維度的增加,我們需要的標注數(shù)據(jù)的數(shù)量呈指數(shù)級增長。這也正是我們前面提到的維度的詛咒。前面我們舉了K近鄰作為非線性回歸的例子,而K近鄰正因受維度詛咒限制而出名。

有鑒于此,許多研究致力于通過給非參數(shù)回歸增加結(jié)構(gòu)上的限制來緩解這一問題,例如,稀疏性或流形的限制(很多時候,高維數(shù)據(jù)空間是稀疏的,有時高維數(shù)據(jù)甚至基本上處于一個低維流形之上)。這是一件很有意思的事情。在實踐中,之所以選用非參數(shù)回歸,正是看重其靈活性,對擬合函數(shù)的結(jié)構(gòu)沒有很強的假定。然而,當(dāng)非參數(shù)回歸遇到維度詛咒的時候,我們又退回一步,通過加強結(jié)構(gòu)上的假定來緩解維度詛咒問題。

而CMU的研究人員Yichong Xu、Hariank Muthakana、Sivaraman Balakrishnan、Aarti Singh、 Artur Dubrawski則采用了另外的做法,使用具有序信息的較大數(shù)據(jù)集補充帶標注的較小數(shù)據(jù)集,緩解非參數(shù)回歸在高維度下的問題。這一做法在實踐中意義很大,因為相對標簽而言,序信息的收集成本要低很多。例如,在臨床上,精確地評估單個患者的健康狀況可能比較困難,但是比較兩個患者誰更健康,則比較容易,也比較精確。

排序回歸算法

研究人員提出的排序回歸(Ranking-Regression)算法(以下簡稱R2),其基本直覺是根據(jù)序信息推斷未標注數(shù)據(jù)點的值。具體而言,根據(jù)序信息排序數(shù)據(jù)點,之后應(yīng)用保序回歸(isotonic regression),然后根據(jù)已標注數(shù)據(jù)點和序信息推斷未標注數(shù)據(jù)點的值。經(jīng)過以上過程之后,就可以用最近鄰算法估計新數(shù)據(jù)點的值了。

算法示意圖

上為R2算法示意圖。當(dāng)然,如果你更習(xí)慣看偽代碼的話:

R2的上下界

顯然,用序信息代替標簽,有以次充好之嫌。因此,研究人員研究了R2算法的誤差上下界。

正如之前提到的,非參數(shù)回歸對結(jié)構(gòu)的假定比較寬松,但也并不是毫無限制的。研究人員采用了經(jīng)典的非參數(shù)回歸限制:

未標簽數(shù)據(jù)集{X1, ..., Xn}中,Xi∈ X ? [0,1]d,且Xi均勻獨立抽取自分布Px。而Px滿足其密度p(x)對x ∈ [0,1]d而言是有界的,即 0 < pmin?<= p(x) <= pmax。

回歸函數(shù)f同樣也是有界的([-M, M]),并且是赫爾德連續(xù)的,在0 < s <= 1時,

在滿足以上條件的條件下,研究人員證明了R2得出的回歸函數(shù)的均方誤差上界為:

其中,C1、C2為大于0的常數(shù)。

而回歸函數(shù)的均方誤差下界為:

其中,C為大于0的常數(shù)。

由誤差上下界可知,基于序信息的排序回歸效果不錯,從對數(shù)因子上來說是最優(yōu)的。

另外,從R2誤差的上界來看,只有序信息(n)依賴于維度d(不等式右側(cè)第二項),而標注信息并不依賴維度d(不等式右側(cè)第一項),也就是說,R2逃脫了維度的詛咒。

限于篇幅,這里就不介紹了證明過程了。上下界的證明思路,分別見論文的3.1小節(jié)和3.2小節(jié);詳細證明過程,分別見論文的附錄B、C。

含噪聲的序信息

雖然之前說過序信息相對容易取得,也比較容易保持精確,但實際數(shù)據(jù)難免會有噪聲——錯誤的序信息。之前的結(jié)論都是在序信息不含噪聲的前提下得出的,那么,當(dāng)序信息有噪聲的時候,情況又是怎么樣的呢?

研究人員進一步推導(dǎo)了序信息包含噪聲的情況。當(dāng)然,噪聲是控制在一定范圍之內(nèi)的。假定根據(jù)含噪序信息所得到的排序與真實排序之間的Kendall-Tau距離不超過vn2(n代表只有序信息的未標注數(shù)據(jù)),則R2的均方誤差的上界為:

下界為:

由此可知,R2的魯棒性相當(dāng)好。當(dāng)有足夠的序信息時,即使序信息包含一些噪聲,標注數(shù)據(jù)仍然不依賴于維度,也就是說,R2仍能逃脫維度的詛咒。

同樣,我們這里不給出具體的證明過程。請參考論文4.1、4.2小節(jié)了解證明思路,論文附錄D、F了解詳細證明過程。

另外,研究人員還進一步證明了(證明過程見附錄E),存在逼近函數(shù)f滿足

這就意味著,當(dāng)噪聲過大(v過大)時,通過使用交叉驗證過程(R2和忽略序信息的簡單非參數(shù)回歸器),我們可以選擇較好的回歸方法,從而取得較優(yōu)的表現(xiàn)。事實上,當(dāng)我們有足夠標簽時,即使序信息非常噪雜,以上比率仍能收斂至0.

含噪聲的成對比較

有的時候,序信息是以成對比較(pairwise comparison)(數(shù)據(jù)點兩兩之間的大?。┑男问饺〉玫摹.?dāng)不含噪聲的時候,成對比較和之前提到的標準排序形式是等價的。但有噪聲的情況卻有所不同。研究人員證明了,在序信息為含噪聲的成對比較時,逼近函數(shù)的均方誤差的上界為:

其中,C1和C2為大于0的常數(shù)。

由上式可知,當(dāng)維度d >= 4s時,誤差取決于n-2s/d,并且,在這一設(shè)定下,基于含噪聲的成對比較的排序回歸,同樣從對數(shù)因子上來說是最優(yōu)的。

試驗

為了驗證理論結(jié)果以及測試R2的實際表現(xiàn),研究人員進行了一些試驗:

模擬數(shù)據(jù)上進行試驗,這樣可以充分控制噪聲

在UCI數(shù)據(jù)集上進行試驗,通過標簽?zāi)M排序

試驗R2在實際應(yīng)用中的表現(xiàn)

在所有試驗中,研究人員對比了R2和K近鄰算法的表現(xiàn)。之所以選擇K近鄰,是因為K近鄰在理論上接近最優(yōu),并在實踐中應(yīng)用廣泛。理論上說,有m個標注樣本時,k的最優(yōu)值為m2/(d+2)。然而,對研究人員考慮的所有m、d值而言,m2/(d+2)非常?。? 5)。因此,研究人員的試驗中選用的是一組常量k值(不隨m改變)。每個試驗重復(fù)了20次,并對均方誤差取平均值。

模擬數(shù)據(jù)

研究人員采用如下方法生成了數(shù)據(jù):令d = 8,均勻取樣X自[0, 1]d。目標函數(shù)為:

其中,xd為x的第d維,且

其中,p隨機均勻取樣自[0, 10]。研究人員調(diào)整了f(x),使其均值為0,方差為單位方差。通過y = f(x) + ε,ε ~ N(0, 0.52)生成標簽。

研究人員為訓(xùn)練集和測試集各生成了1000個樣本。

研究人員測試了R2的兩個變體,1-NN和5-NN,在算法的最后一步分別使用1、5個最近鄰。5-NN并不影響之前理論分析部分的上下界,然而,從經(jīng)驗出發(fā),研究人員發(fā)現(xiàn)5-NN提升了表現(xiàn)。

左:序信息無噪聲;右:序信息有噪聲

從上圖可以看到,無論序信息是否有噪聲,R2的表現(xiàn)都很好。

為了研究序信息噪聲的影響,研究人員在固定標注/排序樣本數(shù)100/1000的情況下,改變了序信息噪聲的等級。對噪聲水平σ,序信息通過y' = f(x) + ε'生成,其中ε' ~ N(0, σ2)。

可以看到,隨著噪聲水平的升高,均方誤差也相應(yīng)升高了。

UCI數(shù)據(jù)集

研究人員在兩個UCI回歸數(shù)據(jù)集上進行了試驗。這兩個數(shù)據(jù)集分別為Boston-Housing(波士頓房價)和diabetes(糖尿?。?。序信息是通過數(shù)據(jù)集標簽生成的。

可以看到,相比不使用序信息的基線,R2在兩個數(shù)據(jù)集上的表現(xiàn)都更好。

根據(jù)肖像預(yù)測年齡

為了進一步在實踐中驗證R2算法,研究人員考慮了根據(jù)肖像估計人員年齡的任務(wù)。

研究人員使用了APPA-REAL數(shù)據(jù)集,該數(shù)據(jù)集包含7591張圖像,每張圖像都有相應(yīng)的生物學(xué)年齡和表觀年齡。生物學(xué)年齡為實際年齡,表觀年齡基于眾包收集。根據(jù)多人的估計的平均值得到表觀年齡(平均有38個不同的估計者)。APPA-REAL同時提供了表觀年齡估計的標準差。數(shù)據(jù)集分為三部分,4113張訓(xùn)練圖像、1500張驗證圖像、1978張測試圖像,研究人員的試驗只使用了訓(xùn)練和驗證樣本。

研究人員使用FaceNet的最后一層從每張圖像中提取了128個維度的特征,并縮放每項特征使每個樣本X ∈ [0, 1]d。研究人員使用了5-NN和10-NN。除了像之前的試驗一樣,使用不包含序信息的5-NN、10-NN作為基線外,還比較了核支持向量回歸(SVR)的表現(xiàn)。SVR的參數(shù)配置為scikit-learn的標準配置,懲罰參數(shù)C = 1,RBF核,tolerance值為0.1.

研究人員試驗了兩個任務(wù):

第一個任務(wù)的目標是預(yù)測生物學(xué)年齡。標簽為生物學(xué)年齡,而序信息基于表觀年齡生成。這是為了模擬現(xiàn)實場景,有一小部分樣本的真實年齡信息,但希望通過眾包的方式收集更多樣本的年齡信息。而在眾包時,讓人對樣本的長幼進行排序,要比直接估計年齡要容易一點,也精確一點。

第二個任務(wù)的目標是預(yù)測表觀年齡。在這一任務(wù)中,標簽和排序根據(jù)APPA-REAL提供的標準差生成。具體而言,標簽取樣自一個高斯分布,其均值等于表觀年齡,標準差為數(shù)據(jù)集提供的標準差。排序的生成分兩步,首先根據(jù)同樣的分布生成標簽,然后根據(jù)標簽排序。這是為了模擬現(xiàn)實場景中,讓人同時估計樣本的年齡,并對樣本的長幼進行排序。注意,在真實應(yīng)用中,相比試驗,排序的噪聲會低一點。

結(jié)果如上圖所示。我們可以看到,10-NN版本的R2的表現(xiàn)最好。而當(dāng)樣本數(shù)少于500時,R2的10-NN版本和5-NN版本均優(yōu)于其他算法。

結(jié)語

論文可通過預(yù)印本文庫獲?。篴rXiv:1806.03286

另外,本文作者將在ICML 2018上做口頭報告(Wed Jul 11th 11:00 -- 11:20 AM @ A6)。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 函數(shù)
    +關(guān)注

    關(guān)注

    3

    文章

    4256

    瀏覽量

    62223
  • 線性
    +關(guān)注

    關(guān)注

    0

    文章

    196

    瀏覽量

    25114
  • 線性回歸
    +關(guān)注

    關(guān)注

    0

    文章

    41

    瀏覽量

    4288

原文標題:排序回歸:基于序信息擺脫非參數(shù)回歸的維度詛咒

文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    美國普渡大學(xué)和哈佛大學(xué)的研究人員出了項新發(fā)明 新...

    據(jù)物理學(xué)家組織網(wǎng)報道,美國普渡大學(xué)和哈佛大學(xué)的研究人員出了項極為應(yīng)景的新發(fā)明:一種外形如同顆圣誕樹
    發(fā)表于 02-03 20:30

    監(jiān)督典型相關(guān)分析算法

    監(jiān)督典型相關(guān)分析算法:在典型相關(guān)分析算法(canonical correlation analysis,簡稱CCA)的基礎(chǔ)上,通過引入以成對約束形式給出的
    發(fā)表于 10-31 08:59 ?12次下載

    基于Hadoop的幾種排序算法研究

    對Hadoop平臺的幾種現(xiàn)有的排序算法的分析比較,發(fā)現(xiàn)頻繁的讀寫磁盤降低數(shù)據(jù)處理的效率,提出了一種優(yōu)化現(xiàn)有排序
    發(fā)表于 11-08 17:25 ?15次下載
    基于Hadoop的幾種<b class='flag-5'>排序</b><b class='flag-5'>算法</b><b class='flag-5'>研究</b>

    基于監(jiān)督學(xué)習(xí)框架的識別算法

    問題,對半監(jiān)督學(xué)習(xí)中的協(xié)同訓(xùn)練算法進行改進,提出了一種基于多學(xué)習(xí)器協(xié)同訓(xùn)練模型的人體行為識別方法.這是一種基于
    發(fā)表于 01-21 10:41 ?1次下載

    研究人員提出了一種柔性可拉伸擴展的多功能集成傳感器陣列

    研究人員提出了一種柔性可拉伸擴展的多功能集成傳感器陣列,成功將電子皮膚的探測能力擴展到7,實現(xiàn)溫度、濕度、紫外光、磁、應(yīng)變、壓力和接近
    的頭像 發(fā)表于 01-24 15:15 ?7161次閱讀
    <b class='flag-5'>研究人員</b><b class='flag-5'>提出了</b><b class='flag-5'>一種</b>柔性可拉伸擴展的多功能集成傳感器陣列

    以色列研究人員開發(fā)出了一種能夠識別不同刺激的新型傳感系統(tǒng)

    據(jù)麥姆斯咨詢報道,海法以色列理工學(xué)院的研究人員開發(fā)出了一種能夠識別并區(qū)分不同刺激的創(chuàng)新型傳感系統(tǒng)。該系統(tǒng)基于折紙藝術(shù),結(jié)合了以色列理工學(xué)院開發(fā)的智能墨水材料。
    發(fā)表于 05-21 08:45 ?880次閱讀

    研究人員提出了系列新的點云處理模塊

    為了探索這些問題的解決辦法、來自倫敦大學(xué)學(xué)院的研究人員提出了系列新的點云處理模塊,從效率、信息共享和點云卷積操作等方面進行了研究,得到了更寬、更深、更快效率更高的點云處理網(wǎng)絡(luò),讓更
    的頭像 發(fā)表于 08-02 14:44 ?3004次閱讀
    <b class='flag-5'>研究人員</b>們<b class='flag-5'>提出了</b><b class='flag-5'>一</b>系列新的點云處理模塊

    研究人員出了一種新的基于深度學(xué)習(xí)的策略

    蘇黎世聯(lián)邦理工學(xué)院的研究人員最近推出了一種新的基于深度學(xué)習(xí)的策略,該策略可以在不需要大量真實數(shù)據(jù)的情況下在機器人中實現(xiàn)觸覺傳感。在arXiv上預(yù)先發(fā)表的篇論文中概述了他們的方法,該方
    的頭像 發(fā)表于 03-26 15:47 ?2547次閱讀

    一種帶有局部坐標約束的監(jiān)督概念分解算法

    和數(shù)據(jù)有限的標簽信息融入到CF模型中,提出了一種帶有局部坐標約束的監(jiān)督的概念分解(SLCF)算法。SICF
    發(fā)表于 03-31 11:47 ?10次下載
    <b class='flag-5'>一種</b>帶有局部坐標約束的<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督</b>概念分解<b class='flag-5'>算法</b>

    一種基于光滑表示的監(jiān)督分類算法

    。文中提岀了一種基于光滑表示的監(jiān)督分類算法。具體來說,此方法通過應(yīng)用個低通濾波器來實現(xiàn)數(shù)據(jù)的平滑,然后將光滑數(shù)據(jù)用于
    發(fā)表于 04-08 10:47 ?17次下載
    <b class='flag-5'>一種</b>基于光滑表示的<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督</b>分類<b class='flag-5'>算法</b>

    一種基于DE和ELM的監(jiān)督分類方法

    演化算法和分析方法的結(jié)合是機器學(xué)習(xí)領(lǐng)域近幾年的研究熱點。研究如何將差分進化(DE)演化算法與基于超限學(xué)習(xí)機(ELM)的
    發(fā)表于 04-09 16:16 ?5次下載
    <b class='flag-5'>一種</b>基于DE和ELM的<b class='flag-5'>半</b><b class='flag-5'>監(jiān)督</b>分類方法

    華裔女博士提出:Facebook提出用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架

    【導(dǎo)讀】Facebook的研究人員近日提出了一種用于超參數(shù)調(diào)整的自我監(jiān)督學(xué)習(xí)框架。
    的頭像 發(fā)表于 04-26 09:45 ?1718次閱讀
    華裔女博士<b class='flag-5'>提出</b>:Facebook<b class='flag-5'>提出</b>用于超參數(shù)調(diào)整的自我<b class='flag-5'>監(jiān)督</b>學(xué)習(xí)框架

    一種基于偽標簽監(jiān)督學(xué)習(xí)的小樣本調(diào)制識別算法

    一種基于偽標簽監(jiān)督學(xué)習(xí)的小樣本調(diào)制識別算法 來源:《西北工業(yè)大學(xué)學(xué)報》,作者史蘊豪 摘 要:針對有標簽樣本較少條件下的通信信號調(diào)制識別問
    發(fā)表于 02-10 11:37 ?770次閱讀

    MIT研究人員提出了一種制造軟氣動執(zhí)行器的新方法

    麻省理工學(xué)院 (MIT) 的研究人員創(chuàng)造了一種新的制造技術(shù),可以制造出更具成本效益的軟氣動執(zhí)行器。
    的頭像 發(fā)表于 05-06 16:38 ?1565次閱讀
    MIT<b class='flag-5'>研究人員</b><b class='flag-5'>提出了</b><b class='flag-5'>一種</b>制造軟氣動執(zhí)行器的新方法

    監(jiān)督算法DocRE的新組件

    文檔級關(guān)系抽取要同時從多個句子中提取關(guān)系。針對這個任務(wù),本文提出了監(jiān)督算法 DocRE。DocRE 共有三個新組件:
    的頭像 發(fā)表于 08-31 15:08 ?1091次閱讀