0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

PCA和KPCA傻傻分不清楚?戳進(jìn)來教你如何區(qū)分

格創(chuàng)東智 ? 2019-01-28 13:02 ? 次閱讀

在格物匯之前的文章中,我們討論了特征抽取的經(jīng)典算法——主成分分析PCA與線性判別分析LDA的原理與應(yīng)用場景。PCA是一種無監(jiān)督的降維方法,尋找的是讓數(shù)據(jù)方差最大的一種映射;LDA是一種有監(jiān)督的降維方法,尋找的是讓數(shù)據(jù)分類效果最好的一種映射。但是它們?nèi)匀挥袘?yīng)用的局限性,今天我們就一起來了解下。


PCA的局限性

我們先來回顧一下PCA的降維原理:PCA試圖通過旋轉(zhuǎn)找到新的正交基,滿足這樣的兩條性質(zhì):

1、最近重構(gòu)性:樣本點(diǎn)到新映射的正交基距離足夠接近。

2、最大可分性:樣本點(diǎn)在新正交基上方差最大。

最后我們推導(dǎo)得到:

1.jpg

我們只需要對協(xié)方差矩陣XX^T 進(jìn)行特征值分解,得到的特征值和特征向量即是變換矩陣w的解和改主成分所解釋的方差量。這樣的降維方法是線性的降維方法,即從高維空間到低維空間的函數(shù)映射是線性的。然而在不少應(yīng)用場景中,線性映射可能不能得到想要的結(jié)果,例如如下的例子:S型曲線的本真二維結(jié)構(gòu)是其低維空間的原本形狀,通過線性降維后得到的結(jié)果明顯并不是我們所期望的。

2.jpg

核方法

我們介紹SVM的時(shí)候所介紹的核方法是一種可以進(jìn)行升維來生成一些非線性的映射。這個(gè)方法我們可以同樣使用在PCA降維分析中。

假設(shè)我們有一個(gè)樣本集:

x1,x2?xn

假設(shè)映射函數(shù)為,那么映射到高維以后,數(shù)據(jù)變成:

3.jpg

類似于PCA的求解方法, XX^T經(jīng)過高維映射后得到

補(bǔ).jpg,

故:

4.jpg

我們把λ 移動到等號左邊得到:

5.jpg

我們令:

6.jpg

做一個(gè)簡單的替換,得到:

7.jpg

代入等式1,得到:

8.jpg

我們在左右兩邊同時(shí)乘上

bu2.jpg

得到:

9.jpg

做一下簡單的改變:

10.jpg

非常幸運(yùn)的是,我們設(shè)計(jì)出了

bu3.jpg

是否還記得我們在SVM的核函數(shù)中曾經(jīng)驗(yàn)證過,在低維空間計(jì)算(+1)^2得到的結(jié)果與高維空間上計(jì)算

11.jpg

的結(jié)果相似,只是系數(shù)略有不同。因此我們也可以在此應(yīng)用核方法來計(jì)算。我們在此定義核函數(shù)矩陣:

12.jpg

代入上面等式2,便可得到:

13.jpg


14.jpg

很明顯,這又回到了特征值分解的問題,取K最大的d個(gè)特征值所對應(yīng)的特征向量即可。

小結(jié)

我們通過將數(shù)據(jù)映射到高維以后,巧妙的構(gòu)建出了

bu3.jpg

目的是為了通過在低維空間上應(yīng)用核函數(shù),計(jì)算得到跟高維空間上差不多的效果。PCA所做的是對坐標(biāo)軸線性變換,即變換后的新基還是一條直線。而KPCA對坐標(biāo)軸做了非線性變換,數(shù)據(jù)所映射的新基就不再是一條直線了,而是一條曲線或者曲面,如下圖所示:

15.jpg

通過上面這個(gè)圖,大家應(yīng)該了解了KPCA和PCA區(qū)別了吧?好了,本期格物匯的內(nèi)容就到這里,我們下期再見。

本文作者:格創(chuàng)東智OT團(tuán)隊(duì)(轉(zhuǎn)載請注明作者及來源)



聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • PCA
    PCA
    +關(guān)注

    關(guān)注

    0

    文章

    88

    瀏覽量

    29522
  • KPCA
    +關(guān)注

    關(guān)注

    0

    文章

    9

    瀏覽量

    9125
  • LDA
    LDA
    +關(guān)注

    關(guān)注

    0

    文章

    29

    瀏覽量

    10580
  • 智能制造
    +關(guān)注

    關(guān)注

    48

    文章

    5402

    瀏覽量

    76182
  • 工業(yè)互聯(lián)網(wǎng)

    關(guān)注

    28

    文章

    4284

    瀏覽量

    93994
收藏 人收藏

    評論

    相關(guān)推薦

    如果在不清楚適配器的是否支持QC3.0的情況下,嘗試切換至QC3.0協(xié)議,該如何判斷是否成功切換至QC3.0協(xié)議?

    如果在不清楚適配器的是否支持QC3.0的情況下,嘗試切換至QC3.0協(xié)議,該如何判斷是否成功切換至QC3.0協(xié)議? 因?yàn)镼C2.0協(xié)議的class B支持的20V的切換方式和QC3.0的升壓的方式是一樣的
    發(fā)表于 07-20 11:56

    頻段、信道、帶寬和傳輸速率,還傻傻分不清楚

    無線電通信涉及幾個(gè)重要參數(shù),分別是頻段、信道、信道帶寬和傳輸速率,它們在無線網(wǎng)絡(luò)配置中扮演著重要角色。頻段:“不同的高速公路”頻段(FrequencyBand)指的是無線電波的一個(gè)特定頻率范圍,這個(gè)范圍被分配給無線通信使用。不同的無線通信技術(shù)會使用不同的頻段,避免相互之間的干擾。如最常見的Wi-Fi頻段有兩個(gè):2.4GHz和5GHz。這兩個(gè)頻段就像是兩條不同
    的頭像 發(fā)表于 06-21 08:21 ?2213次閱讀
    頻段、信道、帶寬和傳輸速率,還<b class='flag-5'>傻傻</b><b class='flag-5'>分不清楚</b>?

    LDO和DCDC還傻傻分不清?快來搞懂它

    線性穩(wěn)壓器(LDO)和直流-直流轉(zhuǎn)換器(DC-DC)是兩種常用的電壓調(diào)整設(shè)備,它們各自有獨(dú)特的工作原理和特點(diǎn),適用于不同的應(yīng)用場景。一、LDO(線性穩(wěn)壓器)工作原理LDO是一種線性穩(wěn)壓器,它通過一個(gè)晶體管(通常是場效應(yīng)管或雙極型晶體管)來調(diào)控輸出電壓,使其保持穩(wěn)定。晶體管的導(dǎo)通程度會根據(jù)輸入電壓和負(fù)載的變化而調(diào)整,以維持恒定的輸出電壓。LDO的關(guān)鍵優(yōu)點(diǎn)是簡單
    的頭像 發(fā)表于 05-22 08:10 ?2955次閱讀
    LDO和DCDC還<b class='flag-5'>傻傻</b><b class='flag-5'>分不清</b>?快來搞懂它

    一文介紹:UWB-AOA產(chǎn)品特點(diǎn)及其應(yīng)用

    寫在前面:好多朋友經(jīng)常把藍(lán)牙AOA和UWB-AOA混淆,傻傻分不清楚。UWB和藍(lán)牙分屬兩種無線電技術(shù),AOA指的是測量無線電到達(dá)信號的角度,UWB-AOA和藍(lán)牙AOA是兩種完全不同的產(chǎn)品,相較于藍(lán)牙AOA UWB-AOA定位精度更高、覆蓋范圍更廣、適用場景更加豐富。
    的頭像 發(fā)表于 05-09 17:07 ?1553次閱讀
    一文介紹:UWB-AOA產(chǎn)品特點(diǎn)及其應(yīng)用

    如何解決隧道廣播聽不清楚的問題

    1、隧道廣播的設(shè)置標(biāo)準(zhǔn) 根據(jù)交通運(yùn)輸部 2012 年第 3 號公告發(fā)布的《高速公路通信技術(shù)要求》有線廣播設(shè)計(jì)原則為:隧道監(jiān)控等級為 A + 、A、B 等級的隧道應(yīng)設(shè)置有線廣播系統(tǒng),隧道監(jiān)控等級為 C等級的隧道可設(shè)置有線廣播系統(tǒng), 隧道段有線廣播揚(yáng)聲器設(shè)置在隧道洞外入、出口,洞內(nèi)宜每隔50m設(shè)置1臺。 隧道廣播與緊急電話分機(jī)的一般布設(shè)形式:在隧道內(nèi)沿行車方向右側(cè)每隔約200m左右布設(shè)一部隧道廣播與緊急電話分機(jī),隧道外距隧道洞口約5m左右布設(shè)一部緊
    的頭像 發(fā)表于 03-15 13:18 ?401次閱讀
    如何解決隧道廣播聽<b class='flag-5'>不清楚</b>的問題

    傻傻分不清?射頻模擬信號源和矢量信號源的區(qū)別

    傻傻分不清?射頻模擬信號源和矢量信號源的區(qū)別? 射頻模擬信號源和矢量信號源是測試和測量領(lǐng)域中常見的兩種信號源。它們在信號產(chǎn)生原理、輸出信號特性、使用場景等方面有很大區(qū)別。本文將從原理、特性和應(yīng)用場
    的頭像 發(fā)表于 01-19 15:54 ?4458次閱讀

    如何理解實(shí)時(shí)仿真

    實(shí)時(shí)仿真?硬件在環(huán)?RCP?HIL...這些詞是否還有些傻傻分不清呢?本期將帶大家從零走近實(shí)時(shí)仿真,快來Get吧。
    的頭像 發(fā)表于 01-16 10:34 ?972次閱讀

    晶體與晶振傻傻分不清?看完這篇文章您就明白了

    晶體和晶振的屬性、特點(diǎn)及應(yīng)用場景,并為大家提供一些實(shí)用的布局和布線建議。一、晶體與晶振的區(qū)別對于許多初入職場的硬件工程師來說,區(qū)分晶體(Crystal,簡稱XTAL
    的頭像 發(fā)表于 12-29 08:07 ?2957次閱讀
    晶體與晶振<b class='flag-5'>傻傻</b><b class='flag-5'>分不清</b>?看完這篇文章您就明白了

    晶體與晶振傻傻分不清?看完這篇文章您就明白了

    對比晶體和晶振的屬性、特點(diǎn)及應(yīng)用場景,并為大家提供一些實(shí)用的布局和布線建議。 ? ? ?? 一、晶體與晶振的區(qū)別 ??? 對于許多初入職場的硬件工程師來說,區(qū)分晶體(Crystal,簡稱XTAL)和晶振(Crystal Oscillator,簡稱XO)一直是個(gè)令
    的頭像 發(fā)表于 12-27 08:40 ?1721次閱讀
    晶體與晶振<b class='flag-5'>傻傻</b><b class='flag-5'>分不清</b>?看完這篇文章您就明白了

    FOSB和FOUP傻傻分不清楚?

    如果我們發(fā)揮想象,一片一片的wafer(晶圓)在這FAB(晶圓廠)大樂園里搭乘著各種自動化移動工具(比如AGV(無人運(yùn)載車)、ARM(機(jī)械手臂)、OHT(天車)),一會兒去泡個(gè)澡(浸泡清洗),一會兒去加工一下,那么,F(xiàn)OSB(前開晶圓運(yùn)輸盒)、FOUP(前開式晶圓傳送盒)就可以被想象成是它們的搭乘車廂,有的對外移動,有的內(nèi)部移動,當(dāng)然也不能忘了還有敞篷式的OPEN CASSETTE(開放式裝載盒)。
    的頭像 發(fā)表于 12-22 16:08 ?2w次閱讀

    [ElfBoard]是誰字和字節(jié)傻傻分不清楚

    計(jì)算機(jī)內(nèi)存結(jié)構(gòu) —— 位、字節(jié)和字 位 我們都知道,計(jì)算機(jī)存儲數(shù)值都以信息的基本單元的組合進(jìn)行存儲,這個(gè)基本單元便是位(bit),我們通常用 0 和 1 來表示位的兩種狀態(tài)。 為什么使用 0 和 1 而不是 0、1、2、3、4、5 或者 6、7、8、9、10 等等這樣的數(shù)字組合呢? 我們可以想象這樣一種實(shí)際情況:我們的計(jì)算機(jī)歸根結(jié)底是一些硬件在進(jìn)行處理和計(jì)算,硬件是需要電流起作用的,電流可以產(chǎn)生高電壓和低電壓,在數(shù)字電路中,通常將高電壓視為 1 ,低電壓視為 0 ,因此我們信息存儲的最終形式是一連串 1 和 0 的組合。這種表達(dá)形式與我們在邏輯中經(jīng)常使用 true 和 false 是類似的。 關(guān)于計(jì)算機(jī)為什么能夠讀懂 1 和 0,在這個(gè)問題下面有很多非常詳細(xì)的回答可以作為參考: 也許上面這個(gè)例子還是比較抽象,那么我們還可以想象這樣一種更古老的實(shí)際情況:早期的計(jì)算機(jī)還不具備處理高級語言的能力,程序員們只能將要寫的程序和要處理的數(shù)據(jù)變成一條條紙帶交給計(jì)算機(jī)去處理。而紙帶上某個(gè)特定位置的狀態(tài)是有限的,人們通過在紙帶上打洞還是不打洞來表示 1 和 0 。因此數(shù)據(jù)通過一連串打洞和不打洞的序列進(jìn)行表示,即很多 1 和 0 的序列,這種數(shù)據(jù)表示的思想也一直延續(xù)到現(xiàn)在。 字節(jié) 通過上面的講解我們也能看到,一個(gè)位能表達(dá)的信息太少了,因此我們通常將單個(gè)的位連接組合起來,組成更大的存儲單元,我們稱這種最小組合單元為一個(gè)字節(jié)(byte),一個(gè)字節(jié)由 8 個(gè)位構(gòu)成,它足以用來存儲一個(gè) char 類型的數(shù)據(jù)。 字 隨著存儲需求的日益增長,在現(xiàn)在大多數(shù)計(jì)算機(jī)中,字節(jié)被組合成更大的存儲單位,我們稱為字(word),一個(gè)字足以存儲一個(gè) int 類型的數(shù)據(jù)?,F(xiàn)在的大多數(shù)計(jì)算機(jī)要么使用四字節(jié)的字,要么使用八字節(jié)的字。我們通常所說的 32 位機(jī)器或者 64 位機(jī)器其實(shí)就是指計(jì)算機(jī)處理器一次能處理的數(shù)據(jù)大小,32 位即 4 個(gè)字節(jié),64 位即 8 個(gè)字節(jié)。 結(jié)論: 一個(gè)字等于多少個(gè)字節(jié),與系統(tǒng)硬件(總線、cpu命令字位數(shù)等)有關(guān),不應(yīng)該毫無前提地說一個(gè)字等于多少位。 正確的說法: ①:1字節(jié)(byte) = 8位(bit) ②:在16位的系統(tǒng)中(比如8086微機(jī)) 1字 (word)= 2字節(jié)(byte)= 16(bit) 在32位的系統(tǒng)中(比如win32) 1字(word)= 4字節(jié)(byte)=32(bit) 在64位的系統(tǒng)中(比如win64)1字(word)= 8字節(jié)(byte)=64(bit)
    發(fā)表于 12-12 13:13

    [ElfBoard]康康是誰字和字節(jié)傻傻分不清楚?

    計(jì)算機(jī)內(nèi)存結(jié)構(gòu) —— 位、字節(jié)和字 位 我們都知道,計(jì)算機(jī)存儲數(shù)值都以信息的基本單元的組合進(jìn)行存儲,這個(gè)基本單元便是位(bit),我們通常用 0 和 1 來表示位的兩種狀態(tài)。 為什么使用 0 和 1 而不是 0、1、2、3、4、5 或者 6、7、8、9、10 等等這樣的數(shù)字組合呢? 我們可以想象這樣一種實(shí)際情況:我們的計(jì)算機(jī)歸根結(jié)底是一些硬件在進(jìn)行處理和計(jì)算,硬件是需要電流起作用的,電流可以產(chǎn)生高電壓和低電壓,在數(shù)字電路中,通常將高電壓視為 1 ,低電壓視為 0 ,因此我們信息存儲的最終形式是一連串 1 和 0 的組合。這種表達(dá)形式與我們在邏輯中經(jīng)常使用 true 和 false 是類似的。 關(guān)于計(jì)算機(jī)為什么能夠讀懂 1 和 0,在這個(gè)問題下面有很多非常詳細(xì)的回答可以作為參考: 也許上面這個(gè)例子還是比較抽象,那么我們還可以想象這樣一種更古老的實(shí)際情況:早期的計(jì)算機(jī)還不具備處理高級語言的能力,程序員們只能將要寫的程序和要處理的數(shù)據(jù)變成一條條紙帶交給計(jì)算機(jī)去處理。而紙帶上某個(gè)特定位置的狀態(tài)是有限的,人們通過在紙帶上打洞還是不打洞來表示 1 和 0 。因此數(shù)據(jù)通過一連串打洞和不打洞的序列進(jìn)行表示,即很多 1 和 0 的序列,這種數(shù)據(jù)表示的思想也一直延續(xù)到現(xiàn)在。 字節(jié) 通過上面的講解我們也能看到,一個(gè)位能表達(dá)的信息太少了,因此我們通常將單個(gè)的位連接組合起來,組成更大的存儲單元,我們稱這種最小組合單元為一個(gè)字節(jié)(byte),一個(gè)字節(jié)由 8 個(gè)位構(gòu)成,它足以用來存儲一個(gè) char 類型的數(shù)據(jù)。 字 隨著存儲需求的日益增長,在現(xiàn)在大多數(shù)計(jì)算機(jī)中,字節(jié)被組合成更大的存儲單位,我們稱為字(word),一個(gè)字足以存儲一個(gè) int 類型的數(shù)據(jù)?,F(xiàn)在的大多數(shù)計(jì)算機(jī)要么使用四字節(jié)的字,要么使用八字節(jié)的字。我們通常所說的 32 位機(jī)器或者 64 位機(jī)器其實(shí)就是指計(jì)算機(jī)處理器一次能處理的數(shù)據(jù)大小,32 位即 4 個(gè)字節(jié),64 位即 8 個(gè)字節(jié)。 結(jié)論: 一個(gè)字等于多少個(gè)字節(jié),與系統(tǒng)硬件(總線、cpu命令字位數(shù)等)有關(guān),不應(yīng)該毫無前提地說一個(gè)字等于多少位。 正確的說法: ①:1字節(jié)(byte) = 8位(bit) ②:在16位的系統(tǒng)中(比如8086微機(jī)) 1字 (word)= 2字節(jié)(byte)= 16(bit) 在32位的系統(tǒng)中(比如win32) 1字(word)= 4字節(jié)(byte)=32(bit) 在64位的系統(tǒng)中(比如win64)1字(word)= 8字節(jié)(byte)=64(bit)
    發(fā)表于 12-12 13:11

    鋰電銅箔和標(biāo)準(zhǔn)銅箔,捷多邦教你如何區(qū)分和使用?

    鋰電銅箔和標(biāo)準(zhǔn)銅箔,捷多邦教你如何區(qū)分和使用?
    的頭像 發(fā)表于 12-04 15:58 ?1857次閱讀

    EMC、EMI是什么意思?硬件人別再分不清楚

    emi硬件emc
    揚(yáng)興科技
    發(fā)布于 :2023年12月01日 19:52:03

    有源晶振和無源晶振的區(qū)別

    不一樣的材質(zhì)。而無源晶振和有源晶振有時(shí)候讓人傻傻分不清楚。1、無源晶振無源晶振是有2個(gè)引腳的無極性元件,需要借助于時(shí)鐘電路才能產(chǎn)生振蕩信號,自身無法振蕩起來。無源
    的頭像 發(fā)表于 11-21 08:00 ?1772次閱讀
    有源晶振和無源晶振的區(qū)別