機(jī)器學(xué)習(xí)是一門理論性和實(shí)戰(zhàn)性都比較強(qiáng)的技術(shù)學(xué)科。在應(yīng)聘機(jī)器學(xué)習(xí)相關(guān)工作崗位時(shí),我們常常會(huì)遇到各種各樣的機(jī)器學(xué)習(xí)問(wèn)題和知識(shí)點(diǎn)。為了幫助大家對(duì)這些知識(shí)點(diǎn)進(jìn)行梳理和理解,以便能夠更好地應(yīng)對(duì)機(jī)器學(xué)習(xí)筆試包括面試。紅色石頭準(zhǔn)備在公眾號(hào)連載一些機(jī)器學(xué)習(xí)筆試題系列文章,希望能夠?qū)Υ蠹矣兴鶐椭?/p>
Q1. 在回歸模型中,下列哪一項(xiàng)在權(quán)衡欠擬合(under-fitting)和過(guò)擬合(over-fitting)中影響最大?
A. 多項(xiàng)式階數(shù)
B. 更新權(quán)重 w 時(shí),使用的是矩陣求逆還是梯度下降
C. 使用常數(shù)項(xiàng)
答案:A
解析:選擇合適的多項(xiàng)式階數(shù)非常重要。如果階數(shù)過(guò)大,模型就會(huì)更加復(fù)雜,容易發(fā)生過(guò)擬合;如果階數(shù)較小,模型就會(huì)過(guò)于簡(jiǎn)單,容易發(fā)生欠擬合。如果有對(duì)過(guò)擬合和欠擬合概念不清楚的,見下圖所示:
Q2. 假設(shè)你有以下數(shù)據(jù):輸入和輸出都只有一個(gè)變量。使用線性回歸模型(y=wx+b)來(lái)擬合數(shù)據(jù)。那么使用留一法(Leave-One Out)交叉驗(yàn)證得到的均方誤差是多少?
A. 10/27
B. 39/27
C. 49/27
D. 55/27
答案:C
解析:留一法,簡(jiǎn)單來(lái)說(shuō)就是假設(shè)有 N 個(gè)樣本,將每一個(gè)樣本作為測(cè)試樣本,其它 N-1 個(gè)樣本作為訓(xùn)練樣本。這樣得到 N 個(gè)分類器,N 個(gè)測(cè)試結(jié)果。用這 N個(gè)結(jié)果的平均值來(lái)衡量模型的性能。
對(duì)于該題,我們先畫出 3 個(gè)樣本點(diǎn)的坐標(biāo):
使用兩個(gè)點(diǎn)進(jìn)行線性擬合,分成三種情況,如下圖所示:
第一種情況下,回歸模型是 y = 2,誤差 E1 = 1。
第二種情況下,回歸模型是 y = -x + 4,誤差 E2 = 2。
第三種情況下,回歸模型是 y = -1/3x + 2,誤差 E3 = 2/3。
則總的均方誤差為:
Q3. 下列關(guān)于極大似然估計(jì)(Maximum Likelihood Estimate,MLE),說(shuō)法正確的是(多選)?
A. MLE 可能并不存在
B. MLE 總是存在
C. 如果 MLE 存在,那么它的解可能不是唯一的
D. 如果 MLE 存在,那么它的解一定是唯一的
答案:AC
解析:如果極大似然函數(shù) L(θ) 在極大值處不連續(xù),一階導(dǎo)數(shù)不存在,則 MLE 不存在,如下圖所示:
另一種情況是 MLE 并不唯一,極大值對(duì)應(yīng)兩個(gè)θ。如下圖所示:
Q4. 如果我們說(shuō)“線性回歸”模型完美地?cái)M合了訓(xùn)練樣本(訓(xùn)練樣本誤差為零),則下面哪個(gè)說(shuō)法是正確的?
A. 測(cè)試樣本誤差始終為零
B. 測(cè)試樣本誤差不可能為零
C. 以上答案都不對(duì)
答案:C
解析:根據(jù)訓(xùn)練樣本誤差為零,無(wú)法推斷測(cè)試樣本誤差是否為零。值得一提是,如果測(cè)試樣本樣本很大,則很可能發(fā)生過(guò)擬合,模型不具備很好的泛化能力!
Q5. 在一個(gè)線性回歸問(wèn)題中,我們使用 R 平方(R-Squared)來(lái)判斷擬合度。此時(shí),如果增加一個(gè)特征,模型不變,則下面說(shuō)法正確的是?
A. 如果 R-Squared 增加,則這個(gè)特征有意義
B. 如果R-Squared 減小,則這個(gè)特征沒有意義
C. 僅看 R-Squared 單一變量,無(wú)法確定這個(gè)特征是否有意義。
D. 以上說(shuō)法都不對(duì)
答案:C
解析:線性回歸問(wèn)題中,R-Squared 是用來(lái)衡量回歸方程與真實(shí)樣本輸出之間的相似程度。其表達(dá)式如下所示:
上式中,分子部分表示真實(shí)值與預(yù)測(cè)值的平方差之和,類似于均方差 MSE;分母部分表示真實(shí)值與均值的平方差之和,類似于方差 Var。根據(jù)R-Squared 的取值,來(lái)判斷模型的好壞:如果結(jié)果是 0,說(shuō)明模型擬合效果很差;如果結(jié)果是 1,說(shuō)明模型無(wú)錯(cuò)誤。一般來(lái)說(shuō),R-Squared 越大,表示模型擬合效果越好。R-Squared 反映的是大概有多準(zhǔn),因?yàn)椋S著樣本數(shù)量的增加,R-Square必然增加,無(wú)法真正定量說(shuō)明準(zhǔn)確程度,只能大概定量。
對(duì)于本題來(lái)說(shuō),單獨(dú)看R-Squared,并不能推斷出增加的特征是否有意義。通常來(lái)說(shuō),增加一個(gè)特征,R-Squared 可能變大也可能保持不變,兩者不一定呈正相關(guān)。
如果使用校正決定系數(shù)(Adjusted R-Square):
其中,n 是樣本數(shù)量,p 是特征數(shù)量。Adjusted R-Square抵消樣本數(shù)量對(duì) R-Square的影響,做到了真正的 0~1,越大越好。
Q6. 下列關(guān)于線性回歸分析中的殘差(Residuals)說(shuō)法正確的是?
A. 殘差均值總是為零
B. 殘差均值總是小于零
C. 殘差均值總是大于零
D. 以上說(shuō)法都不對(duì)
答案:A
解析:線性回歸分析中,目標(biāo)是殘差最小化。殘差平方和是關(guān)于參數(shù)的函數(shù),為了求殘差極小值,令殘差關(guān)于參數(shù)的偏導(dǎo)數(shù)為零,會(huì)得到殘差和為零,即殘差均值為零。
Q7. 下列關(guān)于異方差(Heteroskedasticity)說(shuō)法正確的是?
A. 線性回歸具有不同的誤差項(xiàng)
B. 線性回歸具有相同的誤差項(xiàng)
C. 線性回歸誤差項(xiàng)為零
D. 以上說(shuō)法都不對(duì)
答案:A
解析:異方差性是相對(duì)于同方差(Homoskedasticity)而言的。所謂同方差,是為了保證回歸參數(shù)估計(jì)量具有良好的統(tǒng)計(jì)性質(zhì),經(jīng)典線性回歸模型的一個(gè)重要假定:總體回歸函數(shù)中的隨機(jī)誤差項(xiàng)滿足同方差性,即它們都有相同的方差。如果這一假定不滿足,即:隨機(jī)誤差項(xiàng)具有不同的方差,則稱線性回歸模型存在異方差性。
通常來(lái)說(shuō),奇異值的出現(xiàn)會(huì)導(dǎo)致異方差性增大。
Q8. 下列哪一項(xiàng)能反映出 X 和 Y 之間的強(qiáng)相關(guān)性?
A. 相關(guān)系數(shù)為 0.9
B. 對(duì)于無(wú)效假設(shè) β=0 的 p 值為 0.0001
C. 對(duì)于無(wú)效假設(shè)β=0 的 t 值為 30
D. 以上說(shuō)法都不對(duì)
答案:A
解析:相關(guān)系數(shù)的概念我們很熟悉,它反映了不同變量之間線性相關(guān)程度,一般用 r 表示。
其中,Cov(X,Y) 為 X 與 Y 的協(xié)方差,Var[X] 為 X 的方差,Var[Y] 為 Y 的方差。r 取值范圍在 [-1,1] 之間,r 越大表示相關(guān)程度越高。A 選項(xiàng)中,r=0.9 表示 X 和 Y 之間有較強(qiáng)的相關(guān)性。
而 p 和 t 的數(shù)值大小沒有統(tǒng)計(jì)意義,只是將其與某一個(gè)閾值進(jìn)行比對(duì),以得到二選一的結(jié)論。例如,有兩個(gè)假設(shè):
無(wú)效假設(shè)(null?hypothesis)H0:兩參量間不存在“線性”相關(guān)。
備擇假設(shè)(alternative?hypothesis)H1:兩參量間存在“線性”相關(guān)。
如果閾值是 0.05,計(jì)算出的 p 值很小,比如為 0.001,則可以說(shuō)“有非常顯著的證據(jù)拒絕 H0 假設(shè),相信 H1 假設(shè)。即兩參量間存在“線性”相關(guān)。p 值只用于二值化判斷,因此不能說(shuō) p=0.06 一定比 p=0.07 更好。
Q9. 下列哪些假設(shè)是我們推導(dǎo)線性回歸參數(shù)時(shí)遵循的(多選)?
A. X 與 Y 有線性關(guān)系(多項(xiàng)式關(guān)系)
B. 模型誤差在統(tǒng)計(jì)學(xué)上是獨(dú)立的
C. 誤差一般服從 0 均值和固定標(biāo)準(zhǔn)差的正態(tài)分布
D. X 是非隨機(jī)且測(cè)量沒有誤差的
答案:ABCD
解析:在進(jìn)行線性回歸推導(dǎo)和分析時(shí),我們已經(jīng)默認(rèn)上述四個(gè)條件是成立的。
Q10. 為了觀察測(cè)試 Y 與 X 之間的線性關(guān)系,X 是連續(xù)變量,使用下列哪種圖形比較適合?
A. 散點(diǎn)圖
B. 柱形圖
C. 直方圖
D. 以上都不對(duì)
答案:A
解析:散點(diǎn)圖反映了兩個(gè)變量之間的相互關(guān)系,在測(cè)試 Y 與 X 之間的線性關(guān)系時(shí),使用散點(diǎn)圖最為直觀。
Q11. 一般來(lái)說(shuō),下列哪種方法常用來(lái)預(yù)測(cè)連續(xù)獨(dú)立變量?
A. 線性回歸
B. 邏輯回顧
C. 線性回歸和邏輯回歸都行
D. 以上說(shuō)法都不對(duì)
答案:A
解析:線性回歸一般用于實(shí)數(shù)預(yù)測(cè),邏輯回歸一般用于分類問(wèn)題。
Q12. 個(gè)人健康和年齡的相關(guān)系數(shù)是 -1.09。根據(jù)這個(gè)你可以告訴醫(yī)生哪個(gè)結(jié)論?
A. 年齡是健康程度很好的預(yù)測(cè)器
B. 年齡是健康程度很糟的預(yù)測(cè)器
C. 以上說(shuō)法都不對(duì)
答案:C
解析:因?yàn)橄嚓P(guān)系數(shù)的范圍是 [-1,1] 之間,所以,-1.09 不可能存在。
Q13.下列哪一種偏移,是我們?cè)谧钚《酥本€擬合的情況下使用的?圖中橫坐標(biāo)是輸入 X,縱坐標(biāo)是輸出 Y。
A. 垂直偏移(vertical offsets)
B. 垂向偏移(perpendicular offsets)
C. 兩種偏移都可以
D. 以上說(shuō)法都不對(duì)
答案:A
解析:線性回歸模型計(jì)算損失函數(shù),例如均方差損失函數(shù)時(shí),使用的都是 vertical offsets。perpendicular offsets 一般用于主成分分析(PCA)中。
Q14. 假如我們利用 Y 是 X 的 3 階多項(xiàng)式產(chǎn)生一些數(shù)據(jù)(3 階多項(xiàng)式能很好地?cái)M合數(shù)據(jù))。那么,下列說(shuō)法正確的是(多選)?
A. 簡(jiǎn)單的線性回歸容易造成高偏差(bias)、低方差(variance)
B.簡(jiǎn)單的線性回歸容易造成低偏差(bias)、高方差(variance)
C. 3 階多項(xiàng)式擬合會(huì)造成低偏差(bias)、高方差(variance)
D.3 階多項(xiàng)式擬合具備低偏差(bias)、低方差(variance)
答案:AD
解析:偏差和方差是兩個(gè)相對(duì)的概念,就像欠擬合和過(guò)擬合一樣。如果模型過(guò)于簡(jiǎn)單,通常會(huì)造成欠擬合,伴隨著高偏差、低方差;如果模型過(guò)于復(fù)雜,通常會(huì)造成過(guò)擬合,伴隨著低偏差、高方差。
用一張圖來(lái)形象地表示偏差與方差的關(guān)系:
圖片來(lái)源:https://www.zhihu.com/question/27068705
偏差(bias)可以看成模型預(yù)測(cè)與真實(shí)樣本的差距,想要得到 low bias,就得復(fù)雜化模型,但是容易造成過(guò)擬合。方差(variance)可以看成模型在測(cè)試集上的表現(xiàn),想要得到 low variance,就得簡(jiǎn)化模型,但是容易造成欠擬合。實(shí)際應(yīng)用中,偏差和方差是需要權(quán)衡的。若模型在訓(xùn)練樣本和測(cè)試集上都表現(xiàn)的不錯(cuò),偏差和方差都會(huì)比較小,這也是模型比較理想的情況。
Q15. 假如你在訓(xùn)練一個(gè)線性回歸模型,有下面兩句話:
1. 如果數(shù)據(jù)量較少,容易發(fā)生過(guò)擬合。
2. 如果假設(shè)空間較小,容易發(fā)生過(guò)擬合。
關(guān)于這兩句話,下列說(shuō)法正確的是?
A. 1 和 2 都錯(cuò)誤
B. 1 正確,2 錯(cuò)誤
C. 1 錯(cuò)誤,2 正確
D. 1 和 2 都正確
答案:B
解析:先來(lái)看第 1 句話,如果數(shù)據(jù)量較少,容易在假設(shè)空間找到一個(gè)模型對(duì)訓(xùn)練樣本的擬合度很好,容易造成過(guò)擬合,該模型不具備良好的泛化能力。
再來(lái)看第 2 句話,如果假設(shè)空間較小,包含的可能的模型就比較少,也就不太可能找到一個(gè)模型能夠?qū)颖緮M合得很好,容易造成高偏差、低方差,即欠擬合。
Q16. 假如我們使用 Lasso 回歸來(lái)擬合數(shù)據(jù)集,該數(shù)據(jù)集輸入特征有 100 個(gè)(X1,X2,...,X100)?,F(xiàn)在,我們把其中一個(gè)特征值擴(kuò)大 10 倍(例如是特征 X1),然后用相同的正則化參數(shù)對(duì) Lasso 回歸進(jìn)行修正。
那么,下列說(shuō)法正確的是?
A. 特征 X1 很可能被排除在模型之外
B. 特征 X1 很可能還包含在模型之中
C. 無(wú)法確定特征 X1 是否被舍棄
D. 以上說(shuō)法都不對(duì)
答案: B
解析:Lasso 回歸類似于線性回歸,只不過(guò)它在線性回歸的基礎(chǔ)上,增加了一個(gè)對(duì)所有參數(shù)的數(shù)值大小約束,如下所示:
其中,t 為正則化參數(shù)。Lasso 回歸其實(shí)就是在普通線性回歸的損失函數(shù)的基礎(chǔ)上增加了個(gè) β 的約束。那么 β 的約束為什么要使用這種形式,而不使用β 的平方約束呢?原因就在于第一范數(shù)的約束下,一部分回歸系數(shù)剛好可以被約束為 0。這樣的話,就達(dá)到了特征選擇的效果。如下圖所示:
左邊是第二范式,右邊是第一范式。第一范數(shù)約束下,β 更有可能被約束成 0。這點(diǎn)非常類似于 L1 和 L2 正則化的區(qū)別,有興趣的請(qǐng)看我之前一篇文章:機(jī)器學(xué)習(xí)中 L1 和 L2 正則化的直觀解釋
因此,Lasso 回歸適用于樣本數(shù)量較少,特征維度較大的情形,便于從較多特征中進(jìn)行特征選擇。例如 DNA 數(shù)據(jù),特征維度很大,我們只希望通過(guò) Lasso 回歸找出與某些疾病有關(guān)的 DNA 片段。
本題中,將特征 X1 數(shù)值擴(kuò)大 10 倍,他對(duì)應(yīng)的回歸系數(shù)將相應(yīng)會(huì)減小,但不為 0,以此來(lái)保證仍然滿足β 的正則化約束。
Q17. 關(guān)于特征選擇,下列對(duì) Ridge 回歸和 Lasso 回歸說(shuō)法正確的是?
A. Ridge 回歸適用于特征選擇
B. Lasso 回歸適用于特征選擇
C. 兩個(gè)都適用于特征選擇
D. 以上說(shuō)法都不對(duì)
答案:B
解析:上一題我們已經(jīng)介紹過(guò),Lasso 回歸會(huì)讓一部分回歸系數(shù)剛好可以被約束為 0,起到特征選擇的效果。
Ridge 回歸又稱嶺回歸,它是普通線性回歸加上 L2 正則項(xiàng),用來(lái)防止訓(xùn)練過(guò)程中出現(xiàn)的過(guò)擬合。L2 正則化效果類似上一題左圖,限定區(qū)域是圓,這樣,得到的回歸系數(shù)為 0 的概率很小,很大概率是非零的。因此,比較來(lái)說(shuō),Lasso 回歸更容易得到稀疏的回歸系數(shù),有利于舍棄冗余或無(wú)用特征,適用于特征選擇。
Q18. 如果在線性回歸模型中增加一個(gè)特征變量,下列可能發(fā)生的是(多選)?
A.R-squared 增大,Adjust R-squared 增大
B.R-squared 增大,Adjust R-squared 減小
C.R-squared 減小,Adjust R-squared 減小
D.R-squared 減小,Adjust R-squared 增大
答案:AB
解析:線性回歸問(wèn)題中,R-Squared 是用來(lái)衡量回歸方程與真實(shí)樣本輸出之間的相似程度。其表達(dá)式如下所示:
上式中,分子部分表示真實(shí)值與預(yù)測(cè)值的平方差之和,類似于均方差 MSE;分母部分表示真實(shí)值與均值的平方差之和,類似于方差 Var。一般來(lái)說(shuō),R-Squared 越大,表示模型擬合效果越好。R-Squared 反映的是大概有多準(zhǔn),因?yàn)?,隨著樣本數(shù)量的增加,R-Squared 必然增加,無(wú)法真正定量說(shuō)明準(zhǔn)確程度,只能大概定量。
單獨(dú)看R-Squared,并不能推斷出增加的特征是否有意義。通常來(lái)說(shuō),增加一個(gè)特征特征,R-Squared 可能變大也可能保持不變,兩者不一定呈正相關(guān)。
如果使用校正決定系數(shù)(Adjusted R-Squared):
其中,n 是樣本數(shù)量,p 是特征數(shù)量。Adjusted R-Squared抵消樣本數(shù)量對(duì) R-Squared 的影響,做到了真正的 0~1,越大越好。
增加一個(gè)特征變量,如果這個(gè)特征有意義,Adjusted R-Square 就會(huì)增大,若這個(gè)特征是冗余特征,Adjusted R-Squared 就會(huì)減小。
Q19. 下面三張圖展示了對(duì)同一訓(xùn)練樣本,使用不同的模型擬合的效果(藍(lán)色曲線)。那么,我們可以得出哪些結(jié)論(多選)?
A. 第 1 個(gè)模型的訓(xùn)練誤差大于第 2 個(gè)、第 3 個(gè)模型
B. 最好的模型是第 3 個(gè),因?yàn)樗挠?xùn)練誤差最小
C. 第 2 個(gè)模型最為“健壯”,因?yàn)樗鼘?duì)未知樣本的擬合效果最好
D. 第 3 個(gè)模型發(fā)生了過(guò)擬合
E. 所有模型的表現(xiàn)都一樣,因?yàn)槲覀儾]有看到測(cè)試數(shù)據(jù)
答案:ACD
解析:1、2、3 模型分別對(duì)應(yīng)的多項(xiàng)式階數(shù)由小到大,即模型由簡(jiǎn)單到復(fù)雜。模型越簡(jiǎn)單,容易發(fā)生欠擬合;模型越復(fù)雜,容易發(fā)生過(guò)擬合。第 1 個(gè)模型過(guò)于簡(jiǎn)單,出現(xiàn)欠擬合;第 3 個(gè)模型過(guò)于復(fù)雜,對(duì)訓(xùn)練樣本擬合得很好,但在測(cè)試樣本上效果會(huì)很差,即過(guò)擬合;第 2 個(gè)模型最為“健壯”,在訓(xùn)練樣本和測(cè)試樣本上擬合效果都不錯(cuò)!
Q20. 下列哪些指標(biāo)可以用來(lái)評(píng)估線性回歸模型(多選)?
A.R-Squared
B.Adjusted R-Squared
C. F Statistics
D.RMSE / MSE / MAE
答案:ABCD
解析:R-Squared 和Adjusted R-Squared 的概念,我們?cè)?Q3 有過(guò)介紹,它們都可以用來(lái)評(píng)估線性回歸模型。F Statistics是指在零假設(shè)成立的情況下,符合F分布的統(tǒng)計(jì)量,多用于計(jì)量統(tǒng)計(jì)學(xué)中。
RMSE 指的是均方根誤差:
MSE 指的是均方誤差:
MAE 指的是評(píng)價(jià)絕對(duì)誤差:
以上指標(biāo)都可以用來(lái)評(píng)估線性回歸模型。
Q21. 線性回歸中,我們可以使用正規(guī)方程(Normal Equation)來(lái)求解系數(shù)。下列關(guān)于正規(guī)方程說(shuō)法正確的是?
A. 不需要選擇學(xué)習(xí)因子
B. 當(dāng)特征數(shù)目很多的時(shí)候,運(yùn)算速度會(huì)很慢
C. 不需要迭代訓(xùn)練
答案:ABC
解析:求解線性回歸系數(shù),我們一般最常用的方法是梯度下降,利用迭代優(yōu)化的方式。除此之外,還有一種方法是使用正規(guī)方程,原理是基于最小二乘法。下面對(duì)正規(guī)方程做簡(jiǎn)要的推導(dǎo)。
已知線性回歸模型的損失函數(shù) Ein 為:
對(duì) Ein 計(jì)算導(dǎo)數(shù),令 ?Ein=0:
然后就能計(jì)算出 W:
以上就是使用正規(guī)方程求解系數(shù) W 的過(guò)程??梢钥吹?,正規(guī)方程求解過(guò)程不需要學(xué)習(xí)因子,也沒有迭代訓(xùn)練過(guò)程。當(dāng)特征數(shù)目很多的時(shí)候,XTX 矩陣求逆會(huì)很慢,這時(shí)梯度下降算法更好一些。
如果 XTX 矩陣不可逆,是奇異矩陣怎么辦呢?其實(shí),大部分的計(jì)算逆矩陣的軟件程序,都可以處理這個(gè)問(wèn)題,也會(huì)計(jì)算出一個(gè)逆矩陣。所以,一般偽逆矩陣是可解的。
Q22. 如果 Y 是 X(X1,X2,...,Xn)的線性函數(shù):Y =β0 +β1X1 +β2X2 + ··· +βnXn,則下列說(shuō)法正確的是(多選)?
A. 如果變量 Xi 改變一個(gè)微小變量ΔXi,其它變量不變。那么 Y 會(huì)相應(yīng)改變?chǔ)耰ΔXi。
B.βi 是固定的,不管 Xi 如何變化
C. Xi 對(duì) Y 的影響是相互獨(dú)立的,且 X 對(duì) Y 的總的影響為各自分量 Xi 之和
答案:ABC
解析:這題非常簡(jiǎn)單,Y 與 X(X1,X2,...,Xn)是線性關(guān)系,故能得出 ABC 結(jié)論。
Q23. 構(gòu)建一個(gè)最簡(jiǎn)單的線性回歸模型需要幾個(gè)系數(shù)(只有一個(gè)特征)?
A. 1 個(gè)
B. 2 個(gè)
C. 3 個(gè)
D. 4 個(gè)
答案:B
解析:最簡(jiǎn)單的線性回歸模型,只有一個(gè)特征,即 Y = aX + b,包含 a 和 b 兩個(gè)系數(shù)。
Q24. 下面兩張圖展示了兩個(gè)擬合回歸線(A 和 B),原始數(shù)據(jù)是隨機(jī)產(chǎn)生的?,F(xiàn)在,我想要計(jì)算 A 和 B 各自的殘差之和。注意:兩種圖中的坐標(biāo)尺度一樣。
關(guān)于 A 和 B 各自的殘差之和,下列說(shuō)法正確的是?
A. A 比 B 高
B. A 比 B 小
C. A 與 B 相同
D. 以上說(shuō)法都不對(duì)
答案:C
解析:A 和 B 中各自的殘差之和應(yīng)該是相同的。線性回歸模型的損失函數(shù)為:
對(duì)損失函數(shù)求導(dǎo),并令?J=0,即可得到 XW-Y=0,即殘差之和始終為零。
Q25. 如果兩個(gè)變量相關(guān),那么它們一定是線性關(guān)系嗎?
A. 是
B. 不是
答案:B
解析:相關(guān)不一定是線性關(guān)系,也有可能是非線性相關(guān)。
Q26. 兩個(gè)變量相關(guān),它們的相關(guān)系數(shù) r 可能為 0。這句話是否正確?
A. 正確
B. 錯(cuò)誤
答案:A
解析:一般來(lái)說(shuō),相關(guān)系數(shù) r=0 是兩變量相互獨(dú)立的必要不充分條件。也就是說(shuō),如果兩個(gè)變量相互獨(dú)立,那么相關(guān)系數(shù) r 一定為 0,如果相關(guān)系數(shù) r=0,則不一定相互獨(dú)立。相關(guān)系數(shù) r=0 只能說(shuō)明兩個(gè)變量之間不存在線性關(guān)系,仍然可能存在非線性關(guān)系。
那么,若兩個(gè)變量相關(guān),存在非線性關(guān)系,那么它們的相關(guān)系數(shù) r 就為 0。
Q27. 加入使用邏輯回歸對(duì)樣本進(jìn)行分類,得到訓(xùn)練樣本的準(zhǔn)確率和測(cè)試樣本的準(zhǔn)確率?,F(xiàn)在,在數(shù)據(jù)中增加一個(gè)新的特征,其它特征保持不變。然后重新訓(xùn)練測(cè)試。則下列說(shuō)法正確的是?
A. 訓(xùn)練樣本準(zhǔn)確率一定會(huì)降低
B. 訓(xùn)練樣本準(zhǔn)確率一定增加或保持不變
C. 測(cè)試樣本準(zhǔn)確率一定會(huì)降低
D. 測(cè)試樣本準(zhǔn)確率一定增加或保持不變
答案:B
解析:在模型中增加更多特征一般會(huì)增加訓(xùn)練樣本的準(zhǔn)確率,減小 bias。但是測(cè)試樣本準(zhǔn)確率不一定增加,除非增加的特征是有效特征。
這題對(duì)應(yīng)的知識(shí)點(diǎn)也包括了增加模型復(fù)雜度,雖然會(huì)減小訓(xùn)練樣本誤差,但是容易發(fā)生過(guò)擬合。
Q28. 下面這張圖是一個(gè)簡(jiǎn)單的線性回歸模型,圖中標(biāo)注了每個(gè)樣本點(diǎn)預(yù)測(cè)值與真實(shí)值的殘差。計(jì)算 SSE 為多少?
A. 3.02
B. 0.75
C. 1.01
D. 0.604
答案:A
解析:SSE 是平方誤差之和(Sum of Squared Error),SSE = (-0.2)^2 + (0.4)^2 + (-0.8)^2 + (1.3)^2 + (-0.7)^2 = 3.02
Q29. 假設(shè)變量 Var1 和 Var2 是正相關(guān)的,那么下面那張圖是正確的?圖中,橫坐標(biāo)是 Var1,縱坐標(biāo)是 Var2,且對(duì) Var1 和 Var2 都做了標(biāo)準(zhǔn)化處理。
A. Plot 1
B. Plot 2
答案:B
解析:顯然,Plot 2 顯示出 Var2 與 Var1 是正相關(guān)的,例如 Var2 = Var1。Plot 1 顯示出 Var2 與 Var1 是負(fù)相關(guān)的,例如 Var2 = -Var1。
Q30. 假設(shè)一個(gè)公司的薪資水平中位數(shù)是 $35,000,排名第 25% 和 75% 的薪資分別是 $21,000 和 $ 53,000。如果某人的薪水是 $1,那么它可以被看成是異常值(Outlier)嗎?
A. 可以B. 不可以C. 需要更多的信息才能判斷D. 以上說(shuō)法都不對(duì)
答案:C解析:異常值(Outlier)指樣本中的個(gè)別值,其數(shù)值明顯偏離它(或他們)所屬樣本的其余觀測(cè)值,也稱異常數(shù)據(jù),離群值。目前人們對(duì)異常值的判別與剔除主要采用物理判別法和統(tǒng)計(jì)判別法兩種方法。所謂物理判別法就是根據(jù)人們對(duì)客觀事物已有的認(rèn)識(shí),判別由于外界干擾、人為誤差等原因造成實(shí)測(cè)數(shù)據(jù)值偏離正常結(jié)果,在實(shí)驗(yàn)過(guò)程中隨時(shí)判斷,隨時(shí)剔除。統(tǒng)計(jì)判別法是給定一個(gè)置信概率,并確定一個(gè)置信限,凡超過(guò)此限的誤差,就認(rèn)為它不屬于隨機(jī)誤差范圍,將其視為異常值剔除。當(dāng)物理識(shí)別不易判斷時(shí),一般采用統(tǒng)計(jì)識(shí)別法。該題中,所給的信息量過(guò)少,無(wú)法肯定一定是異常值。
-
分類器
+關(guān)注
關(guān)注
0文章
152瀏覽量
13159 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8325瀏覽量
132201 -
線性回歸
+關(guān)注
關(guān)注
0文章
41瀏覽量
4288
原文標(biāo)題:機(jī)器學(xué)習(xí)筆試題精選
文章出處:【微信號(hào):rgznai100,微信公眾號(hào):rgznai100】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論