(文章來(lái)源:網(wǎng)絡(luò)整理)
機(jī)器學(xué)習(xí)涉及到很多的學(xué)科和門類,在我看來(lái),它更像是各個(gè)學(xué)科的集合體,因此想要學(xué)好機(jī)器學(xué)習(xí),你需要具備很多方面的知識(shí),不過(guò)也并不是所有人會(huì)用到機(jī)器學(xué)習(xí)的每個(gè)細(xì)節(jié),因此可以根據(jù)自己的專長(zhǎng)有針對(duì)性的學(xué)習(xí)。
我目前也在學(xué)習(xí)相關(guān)的技術(shù)資料,再加上之前也接觸過(guò)這方面的工作,所以對(duì)于機(jī)器學(xué)習(xí)方面還是有一定的了解,在我看來(lái)無(wú)論是什么樣的機(jī)器學(xué)習(xí)模型、分類、算法都是依托于原始數(shù)據(jù)的,原始數(shù)據(jù)的分析和處理是前提也是很重要的部分。
通常我身邊的工程師在進(jìn)行相關(guān)設(shè)計(jì)的時(shí)候有一個(gè)慣性的思維,先采集一大堆的數(shù)據(jù)然后用工具分析特征和生成模型,之后通過(guò)大量的數(shù)據(jù)采集來(lái)實(shí)現(xiàn)模型的修正和完善,這種方式應(yīng)該也是很多設(shè)計(jì)人員通常的思路,而且一般的情況下要求硬件采集設(shè)備盡可能的提供多種參數(shù),這樣可以豐富算法模型的輸入?yún)?shù),理論上可以更好地接近實(shí)際的結(jié)果,在純技術(shù)的角度上這個(gè)是可行的,而且隨著樣本量的增加,采用機(jī)器學(xué)習(xí)的思路,最終的模型和算法會(huì)越來(lái)越精確。
這樣的設(shè)計(jì)方法對(duì)于已有理想樣本或是可以很容易獲取樣本數(shù)據(jù)的前提下是非常高效的,但是如果已有樣本不是很理想,存在大量干擾成分,樣本數(shù)據(jù)受人為因素或者必須由人工采集獲取數(shù)據(jù)時(shí),傳統(tǒng)的方法就沒有太大優(yōu)勢(shì)了。這個(gè)時(shí)候需要對(duì)數(shù)據(jù)進(jìn)行預(yù)處理和必要的分析,需要確定幾個(gè)問題:
一、預(yù)先確定幾個(gè)需要研究的參數(shù),選擇參數(shù)時(shí)需要有一定的依據(jù)和相關(guān)性,拿紅外信號(hào)輸出信號(hào)分析舉例,可以從公開的資料中知道紅外傳感器會(huì)受到溫度和光譜范圍的影響導(dǎo)致輸出曲線的變化,那么溫度和光譜范圍就是需要研究的參數(shù)。
二、確定了參數(shù)之后,先不要對(duì)所有參數(shù)進(jìn)行樣本數(shù)據(jù)采樣,而是針對(duì)單一參數(shù)進(jìn)行數(shù)據(jù)采樣,徹底明確單一參數(shù)對(duì)于最終結(jié)果的影響程度,也就是權(quán)重,用函數(shù)關(guān)系表示即:Y = F(X), Y為結(jié)果,X為樣本數(shù)據(jù)參數(shù),數(shù)據(jù)處理過(guò)程包括平滑、篩選、剔除、插入等基本操作,也就是預(yù)處理過(guò)程,之后可以生成基本的函數(shù)關(guān)系或?qū)φ毡?,為后續(xù)的大模型的建立提供數(shù)據(jù)支持。
三、將每種數(shù)據(jù)參數(shù)的影響程度量化之后,我們就獲取了所有的參數(shù)對(duì)照表和函數(shù)對(duì)應(yīng)關(guān)系,利用這些已有的結(jié)果建立整個(gè)算法模型和框架結(jié)構(gòu),在模型中將每種數(shù)據(jù)的權(quán)重設(shè)計(jì)好,最終形成一個(gè)初步的機(jī)器學(xué)習(xí)模式。
四、在實(shí)現(xiàn)了以上三步之后,我們最終可以通過(guò)大數(shù)據(jù)樣本的采集來(lái)實(shí)現(xiàn)整個(gè)機(jī)器學(xué)習(xí)模型的完善,最終實(shí)現(xiàn)之前制定的目標(biāo)。
(責(zé)任編輯:fqj)
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8323瀏覽量
132177 -
數(shù)據(jù)分析
+關(guān)注
關(guān)注
2文章
1402瀏覽量
33965
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論