機器學(xué)習(xí)是我們這個時代最具變革性的技術(shù),它具有從太空探索到財務(wù),醫(yī)學(xué)和科學(xué)的巨大應(yīng)用。據(jù)估計,未來對機器學(xué)習(xí)專家的需求將會不斷增加,今年估計增長約60%。
最重要的是,該行業(yè)在過去幾年中經(jīng)歷了巨大的變革。以前,要成為一名機器學(xué)習(xí)專家,你需要有一個博士學(xué)位(或一些高學(xué)歷),但現(xiàn)在已經(jīng)不是這樣了。由于大型科技公司如Alphabet(谷歌母公司),IBM,微軟等公司的參與,現(xiàn)在任何人都可以更輕松地開始機器學(xué)習(xí)。
這不,YouTube上的大咖Siraj Raval就發(fā)起了一個挑戰(zhàn)賽:#100DaysOfMLCode。
什么是#100DaysOfMLCode?
這是向機器學(xué)習(xí)開發(fā)人員(專家或新手)發(fā)出的挑戰(zhàn),要求在接下來的100天內(nèi)每天至少花一小時學(xué)習(xí)和構(gòu)建機器學(xué)習(xí)模型。內(nèi)容有易到難,由此也可以看得出博主Avik-Jain的用心良苦。
其中一名叫Avik Jain的機器學(xué)習(xí)愛好者,創(chuàng)建了一個100-Days-Of-ML-Code的項目,很快引起了大家的注意,截至今日,該項目已經(jīng)獲得了11570個「star」以及1993個「fork」(GitHub地址:https://github.com/Avik-Jain/100-Days-Of-ML-Code)。
更不可思議的是,他還創(chuàng)建了該項目的中文版
從他的GitHub主頁可以看到他共創(chuàng)建了6個項目:
目前作者的100天計劃,已經(jīng)進行到第54天,已有的內(nèi)容包括:
有監(jiān)督學(xué)習(xí)
● 數(shù)據(jù)預(yù)處理
● 簡單線性回歸
● 多元線性回歸
● 邏輯回歸
● k近鄰法(k-NN)
● 支持向量機(SVM)
● 決策樹
● 隨機森林
無監(jiān)督學(xué)習(xí)
● K-均值聚類
● 層次聚類
這里我們通過介紹第一天的數(shù)據(jù)預(yù)處理來深入了解下這個項目
數(shù)據(jù)預(yù)處理
第一步導(dǎo)入庫
importnumpyasnpimportpandasaspd
第2步:導(dǎo)入數(shù)據(jù)集
dataset=pd.read_csv('Data.csv')X=dataset.iloc[:,:-1].valuesY=dataset.iloc[:,3].values
第3步:處理丟失數(shù)據(jù)
fromsklearn.preprocessingimportImputerimputer=Imputer(missing_values="NaN",strategy="mean",axis=0)imputer=imputer.fit(X[:,1:3])X[:,1:3]=imputer.transform(X[:,1:3])
第4步:解析分類數(shù)據(jù)
fromsklearn.preprocessingimportLabelEncoder,OneHotEncoderlabelencoder_X=LabelEncoder()X[:,0]=labelencoder_X.fit_transform(X[:,0])
創(chuàng)建虛擬變量
onehotencoder=OneHotEncoder(categorical_features=[0])X=onehotencoder.fit_transform(X).toarray()labelencoder_Y=LabelEncoder()Y=labelencoder_Y.fit_transform(Y)
第5步:拆分數(shù)據(jù)集為訓(xùn)練集合和測試集合
fromsklearn.cross_validationimporttrain_test_splitX_train,X_test,Y_train,Y_test=train_test_split(X,Y,test_size=0.2,random_state=0)
第6步:特征量化
fromsklearn.preprocessingimportStandardScalersc_X=StandardScaler()X_train=sc_X.fit_transform(X_train)X_test=sc_X.fit_transform(X_test)
通過6步完成數(shù)據(jù)預(yù)處理。此例子中用到的數(shù)據(jù)地址:https://github.com/Avik-Jain/100-Days-Of-ML-Code/blob/master/datasets/Data.csv
可以看出他每天的計劃都包含一張學(xué)習(xí)圖片,操作補流程、相應(yīng)的代碼,以及用到的數(shù)據(jù)
簡單線性回歸 | 第2天
多元線性回歸 | 第3天
邏輯回歸 | 第4天
-
微軟
+關(guān)注
關(guān)注
4文章
6537瀏覽量
103808 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8323瀏覽量
132165
原文標題:爆紅GitHub!有人打算用這個項目100天拿下機器學(xué)習(xí)
文章出處:【微信號:TheAlgorithm,微信公眾號:算法與數(shù)據(jù)結(jié)構(gòu)】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論