0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

機器學習如今大獲成功的原因有哪些?如何才能取得進一步的突破?

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-10-04 09:24 ? 次閱讀

機器學習如今大獲成功的原因有哪些?如何才能取得進一步的突破?南京大學周志華教授在AI WORLD 2018大會上分享他關于機器學習的一點思考:我們需要設計新的、神經(jīng)網(wǎng)絡以外的深度模型;讓智能體在弱監(jiān)督條件下也能夠學習,以及考慮開放動態(tài)任務環(huán)境下的學習。

南京大學計算機系主任、人工智能學院院長周志華分享了他《關于機器學習的一點思考》。周志華教授表示,當前機器學習成功的背后,實際上離不開三點:1)有效的深度模型,現(xiàn)階段基本上就是深度神經(jīng)網(wǎng)絡;2)存在強監(jiān)督信息,也即數(shù)據(jù)都要有標注,而且越精準越好;3)學習的環(huán)境較為穩(wěn)定。

因此,如果未來機器學習要取得進一步突破,就必須:1)設計新的、多樣化的深度模型;2)讓智能體能夠在弱監(jiān)督條件下學習;3)考慮開放動態(tài)任務環(huán)境下的學習。

周志華教授說,機器學習界早就很清楚,“沒有免費的午餐”,也即任何一個模型可能只適用于一部分的任務,而另外一些任務是不適用的。例如,Kaggle競賽中有各種各樣的任務,但在圖像、視頻、語音之外的很多任務上,比如訂機票、訂旅館之類,還是傳統(tǒng)機器學習技術(如隨機森林或XGBoost)表現(xiàn)更好,尤其是涉及符號建模、離散建模、混合建模等問題。

周志華教授著重介紹了他帶領團隊提出的“深度森林”,這是一種以決策樹為基礎構建的深度模型。深度森林在超大型互聯(lián)網(wǎng)金融企業(yè)的非法套現(xiàn)檢測任務中,近2億的真實交易數(shù)據(jù)實測上,性能超越了包括深度神經(jīng)網(wǎng)絡在內的其他模型。這也驗證了周志華教授及其團隊的猜想——在很多其他任務上,非神經(jīng)網(wǎng)絡的深度模型能找到用武之地。

不過,周志華教授也表示,任何一個理論的提出,都需要經(jīng)過長時間的發(fā)展與完善。深度森林目前尚處于初級階段,好比打開了“深度學習”這間小黑屋的一扇門,還有更多需要去探索。

周志華:關于機器學習的一點思考

以下是南京大學計算機系主任、人工智能學院院長周志華教授在AI WORLD 2018世界人工智能峰會上發(fā)表的演講。

周志華:各位朋友,大家上午好!謝謝新智元楊總的邀請,前面一直沒有機會參加,今天很高興有這個機會。我本人從事的是機器學習方面的研究,今天就和大家匯報一些關于機器學習方面粗淺的看法,談一談機器學習發(fā)展取得了哪些成功,后面會有哪些問題值得進一步關注。

大家都知道,這一輪的人工智能熱潮很大程度上是由于機器學習,特別是其中深度學習技術取得了巨大的成功??梢哉f今天每個人、每天都在談機器學習,機器學習已經(jīng)無所不在,各種各樣的智能應用當中如果離開了機器學習,基本上是不可想像的。

我們可能要問這樣一個問題:

機器學習取得了這么多的成功,這些成功的背后到底是什么呢?

大家常說,現(xiàn)在成功的智能應用后面有三個重要的條件:一是現(xiàn)在有大數(shù)據(jù)了,二是現(xiàn)在有很強大的計算能力了,三是我們在算法方面取得了很多突破。

這三個因素都特別重要,但今天我們將主要聚焦于機器學習技術本身,談一談機器學習技術本身取得這些進展,背后到底有哪些原因。

其實,無外乎就是三個因素:

1、能找到有效的深度模型

2、存在很多很強的監(jiān)督信息

3、任務都是比較穩(wěn)定的環(huán)境

現(xiàn)在所有成功的機器學習應用背后都離不開這三者,下面我們分別來看。

天下沒有免費的午餐,深度神經(jīng)網(wǎng)絡必然有不適用的任務

首先是深度模型。

現(xiàn)在深度學習在圖像、視頻、語音這些數(shù)字信號建模任務當中取得了巨大的成功。如果我們問一問大家,“深度學習”是什么?我想從絕大多數(shù)人那里得到的答案都會是:

深度學習就是深度神經(jīng)網(wǎng)絡,甚至認為“深度學習”就是“深度神經(jīng)網(wǎng)絡”的同義詞,談到深度學習就要從深度神經(jīng)網(wǎng)絡或者從神經(jīng)網(wǎng)絡談起。

事實上,神經(jīng)網(wǎng)絡并不是新事物,我們已經(jīng)研究了半個多世紀,只不過以前我們通常研究的是有一個隱層或兩個隱層這種比較淺的神經(jīng)網(wǎng)絡,其中每個計算單元都是非常簡單的模型。早在1943年,我們就已經(jīng)把它抽象成了這樣一個非常簡單的數(shù)學公式,就是從外界收到輸入X,經(jīng)過W放大,總的輸入如果要比θ高,我們就會用激活函數(shù)處理進行輸出。這樣的模型到今天依然在沿用。

深度神經(jīng)網(wǎng)絡帶來的最大區(qū)別是什么呢?雖然有各種各樣的模型,各種各樣的算法,但是最根本的差別就是現(xiàn)在我們用了很多很多層。

深度神經(jīng)網(wǎng)絡最著名、最早的成功來自2012年,在計算機視覺領域最著名的ImageNet比賽上獲勝。當時這個獲勝的模型用了8層,2015年獲勝的模型用了152層,2016年就用到了1207層,今天幾千層的模型比比皆是。

實際上,這樣的模型當中有大量參數(shù)需要計算,所以需要非常復雜、非常龐大的計算系統(tǒng)。雖然現(xiàn)在我們有了很強的計算設備和很巧妙的算法,但是我們能夠做到這一切,根本的原因之一是神經(jīng)網(wǎng)絡中基本計算單元激活函數(shù)是連續(xù)可微的。原來淺層神經(jīng)網(wǎng)絡用的是左邊的函數(shù),也是連續(xù)可微的,深度學習的年代我們通常會用右邊這樣的函數(shù)或變體。

不管怎么樣,可微性給我們帶來了非常重要的結果,就是可以很容易地計算出梯度,基于梯度的調整就可以用著名的BP算法來訓練整個模型。

這一點非常重要,因為如果不是從事機器學習研究的朋友會覺得,神經(jīng)網(wǎng)絡半個世紀之前就有了,到了今天我們之所以能夠做更深的神經(jīng)網(wǎng)絡,只不過是因為計算能力強,現(xiàn)在能夠訓練了。實際上不是這樣的。

2006年之前,可以說我們都不知道怎么訓練出5層以上的神經(jīng)網(wǎng)絡,根本原因是一旦層數(shù)高了以后,用BP算法梯度就會消失,然后就不知道怎么學習下去。所以,2006年的時候Geoffrey Hinton做了很重要的工作,通過逐層訓練來緩解梯度消失,使得深層模型能夠被訓練出來。后來有了一系列深度學習的工作,包括到今天為止的很多前沿研究,都是在防止深層網(wǎng)絡中梯度消失,使得梯度更新搜索能持續(xù)下去使訓練能夠完成。

神經(jīng)網(wǎng)絡取得了非常大的成功,但任何一個模型都必然存在缺陷,神經(jīng)網(wǎng)絡也是這樣。

常用神經(jīng)網(wǎng)絡的朋友知道,現(xiàn)在深度神經(jīng)網(wǎng)絡有很多問題。大家經(jīng)常說的一件事情就是要花大量的精力調整參數(shù),參數(shù)實在太多了。不僅如此,這還會帶來另外一個嚴重的問題:哪怕我告訴你同樣的算法、用同樣的數(shù)據(jù),如果不告訴你參數(shù)是怎么調的,可能就沒有辦法得到同樣的結果。

此外,還有很多別的問題,比如我們現(xiàn)在用的神經(jīng)網(wǎng)絡模型的復雜度是固定的,一旦先確定了一個模型,就把這個模型用下去。問題是,在解決一個現(xiàn)實問題之前,我們怎樣才能知道什么樣的模型是最恰當?shù)哪兀课覀儾恢?,所以通常會用一個過度復雜的模型來做問題,做的過程當中不斷把它簡化。

最近如果大家關心深度學習方面的一些前沿研究,可能就會發(fā)現(xiàn)現(xiàn)在有大量的論文是關于模型壓縮、模型簡化等等,事實上都是由這個原因導致的。我們能不能在使用模型的最初不要使用那么復雜的東西?先使用一個比較簡單的,然后隨著數(shù)據(jù)和訓練的過程讓它自適應地、自動地提升復雜度呢?很遺憾,我們對神經(jīng)網(wǎng)絡很難做到這一點,因為我們一旦用BP算法基于梯度搜索來做這件事情,如果事先結構都完全不知道,那么求梯度的對象也就不知道了。

這里有很多的問題,更不用說還有其它的缺陷,比如大的訓練數(shù)據(jù)、理論分析很困難、黑箱模型等等。

有些工業(yè)界的朋友可能會說,前面你們談到的這些缺陷都是從學術角度來說的,我關心實踐,只要性能好就行,至于學術上有什么缺點我不關心。實際上就算從這個角度來看,可能也還有很多的需求希望我們去研究其它的模型。

如果我們真正看一看今天的深度神經(jīng)網(wǎng)絡到底在哪些任務上取得了成功,其實我們可以看到無外乎主要就是圖像、視頻、語音,涉及到這些對象的任務。它們非常典型,都是一些數(shù)值信號建模的任務。而在很多其他的任務上,深度神經(jīng)網(wǎng)絡表現(xiàn)并沒有那么好,比如可能有的朋友接觸過Kaggle這個數(shù)據(jù)分析競賽的網(wǎng)站,上面每天都有很多數(shù)據(jù)分析的任務,有訂機票的,有訂旅館的,到今天為止,雖然深度學習網(wǎng)絡這么成功,很多這樣的任務上我們可以看到獲勝的通常還是一些相對傳統(tǒng)的機器學習技術,而不是深度神經(jīng)網(wǎng)絡。

事實上,機器學習界早就很清楚這件事情了,我們有一個經(jīng)過嚴格證明的定理,叫做“沒有免費的午餐定理”,也就是任何一個模型可能只有一部分任務是適用的,另外一些任務是不適用的。

所以,雖然深度神經(jīng)網(wǎng)絡在有些任務上很成功,但對別的應用來說,我們有沒有可能設計出新的模型,在這些任務取得以往沒有取得的效果?這可能也是非常值得關注的一件事情。

基于非可微構件、非神經(jīng)網(wǎng)絡的深度模型,是下一步很值得探索的方向

如果我們重新審視深度模型自身的話,會發(fā)現(xiàn)今天我們所談的深度模型其實都是指深度神經(jīng)網(wǎng)絡,而用更學術的話來說,這是由多層參數(shù)化可微的非線性模塊搭建起來的模型,而它本身能夠用BP算法去訓練。

最近有些深度學習網(wǎng)絡的研究在考慮怎樣用一些不可微的激活函數(shù),但是實際上是怎么做的呢?先用了一個不可微的激活函數(shù)對現(xiàn)實建模,然后在優(yōu)化的過程當中逐漸近似放松,最后還要把它變成一個可微的東西求解,所以最終還是離不開可微性。

但是,現(xiàn)實世界當中并不是所有規(guī)律都是可微的,或者能夠利用可微構件最優(yōu)建模的,而且另一方面我們機器學習界早就經(jīng)過了很多年的研究,也有很多不可微的構件,這些構件以后有沒有用呢?現(xiàn)在我們就在考慮這樣一個很基礎的問題,就是能不能基于不可微構件進行深度學習?

這個問題如果得到答案,我們可以得到一系列其它問題的答案,比如深度模型是不是只能用深度神經(jīng)網(wǎng)絡來做?我們有沒有可能不通過BP算法來做出這種深度模型?我們能不能在圖像、視頻、語音之外的任務也能夠獲得一些深度模型,幫助我們獲得更好的性能?

最近我們的課題組做了一些研究,提出了一個新的模型叫做“深度森林”,這是不基于神經(jīng)網(wǎng)絡來做的模型,它的基本構件是決策樹,本身是不可微的,所以不能用BP訓練,模型復雜度可以自己根據(jù)數(shù)據(jù)調整,超參數(shù)比深度神經(jīng)網(wǎng)絡要小。除了大規(guī)模的圖像類任務之外,很多的任務上它的性能已經(jīng)達到或者接近了深度神經(jīng)網(wǎng)絡的性能。從學術上來說,特別值得關注的就是它是第一個非神經(jīng)網(wǎng)絡,不使用BP算法訓練的深度學習模型。

后來國際上關于這件事情也有一些反響和探討。Keras的創(chuàng)始人說,這種可微層是當前深度學習模型的根本弱點,現(xiàn)在我們的模型本身是不使用可微層的;深度學習的奠基人Geoffrey Hinton說放棄BP從頭開始,現(xiàn)在我們的模型就完全沒有使用BP算法。這類模型不一定僅限于“深度森林”這樣的模型,基于非可微構件、非神經(jīng)網(wǎng)絡的深度模型可能是下一步很值得探討的方向。大家知道深度神經(jīng)網(wǎng)絡已經(jīng)研究了二十多年,再往下研究的空間可能不見得那么大,但是其它的模型有沒有可能做深呢?一旦我們往前走了一步,可能會給我們帶來巨大的空間。

這只是學術上的意義,來自工業(yè)界做應用的朋友可能會問,應用上到底有什么東西用它做比較好?在圖像、視頻、語音這些純的數(shù)值建模之外,涉及到符號數(shù)據(jù)、離散數(shù)據(jù)、混合建模的問題,可能是這種不可微模型能夠發(fā)揮作用的地方。

比如最近我們和國內一個非常大的互聯(lián)網(wǎng)金融公司合作,做在線支付的非法套現(xiàn)檢測。這個公司非常大,大家每天都在接觸它,每天有大量的網(wǎng)上交易,比如在2016年“雙11”這一天,一天就有1億多交易是通過網(wǎng)上支付來做的。非法套現(xiàn)是一個很大的問題。

我們給大家看個結果,訓練數(shù)據(jù)用了1億3千多萬的真實交易,測試數(shù)據(jù)用了5千多萬真實交易,這可能是世界上最大的關于互聯(lián)網(wǎng)交易非法套現(xiàn)的數(shù)據(jù)。這家公司內部有一個大型分布式機器學習系統(tǒng),他們的工程師很厲害,做了深度森林的大規(guī)模分布式實現(xiàn),實測結果來看比系統(tǒng)中以往的模型包括深度神經(jīng)網(wǎng)絡在內的性能都還要更好一些。這也驗證了我們所猜想的,在很多其它任務上,圖像、視頻、語音之外的任務上,非神經(jīng)網(wǎng)絡模型能找到用武之地。

另外一方面,這畢竟只是一個起點,因為深度神經(jīng)網(wǎng)絡研究了20多年,深度神經(jīng)網(wǎng)絡經(jīng)過幾十萬上百萬研究實踐者這么多年的探索改進,而非神經(jīng)網(wǎng)絡深度學習的研究才剛剛開始,只有幾個人做了一點點事情,未來有非常多可以探索的東西。任何一個新技術往前走的話都有很多工作要做。關于深度模型真正重要的意義是,以前我們以為深度學習只有深度神經(jīng)網(wǎng)絡,現(xiàn)在知道這里面可以有很多其它的東西。

當前機器學習高度依賴于強監(jiān)督信息,弱監(jiān)督學習還有很大空白

關于監(jiān)督信息。對于一個機器來說,我們拿到很多數(shù)據(jù)之后,經(jīng)過訓練得到模型,這個模型能夠發(fā)揮作用,能夠做精確預測。這里面很重要的是我們需要有很多數(shù)據(jù),而且這些數(shù)據(jù)需要有監(jiān)督信息。

深度學習需要大量的樣本,2012年ImageNet獲勝的網(wǎng)絡已經(jīng)用到超過1500多萬樣本,而現(xiàn)在的網(wǎng)絡越來越大,所需要的樣本越來越多。大家可能會有一個誤解,大數(shù)據(jù)時代數(shù)據(jù)樣本是不是不成問題?

其實不是的。

樣本需要標記,我們現(xiàn)在大量的人力物力都花在這件事上,比如前段時間有討論人工智能會不會使得一些職業(yè)消亡。是不是消亡我們沒看到,但是我們已經(jīng)看到一個新的職業(yè),就是數(shù)據(jù)標注已經(jīng)變成一個產(chǎn)業(yè)。這件事情不管它好還是不好,反正它就在那兒,至少告訴我們機器學習技術現(xiàn)在對強監(jiān)督信息是高度依賴的。

談到這件事可能有的朋友會想到前段時間很熱門的AlphaGo,最早的AlphaGo使用人類職業(yè)六段以上的所有棋局,超過16萬棋局進行學習。后來發(fā)明了AlphaZero,不使用人類棋局,通過兩個程序直接對弈提升性能,這樣是不是不需要監(jiān)督信息了呢?

所謂的AlphaZero,DeepMind說它是“從零開始學習”,第一天沒有任何數(shù)據(jù),第三天超過戰(zhàn)勝李世石的版本,第21天超過Alpha Master,第40天達到人類見到的最強能力。中間沒有用任何人類的棋局,這是不是意味著它背后的強化學習技術真的不需要監(jiān)督信息?

其實不是這樣的。因為非常重要的一點,是當兩個程序在對弈的時候,我們一定能夠判斷出勝負,而勝負規(guī)則是非常強的監(jiān)督信息,是上帝判斷。

打個比方來說,我要建一個能抵抗18級臺風的橋,事先不知道怎么建,沒有人教我怎么建,不管怎么樣,如果我能建出一個東西來,就有一個“上帝”告訴我,你這個東西能扛過去、那個東西扛不過去,有了這個指導信息,經(jīng)過不斷摸索最后就可能把這個橋建出來。

真正的現(xiàn)實應用中哪里能得到這樣的上帝規(guī)則?根本得不到。我們也不可能通過無成本探索像圍棋這樣獲得大量的樣本。我們沒有辦法去做真正的不需要任何數(shù)據(jù),不需要任何標記的學習。

我們現(xiàn)在能做的還是要往弱監(jiān)督學習上做。

所謂的弱監(jiān)督學習,就是希望監(jiān)督信息不用那么多了,稍微少一點,它還是能夠工作得很好。舉幾個典型的弱監(jiān)督學習的例子:在醫(yī)院里診斷乳腺圖像的影像,希望看到影像中有沒有鈣化點。一個醫(yī)院有很多數(shù)據(jù),比如100萬幅圖像,但是醫(yī)生只標注了一萬幅,有99萬幅沒有標記,這種叫做監(jiān)督信息不完全。

第二種情況,可能醫(yī)生只告訴我們這個圖像里面有病灶,但是病灶在哪兒沒標出來,這時候我們把它叫監(jiān)督信息不具體。

還有更多的情況,比如醫(yī)生由于疲勞、疏忽等標注中間有錯誤,我們就把它叫做監(jiān)督信息不精確,這是三種典型的情況。

事實上很多應用里這些問題都普遍存在,大量的應用都能看到這三種情況。對這些情況事實上機器學習界有一些探索,比如第一種情況我們做半監(jiān)督學習、主動學習;第二種情況有多示例學習,有MIML;第三種有眾包學習、帶噪學習。這是好的一方面。

另一方面,強監(jiān)督學習我們已經(jīng)研究很多,非常典型的弱監(jiān)督學習也已經(jīng)有研究,但是還有更多的弱監(jiān)督狀態(tài),例如這個圖中幾朵云之間的過渡狀態(tài),這些狀態(tài)有的連學術探討的文獻都還很少見。

關于弱監(jiān)督學習,應該說還有大量的事情需要我們去做。

開放環(huán)境下的機器學習研究是通往魯棒人工智能的重要環(huán)節(jié)

接下來談一談任務環(huán)境。

機器學習現(xiàn)在取得勝利,基本上都是在封閉靜態(tài)環(huán)境里面。我們要假定很多東西都是固定的,比如我們要假定所有的數(shù)據(jù)都來自于獨立同分布,數(shù)據(jù)分布恒定。

我們通常要假定樣本類別恒定,訓練數(shù)據(jù)只能讓我識別蘋果和梨,以后給我的東西我就只會識別成蘋果和梨,給我一個菠蘿也會只從蘋果和梨當中選擇一個,判斷到底是兩個中間的哪個。

樣本屬性也是恒定的。樣本里面用一百個屬性來描述我的數(shù)據(jù),預測的時候也要把這一百個屬性給我,中間不能發(fā)生變化。

甚至我們的目標也要恒定。一個模型好,我們就認為它就是好的,不管對誰來說都應該是一個好的模型。

事實上,我們現(xiàn)在越來越多地碰到所謂的開放動態(tài)環(huán)境。在這樣的環(huán)境中可能一切都會發(fā)生變化。

現(xiàn)在有一條船開到海上去,我們不斷搜集海面的數(shù)據(jù)來做導航,可以知道今年在海上碰到的海冰分布和去年就是不一樣的,這個數(shù)據(jù)其實每年都在變。這就是數(shù)據(jù)分布發(fā)生變化。

我們碰到以前沒有見過的困難情況,這是新的類別。如果把船開到兩極地區(qū),由于環(huán)境惡劣,接入困難等等,有的屬性丟失了拿不到,這時候我們怎么辦?是不是屬性不夠就不能做預測,不能用了呢?

最后,我們同時要兼顧很多目標,只考慮一種目標得出來的模型往往可能是不能用的模型,必須要多個目標都不錯才能用。

可能會出現(xiàn)很多的變化,但是不管什么樣的變化出現(xiàn),我們都希望好的時候要好,壞的時候不能太壞。這時候模型的魯棒性是一個很根本的要求。

關于這個問題,可能有的朋友如果對機器學習比較熟悉的話,馬上就會想到,不是有一種強化學習技術嗎?這種強化學習技術是通過跟環(huán)境交互來進行學習的,它不就自動能適應環(huán)境嗎?

事實上這可能是一個誤解,現(xiàn)在雖然已經(jīng)有很多強化學習的研究,包括用強化學習來打游戲,在很多游戲上獲得勝利等等,看起來是和環(huán)境交互,但事實上,在整個強化學習的經(jīng)典假定里面,它所考慮的是狀態(tài)在環(huán)境中的變化,但是環(huán)境本身的基本規(guī)則比如下圍棋的游戲規(guī)則,在游戲過程中是不變的。

絕對不是說在學習的過程中是一種環(huán)境,在用的時候環(huán)境變化了,我這個模型還能用,那是不行的。比方說訓練下棋模型的時候原來是什么規(guī)則,以后模型使用的時候仍然是這樣一種規(guī)則環(huán)境。

這個問題使用傳統(tǒng)強化學習技術還遠遠解決不了。

國際上怎么看這件事?

在國際人工智能大會(AAAI)Tom Dietterich教授做了一個主席報告,叫“通往魯棒的人工智能”,特別提到現(xiàn)在人工智能技術取得巨大發(fā)展,越來越多地面臨高風險應用。

所謂高風險應用是指自動駕駛汽車、自主武器、遠程輔助外科手術等等,這一類應用無一例外都是一旦出現(xiàn)了問題,會造成巨大的損失。所以,我們才希望不要出問題,希望學習過程必須有魯棒性。

他提出未來的人工智能系統(tǒng)需要能夠應對未知情況,他給了一個說法,叫做“Unknown Unknowns”,指的就是開放環(huán)境。開放環(huán)境下機器學習研究是通往魯棒人工智能的非常重要的環(huán)節(jié)。

最近有另外一個消息,美國國防部宣布開發(fā)下一代人工智能技術,用一句話來說,“旨在開發(fā)能夠進行學習并適應不斷變化環(huán)境的機器”。這句話其實就是把所謂的開放動態(tài)環(huán)境下的學習換了一個表述,并且用到軍事應用里去。

從學術上來說,我們組里對這件事關注得比較早,有一些探索,前面Dietterich教授的報告也提到了我們的一點工作。這張片子里面是我們最近關于應付各種變化的一些探索性工作。

最近OpenAI組織了一個強化學習的比賽,比賽內容是打游戲。最近這段時間可能大家聽到關于人工智能技術來打游戲的消息有不少了,比如DeepMind的消息等等。現(xiàn)在我們說的這件事和其他那些有什么不同呢?

以前打游戲的時候是把告訴你要打什么游戲,學習程序可以把整個游戲都玩一遍,玩夠之后再和人玩,也就是說訓練的時候可以看到所有的場景。

而這個比賽和以前不太一樣的是,它給我們的訓練場景和測試場景是完全不一樣的,訓練場景58個關卡,測試11個關卡,環(huán)境變化非常明顯,最重要的是考驗我們怎么去適應環(huán)境變化的能力。

這個比賽我們組俞揚博士和合作者在200多個隊伍里面獲得冠軍。他們最重要是使用了兩個小技術,都是我們自己做出來的技術。

第一個是2004年我們提出的叫“二次學習技術”,先學一個模型,再做第二次學習得到進一步的加強。這個技術后來被Geoffrey Hinton重新命名為Knowledge Distillation。

另外一個技術是我們通過集成學習研究得到啟發(fā),引入多樣性激勵。如果只使用傳統(tǒng)強化學習環(huán)境的激勵,進去好的狀態(tài)之后就很難再探索了;而現(xiàn)在引入多樣性激勵之后,一個地方做得好,會自動去探索別的地方。

我們這兩個原創(chuàng)的小技術結合起來得到一個好的結果,比拿別人發(fā)明的技術獲勝做起來更好玩。

總結一下,現(xiàn)在機器學習成功的背后主要有三個原因,有效的深度模型,存在強監(jiān)督信息以及學習環(huán)境比較穩(wěn)定。但是,現(xiàn)實應用里面這三件事情都不成立,有的場合可能還沒有很適合的深度學習模型,監(jiān)督信息也不夠強,任務環(huán)境不斷變化等等。

所以下一步,機器學習的研究或者應用特別要關注研究新型深度模型、弱監(jiān)督學習以及開放環(huán)境的學習。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8323

    瀏覽量

    132177
  • 大數(shù)據(jù)

    關注

    64

    文章

    8834

    瀏覽量

    137138
  • 深度學習
    +關注

    關注

    73

    文章

    5439

    瀏覽量

    120794

原文標題:周志華:關于機器學習的一點思考

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    C語言深度剖析 讓你進一步了解C語言

    適合對C語言定基礎積累的童鞋 想進一步學習C語言的 可以看哈
    發(fā)表于 09-10 22:26

    【OK210申請】嵌入式進一步學習(想試著做個簡單的平板玩玩)

    學校開設過嵌入式入門課程,但淺嘗輒止,而且學校的開發(fā)板式老舊的ARM2410S,在使用上有很多不便。我此次的主要目的是進一步學習嵌入式,如果切順利,希望做個簡單的小平板,也算為我
    發(fā)表于 06-24 17:06

    初學linux,安裝了Ubuntu系統(tǒng)界面,請教該如何進一步快速學習

    初學linux,安裝了Ubuntu系統(tǒng)界面,請教該如何進一步快速學習,大家有什么好的初學的資料分享下,謝謝啦
    發(fā)表于 08-24 18:39

    手機射頻元件如何進一步集成?

    、電視手機。這些采用多種RF技 術的手機在提供便利的同時也使得手機的設計變得復雜,如何進一步集成射頻元件也變得至關重要。
    發(fā)表于 08-27 08:33

    【創(chuàng)龍TLZ7x-EasyEVM評估板試用連載】進行進一步學習和研究

    項目名稱:進行進一步學習和研究試用計劃:此前直從事單片機開發(fā),想進一步深入學習各種MCU,看到有此活動,特來申請。也為下
    發(fā)表于 04-23 10:36

    進一步理解量子力學經(jīng)典 多方面豐富相關圖表

    進一步理解量子力學經(jīng)典理論與應用 多方面豐富相關圖表為了進一步深入理解量子力學理論經(jīng)典及其應用,從多個方面豐富內容,附圖頁碼致,符合國際標準。聲學,聲波自然現(xiàn)象,以及經(jīng)典原子理論的應用等對理解量子力學經(jīng)典之波的概念有益。大灣區(qū)
    發(fā)表于 08-02 07:05

    如何進一步加強對RFID的安全隱私保護?

    如何進一步加強對RFID的安全隱私保護?
    發(fā)表于 05-26 06:09

    如何讓計算機視覺更進一步接近人類視覺?

    如何讓計算機視覺更進一步接近人類視覺?
    發(fā)表于 06-01 06:27

    如何進一步提高1302精度?

    GN1302 晶振引腳連接 2 個 30pf 電容,每天大約慢 4 秒,如何進一步提高精度?時鐘每天慢 4 秒是因為晶振的外部負載電容過大,即 30pf 電容過大。如果使用的晶振的負載電容參數(shù)為
    發(fā)表于 12-29 17:36

    STM8在待機模式如何進一步降低功耗?

    什么方法可以進一步降低待機模式的功耗
    發(fā)表于 10-12 07:23

    請問如何進一步減小DTC控制系統(tǒng)的轉矩脈動?

    如何進一步減小DTC控制系統(tǒng)的轉矩脈動?
    發(fā)表于 10-18 06:53

    在認知智能領域,AI企業(yè)如何才能取得進一步突破?

    在計算智能方面,機器早已遠遠超過人類。而在感知智能方面,機器也已達到可媲美人類的水平。科大訊飛在語音識別錯誤率方面每年相對下降30%以上。在2018年CHiME-5國際多通道語音分離和識別大賽上,當面對更難、更復雜的語音識別任務時,科大訊飛依然獲得第
    的頭像 發(fā)表于 09-26 09:16 ?3263次閱讀

    制造商相繼在細分領域取得突破 食品工業(yè)中的機器人份額將進一步提升

    日前,某調查機構新發(fā)布篇2018-2019工業(yè)機器人市場報告。報告中顯示,2018年工業(yè)機器人市場小幅增長,預計2019年市場也將持續(xù)上行。尤其是受食品工業(yè)上升趨勢影響,工業(yè)機器人在
    發(fā)表于 12-30 15:08 ?561次閱讀

    歐司朗進一步擴大LED光源投影儀的市場 成功突破3000ANSI流明的壁壘

    近日,歐司朗發(fā)布了Ostar Projection Power 系列12款新產(chǎn)品,率先成功通過 LED而非傳統(tǒng)燈泡使投影儀亮度突破 3000 ANSI 流明大關,進一步擴大了其 LED 光源投影儀的市場。
    發(fā)表于 01-09 11:49 ?2312次閱讀

    慕課嵌入式開發(fā)及應用(第五章.進一步學習指導)

    慕課蘇州大學.嵌入式開發(fā)及應用.第五章.其他.進一步學習指導0 目錄5 其他5.4 進一步學習指導5.4.1 課堂重點5.4.2 測試與作業(yè)6 下
    發(fā)表于 11-03 11:51 ?10次下載
    慕課嵌入式開發(fā)及應用(第五章.<b class='flag-5'>進一步</b><b class='flag-5'>學習</b>指導)