您好,歡迎來電子發(fā)燒友網(wǎng)! ,新用戶?[免費注冊]

您的位置:電子發(fā)燒友網(wǎng)>源碼下載>數(shù)值算法/人工智能>

將深度學習、強化學習和遷移學習有機結(jié)合的研究

大小:0.6 MB 人氣: 2017-10-09 需要積分:1
作為首位美國人工智能協(xié)會(AAAI)華人Fellow,唯一AAAI華人Councilor,國際頂級學術(shù)會議KDD、IJCAI等大會主席,香港科技大學計算機與工程系主任楊強教授在國內(nèi)外機器學習界聲譽卓著。在此前接受CSDN采訪時,楊強介紹了他目前的主要工作——致力于一個將深度學習、強化學習和遷移學習有機結(jié)合的Reinforcement Transfer Learning(RTL)體系的研究。那么,這個技術(shù)框架對工業(yè)界的實際應(yīng)用有什么用的實際意義?在本文中,CSDN結(jié)合楊強的另外一個身份——國內(nèi)人工智能創(chuàng)業(yè)公司第四范式首席科學家進行解讀。
  第四范式是原百度T10專家、楊強的弟子、遷移學習大牛戴文淵創(chuàng)立的公司,最初的定位是數(shù)據(jù)量豐富并且業(yè)務(wù)極為依賴數(shù)字化的金融領(lǐng)域,楊強在學術(shù)之余希望推廣人工智能技術(shù)在國內(nèi)的發(fā)展,參與了第四范式的創(chuàng)業(yè)。該公司最近發(fā)布了一個先知平臺,自動化、智能化的機器學習全流程為一大賣點,核心技術(shù)就是RTL。
  參與創(chuàng)業(yè)的初衷
  CSDN:您之所以參加第四范式的創(chuàng)業(yè),除了師生關(guān)系,還有其他的驅(qū)動因素?
  楊強:其實我們一直熱衷于一件事:讓我們的技術(shù)走向社會,我們一直在研究人工智能和遷移學習,另外我們也看到了很多大公司的局限,很多大公司有自己的想法和目標,一個研究者并不能百分之百地發(fā)揮自己的想象力,所以我們就想自己做一個有情懷的公司,來支持我們自己做一些想做的事情。一個很好的例子就是Google的Deepmind,就是做他們想做的事情,這對我們來說是一個更重要的啟發(fā)。
  我的工作涉及設(shè)計算法,包括強化學習、遷移學習的算法,在工程方面團隊有很多優(yōu)秀的工程師已經(jīng)在大公司受過很多的磨煉,所以我們是互補的。
  CSDN:第四范式公開介紹的核心技術(shù),包括您說到的深度學習、遷移學習、強化學習,還有一個記憶網(wǎng)絡(luò),第四范式的技術(shù)體系和您研究的RTL體系是完全一致的嗎?
  楊強:是一致的,當然是不是完全使用還看具體場景。我們比較認可的是強化學習、遷移學習,當用不同的結(jié)構(gòu)把它們給組合起來,就是一種很新的好的學習方式。這種方式在現(xiàn)在還不是很流行,我們預(yù)計在今后幾年都會用起來,也會通過我們的平臺推動起來。
  深度學習的局限
  CSDN:您如何看待深度學習的優(yōu)勢和局限?
  楊強:深度學習的局限來自于幾個方面:
  表達能力的限制。因為一個模型畢竟是一種現(xiàn)實的反映,等于是現(xiàn)實的鏡像,它能夠描述現(xiàn)實的能力越強就越準確,而機器學習都是用變量來描述世界的,它的變量數(shù)是有限的,深度學習的深度也是有限的。另外它對數(shù)據(jù)的需求量隨著模型的增大而增大,但現(xiàn)實中有那么多高質(zhì)量數(shù)據(jù)的情況還不多。所以一方面是數(shù)據(jù)量,一方面是數(shù)據(jù)里面的變量、數(shù)據(jù)的復(fù)雜度,深度學習來描述數(shù)據(jù)的復(fù)雜度還不夠復(fù)雜。
  缺乏反饋機制。目前深度學習對圖像識別、語音識別等問題來說是最好的,但是對其他的問題并不是最好的,特別是有延遲反饋的問題,例如機器人的行動,AlphaGo下圍棋也不是深度學習包打所有的,它還有強化學習的一部分,反饋是直到最后那一步才知道你的輸贏。還有很多其他的學習任務(wù)都不一定是深度學習才能來完成的。
  CSDN:微軟的深度殘差網(wǎng)絡(luò)是不是能解決表達能力的問題?
  楊強:那是一個很好的躍進,它的層數(shù)也很多,表達能力很顯然往前推進了很多。但即使如此,它也沒有解決所有的表達的問題。因為它增加的是層數(shù)、層和層之間的連接數(shù),而不是變量數(shù),所以在變量數(shù)上還是有局限的。我們認為深度稀疏網(wǎng)絡(luò)在變量數(shù)的容納能力方面更強。
  CSDN:遷移學習能解決哪些問題?
  楊強:它主要解決兩個問題。
  小數(shù)據(jù)的問題。比方說我們新開一個網(wǎng)店,賣一種新的糕點,我們沒有任何的數(shù)據(jù),就無法建立模型對用戶進行推薦。但用戶買一個東西會反應(yīng)到用戶可能還會買另外一個東西,所以如果知道用戶在另外一個領(lǐng)域,比方說買飲料,已經(jīng)有了很多很多的數(shù)據(jù),利用這些數(shù)據(jù)建了一個模型,就知道用戶飲料的習慣和糕點的習慣可能是有關(guān)聯(lián)的,我們就可以把飲料的推薦模型給成功地遷移到糕點的領(lǐng)域,使得對于糕點隨著數(shù)據(jù)不多,但是可以成功的推薦一些用戶可能喜歡的糕點。這個例子就說明了我們有兩個領(lǐng)域,一個領(lǐng)域已經(jīng)有很多的數(shù)據(jù),能成功地建一個模型,有一個領(lǐng)域數(shù)據(jù)不多,但是和前面那個領(lǐng)域是關(guān)聯(lián)的,我們就可以把那個模型給遷移過來。
  個性化的問題,我們每個人都希望自己的手機能夠記住我們的一些習慣,這樣不用我們每次都去設(shè)定它,我們怎么才能讓手機記住這一點呢?其實可以通過遷移學習把一個通用用戶的使用手機的模型遷移到個性化的數(shù)據(jù)上面,我想這種以后會越來越多。其實在硅谷的關(guān)鍵詞就是個性化。
  RTL的實踐
  CSDN:第四范式的官方介紹是有100多個案例,不知道您參與了多少,強化學習和遷移學習遇到的實際的問題是什么?
  楊強:我不能一一地說,但有幾個關(guān)鍵的我參與了,這里面用了很多不同的機器學習的算法,深度學習和強化學習只是其中的一部分。我要說的一點是,我們在公司建立的初期用得比較多的就是大規(guī)模邏輯回歸和深度學習。即使加上深度學習,這個學習模式也有它的缺陷——在很多情況下我們得到的反饋是延遲的,這種延遲反饋是深度學習所不能解決的。我們就引入了強化學習來解決它,是有一種自我學習的過程,類似AlphaGo自我對弈,不斷地提高。遷移學習,比方說我們在一個金融領(lǐng)域已經(jīng)建立了一個很好的模型,但我們遇到了一個新的領(lǐng)域怎么辦呢?解決所謂的冷啟動問題就是利用遷移學習,當數(shù)據(jù)收集得足夠多了以后,我們再改用深度學習。
  強化學習
  CSDN:強化學習的應(yīng)用應(yīng)該關(guān)注哪些方面呢?
  楊強:強化學習的應(yīng)用其實很廣,最開始應(yīng)用是在機器人上的應(yīng)用,比方說你告訴Google AlphaGo到冰箱里給我拿一瓶牛奶過來,AlphaGo就不會,那個路徑的編程和怎么樣打開冰箱都需要人寫到程序里。怎么才能學會呢?這就需要強化學習來做,你讓他試很多次,有時候拿到有時候沒有拿到,有時候通過例子,讓強化學習的方法學習優(yōu)化的路徑,所以一開始強化學習是在機器人的路徑規(guī)劃和任務(wù)完成上來進行的,但最近就發(fā)現(xiàn),原來強化學習的應(yīng)用面特別廣,可以用在很多反饋上,但這個反饋不是馬上可以得到的,比如說金融就是一個例子,醫(yī)療也是一個例子,對藥品和醫(yī)療方案的反饋,然后包括教育都是很好的例子。
  CSDN:我們用到的Q Learning?
  楊強:用到了。但現(xiàn)在比較流行的做法是Deep Q Learning。
  CSDN:關(guān)于擴張和探索平衡您有什么樣的見解?
  楊強:擴張和探索這個平衡一直是強化學習里面的一個大難題,現(xiàn)在沒有特別好的通用做法,應(yīng)該在不同的領(lǐng)域有不同的思路,在圍棋領(lǐng)域尤其明顯,比方說樹搜索的寬度和深度之間就是一個平衡,但這個平衡AlphaGo做得很好。所以可能在機器人的領(lǐng)域,也需要引入這樣的一個平衡點,這個平衡點也是需要去學習的。
  遷移學習
  CSDN:目前遷移能做到從金融領(lǐng)域遷移到其他領(lǐng)域么?
  楊強:跨領(lǐng)域是比較難的,一般是比領(lǐng)域里不同的業(yè)務(wù)之間做遷移,跨領(lǐng)域在學術(shù)界有做的,比方說網(wǎng)絡(luò)搜索可以遷移到推薦,圖象識別可以遷移到文本識別,這些在學術(shù)界都有不錯的工作,但是真的把它應(yīng)用到工業(yè)界,還是拭目以待。
  CSDN:難點在哪里?
  楊強:跨領(lǐng)域的時候我們需要另外的一種數(shù)據(jù)來幫助我們,那種數(shù)據(jù)就是在兩個領(lǐng)域之間的橋梁數(shù)據(jù),把它們銜接起來,這種數(shù)據(jù)往往在工業(yè)界中是隱式的,往往是在人的腦袋里,沒有被記錄下來的。所以我說人工智能的發(fā)展還在很初級的階段,我們沒有連成片而是一個一個申請在打,到了我們能連成片的階段那時候有新的成果出來,會是一加一大于二的結(jié)果。
  CSDN:在每個行業(yè)都有一定的成熟的應(yīng)用之后才能真正用起來是么?
  楊強:對,這個是要有耐心和足夠的積累才可以發(fā)現(xiàn)不同領(lǐng)域之間的關(guān)聯(lián)。以醫(yī)療企業(yè)舉例,在基因檢測領(lǐng)域已經(jīng)有了很多的數(shù)據(jù),體驗有了很多的數(shù)據(jù),但畢竟基因檢測和體檢是兩個不同的領(lǐng)域,所以他們之間的關(guān)聯(lián)很少,但當我們有了用戶的行為數(shù)據(jù),對用戶有長期的跟蹤,這樣就可以把這兩個數(shù)據(jù)關(guān)聯(lián)起來了,有了這個我們就可以把兩個領(lǐng)域都關(guān)聯(lián)起來。
  CSDN:除此之外遷移學習還需要關(guān)注哪些問題?
  楊強:實際中是有做的,舉一個例子,比方說我們知道在室外有GPS,室內(nèi)沒有,怎么辦呢?我們要定位一個很大的商場,現(xiàn)在有一個辦法是用Wifi來定位,一個做法是拿一個手機、APP收集很多的信號數(shù)據(jù),再拿這個來訓練,但這個數(shù)據(jù)很容易偏,這個數(shù)據(jù)收集的時候和下一個分布是不一樣的,我們是不是要重新地收集一遍?那樣太麻煩了,不可能每個小時收集一遍室內(nèi)的數(shù)據(jù),所以我們的做法是收集一遍,過后用遷移學習把偏差給做掉,利用點到點的距離,利用校正的方法,在遷移學習里有一個算法也是我們發(fā)明的,就叫做加權(quán)法,就是對過去的數(shù)據(jù)加權(quán),使得過去數(shù)據(jù)和現(xiàn)在數(shù)據(jù)比較相近的那些數(shù)據(jù)的權(quán)重比較大,比較遠的數(shù)據(jù)的權(quán)重逐漸變小,在迭代多次以后,剩下的數(shù)據(jù)就是跟現(xiàn)在的數(shù)據(jù)類似的數(shù)據(jù)了,所以這種做法我們覺得行之有效。現(xiàn)在我們在室內(nèi)定位的領(lǐng)域做了很多的實踐,同時我要說明這也是一種學術(shù)的做法,因為室內(nèi)定位還不是到工業(yè)的水平,我們也在做各種嘗試,用機器學習。
  先知平臺
  CSDN:今天談到了先知的平臺型的產(chǎn)品,我不了解我們用的技術(shù)和其他的產(chǎn)品不一樣的話,我們跟IBM、谷歌、微軟他們的一些服務(wù)或者是一些API有什么本質(zhì)的區(qū)別呢?
  楊強:首先這是在一個金融領(lǐng)域誕生的,所以應(yīng)該是對金融領(lǐng)域是特別適用的,金融領(lǐng)域的幾個特點是其他的幾個通用的云平臺所不提供的。首先是變量特別多、問題特別復(fù)雜,然后是以流的形式輸入的,流的量也特別多,transection(音)的數(shù)量也特別多,另外有很多噪音,有很多的mission data(音),并不是所有的數(shù)據(jù)都跟它有反饋在一起,這說明在金融領(lǐng)域我們這個是最有效的。當然,通用型的也很有必要,像Amazon、像微軟他們更趨向于通用型的云平臺。
  CSDN:金融人工智能的兩個常見場景,是風控和精準營銷,能不能介紹其他的場景?
  楊強:風控和營銷是現(xiàn)在第四范式比較成功的場景,已經(jīng)有很重要的客戶來買單了,這個本身就不容易,因為在金融領(lǐng)域?qū)@些IT公司的要求是比較高的,我覺得再往下應(yīng)該還有一些機會點,比方說一個機會點就是投資顧問,理財產(chǎn)品,怎么樣能夠讓公司在第一線而不是在后臺能夠為投資人或者是理財人提供建議、提供顧問,這可能是一個比較重要的點。第二個點可能是文本的挖掘,公司的財報,社會網(wǎng)絡(luò)的輿情都會對整個市場有影響,那么投資市場是怎樣受到這些報道和新聞的影響的?這個規(guī)律是可以通過自然語言學習來得到的,這一點也是以后的一個機會點。
  CSDN:先知平臺關(guān)注應(yīng)用開發(fā)和算法開發(fā),能介紹一下您能解決算法開發(fā)的哪些問題么?
  楊強:我們有幾個重要的工作。
  第一是如何能夠建立一個算法庫和算法圖書館來幫助數(shù)據(jù)底層的清洗問題,因為到了實際中會發(fā)現(xiàn),數(shù)據(jù)和數(shù)據(jù)之間有很多的孤島,孤島和孤島之間的連接很難,因為有很多數(shù)據(jù)是缺失的。另外還會有很多錯誤數(shù)據(jù),如何能夠把數(shù)據(jù)改進和連接,這些都是數(shù)據(jù)清洗的一個范疇,所以對應(yīng)這些問題就需要建立很多的算法庫,這是第一個問題。
  第二個問題是建立了算法庫以后要把它歸一到機器學習算法所需要的輸入格式,這種叫做數(shù)據(jù)轉(zhuǎn)換,這也是一個臟活、累活,很多算法公司不屑去做的,在實際應(yīng)用中我們發(fā)現(xiàn)這些活其實占了整個流程的80%,所以某種程度上重要如何能讓算法更快更有效更及時,并且能夠在線地對到來的數(shù)據(jù)進行分析,建立模型,所以建模這個是第三個層次。第四個層次就是剛才說的強化學習的層次,能夠讓系統(tǒng)自學習而不是通過人來驅(qū)動,能通過它的錯誤和做對的地方,能夠?qū)λ麄€的流程進行補充、修正,所以是從下到上的四個階段。
  CSDN:數(shù)據(jù)免清洗是怎么做到的?
  楊強:是因為數(shù)據(jù)里面有很多清洗的模塊,然后很多清洗的動作一開始是由人來做的,人操縱這些模塊,拿這些工具,但當這種例子多了以后我們就可以把這些例子作為機器學習的一個輸入,學會一個模型又那個模型來模仿人來做。
  CSDN:這是一個通用的還是需要跟具體的業(yè)務(wù)做結(jié)合?
  楊強:這個要跟具體的業(yè)務(wù)做結(jié)合,因為不同的業(yè)務(wù)對質(zhì)量的定義是不一樣的,有些認為這些數(shù)據(jù)里面確實有很多,有些應(yīng)用就覺得不多。
  CSDN:具體業(yè)務(wù)的數(shù)據(jù)上數(shù)據(jù)能支持輸入需求么?
  楊強:在成功的案例上,從量的上面從質(zhì)的上面都可以,但我們要發(fā)現(xiàn)里面有很多人的聰明才智是在里面的,也就是說數(shù)據(jù)科學家的作用,也是不可或缺的,怎么能讓領(lǐng)域科學家把自己的經(jīng)驗轉(zhuǎn)化成數(shù)據(jù)科學家的編程的動作。舉一個例子,你要用深度學習模型會產(chǎn)生很多的特征,但原始的特征提供的特征得包含那些,才能夠產(chǎn)生次生的特征,那么我們包括了哪些特征來到原始數(shù)據(jù)里?就需要人的直覺和聰明才智,需要數(shù)據(jù)科學家和領(lǐng)域科學家的溝通。
  解決人才的難題
  CSDN:您強調(diào)了數(shù)據(jù)科學家的作用。機器學習領(lǐng)域目前有很多公開的論文,和開源的算法、開源的庫/框架,我們的人才為什么還是稀缺的?
  楊強:這就是剛才說的臟活、累活大家都不愿意去做,因為發(fā)表文章和看法是很光榮的事,所以大家都集中在那邊了。我對業(yè)界的呼吁也是希望大家能夠把身段放下來,做一些基本數(shù)據(jù)的處理,把重點放在底層。這也是為什么第四范式真的是在做一些最基本的工作,而不是從第一天開始就急著做一些很上鏡的一些事情。
  小結(jié)
  楊強認為,遷移學習應(yīng)用的成熟是一個循序漸進的過程,預(yù)計RTL在今后幾年的應(yīng)用將會更加成熟。
  事實上,強化學習和遷移學習已經(jīng)越來越受歡迎。中國工程院院士、中國人工智能學會理事長李德毅對“駕駛腦”的研究,就強調(diào)了反饋機制,除了將CNN用于形式化,采用強化學習的理念使駕駛腦越來越聰明也是一個特色。,以提升學習效率。而在微軟研究院首席研究員俞棟與鄧力合著的《解析深度學習:語音識別實踐》一書中,多任務(wù)和遷移學習也占據(jù)了很大的篇幅。這表明,在深度學習最擅長的領(lǐng)域,強化學習和遷移學習依然有重要意義,深度學習也需要與這些算法結(jié)合使用。不過,楊強表示,之所以是RTL而不是DRTL,是因為并不是深度學習。
?

非常好我支持^.^

(0) 0%

不好我反對

(0) 0%

      發(fā)表評論

      用戶評論
      評價:好評中評差評

      發(fā)表評論,獲取積分! 請遵守相關(guān)規(guī)定!

      ?