機(jī)器學(xué)習(xí)到底意味著什么?
伴隨著這幾年的炒作,機(jī)器學(xué)習(xí)已經(jīng)變得非常“普通”。但是很多人在談?wù)摶蛘咚伎紮C(jī)器學(xué)習(xí)或者人工智能對(duì)我們的經(jīng)濟(jì)體系或者社會(huì)帶來(lái)什么影響時(shí),還在不斷地重復(fù)著“正確或者不正確的廢話”,比如“數(shù)據(jù)是新的石油”、“人工智能將接管所有的工作”等等。日前,A16Z合伙人,著名分析師Benedict Evans發(fā)表了一篇文章,深入地討論了應(yīng)該怎樣去思考機(jī)器學(xué)習(xí),以及機(jī)器學(xué)習(xí)帶來(lái)的影響。文章員標(biāo)題為“Ways to think about machine learning”,由36氪編譯,希望能夠?yàn)槟銕?lái)啟發(fā)。
現(xiàn)在,我們進(jìn)入機(jī)器學(xué)習(xí)爆發(fā)階段已經(jīng)有四五年了,幾乎每個(gè)人都聽(tīng)說(shuō)過(guò)它。它的影響不僅僅體現(xiàn)在每天都會(huì)有新的創(chuàng)業(yè)公司出現(xiàn),也不僅僅體現(xiàn)在大型技術(shù)平臺(tái)公司正在圍繞它進(jìn)行自我改造,還在于《經(jīng)濟(jì)學(xué)人》或《商業(yè)周刊》等雜志都對(duì)其進(jìn)行了一系列封面報(bào)道,許多科技行業(yè)之外的大型公司也在推進(jìn)一些相關(guān)的項(xiàng)目。我們知道,這是下一個(gè)大事件(Next Big Thing)。
更進(jìn)一步說(shuō),我們基本上都在理論層面上對(duì)神經(jīng)網(wǎng)絡(luò)有所了解,我們知道,它可能與模式和數(shù)據(jù)有關(guān)。機(jī)器學(xué)習(xí)會(huì)讓我們?cè)跀?shù)據(jù)中找到某種模式或結(jié)構(gòu),這些模式或結(jié)構(gòu)是隱式和概率性的(因此是需要“推斷”的),并不是顯式的,以前只有人才能找到?,F(xiàn)在,機(jī)器學(xué)習(xí)解決了一些以前“電腦做起來(lái)很難,人做起來(lái)非常簡(jiǎn)單”的問(wèn)題,或者是說(shuō)是“人很難向電腦描述”的事情。此外,我們還看到了一些很酷的(或令人擔(dān)憂的,取決于你怎么看)演講和視覺(jué)演示。
不過(guò),我認(rèn)為我們對(duì)機(jī)器學(xué)習(xí)到底意味著什么還沒(méi)有一個(gè)明確的概念:即機(jī)器學(xué)習(xí)對(duì)科技公司或更廣泛的經(jīng)濟(jì)體系中的公司來(lái)說(shuō)意味著什么?如何從結(jié)構(gòu)上思考它能夠帶來(lái)什么新事物?或者說(shuō),機(jī)器學(xué)習(xí)對(duì)我們所有人意味著什么?它實(shí)際上能夠解決什么重要的問(wèn)題?
“人工智能”這個(gè)術(shù)語(yǔ)并沒(méi)有提供任何幫助,情況往往是一提起“人工智能”,相關(guān)的討論就會(huì)結(jié)束了。當(dāng)我們說(shuō)“人工智能”的時(shí)候,就好像電影《2001太空漫游》(2001:A Space Odyssey)中的黑色巨石出現(xiàn)了一樣,我們都變成了猿類(lèi),尖叫著揮舞著拳頭。你不能對(duì)“人工智能”進(jìn)行分析。
事實(shí)上,我認(rèn)為,我們可以提出一堆對(duì)發(fā)展或更深入理解無(wú)益的方式來(lái)談?wù)摍C(jī)器學(xué)習(xí)當(dāng)前的發(fā)展。例如:
數(shù)據(jù)是新的石油
Google和中國(guó)(或者Facebook,或者亞馬遜,或者BAT )擁有所有的數(shù)據(jù)
人工智能將接管所有的工作
當(dāng)然,也有討論人工智能本身
或許,與此相比,更有用的話題可能是:
自動(dòng)化
支持技術(shù)層
關(guān)系數(shù)據(jù)庫(kù)
為什么是關(guān)系數(shù)據(jù)庫(kù)?它們是一個(gè)新的基礎(chǔ)支持層,改變了計(jì)算的能力。在20世紀(jì)70年代末關(guān)系數(shù)據(jù)庫(kù)出現(xiàn)之前,如果你想讓數(shù)據(jù)庫(kù)顯示“所有購(gòu)買(mǎi)這種產(chǎn)品并居住在這個(gè)城市的客戶”,通常需要一個(gè)定制的工程項(xiàng)目。數(shù)據(jù)庫(kù)的結(jié)構(gòu)不能夠使任何隨意的交叉引用查詢都是一件簡(jiǎn)單、常規(guī)的事情。如果你想問(wèn)一個(gè)問(wèn)題,必須有人來(lái)去構(gòu)建它。數(shù)據(jù)庫(kù)是記錄保存的系統(tǒng);關(guān)系數(shù)據(jù)庫(kù)的出現(xiàn),將它們轉(zhuǎn)變?yōu)樯虡I(yè)智能系統(tǒng)。
這改變了數(shù)據(jù)庫(kù)在一些重要方面的用途,從而創(chuàng)造了新的用例和價(jià)值數(shù)十億美元的新公司。關(guān)系數(shù)據(jù)庫(kù)給我們帶來(lái)了Oracle,但也給我們帶來(lái)了SAP,SAP和它的同行給我們帶來(lái)了全球即時(shí)供應(yīng)鏈——它們給我們帶來(lái)了蘋(píng)果和星巴克。到20世紀(jì)90年代,幾乎所有的企業(yè)軟件都是一個(gè)關(guān)系數(shù)據(jù)庫(kù)——PeopleSoft和CRM以及SuccessFactors,還有數(shù)十個(gè)類(lèi)似的軟件都運(yùn)行在關(guān)系數(shù)據(jù)庫(kù)上。沒(méi)有會(huì)說(shuō)SuccessFactors或Salesforce“永遠(yuǎn)不會(huì)成功,因?yàn)镺racle擁有所有的數(shù)據(jù)庫(kù)”。相反的是,關(guān)系數(shù)據(jù)庫(kù)技術(shù)成為了一個(gè)支持層,成為了所有公司的一部分。
所以,這是今天思考機(jī)器學(xué)習(xí)的一個(gè)很好的基礎(chǔ)方式。機(jī)器學(xué)習(xí)會(huì)是一個(gè)步驟,改變我們可以用計(jì)算機(jī)做的事情。它將是不同的公司的不同產(chǎn)品的一部分。最終,幾乎所有的東西里面都會(huì)有機(jī)器學(xué)習(xí),也沒(méi)有人會(huì)去在意。
這里一個(gè)重要的相似之處是,盡管關(guān)系數(shù)據(jù)庫(kù)具有規(guī)模經(jīng)濟(jì)效應(yīng),但網(wǎng)絡(luò)效應(yīng)或“贏家通吃”效應(yīng)非常有限。如果B公司從同一個(gè)供應(yīng)商處購(gòu)買(mǎi)相同的數(shù)據(jù)庫(kù)軟件,但同樣使用這家供應(yīng)商軟件的A公司使用的數(shù)據(jù)庫(kù)不會(huì)變得更好:如果Caterpillar購(gòu)買(mǎi)相同的數(shù)據(jù)庫(kù),則Safeway的數(shù)據(jù)庫(kù)不會(huì)變得更好。機(jī)器學(xué)習(xí)實(shí)際上也是如此:機(jī)器學(xué)習(xí)完全是基于數(shù)據(jù)的,但是數(shù)據(jù)對(duì)于特定的應(yīng)用來(lái)說(shuō),也是特定的。更多的手寫(xiě)數(shù)據(jù)將會(huì)使手寫(xiě)識(shí)別器更好,更多的燃?xì)廨啓C(jī)數(shù)據(jù)也將使預(yù)測(cè)燃?xì)廨啓C(jī)故障的系統(tǒng)更好,但一個(gè)應(yīng)用的數(shù)據(jù)對(duì)另一個(gè)應(yīng)用沒(méi)有幫助。數(shù)據(jù)是不可替代的。
這就是在談?wù)摍C(jī)器學(xué)習(xí)時(shí)最常見(jiàn)的誤解的核心——在某種程度上,機(jī)器學(xué)習(xí)是一種單一的、通用的東西,在通往HAL 9000(譯者注:《2001太空漫游》中號(hào)稱有完美記錄從不犯錯(cuò)的人類(lèi)最高科技的結(jié)晶)的道路上,谷歌或微軟各自建立了一個(gè),或者說(shuō),谷歌“擁有所有的數(shù)據(jù)”;IBM有一個(gè)實(shí)際上被稱為“沃森”的東西。實(shí)際上,使用這種視角來(lái)看待自動(dòng)化是錯(cuò)誤的:在自動(dòng)化的每一波浪潮中,我們都想象我們正在創(chuàng)造一些擬人化的東西或具有通用智能的東西。在上世紀(jì)20、30年代,我們想象鋼鐵俠拿著錘子在工廠里走來(lái)走去,在50年代,我們想象人形機(jī)器人在廚房里走來(lái)走去做家務(wù)。但我們沒(méi)有機(jī)器人仆人,我們有用來(lái)清洗的機(jī)器。
用來(lái)清洗的機(jī)器是機(jī)器人,但它們不是“智能的”。它們不知道什么是水,什么是衣服。而且,即使是在狹窄的清洗領(lǐng)域,它們也不是通用的——你不能把盤(pán)子放在洗衣機(jī)里洗,也不能把衣服放在洗碗機(jī)里(或者更確切地說(shuō),你可以,但是你不會(huì)得到你想要的結(jié)果)。它們是另一種自動(dòng)化,在概念上與傳送帶或取放機(jī)沒(méi)有什么不同。同樣,機(jī)器學(xué)習(xí)可以讓我們解決計(jì)算機(jī)以前無(wú)法有效解決的各類(lèi)問(wèn)題,但每一個(gè)問(wèn)題都需要不同的實(shí)現(xiàn)方式、不同的數(shù)據(jù)、不同的途徑,而且往往需要不同的公司。它們都是自動(dòng)化的一部分。每個(gè)都是用來(lái)清洗的機(jī)器。
因此,談?wù)摍C(jī)器學(xué)習(xí)的挑戰(zhàn)之一,就是在數(shù)學(xué)的機(jī)械解釋和對(duì)通用人工智能的幻想之間找到中間地帶。機(jī)器學(xué)習(xí)不會(huì)創(chuàng)造HAL 9000 (至少,很少有業(yè)內(nèi)人士認(rèn)為它很快就會(huì)創(chuàng)造HAL 9000),但把它稱為“只是統(tǒng)計(jì)數(shù)字”也沒(méi)有用?;氐脚c關(guān)系數(shù)據(jù)庫(kù)的相似之處上,這可能相當(dāng)于談?wù)?980年的SQ。你可以做令人印象深刻的語(yǔ)音識(shí)別和圖像識(shí)別演示,但同樣,一家普通公司會(huì)怎么做呢?正如前不久美國(guó)一家媒體公司的一個(gè)團(tuán)隊(duì)對(duì)我說(shuō)的那樣:“嗯,我們知道,我們可以用機(jī)器學(xué)習(xí)來(lái)索引十年來(lái)我們采訪運(yùn)動(dòng)員的視頻——但是我們?cè)趯ふ沂裁???/p>
那么,對(duì)于真正的公司來(lái)說(shuō),機(jī)器學(xué)習(xí)中用于清洗的機(jī)器是什么?我認(rèn)為有兩套工具可以用來(lái)思考這個(gè)問(wèn)題。首先是從一系列數(shù)據(jù)類(lèi)型和問(wèn)題類(lèi)型的角度來(lái)思考:
機(jī)器學(xué)習(xí)可以很好地為你提出的問(wèn)題(而且你得有相關(guān)的數(shù)據(jù))提供更好的結(jié)果,僅僅作為分析或優(yōu)化技術(shù)。例如,我們的投資組合公司Instacart建立了一個(gè)系統(tǒng),來(lái)優(yōu)化個(gè)人購(gòu)物者在超市中的路線,這個(gè)系統(tǒng)為相關(guān)的超市提供了50%的提升(這是由三名工程師利用谷歌的開(kāi)源工具Keras和Tensorflow建立的)。
機(jī)器學(xué)習(xí)可以讓你對(duì)已有的數(shù)據(jù)提出新的問(wèn)題。例如,正在找發(fā)現(xiàn)的律師可以用機(jī)器學(xué)習(xí)搜索有關(guān)“憤怒的”電子郵件,或者“焦慮的”或異常的線索或文檔集群,以及進(jìn)行關(guān)鍵字搜索。
第三,機(jī)器學(xué)習(xí)可以用來(lái)分析新的數(shù)據(jù)類(lèi)型——計(jì)算機(jī)以前無(wú)法真正讀取音頻、圖像或視頻,但現(xiàn)在,有機(jī)器學(xué)習(xí)的出現(xiàn),這種可能性越來(lái)越大。
在這里面,我覺(jué)得分析影像是最令人興奮的。以前,只要我們有計(jì)算機(jī),就能處理文字和數(shù)字,但圖像(和視頻)大多是不透明的?,F(xiàn)在,它們可以像“閱讀”一樣,去“看到”圖像和視頻。這意味著圖像傳感器(和麥克風(fēng))變成了一種全新的輸入機(jī)制——與其說(shuō)是“攝像頭”,不如說(shuō)是產(chǎn)生(潛在的)機(jī)器可讀數(shù)據(jù)流的新的、強(qiáng)大的和靈活的傳感器。今天看起來(lái)不像計(jì)算機(jī)視覺(jué)方面的問(wèn)題都將變成計(jì)算機(jī)視覺(jué)方面的問(wèn)題。
這不是關(guān)于識(shí)別貓咪圖片的問(wèn)題。我最近遇到一家為汽車(chē)公司提供座椅的公司,它在一個(gè)便宜的DSP芯片上安裝了一個(gè)神經(jīng)網(wǎng)絡(luò),并配有一個(gè)便宜的智能手機(jī)圖像傳感器,用來(lái)檢測(cè)面料是否有褶皺(我們應(yīng)該期待在非常小的、便宜的小部件中使用各種類(lèi)似的機(jī)器學(xué)習(xí)用途,只做一件事,就像這里所描述的一樣)。把它描述為“人工智能”是沒(méi)有用的:它只是將一項(xiàng)以前無(wú)法自動(dòng)化的任務(wù)能夠自動(dòng)化了。
這種自動(dòng)化的感覺(jué)是思考機(jī)器學(xué)習(xí)的第二種工具。發(fā)現(xiàn)面料是否有褶皺不需要20年的經(jīng)驗(yàn),它只需要一個(gè)哺乳動(dòng)物的大腦。的確,我的一位同事認(rèn)為,機(jī)器學(xué)習(xí)可以做任何你可以訓(xùn)練狗做的事情,這也是思考人工智能偏差的一個(gè)有用的方式(狗到底學(xué)到了什么?訓(xùn)練數(shù)據(jù)中有什么?你確定嗎?你怎么問(wèn)?),但也是有限的,因?yàn)楣返拇_有通用的智力和常識(shí),不像我們所知道的任何神經(jīng)網(wǎng)絡(luò)。吳恩達(dá)(Andrew Ng)表示,在不到一秒鐘的時(shí)間里,機(jī)器學(xué)習(xí)就可以做任何你能做的事情。談?wù)摍C(jī)器學(xué)習(xí)更像是在尋找一種比喻,但我更喜歡這樣的一種比喻:它給了你無(wú)限多的實(shí)習(xí)生,或者是無(wú)限多的10歲的孩子。
五年前,如果你給一臺(tái)計(jì)算機(jī)一堆照片,它只能按尺寸大小進(jìn)行排序。一個(gè)10歲的孩子可以把照片按照男人和女人進(jìn)行分類(lèi),一個(gè)15歲的孩子可以按照酷和不酷對(duì)照片進(jìn)行分類(lèi),一個(gè)實(shí)習(xí)生可以按照有趣與否來(lái)進(jìn)行分類(lèi)。今天,用機(jī)器學(xué)習(xí),計(jì)算機(jī)可以做10歲和15歲孩子做的事情,它可能永遠(yuǎn)做不了實(shí)習(xí)生做的事情。但是如果你有100萬(wàn)個(gè)15歲的孩子來(lái)看你的數(shù)據(jù),你會(huì)怎么做?
也就是說(shuō),機(jī)器學(xué)習(xí)不需要像有數(shù)十年經(jīng)驗(yàn)專(zhuān)家那樣進(jìn)行判斷。我們不是讓專(zhuān)家自動(dòng)化。相反,我們會(huì)要求“聽(tīng)所有的電話,找到有憤怒情緒的電話”。讀所有的郵件,找到有焦慮情緒的郵件???0萬(wàn)張照片,找到看起來(lái)很酷的人。
從某種意義上說(shuō),這是自動(dòng)化一直在做的事情。Excel沒(méi)有給我們帶來(lái)人造會(huì)計(jì)師,Photoshop和Indesign沒(méi)有給我們?nèi)嗽靾D形設(shè)計(jì)師,蒸汽機(jī)也沒(méi)有給我們?nèi)嗽祚R。(在早期的‘人工智能’浪潮中,國(guó)際象棋計(jì)算機(jī)并沒(méi)有給我們一個(gè)在盒子里的脾氣暴躁的中年俄羅斯人。)相反,我們大規(guī)模地將獨(dú)立的任務(wù)自動(dòng)化。
在某種意義上說(shuō),機(jī)器學(xué)習(xí)不僅能找到人類(lèi)已經(jīng)能識(shí)別的東西,而且能找到人類(lèi)無(wú)法識(shí)別的東西,或者找到10歲(或50歲)的人不能識(shí)別的模式、推論或暗示的層次。最好的例子是Deepmind 的 AlphaGo。AlphaGo并不像國(guó)際象棋計(jì)算機(jī)那樣下棋,而是通過(guò)依次分析每一個(gè)可能的動(dòng)作。相反,它被賦予了規(guī)則和一塊棋盤(pán),并讓它試圖自己制定策略,與自己進(jìn)行比人類(lèi)一生所能做的更多的游戲。也就是說(shuō),與其說(shuō)這是1000個(gè)實(shí)習(xí)生,不如說(shuō)是一個(gè)速度非??斓膶?shí)習(xí)生,你給你的實(shí)習(xí)生1000萬(wàn)張照片,他們回來(lái)說(shuō)“這是一件有趣的事情,但是當(dāng)我看到第300萬(wàn)張照片時(shí),這種模式就開(kāi)始出現(xiàn)了”。那么,哪些領(lǐng)域足夠狹窄,我們可以告訴一個(gè)機(jī)器學(xué)習(xí)系統(tǒng)規(guī)則(或者給它打分),它能夠讓我們看到所有數(shù)據(jù),就像人類(lèi)永遠(yuǎn)做不到的那樣,并帶來(lái)新的結(jié)果?
我花了相當(dāng)多的時(shí)間拜訪大公司,談?wù)撍鼈兊募夹g(shù)需求,它們通常有一些非常明顯的觸手可及的機(jī)器學(xué)習(xí)成果。有很多顯而易見(jiàn)的分析和優(yōu)化問(wèn)題,還有很多明顯的圖像識(shí)別問(wèn)題或音頻分析問(wèn)題。同樣,我們談?wù)?a href="http://srfitnesspt.com/tags/自動(dòng)駕駛/" target="_blank">自動(dòng)駕駛汽車(chē)和混合現(xiàn)實(shí)的唯一原因是因?yàn)闄C(jī)器學(xué)習(xí)能使它們成為可能——機(jī)器學(xué)習(xí)為汽車(chē)提供了一條途徑,去了解周?chē)闆r和人類(lèi)駕駛員可能會(huì)做什么,如果我正在戴一副可以顯示任何東西的眼鏡,這就會(huì)為混合現(xiàn)實(shí)提供了一條了解我應(yīng)該看到什么的途徑。但在我們討論了面料是否有褶皺或情緒分析之后,這些公司的相關(guān)人員往往會(huì)停下來(lái)問(wèn),‘那么,還有什么呢?’機(jī)器學(xué)習(xí)還能實(shí)現(xiàn)哪些其他功能,以及它將發(fā)現(xiàn)哪些未知數(shù)?我們大概還有10到15年的時(shí)間,才會(huì)對(duì)這一切感到無(wú)聊。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8320瀏覽量
132165
原文標(biāo)題:著名分析師 Benedict Evans:如何才能真正理解“機(jī)器學(xué)習(xí)”?
文章出處:【微信號(hào):worldofai,微信公眾號(hào):worldofai】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論