AI,包括機器學(xué)習(xí)現(xiàn)在是重要的技術(shù)趨勢,在這個領(lǐng)域已經(jīng)有不少獨角獸創(chuàng)業(yè)公司,科技巨頭們更是早早布局。只要對這項技術(shù)稍有了解就會明白,數(shù)據(jù)是機器學(xué)習(xí)的養(yǎng)料,那么已經(jīng)擁有大量數(shù)據(jù)的科技巨頭公司會不會強者更強,甚至形成壟斷,后來的創(chuàng)業(yè)公司還有機會么?
為什么數(shù)據(jù)對于機器學(xué)習(xí)很重要?
首先,為什么數(shù)據(jù)對于機器學(xué)習(xí)如此重要?舉例說明。在過去,利用傳統(tǒng)的方法構(gòu)建一個系統(tǒng)來識別某樣事物,需要一系列復(fù)雜的規(guī)則,例如要識別圖片里的一只貓,需要構(gòu)建識別貓的輪廓、毛發(fā)、腿、眼睛、耳朵等一系列的規(guī)則,并把它們整合在一起。但在實踐中,這樣的方法過于復(fù)雜,可行度不高。
如果用機器學(xué)習(xí)來識別貓,你不需要寫規(guī)則,而是給一個統(tǒng)計引擎提供數(shù)據(jù)和例子,這個引擎就會生成一個具有分辨能力的模型。然后你給它10萬張標(biāo)有 “貓”的圖片和10萬張標(biāo)有 “不是貓 ”的圖片,機器就能分辨出它們的區(qū)別。機器學(xué)習(xí)用數(shù)據(jù)中自動確定的模式取代了手寫的邏輯步驟,對于一些非常廣泛的問題,機器學(xué)習(xí)的效果會更好,例如在計算機視覺、文字和語音方面,它都有非常典型的用例。
對于機器學(xué)習(xí),你需要多少數(shù)量的數(shù)據(jù)才能達到目標(biāo)是一個浮動的數(shù)字,有一些研究方向是讓機器學(xué)習(xí)使用更小的數(shù)據(jù)集就可以完成工作,但是在目前,更多的數(shù)據(jù)幾乎總是能得到更好的結(jié)果。
巨頭擁有很多數(shù)據(jù),這會幫助它們壟斷么?
因此,問題來了:如果機器學(xué)習(xí)可以重構(gòu)很多重要的事情,并且數(shù)據(jù)越多機器學(xué)習(xí)就給你越好的結(jié)果。那么,是否意味著已經(jīng)是巨頭,擁有巨量數(shù)據(jù)的公司會變得更加強大?這種贏家通吃的效應(yīng)會有多強?因為這背后的道理似乎很清楚:“更多的數(shù)據(jù)=更準(zhǔn)確的模型=更好的產(chǎn)品=更多的用戶=更多的數(shù)據(jù)”。于是有一些說法就會出現(xiàn):“谷歌/Facebook/亞馬遜擁有所有的數(shù)據(jù),中國擁有所有的數(shù)據(jù),那些擁有大量數(shù)據(jù)的科技公司和人口眾多,數(shù)據(jù)豐富的國家將在競爭中獲得優(yōu)勢?!?/p>
某種程度上,這能成立。
不過,雖然機器學(xué)習(xí)需要大量的數(shù)據(jù),但你使用的數(shù)據(jù)必須是非常具體的,只有這樣才能解決特定的問題。GE有很多燃氣輪機的遙測數(shù)據(jù),Google有很多搜索數(shù)據(jù),Amex有很多信用卡欺詐數(shù)據(jù)。你不能用渦輪機的數(shù)據(jù)作為例子來發(fā)現(xiàn)欺詐性交易,也不能用網(wǎng)絡(luò)搜索的數(shù)據(jù)來發(fā)現(xiàn)即將出現(xiàn)故障的燃氣輪機。也就是說,機器學(xué)習(xí)是一種通用的技術(shù),你既能用它來欺詐監(jiān)測也能進行人臉識別,但是用它構(gòu)建的具體應(yīng)用互相之間是不通用的。每一個特定的模型或應(yīng)用只能做一件事。
這和之前的自動化技術(shù)普及大同小異:就如洗衣機只能洗衣服不能洗完一樣,機器學(xué)習(xí)支持的翻譯程序也不能識別貓的圖片。你構(gòu)建的應(yīng)用程序和這些應(yīng)用程序需要的數(shù)據(jù)集是非常具體的,他們只會勝任特定的任務(wù)(當(dāng)然,現(xiàn)在有一些前沿研究試圖使某些數(shù)據(jù)集能夠擁有更廣泛的通用性。)
所以,利用機器學(xué)習(xí)可以實現(xiàn)的應(yīng)用是非常廣泛而分散的。谷歌不會“擁有所有的數(shù)據(jù)”,它只會擁有谷歌自己的數(shù)據(jù)。谷歌會利用機器學(xué)習(xí)技術(shù)獲得更好的搜索結(jié)果,GE獲得更好的引擎遙測,沃達豐獲得更好的通話模式分析和網(wǎng)絡(luò)規(guī)劃,而這些都是不同公司建立的不同業(yè)務(wù)和功能。谷歌可以利用機器學(xué)習(xí)讓它自己的業(yè)務(wù)變得更好,但不意味著谷歌可以利用機器學(xué)習(xí)壟斷一切業(yè)務(wù)。
也就是說,機器學(xué)習(xí)可以讓每個行業(yè)的大公司變得更強大沃達豐,GE,谷歌擁有各自行業(yè)“所有的數(shù)據(jù)”,這會讓他們擁有更強的競爭優(yōu)勢,讓已經(jīng)存在的護城河變的更深。但是問題其實也不那么簡單,我們可以提出疑問:到底誰擁有數(shù)據(jù),這些數(shù)據(jù)到底多有用,在什么層面上它是有效的,怎樣去聚合與分析它們才是正確的?
如何聚合與分析數(shù)據(jù)才是有意義的?
作為一個公司的創(chuàng)始人,可以思考以下的問題:作為一家行業(yè)公司,你是否有收集和管理好自己的數(shù)據(jù),并建立機器學(xué)習(xí)系統(tǒng)來分析它,還是說你找了對口的AI供應(yīng)商來做這件事;你的供應(yīng)商提供的是一個已經(jīng)在別的數(shù)據(jù)集上訓(xùn)練好的成品,還是根據(jù)你的數(shù)據(jù)定制訓(xùn)練,或者將你的數(shù)據(jù)與其他數(shù)據(jù)集混合起來一起訓(xùn)練?你的供應(yīng)商是否需要你的數(shù)據(jù)來優(yōu)化模型,還是說整個行業(yè)的數(shù)據(jù)已經(jīng)非常豐富,用現(xiàn)成的數(shù)據(jù)集就已足夠?在業(yè)務(wù)的不同部分,不同的行業(yè),不同的細分業(yè)務(wù)中,這些問題的答案是不同的。
換到另一端,如果你是一家AI創(chuàng)業(yè)公司,要切入某個細分行業(yè)解決實際問題,那么有兩個關(guān)于數(shù)據(jù)的基本問題:如何獲得你的第一個數(shù)據(jù)集來訓(xùn)練你的模型,并以此來獲得你的第一個客戶,另外你到底需要多少數(shù)據(jù)?
第二個問題可以分解成很多問題:是用相對較少的、獲取相當(dāng)容易的數(shù)據(jù)集(但很多競爭對手也能獲?。﹣斫鉀Q問題,還是用更難獲取,規(guī)模更大的數(shù)據(jù)集,如果是后一種,是否可以從網(wǎng)絡(luò)效應(yīng)中獲益,從而形成贏家通吃的態(tài)勢?以此構(gòu)建的產(chǎn)品,是會隨著數(shù)據(jù)越來越多,變得越來越好,還是有一條S曲線?
這取決于以下這些因素:
有些數(shù)據(jù)集對企業(yè)或產(chǎn)品來說是獨一無二的,或者能提供強大的專有優(yōu)勢。GE的發(fā)動機遙測數(shù)據(jù)可能對分析羅羅的航空發(fā)動機沒有什么用處,即便有用處,它們也不會分享。這可能就是一個創(chuàng)業(yè)機會,但同時也是很多大公司內(nèi)部IT和外包項目承包商眼饞的地方。
有些數(shù)據(jù)集則更具有共性,可以適用于更多的行業(yè)和公司?!斑@個客戶有些奇怪”可能適用于所有信用卡公司,“客戶聽起來很生氣”則適用于大多數(shù)呼叫中心。這種共性問題可以誕生很多公司,他們可以基于此解決不同行業(yè)的共性問題,這里有數(shù)據(jù)的網(wǎng)絡(luò)效應(yīng)。
但是也可能出現(xiàn)另一種情況,到了某種分界點后,模型已經(jīng)很成熟,廠商不需要更多的數(shù)據(jù),就已經(jīng)能夠很好的構(gòu)建產(chǎn)品了。
AI創(chuàng)業(yè),到底應(yīng)該怎么切入?
在實際的創(chuàng)業(yè)中,隨著機器學(xué)習(xí)的應(yīng)用范圍越來越廣,創(chuàng)業(yè)公司總能在細分領(lǐng)域找到切入點。例如Everlaw進入的是法律相關(guān)的領(lǐng)域:一場官司會產(chǎn)生堆積如山的紙質(zhì)卷宗,機器學(xué)習(xí)可以對這些卷宗進行分析,一方面,可以找出具有共性的卷宗,例如“包含焦慮情緒的文件”,另一方面可以做聚類分析,找到和選出的某一份卷宗差不多的其他卷宗。而這些不需要根據(jù)某一個特定案件的數(shù)據(jù)訓(xùn)練,用一些行業(yè)通用的數(shù)據(jù)集就可以解決。
Drishti,是一家利用計算機視覺來分析工廠生產(chǎn)線的公司,它的其中一些能力需要客戶公司的數(shù)據(jù)進行訓(xùn)練,但它的能力具有較強的通用性,可以跨行業(yè)工作。
舉一個極端的例子,我最近接觸到一家大型的汽車主機廠,他們利用機器學(xué)習(xí)來優(yōu)化爆胎監(jiān)測傳感器,使它更加準(zhǔn)確。這些訓(xùn)練數(shù)據(jù)是他們自己制造的,做了很多爆胎和沒有爆胎的試驗。很明顯,想要得到數(shù)據(jù),你總能獲得數(shù)據(jù),只是數(shù)據(jù),并不能構(gòu)建護城河。
因此,回到核心,對于機器學(xué)習(xí)創(chuàng)業(yè)公司,都要面對兩個問題:如何獲得數(shù)據(jù),需要多少數(shù)據(jù)?但這些只是技術(shù)性問題:你更應(yīng)該考慮你的目標(biāo)市場是什么,如何進入市場,你要解決的問題對你的客戶有多大價值,等等。也就是說,很快就不會再有 “人工智能 ”創(chuàng)業(yè)公司了,它們將是工業(yè)流程分析公司,法律平臺公司,或者銷售優(yōu)化公司等等。事實上,機器學(xué)習(xí)的普及并不意味著谷歌變強,而是意味著各種創(chuàng)業(yè)公司可以比以前更快地用這種先進技術(shù)來建立業(yè)務(wù)。
我用一個比喻來做最后的總結(jié),我們可以把機器學(xué)習(xí)比作數(shù)據(jù)庫。數(shù)據(jù)庫非常重要,它是一種基礎(chǔ)設(shè)施,融入了各種各樣的場景。如果你不使用它,而你的競爭對手使用它,你就會落后。在它還是一個新鮮事物時,有的公司曾經(jīng)依靠這種技術(shù)獲得過競爭優(yōu)勢,沃爾瑪?shù)牟糠殖晒碜杂谑褂脭?shù)據(jù)庫,從而可以更有效的管理庫存和物流。但在今天,如果你創(chuàng)辦了一家零售商,并說,我們正在使用最先進的數(shù)據(jù)庫技術(shù);那這并不會讓你變得與眾不同。數(shù)據(jù)庫已經(jīng)變成了一種普遍化的技術(shù)基礎(chǔ)設(shè)施,它不再有特殊性,同樣的事情在未來也會發(fā)生在機器學(xué)習(xí)上。
責(zé)任編輯:tzh
-
AI
+關(guān)注
關(guān)注
87文章
29446瀏覽量
267770 -
人工智能
+關(guān)注
關(guān)注
1789文章
46415瀏覽量
236657 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8327瀏覽量
132219
發(fā)布評論請先 登錄
相關(guān)推薦
評論