對于區(qū)塊鏈和人工智能而言,2018年仍是它們風(fēng)口正勁的一年。在過去的一年中,我們目睹了擊敗專業(yè)圍棋選手的AI程序AlphaGo,也見證了區(qū)塊鏈在全球范圍內(nèi)的強(qiáng)勢發(fā)展。那么當(dāng)我們把區(qū)塊鏈和需要大量訓(xùn)練數(shù)據(jù)的機(jī)器學(xué)習(xí)模型結(jié)合在一起后,普通開發(fā)者能否打破科技巨頭的壟斷,創(chuàng)造出真正的AGI呢?
且不論區(qū)塊鏈和人工智能行業(yè)中存在的泡沫。如果我們能建立一個(gè)基于區(qū)塊鏈的機(jī)器學(xué)習(xí)市場,那它就結(jié)合了兩大優(yōu)勢:一是私人化的機(jī)器學(xué)習(xí),即允許在不透露用戶敏感隱私數(shù)據(jù)的情況下訓(xùn)練模型;二是區(qū)塊鏈的激勵(lì)機(jī)制,它會(huì)優(yōu)先選擇最佳數(shù)據(jù)和模型,并使其變得更智能。它們共同作用的結(jié)果就是一個(gè)開放的市場:任何人都能在里面出售數(shù)據(jù),同時(shí)保證數(shù)據(jù)的安全性;而開發(fā)者則可以通過激勵(lì)機(jī)制為算法篩選優(yōu)質(zhì)數(shù)據(jù)。
構(gòu)建這樣一個(gè)系統(tǒng)是極具挑戰(zhàn)性的。雖然一些關(guān)鍵的區(qū)塊還沒有人做出來過,但如果只是構(gòu)建一個(gè)簡單的初始版本,這在現(xiàn)在已經(jīng)不是一件難事。我們現(xiàn)還處于Web 2.0時(shí)代,這是個(gè)數(shù)據(jù)都被市場、大公司壟斷的時(shí)代,也是個(gè)不公平的時(shí)代。如果我們建立了這樣一個(gè)市場,那它就能真正開啟數(shù)據(jù)和算法的全面公開競爭,提前讓每個(gè)人邁入Web 3.0時(shí)代。簡而言之,在這樣的市場中,我們的數(shù)據(jù)和算法都能被直接貨幣化。
起源
這個(gè)靈感來自2015年查德· 努梅萊的采訪對話。Numer.ai是一個(gè)向參賽者開放大量加密數(shù)據(jù)機(jī)器學(xué)習(xí)競賽平臺,被稱為金融市場的Kaggle。它也是一家對沖基金,利用數(shù)據(jù)科學(xué)家訓(xùn)練出的模型進(jìn)行資本運(yùn)作。把加密后的市場數(shù)據(jù)分發(fā)下去后,Numer.ai會(huì)從競賽中挑選出最好的模型放入“元模型”中,如果“元模型”表現(xiàn)良好(盈利),那相關(guān)數(shù)據(jù)科學(xué)家就能從中得到分紅。
像這樣讓數(shù)據(jù)科學(xué)家們參與競爭的方法似乎是一個(gè)可行的思路,既然Numer.ai能把原本完全分散的各個(gè)模型整合在一起用于對沖基金,那從理論上來說,同樣的做法也適用于其他任何領(lǐng)域。
嘗試
作為一個(gè)示例,我們可以先試著創(chuàng)建一個(gè)完全分散的系統(tǒng),并把它用于用于加密貨幣零散交易,這事實(shí)上也是區(qū)塊鏈的一個(gè)潛在應(yīng)用場景。
數(shù)據(jù)(DATA):數(shù)據(jù)提供者分類數(shù)據(jù),并把它們提供給建模人員。
模型構(gòu)建(MODELS):建模人員篩選出合適的數(shù)據(jù),并創(chuàng)建模型。為了防止數(shù)據(jù)泄露,系統(tǒng)要保證訓(xùn)練過程的安全性,上圖的結(jié)構(gòu)就允許模型在不暴露底層數(shù)據(jù)的情況下進(jìn)行訓(xùn)練。模型也被分類。
元模型構(gòu)建(METAMODELS):元模型的構(gòu)建需要考慮各模型的分類算法,在這基礎(chǔ)上重新整合?!?dāng)然,這一步只是個(gè)可選項(xiàng),你也可以不把所有模型都放在一個(gè)籃子里。
分配收益/損失:經(jīng)過一個(gè)周期后,我們在加密貨幣交易中賺取利潤/虧損了,這時(shí)各模型就要承擔(dān)利潤/損失分成。這不是一個(gè)一刀切的過程,有些模型只提供部分積極/消極貢獻(xiàn),而有些模型則全部是積極/消極貢獻(xiàn),系統(tǒng)會(huì)考慮這些因素,并依據(jù)它們的智能程度進(jìn)行獎(jiǎng)懲。這之后,模型會(huì)轉(zhuǎn)向數(shù)據(jù)提供者,并執(zhí)行類似的股權(quán)分發(fā)/削減。
可驗(yàn)證計(jì)算:每個(gè)步驟的計(jì)算可以是集中式的,也可以用安全多方計(jì)算。它能不斷進(jìn)行驗(yàn)證。
為什么這個(gè)系統(tǒng)如此強(qiáng)大?
它能吸引全球最佳數(shù)據(jù)。這個(gè)系統(tǒng)中最有效的部分在于它吸引數(shù)據(jù)的激勵(lì)措施,因?yàn)閿?shù)據(jù)往往是大多數(shù)機(jī)器學(xué)習(xí)任務(wù)的最大限制因素之一。通過開放式的激勵(lì)機(jī)制,比特幣在全球范圍內(nèi)吸引了大量算力,同理,一個(gè)設(shè)計(jì)合理的激勵(lì)機(jī)制也能為機(jī)器學(xué)習(xí)模型帶來世界上最好的數(shù)據(jù)。如果還像現(xiàn)在這樣去檢索上百萬個(gè)源上的封閉數(shù)據(jù),我們什么都做不了。
算法間的競爭。我們現(xiàn)在還無法擁有這種算法、模型之間全面公開競爭的機(jī)會(huì),但我們確實(shí)需要它們。試想一下,如果Facebook的新聞推送算法不是一家獨(dú)大,那它還會(huì)鬧出“數(shù)據(jù)泄露”的丑聞嗎?
獎(jiǎng)勵(lì)透明。在這種機(jī)制下,數(shù)據(jù)提供者和建模人員能看到自己所做貢獻(xiàn)的價(jià)值,并能親身參與計(jì)算驗(yàn)證,這很有可能會(huì)提高他們的參與度。
自動(dòng)化。元模型構(gòu)建完成后,它會(huì)進(jìn)入一個(gè)行動(dòng)閉環(huán),這時(shí)系統(tǒng)是完全自動(dòng)的。換句話說,這樣的自動(dòng)化能降低貢獻(xiàn)者心中的疑慮。
網(wǎng)絡(luò)效應(yīng)。數(shù)據(jù)提供者和數(shù)據(jù)科學(xué)家之間多面的網(wǎng)絡(luò)效應(yīng)能使系統(tǒng)不斷進(jìn)行自我強(qiáng)化。系統(tǒng)表現(xiàn)越好,它吸引的資金就越多,相應(yīng)的它的潛在支出也就越多——越來越多的數(shù)據(jù)提供者和數(shù)據(jù)科學(xué)家會(huì)爭相參與其中,并使系統(tǒng)變得更智能。而更智能的系統(tǒng)又會(huì)吸引更多的資本,這就步入了一個(gè)良性循環(huán)。
安全計(jì)算
安全計(jì)算允許模型在數(shù)據(jù)上進(jìn)行訓(xùn)練而不會(huì)泄露數(shù)據(jù)本身。目前被工業(yè)界和學(xué)術(shù)界廣泛使用的安全計(jì)算方法主要有以下三種:同態(tài)加密(HE)、安全多方計(jì)算(MPC)以及零知識證明(ZKPs)。除去各自的特點(diǎn),這三種方法中又以安全多方計(jì)算目前在機(jī)器學(xué)習(xí)數(shù)據(jù)加密中應(yīng)用得最廣泛,因?yàn)橥瑧B(tài)加密計(jì)算過慢,而機(jī)器學(xué)習(xí)又顯然不是零知識證明的對標(biāo)場景。
也正是因?yàn)檫@一點(diǎn),安全多方計(jì)算在計(jì)算機(jī)科學(xué)研究中一直處于前沿位置,它的技術(shù)瓶頸在于計(jì)算效率太低,但近年來這種情況也在逐漸好轉(zhuǎn)。
終極推薦系統(tǒng)
為了說明個(gè)性化機(jī)器學(xué)習(xí)模型的潛力,我們可以想象一個(gè)名為“終極推薦系統(tǒng)”的應(yīng)用程序,它會(huì)監(jiān)控你在設(shè)備上執(zhí)行的所有操作:瀏覽記錄、在各應(yīng)用中的操作、手機(jī)圖片、位置數(shù)據(jù)、消費(fèi)記錄、可穿戴傳感器、短信等。它控制著你的所有設(shè)備,包括你放在家里的相機(jī),甚至你未來會(huì)買的相機(jī)。在這些數(shù)據(jù)基礎(chǔ)上,它再向你推薦該訪問哪個(gè)網(wǎng)站、看哪篇文章、聽哪首歌或購買哪件商品。
這個(gè)推薦系統(tǒng)很高效,比Google、Facebook等其他科技巨頭現(xiàn)有的AI推薦算法智能得多,因?yàn)樗鼘δ惚救擞蟹浅I羁痰牧私狻5阃耆挥脫?dān)心自己的隱私被泄露了,因?yàn)樗粡哪愕臄?shù)據(jù)中學(xué)習(xí),而除了它,沒有其他的第三者知曉你的情況。以前加密貨幣交易系統(tǒng)也推出過類似的服務(wù),它通過個(gè)人用戶在某個(gè)在線市場上的訪問情況推薦可用加密貨幣交易的商品,甚至還會(huì)因用戶貢獻(xiàn)數(shù)據(jù)而給予獎(jiǎng)勵(lì)。
谷歌的federated learning和蘋果的differential privacy都是朝個(gè)性化機(jī)器學(xué)習(xí)模型邁出的第一步,但他們在贏得用戶信任這條路上還任重道遠(yuǎn),因?yàn)檫@兩家公司都把模型的個(gè)性化對象——用戶個(gè)人排除在了安全性檢查、數(shù)據(jù)存儲(chǔ)以外。
當(dāng)前的區(qū)塊鏈和機(jī)器學(xué)習(xí)
對于這一切來說,現(xiàn)在還很早,早到只有很少的人在做相關(guān)的工作,而他們中的大多數(shù)人都抱著在這塊大蛋糕上咬下第一口的想法。
Algorithmia Research曾建立過一個(gè)基于區(qū)塊鏈的機(jī)器學(xué)習(xí)模型結(jié)構(gòu),它把元模型的準(zhǔn)確率設(shè)置為高于某個(gè)回測閾值。
由Algorithmia Research創(chuàng)建的機(jī)器學(xué)習(xí)模型的簡單構(gòu)造
而Numer.ai則在這個(gè)基礎(chǔ)上分三步走:首先對數(shù)據(jù)加密(不完全使用同態(tài)加密),其次是把眾包模型結(jié)合進(jìn)元模型中,最后是根據(jù)未來表現(xiàn)獎(jiǎng)勵(lì)模型,而不是回測某個(gè)具體的目標(biāo)。數(shù)據(jù)科學(xué)家必須將Numer.ai用做分紅指標(biāo)的加密貨幣Numeraire看成游戲幣,它只會(huì)隨未來發(fā)生的事增多、減少,而不會(huì)受已有事實(shí)影響(測試時(shí)的性能)。但是它的一個(gè)缺點(diǎn)是目前只是簡單地分發(fā)數(shù)據(jù),缺乏對數(shù)據(jù)科學(xué)家目標(biāo)意識的鼓勵(lì)。
之前Ocean曾做過一個(gè)關(guān)于數(shù)據(jù)的區(qū)塊鏈?zhǔn)袌觯皇莻€(gè)雛形,目前該領(lǐng)域還沒有出現(xiàn)非常成功的案例。
還有一些人在探索計(jì)算機(jī)網(wǎng)絡(luò)安全領(lǐng)域的區(qū)塊鏈應(yīng)用。如Openmined正在創(chuàng)建一個(gè)多方計(jì)算網(wǎng)絡(luò),用于在Unity之上培訓(xùn)機(jī)器學(xué)習(xí)模型,該網(wǎng)絡(luò)可以在任何設(shè)備上運(yùn)行,包括家用游戲機(jī)。
總而言之,這樣一個(gè)迷人市場的最終狀態(tài)會(huì)是參與者彼此共享同一個(gè)元模型,它按數(shù)據(jù)提供者、建模人員的智能貢獻(xiàn)比例分配所有權(quán)。這個(gè)模型將被標(biāo)記化,并隨著時(shí)間的推移向“股民”分發(fā)“股息”,甚至可以被全體“股東”支配。這是一種互相擁有的蜂巢式思維。
啟示
綜合全文,就基于區(qū)塊鏈技術(shù)的機(jī)器學(xué)習(xí)市場這個(gè)想法,我們可以得到以下幾點(diǎn)啟示。
首先,分散式機(jī)器學(xué)習(xí)市場可以破除目前科技巨頭對數(shù)據(jù)的壟斷。在過去的20年中,這些大型公司利用互聯(lián)網(wǎng)來創(chuàng)造價(jià)值、實(shí)現(xiàn)商品化和標(biāo)準(zhǔn)化,并搜集了大量專用數(shù)據(jù)用于鞏固和加強(qiáng)他們的網(wǎng)絡(luò)效應(yīng)。這樣做的結(jié)果就是,價(jià)值創(chuàng)造從數(shù)據(jù)被轉(zhuǎn)移到了算法上。
科技領(lǐng)域的標(biāo)準(zhǔn)化和商品化周期,數(shù)據(jù)壟斷網(wǎng)絡(luò)時(shí)代即將終結(jié)
換句話說,他們也為AI創(chuàng)造了一種直接的商業(yè)模式:喂數(shù)據(jù)→訓(xùn)練。
其次,這些公司創(chuàng)造了世界上最強(qiáng)大的AI系統(tǒng),通過直接的經(jīng)濟(jì)激勵(lì),最好的數(shù)據(jù)和模型被他們收入囊中,而他們的實(shí)力也通過網(wǎng)絡(luò)效應(yīng)的良性循環(huán)進(jìn)一步增強(qiáng)。隨著Web 2.0時(shí)代的到來,大公司的作為使數(shù)據(jù)壟斷實(shí)現(xiàn)了商品化,而這似乎又成了突破這種壟斷局面的新切入口。雖然幾年內(nèi)數(shù)據(jù)領(lǐng)域的局面不會(huì)有太大變化,但這看起來是個(gè)正確的方向。
第三,正如之前提到的“終極推薦系統(tǒng)”,我們現(xiàn)有的搜索推薦算法的出發(fā)點(diǎn)是完全顛倒的。大公司是為了增加產(chǎn)品競爭力而制定個(gè)性化推薦,而不是出于用戶需要,專門開發(fā)真正精準(zhǔn)的推薦算法。這就帶來了另一個(gè)機(jī)遇,就是每個(gè)人都可以拓展個(gè)人市場,挖掘完全自定義的數(shù)據(jù),并把它們放進(jìn)自己的模型中。
第四,Google和Facebook等公司通過機(jī)器學(xué)習(xí)開發(fā)了大量受歡迎的應(yīng)用,有了這樣一個(gè)市場,我們可以實(shí)現(xiàn)在不泄露個(gè)人隱私的前提下獲得同樣好,甚至更好的技術(shù)體驗(yàn)。
第五,機(jī)器學(xué)習(xí)研究可以更快地推進(jìn),因?yàn)槿魏?a target="_blank">工程師都可以訪問開放的數(shù)據(jù)市場,而不僅僅是大型Web 2.0公司的一小部分工程師。
挑戰(zhàn)
雖然愿景很美,但在通往Web 3.0的路上,我們還要面對很多挑戰(zhàn)。首先一個(gè)技術(shù)上的重要難題就是安全計(jì)算方法的效率還是太低了,這大大拉高了機(jī)器學(xué)習(xí)的計(jì)算成本。
我們在文章中多次提到把模型結(jié)合進(jìn)元模型。對于單個(gè)模型而言,為它找一組特定的測試集是很容易的,但我們不能把同樣的做法生搬硬套到元模型上,因?yàn)樯婕皬?fù)雜的分類算法,目前要實(shí)現(xiàn)這一點(diǎn)還很難。
雖然市場能解決數(shù)據(jù)問題,但這些數(shù)據(jù)的清理工作和格式化工作還是十分繁瑣的。我們現(xiàn)在有不少自動(dòng)化工具,一些小企業(yè)也愿意接眾包的活,但這還是太復(fù)雜了。
最后就是最諷刺的一點(diǎn),我們花一整篇文章講述了如何構(gòu)建一個(gè)廣義上的商業(yè)模式,但一旦涉及實(shí)際落地,可能它還不如直接開一個(gè)數(shù)據(jù)市場來得簡單有效。而其中的加密手段也無非就是市場管理層面的工作。
結(jié)論
總而言之,個(gè)性化機(jī)器學(xué)習(xí)和區(qū)塊鏈的結(jié)合可以在各種應(yīng)用中創(chuàng)造更強(qiáng)大的機(jī)器之能。隨著時(shí)間的推移,它甚至還能解決重大的技術(shù)挑戰(zhàn)。它的潛力是巨大的,它的價(jià)值觀也是符合用戶需要的。但它們又是可怕的——它們引導(dǎo)自我存在、自我強(qiáng)化,消費(fèi)私人數(shù)據(jù),并且?guī)缀醪豢赡荜P(guān)閉——這也是現(xiàn)在加密貨幣緩慢滲透每一個(gè)行業(yè)所帶來的警示。
-
人工智能
+關(guān)注
關(guān)注
1789文章
46368瀏覽量
236562 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8323瀏覽量
132188 -
區(qū)塊鏈
+關(guān)注
關(guān)注
110文章
15558瀏覽量
105499
原文標(biāo)題:基于區(qū)塊鏈的機(jī)器學(xué)習(xí)市場
文章出處:【微信號:jqr_AI,微信公眾號:論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論