互聯(lián)網(wǎng)目前已經(jīng)滲透到我們生活的方方面面,但它依然只是現(xiàn)實(shí)的物理世界在虛擬的網(wǎng)絡(luò)空間上按比特信息編碼后的投射。
所以只要定制相應(yīng)的自動(dòng)化程序便可以模仿人的行為,同時(shí),因?yàn)闄C(jī)器速度更快且不知疲倦,它會(huì)被用于批量在論壇、網(wǎng)站、app 中發(fā)布營(yíng)銷信息。而且,在監(jiān)管不足的情況下,利潤(rùn)更高的行業(yè)往往底線更低,自動(dòng)機(jī)器人發(fā)布的垃圾信息經(jīng)常也和賭博、詐騙、色情等灰色產(chǎn)業(yè)有關(guān)。一些自動(dòng)化程序還會(huì)嘗試以“撞庫(kù)”的方式竊取用戶帳號(hào)、密碼,給網(wǎng)站帶來(lái)巨大的安全隱患。
于是,驗(yàn)證碼應(yīng)運(yùn)而生。作為同樣的自動(dòng)化程序,二維碼存在目的是區(qū)分用戶到底是機(jī)器人還是真實(shí)的人。
最常見的驗(yàn)證碼便是自動(dòng)生成的扭曲的文字和圖案,雖然它可以有效地識(shí)別出很大一部分自動(dòng)化程序,但它對(duì)真人用戶的體驗(yàn)并不好。而且隨著機(jī)器學(xué)習(xí)的發(fā)展,要破解它也越來(lái)越容易。
▲驗(yàn)證碼風(fēng)格的設(shè)計(jì)圖案
Google的驗(yàn)證碼團(tuán)隊(duì)有著各種創(chuàng)新試驗(yàn),比如創(chuàng)造性地把驗(yàn)證碼用于紙質(zhì)典籍?dāng)?shù)字化。另外除了扭曲文字、圖片的主流路線之后,Google的團(tuán)隊(duì)還嘗試了新的思路,利用追蹤用戶的點(diǎn)擊行為等來(lái)識(shí)別是否真人操作。用戶只需要點(diǎn)擊“我不是機(jī)器人”的復(fù)選框便可驗(yàn)證。
在最新版本的Google驗(yàn)證碼reCAPTCHA v3中,你甚至什么都不用做,系統(tǒng)就在悄悄核驗(yàn)當(dāng)前的用戶是不是機(jī)器人。技術(shù)正在讓“驗(yàn)證碼”越來(lái)越隱形,人類不必再為了自證身份去做“反向圖靈測(cè)試”,然而這種進(jìn)步也帶來(lái)了不少新的問(wèn)題。
初代驗(yàn)證碼CAPTCHA:歪歪扭扭的文字
2000年,從杜克大學(xué)數(shù)學(xué)系畢業(yè),來(lái)到卡內(nèi)基梅隆大學(xué)讀計(jì)算機(jī)科學(xué)博士的路易斯·馮·安(Luis von Ahn)和導(dǎo)師一起提出了驗(yàn)證碼的概念,全稱是全自動(dòng)區(qū)分計(jì)算機(jī)和人類的公開圖靈測(cè)試(英語(yǔ):Completely Automated Public Turing test to tell Computers and Humans Apart,簡(jiǎn)稱 CAPTCHA)。
圖靈測(cè)試由計(jì)算機(jī)先驅(qū)人物,“人工智能之父”阿蘭·圖靈提出,以一臺(tái)計(jì)算機(jī)能和人類對(duì)話而不被識(shí)別出是機(jī)器人為通過(guò)圖靈測(cè)試基準(zhǔn)。驗(yàn)證碼也是圖靈測(cè)試的一種,但它的目的不是為了創(chuàng)造AI,而只是為了識(shí)別真實(shí)的人類用戶。
一種最常見的驗(yàn)證碼是由算法生成的扭曲的文字,這么做是為了防止被光學(xué)字符識(shí)別程序(OCR)自動(dòng)識(shí)別出來(lái)。
有一些方法是在字母上加一條曲線或?qū)⒉煌淖帜腐B在一起,也有添加復(fù)雜背景的方式。
也有圖片驗(yàn)證碼,要求用戶識(shí)別圖片的物體,以及把缺失的部分拖到正確的位置和拼圖等。
但不管形式如何,這些驗(yàn)證碼有一個(gè)共同的原則:就是要讓人類很容易識(shí)別,卻對(duì)計(jì)算機(jī)來(lái)說(shuō)非常困難。一些研究者認(rèn)為,為避免 CAPTCHA過(guò)難而使網(wǎng)站損失用戶,通常要求人類用戶通過(guò)測(cè)試的時(shí)間小于30秒,用戶通過(guò)率大于90%。
還有一個(gè)不被普通人知道的點(diǎn),驗(yàn)證碼被稱為一種“圖靈測(cè)試”,所以它在設(shè)計(jì)之初就有促進(jìn)人工智能發(fā)展的初衷。
根據(jù)定義,驗(yàn)證碼的算法必須公開,這樣做的目的是為了讓破解驗(yàn)證碼的過(guò)程是在解決對(duì)應(yīng)的人工智能問(wèn)題,例如圖像識(shí)別、準(zhǔn)確度更高的OCR等,破解者不必花費(fèi)心思通過(guò)逆向工程推演算法。
利用驗(yàn)證碼將紙質(zhì)典籍?dāng)?shù)字化
目前驗(yàn)證碼已經(jīng)被廣泛用于各大網(wǎng)站、app中,有數(shù)據(jù)顯示,這項(xiàng)技術(shù)在推出后的短短五年內(nèi),每天就有2億個(gè)驗(yàn)證碼在被使用。
很快,驗(yàn)證碼發(fā)明者提出一個(gè)新的項(xiàng)目reCAPTCHA,主要用于把互聯(lián)網(wǎng)出現(xiàn)前的紙質(zhì)典籍?dāng)?shù)字化。思路是這樣的:驗(yàn)證碼系統(tǒng)會(huì)向用戶出示兩個(gè)單詞,第一個(gè)是正常的自動(dòng)生成扭曲文字,另外一個(gè)則來(lái)自紙質(zhì)典籍的掃描版,來(lái)自掃描版的文字通常因?yàn)槟甏眠h(yuǎn)、或是紙上有污點(diǎn)等原因而難以被OCR程序識(shí)別。
因此,當(dāng)用戶輸入驗(yàn)證碼時(shí),只要第一個(gè)單詞輸入正確就可以被判別為人類,輸入的第二個(gè)單詞只是“義務(wù)勞動(dòng)”。這是因?yàn)橄到y(tǒng)會(huì)默認(rèn)第二個(gè)單詞輸入是正確的,輸入結(jié)果只是會(huì)與其他用戶的輸入結(jié)果進(jìn)行對(duì)比,如果多名用戶的答案一致,這個(gè)詞的數(shù)字化就完成了。
也許你會(huì)認(rèn)為這樣一個(gè)一個(gè)詞的識(shí)別與龐大的待數(shù)字化的典籍相比,根本起不了多大作用,然而在推出之初,reCAPTCHA便能錄入3000萬(wàn)個(gè)字符。2011年,它已經(jīng)完成了全部的《紐約時(shí)報(bào)》數(shù)字化的工作,這份從1851年開始出版的老報(bào)紙有大量純紙質(zhì)版的內(nèi)容。
2009 年,Google看上了這個(gè)項(xiàng)目的價(jià)值,并出手收購(gòu)了reCAPTCHA,同時(shí)也被Facebook、Twitter、CNBC等使用。在幫助這些流量最大的網(wǎng)站抵御自動(dòng)化程序騷擾的同時(shí),Google圖書中難以被自動(dòng)識(shí)別的掃描版的古老典籍同樣借助reCAPTCHA得以數(shù)字化。
另外,reCAPTCHA還被用于幫助機(jī)器學(xué)習(xí)系統(tǒng)提高圖像識(shí)別率,運(yùn)作原理和典籍?dāng)?shù)字化的方法是一樣,用機(jī)器難以辨別的門牌號(hào)、貓狗照片拿來(lái)當(dāng)做驗(yàn)證碼供人類識(shí)別。
與此同時(shí),用戶實(shí)際上還在幫機(jī)器學(xué)習(xí)系統(tǒng)標(biāo)注訓(xùn)練集,所以,強(qiáng)大的AlphaGo背后的人工智能技術(shù),可能早就有你的功勞。
NoCAPTCHA:不用輸入字符的驗(yàn)證方式
Google在收購(gòu)reCAPTCHA后,對(duì)它進(jìn)行了以Google的方式改進(jìn)。
在2014年,Google推出了新的驗(yàn)證碼系統(tǒng)——NoCAPTCHA reCAPTCHA,雖然名字有點(diǎn)拗口,但依然是個(gè)驗(yàn)證系統(tǒng),其核心是不需要輸入驗(yàn)證碼,用戶只需要點(diǎn)擊一個(gè)“我不是機(jī)器人”的復(fù)選框,Google就能判別你是不是真正的人類。
reCAPTCHA的口號(hào)也從“別發(fā)垃圾信息了,讀點(diǎn)書吧”(Stop Spam. Read Books),變成了驗(yàn)證碼最初的目的“對(duì)人類簡(jiǎn)單,對(duì)機(jī)器人困難”(Easy on Humans, Hard on Bots)。
NoCAPTCHA跟蹤用戶點(diǎn)擊驗(yàn)證框之前、當(dāng)時(shí)和之后的行為,比如在網(wǎng)頁(yè)上花費(fèi)的時(shí)間,從而來(lái)判斷是否是人為操作。
假如你被誤判為機(jī)器人,還有一個(gè)“申訴”的機(jī)會(huì),和圖片驗(yàn)證一樣,從一堆圖片中選出正確的目標(biāo)。
使用reCAPTCHA v3的網(wǎng)站會(huì)在網(wǎng)站的每個(gè)頁(yè)面放入reCAPTCHA v3代碼,而不只是在登錄頁(yè)面。reCAPTCHA系統(tǒng)會(huì)跟蹤用戶的所有瀏覽行為進(jìn)行分析。
就這樣,Google 可以獲得幾乎用戶的所有行為。Google也確認(rèn),用戶使用的硬件信息即設(shè)備上的軟件會(huì)被發(fā)送回 Google服務(wù)器,但它表示,獲得的結(jié)果“只用于分析用戶行為,不用于個(gè)性化廣告推薦”。不過(guò),隱私都被掌握了的事實(shí)就擺在這里,你想更快捷被驗(yàn)證還是以隱私換取快捷呢?
-
機(jī)器人
+關(guān)注
關(guān)注
210文章
27989瀏覽量
205540 -
互聯(lián)網(wǎng)
+關(guān)注
關(guān)注
54文章
11037瀏覽量
102443
原文標(biāo)題:驗(yàn)證方式的進(jìn)化,除了要當(dāng)上義務(wù)標(biāo)注員,還要付出什么代價(jià)呢?
文章出處:【微信號(hào):luomajqrxt,微信公眾號(hào):機(jī)器人學(xué)堂】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論