當(dāng)人類觀看圖像時,會感知物體、人物或景觀。當(dāng)機器“查看”圖像時,他們看到的只是代表單個像素的數(shù)字。假設(shè)一個灰度圖像,每個像素由一個通常在0到255之間的數(shù)字表示,其中0表示黑色(無顏色),255表示白色(全強度)。0到255之間的任何一個都是灰色陰影,如下圖所示。
因此,對于任何要獲取圖像內(nèi)容的機器來說,它必須以某種方式處理這些數(shù)字。
數(shù)據(jù)量大
正如上面所說,當(dāng)涉及到圖像時,計算機得到的是很多數(shù)字,意味著需要大量的處理才能被理解。舉一個例子來說明圖像的數(shù)據(jù)量究竟有多大。如果是具有1920x1080分辨率的灰度(黑白)圖像,則表示該圖像由200萬個數(shù)字(1920*1080=2073600像素)描述,如果切換到彩色圖像,則一般需要三倍的數(shù)字。如果試圖分析來自視頻/攝像機流的圖像,假設(shè)幀率為30幀/秒(標(biāo)準(zhǔn)幀率),則每秒需要處理1.8億個數(shù)字(3*2073600*30=1.8億像素)。即使如今我們擁有強大的處理器和相對較大的內(nèi)存,也是一個巨大的挑戰(zhàn)。更何況如今幾千萬甚至上億像素的Sensor越來越普及,且其幀率更是高達上百幀/秒。
信息丟失
數(shù)字化過程中的信息丟失是造成計算機視覺難度的另一個主要因素。圖像處理的本質(zhì)是從3D世界(如果處理視頻流中的數(shù)據(jù)則是4D)投影到2D平面(即平面圖像)上獲取信息。這意味著在此過程中會丟失大量信息。人類的大腦可以非常出色的推斷出丟失的數(shù)據(jù)是什么,但是對于計算機來說卻是極其困難的挑戰(zhàn)。下圖顯示的是一個凌亂的房間。
人類可以很容易地看出,綠色健身球比桌子上的黑色平底鍋更大更遠。但是如果黑色平底鍋比綠色球占據(jù)更多的像素,機器應(yīng)該如何推斷呢?這不是一件容易的事。當(dāng)然,可以嘗試通過同時拍攝兩張照片并從中提取3D信息來模擬用兩只眼睛看到的方式,這被稱為立體視覺。然而,將圖像拼接在一起也不是一項微不足道的任務(wù),因為同樣是一個開放的研究領(lǐng)域。
伴隨噪聲
數(shù)字化過程中經(jīng)常伴隨著噪音。例如,沒有相機會拍攝出一個完美的不含噪聲的現(xiàn)實圖片,特別是當(dāng)用手機上的相機進行拍照時,他們會通過調(diào)整強度等級,色彩飽和度等去嘗試捕捉美麗的世界。同時在圖像拍攝過程中肯能會出現(xiàn)“鏡頭光暈”的現(xiàn)象,人類可以輕松的判斷光暈后面是什么場景,而對于計算機來說確實非常困難。 雖然已經(jīng)有很多去除光暈的算法,但是去除光暈的算法本身也是開放的領(lǐng)域。另外,在圖像壓縮的過程中會對圖像降低像素或者變換操作,而這樣的圖片對于人來說可以輕松的識別,而對于計算機,如果不告訴它壓縮變換的操作,它會當(dāng)作壓縮后的圖像為原圖像進行識別,從而產(chǎn)生錯誤。
理解圖像含義困難
最后也是最重要的是就是對圖像內(nèi)容的理解。對于機器來說,這絕對是計算機視覺環(huán)境中最難處理的事情。當(dāng)人類觀看圖像時,會用累積的學(xué)習(xí)和記憶(稱為先驗知識)來分析它。例如,人類知道,可以坐在健身球上,而平底鍋通常用在廚房里,因為這些東西過去已經(jīng)了解過。如果有一些東西看起來像天空中的平底鍋,很可能它不是平底鍋,因此可以進一步仔細檢查,以確定對象可能是什么。或者如果有人圍著綠球踢球,很可能是小孩子的球而不是健身球。但機器沒有這種知識。他們不了解的世界,不了解其中固有的復(fù)雜性,以及在數(shù)千年的進化中創(chuàng)造的眾多工具、商品、設(shè)備等。也許有一天機器將能夠獲得網(wǎng)絡(luò)并從那里了解有關(guān)對象的信息,但目前離這種情況很遠。
編輯:黃飛
-
圖像處理
+關(guān)注
關(guān)注
27文章
1272瀏覽量
56511 -
計算機視覺
+關(guān)注
關(guān)注
8文章
1690瀏覽量
45876
原文標(biāo)題:圖像處理技術(shù)難點
文章出處:【微信號:機器視覺沙龍,微信公眾號:機器視覺沙龍】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
相關(guān)推薦
評論