0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

未來的圖像識別:更大規(guī)模、自我標注

8g3K_AI_Thinker ? 來源:未知 ? 作者:李倩 ? 2018-05-04 14:40 ? 次閱讀

2017 年 7 月,最后一屆 ImageNet 挑戰(zhàn)賽落幕。

為何對計算機視覺領域有著重要貢獻的 ImageNet 挑戰(zhàn)賽,會在 8 年后宣告終結?

畢竟計算機系統(tǒng)在圖像識別等任務上的準確率已經超過人類水平,每年一次突破性進展的時代也已經過去。

近日,F(xiàn)AIR(Facebook AI Research) 的 Ross Girshick 、何愷明等大神聯(lián)手,在 ImageNet-1k 圖像分類數(shù)據(jù)集上取得了 85.4% 的準確率,超越了目前的最好成績,而且沒有使用專門為訓練深度學習標記的圖像作為訓練數(shù)據(jù)。

然而,這不能怪大家不努力,只怪 Facebook 實在太土豪。10 億張帶有 hashtag(類似于微博里面的話題標簽)的圖片,以及 336 塊 GPU,敢問誰能有這種壕氣?

Facebook 表示,實驗的成功證明了弱監(jiān)督學習也能有良好表現(xiàn),當然,只要數(shù)據(jù)足夠多。

話不多說,我們一起來看看 Facebook 是怎樣用數(shù)據(jù)和金錢砸出這個成果的。

以下內容來自 Facebook 官方博客,人工智能頭條 編譯:

圖像識別是人工智能研究的重要領域之一,同時也是 Facebook 的一大重點關注領域。我們的研究人員和工程師希望盡最大的努力打破計算機視覺系統(tǒng)的邊界,然后將我們的研究成功應用到現(xiàn)實世界的問題中。為了改進計算機視覺系統(tǒng)的性能,使其能夠高效地識別和分類各種物體,我們需要擁有至少數(shù)十億張圖像的數(shù)據(jù)集來作為基礎,而不僅僅是百萬量級。

目前比較主流的模型通常是利用人工注釋的單獨標記的數(shù)據(jù)進行訓練,然而在這種情況下,增強系統(tǒng)的識別能力并不是往里面“扔”更多的圖片那樣簡單。監(jiān)督學習是勞動密集型的,但是它通常能夠達到最佳的效果,然而手動標記數(shù)據(jù)集的大小已經接近極限。盡管 Facebook 正在利用 5000 萬幅圖像對一些模型進行訓練,然而在數(shù)據(jù)全部需要人工標記的前提下,將訓練集擴大到數(shù)十億張是不可能實現(xiàn)。

我們的研究人員和工程師想出了一個解決辦法:利用大量帶有“hashtag”的公共圖像集來訓練圖像識別網絡,其中最大的數(shù)據(jù)集包括 35 億張圖像以及 17000 種 hashtag。這種方法的關鍵是使用現(xiàn)有的、公開的、用戶提供的 hashtag 作為標簽,而不是手動對每張圖片進行分類。

這種方法在我們的測試中運行十分良好。我們利用具有數(shù)十億張圖像的數(shù)據(jù)集來訓練我們的計算機視覺系統(tǒng),然后在 ImageNet 上獲得了創(chuàng)紀錄的高分(準確率達到了 85.4%)。除了在圖像識別性能方面實現(xiàn)突破之外,本研究還為如何從監(jiān)督學習轉向弱監(jiān)督學習轉變提供了深刻的洞見:通過使用現(xiàn)有標簽——在本文這種情況下指的是 hashtag——而不是專門的標簽來訓練 AI 模型。我們計劃在不久的將來會進行開源,讓整個 AI 社區(qū)受益。

▌大規(guī)模使用 hashtag

由于人們經常用 hashtag 來對照片進行標注,因此我們認為這些圖片是模型訓練數(shù)據(jù)的理想來源。人們在使用 hashtag 的主要目的是讓其他人發(fā)現(xiàn)相關內容,讓自己的圖片更容易被找到,這種意圖正好可以為我們所用。

但是 hashtag 經常涉及非可視化的概念,例如 “#tbt” 代表“throwback Thursday”;有些時候,它們的語義也含糊不清,比如 “#party”,它既可以描述一個活動,也可以描述一個背景,或者兩者皆可。為了更好地識別圖像,這些標簽可以作為弱監(jiān)督數(shù)據(jù),而模糊的或者不相關的 hashtag 則是不相干的標簽噪聲,可能會混淆深度學習模型。

由于這些充滿噪聲的標簽對我們的大規(guī)模訓練工作至關重要,我們開發(fā)了新的方法:把 hashtag 當作標簽來進行圖像識別實驗,其中包括處理每張圖像的多個標簽(因為用戶往往不會只添加一個 hashtag),對 hashtag 同義詞進行排序,以及平衡常見的 hashtag 和少見的 hashtag 的影響。

為了使標簽對圖像識別訓練更加有用,我們團隊訓練了一個大型的 hashtag 預測模型。這種方法顯示了出色的遷移學習結果,這意味著該模型在圖像分類上的表現(xiàn)可以廣泛適用于其他人工智能系統(tǒng)。

▌在規(guī)模和性能上實現(xiàn)突破

如果只是用一臺機器的話,將需要一年多的時間才能完成模型訓練,因此我們設計了一種可以將該任務分配給 336 個 GPU 的方法,從而將總訓練時間縮短至數(shù)周。隨著模型規(guī)模越來越大——這項研究中最大的是 ResNeXt 101-32x48d,其參數(shù)超過了 8.61 億個——這種分布式訓練變得越來越重要。此外,我們還設計了一種刪除重復值(副本)的方法,以確保訓練集和測試集之間沒有重疊。

盡管我們希望看到圖像識別的性能得到一定提升,但試驗結果遠超我們的預期。在 ImageNet 圖像識別基準測試中(該領域最常見的基準測試),我們的最佳模型通過 10 億張圖像的訓練之后(其中包含 1,500 個 hashtag)達到了 85.4% 的準確率,這是迄今為止 ImageNet 基準測試中的最好成績,比之前最先進的模型的準確度高了 2%。再考慮到卷積網絡架構的影響后,我們所觀察到的性能提升效果更為顯著:在深度學習粒使用數(shù)十億張帶有 hashtag 的圖像之后,其準確度相對提高了 22.5%。

在 COCO 目標檢測挑戰(zhàn)中,我們發(fā)現(xiàn)使用 hashtag 預訓練可以將模型的平均精度(average precision)提高 2% 以上。

這些圖像識別和物體檢測領域的基礎改進,代表了計算機視覺又向前邁出了一步。但是除此之外,該實驗也揭示了與大規(guī)模訓練和噪聲標簽相關的挑戰(zhàn)和機遇。

例如,盡管增加訓練數(shù)據(jù)集規(guī)模的大小是值得的,但選擇與特定識別任務相匹配的一組 hashtag 也同樣重要。我們選擇了 10 億張圖像以及 1,500 個與 ImageNet 數(shù)據(jù)集中的類相匹配的 hashtag,相比同樣的圖像加上 17,000 個 hashtag,前者訓練出來的模型取得了更好的成績。另一方面,對于圖像類別更多更廣泛的任務,使用 17,000 個主 hashtag 訓練出來模型性能改進的更加明顯,這表明我們應該在未來的訓練中增加 hashtag 的數(shù)量。

增加訓練數(shù)據(jù)量通常對圖像分類模型的表現(xiàn)是有益,但它同樣也有可能會引發(fā)新的問題,如在圖像內定位物體的能力明顯下降。除此之外我們還觀察到,實驗中最大的模型仍然沒有能夠充分利用 35 億張巨大圖像集的優(yōu)勢,這表明我們應該構建更大的模型。

▌未來的圖像識別:更大規(guī)模、自我標注

本次研究的一個重要結果,甚至比在圖像識別方面的廣泛收益還要重要,是確認了基于 hashtag 來訓練計算機視覺模型是完全可行的。雖然我們使用了一些類似融合相似的 hashtag,降低其他 hashtag 權重的基本技術,但并不需要復雜的“清洗”程序來消除標簽噪聲。相反,我們能夠使用 hashtag 來訓練我們的模型,而且只需要對訓練過程進行微小的調整。當訓練集的規(guī)模達到十億級時,我們的模型對標簽噪音表現(xiàn)出了顯著的抗干擾能力,因此數(shù)據(jù)集的規(guī)模在這里顯然是一個優(yōu)勢。

在不久的將來,我們還會設想使用 hashtag 作為計算機視覺標簽的其他方法。這些方法可能包括使用人工智能來更好地理解視頻片段或更改圖片在 Facebook 信息流中的排名方式。hashtag 還可以幫助系統(tǒng)更具體地識別圖像是不是屬于更細致的子類別,而不僅僅是寬泛的分類。一般情況下,圖片的音頻字幕都是僅寬泛地注釋出物種名稱,如“圖片中有一些鳥類棲息”,但如果我們能夠讓注釋更加精確(例如“一只紅雀棲息在糖楓樹上”),就可以為視障用戶提供更加準確的描述。

此外,這項研究還可以改進新產品以及現(xiàn)有產品中的圖像識別功能帶來。例如,更準確的模型可能會促進我們改進在 Facebook 上呈現(xiàn) Memories(與QQ的“日跡”相似)的方式。隨著訓練數(shù)據(jù)集越來越大,我們需要應用弱監(jiān)督學習——而且從長遠來看,無監(jiān)督學習會變得越來越重要。

這項研究在論文“Exploring the Limits of Weakly Supervised Pretraining”中有更詳細的描述。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 圖像識別
    +關注

    關注

    9

    文章

    514

    瀏覽量

    38191
  • 人工智能
    +關注

    關注

    1789

    文章

    46328

    瀏覽量

    236496
  • 深度學習
    +關注

    關注

    73

    文章

    5434

    瀏覽量

    120790

原文標題:何愷明等在圖像識別任務上取得重大進展,這次用的是弱監(jiān)督學習

文章出處:【微信號:AI_Thinker,微信公眾號:人工智能頭條】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    基于DSP的快速紙幣圖像識別技術研究

    本課題通過對現(xiàn)有圖像識別技術進行研究和分析,針對當前DSP(數(shù)字信號處理)技術的新發(fā)展,提出了基于DSP的快速圖像識別概念??焖?b class='flag-5'>圖像識別技術以嵌入式系統(tǒng)為算法的實現(xiàn)平臺,它結合了當前最新的數(shù)信號處理
    發(fā)表于 11-05 14:43

    怎么做圖像識別?

    怎么做圖像識別
    發(fā)表于 07-22 23:23

    圖像識別模組(包括PCB圖、圖像識別模組源代碼)

    圖像識別模組電路原理圖、圖像識別模組PCB圖、圖像識別模組源代碼、圖像識別模組用戶使用手冊
    發(fā)表于 01-02 19:14 ?121次下載

    對于圖像識別的引入、原理、過程、應用前景的深度剖析

    圖像識別技術是信息時代的一門重要的技術,其產生目的是為了讓計算機代替人類去處理大量的物理信息。隨著計算機技術的發(fā)展,人類對圖像識別技術的認識越來越深刻。圖像識別技術的過程分為信息的獲取、預處理、特征
    的頭像 發(fā)表于 12-21 15:01 ?6393次閱讀

    利用Jetson TK1為低功耗圖像識別挑戰(zhàn)做好準備

    圖像識別和GPU相輔相成,特別是在使用深度神經網絡(DNN)時。 基于GPU的DNN在圖像識別領域的優(yōu)勢已經在過去幾年在ImageNet大規(guī)模視覺識別挑戰(zhàn)(ILSVRC)中的成功得到了
    的頭像 發(fā)表于 05-08 15:29 ?9015次閱讀

    圖像識別技術 推動智能科技時代發(fā)展

    隨著圖像識別技術的不斷發(fā)展和應用,圖像識別概念,我相信大家都有所了解,知道它是什么,簡單來件,就是對圖像進行識別,目前,圖像識別技術被應用社
    的頭像 發(fā)表于 06-18 10:22 ?3509次閱讀

    Food2K:大規(guī)模食品圖像識別

    現(xiàn)有的工作主要是利用中小規(guī)模圖像數(shù)據(jù)集進行食品圖像識別,如ETH Food-101[5]、Vireo Food-172[6]和ISIA Food- 500[7]。由于食品類別和圖像數(shù)
    的頭像 發(fā)表于 05-17 14:55 ?1983次閱讀
    Food2K:<b class='flag-5'>大規(guī)模</b>食品<b class='flag-5'>圖像識別</b>

    圖像識別技術原理 深度學習的圖像識別應用研究

      圖像識別是人工智能領域的一個重要方向。經過多年的研究,圖像識別技術取得了一定的研究進展。圖像識別主要包含特征提取和分類識別,而其中的特征 提取是
    發(fā)表于 07-19 10:27 ?2次下載

    模擬矩陣在圖像識別中的應用

    特征提?。和ㄟ^模擬矩陣處理圖像數(shù)據(jù),提取關鍵特征,為后續(xù)的圖像識別提供依據(jù)。 圖像分類和識別:利用深度學習模型對模擬矩陣中的特征進行分類和識別
    的頭像 發(fā)表于 09-04 14:17 ?516次閱讀
    模擬矩陣在<b class='flag-5'>圖像識別</b>中的應用

    圖像識別技術原理 圖像識別技術的應用領域

    圖像識別技術是一種通過計算機對圖像進行分析和理解的技術。它借助計算機視覺、模式識別、人工智能等相關技術,通過對圖像進行特征提取和匹配,找出圖像
    的頭像 發(fā)表于 02-02 11:01 ?2055次閱讀

    圖像識別屬于人工智能嗎

    屬于。圖像識別是人工智能(Artificial Intelligence, AI)領域的一個重要分支。 一、圖像識別概述 1.1 定義 圖像識別是指利用計算機技術對圖像中的內容進行分析
    的頭像 發(fā)表于 07-16 10:44 ?737次閱讀

    圖像識別技術的原理是什么

    圖像識別技術是一種利用計算機視覺和機器學習技術對圖像進行分析和理解的技術。它可以幫助計算機識別和理解圖像中的對象、場景和活動。 圖像預處理
    的頭像 發(fā)表于 07-16 10:46 ?717次閱讀

    圖像識別算法的優(yōu)缺點有哪些

    圖像識別算法是一種利用計算機視覺技術對圖像進行分析和理解的方法,它在許多領域都有廣泛的應用,如自動駕駛、醫(yī)療診斷、安全監(jiān)控等。然而,圖像識別算法也存在一些優(yōu)缺點。 一、圖像識別算法的優(yōu)
    的頭像 發(fā)表于 07-16 11:09 ?983次閱讀

    圖像識別算法的提升有哪些

    引言 圖像識別是計算機視覺領域的核心任務之一,旨在使計算機能夠自動地識別和理解圖像中的內容。隨著計算機硬件的發(fā)展和深度學習技術的突破,圖像識別算法的性能得到了顯著提升。本文將介紹
    的頭像 發(fā)表于 07-16 11:12 ?502次閱讀

    圖像識別算法都有哪些方法

    圖像識別算法是計算機視覺領域的核心任務之一,它涉及到從圖像中提取特征并進行分類、識別和分析的過程。隨著深度學習技術的不斷發(fā)展,圖像識別算法已經取得了顯著的進展。本文將介紹
    的頭像 發(fā)表于 07-16 11:14 ?4542次閱讀