0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

合成數(shù)據(jù)對(duì)于 AI 開發(fā)至關(guān)重要

靚仔峰 ? 來源:靚仔峰 ? 作者:靚仔峰 ? 2022-07-20 10:58 ? 次閱讀

今天的高級(jí)人工智能開發(fā)仍然深深植根于 1950 年代的計(jì)算機(jī)科學(xué)哲學(xué),包括“垃圾進(jìn),垃圾出”這句話。這句格言提醒我們,人工智能模型的好壞取決于它所訓(xùn)練的數(shù)據(jù)。

從晚期癌癥篩查到推薦一部新電影,數(shù)據(jù)科學(xué)家需要大量多樣的數(shù)據(jù)集來訓(xùn)練 AI 模型。對(duì)于現(xiàn)實(shí)世界的數(shù)據(jù)來說,這可能是一個(gè)重大挑戰(zhàn)。通常出于隱私原因受到保護(hù),真實(shí)數(shù)據(jù)可能很難獲得,而且獲取成本也很高,而且可能不像預(yù)期的那樣多樣化。

pYYBAGLO7-aARthzAANkRyCROAU889.jpg


Rev Lebaredian(來源:英偉達(dá)

幸運(yùn)的是,人工智能可以通過合成數(shù)據(jù)集自行救援——計(jì)算機(jī)生成的模擬可確保提供充足的多樣化和匿名訓(xùn)練數(shù)據(jù)。數(shù)據(jù)是完全匿名的,可以使用各種方法創(chuàng)建,例如通用對(duì)抗網(wǎng)絡(luò)或使用更多非 AI 程序的模擬器,以確保與真實(shí)數(shù)據(jù)非常相似。通過使用合成數(shù)據(jù)集,人工智能開發(fā)人員可以從更高性能和更健壯的模型中受益。

數(shù)據(jù)的騙局

隨著開發(fā)人員達(dá)到現(xiàn)成數(shù)據(jù)的極限,他們很快將需要尋找其他地方來改進(jìn)他們的模型。合成數(shù)據(jù)是計(jì)算機(jī)模擬或算法生成的信息,可替代現(xiàn)實(shí)世界的數(shù)據(jù),以填補(bǔ)模型需求和數(shù)據(jù)可用性之間的差距。

數(shù)據(jù)科學(xué)家有很多方法可以生成合成數(shù)據(jù)。模擬和 3D 渲染是很好的起點(diǎn)。例如,一輛自動(dòng)駕駛汽車通常是通過讓它在真正的道路上行駛之前駕駛數(shù)千英里的虛擬道路來訓(xùn)練的。通用對(duì)抗網(wǎng)絡(luò),即創(chuàng)建新數(shù)據(jù)的生成模型,也可用于數(shù)據(jù)生產(chǎn)。多虧了這些,合成數(shù)據(jù)收集變得比以往任何時(shí)候都更容易獲得和更有效。

分析公司 Gartner 最近報(bào)告*,合成數(shù)據(jù)正處于從一個(gè)雜耍變成未來人工智能背后的主要力量的軌道上。Gartner 在一項(xiàng)研究中指出,“合成數(shù)據(jù)通過允許較小的組織在沒有大量數(shù)據(jù)的情況下創(chuàng)建 AI 模型,有效地解決了他們的冷啟動(dòng)問題,從而使競(jìng)爭(zhēng)環(huán)境民主化。”

人工數(shù)據(jù)滿足 AI 的關(guān)鍵需求
AI 已經(jīng)無處不在,因?yàn)樗呀?jīng)通過智能設(shè)備和技術(shù)融入我們的生活,涵蓋醫(yī)療保健、零售、娛樂、自動(dòng)駕駛汽車、智能空間等領(lǐng)域,這些智能設(shè)備和技術(shù)正在加速我們走向未來。

將人工智能用作數(shù)字鏡子是其發(fā)展的下一步。然而,特定環(huán)境中的變化可能是無數(shù)的。襯衫的顏色可能有多種色調(diào)和色調(diào)。房間的燈光隨著太陽的移動(dòng)或燈具的開啟而變化。


這個(gè)隧道中車輛的場(chǎng)景使用了間接照明。這是一個(gè)難以實(shí)時(shí)準(zhǔn)確渲染的場(chǎng)景示例,但在 Nvidia Drive Sim 中由 Nvidia Omniverse RTX 渲染器啟用(來源:Nvidia)

捕捉條件的復(fù)雜性使得各種合成數(shù)據(jù)集對(duì)于 AI 模型制作至關(guān)重要。與從主要來源收集數(shù)據(jù)所需的時(shí)間和費(fèi)用相比,可以收集合成數(shù)據(jù)為數(shù)字雙胞胎提供動(dòng)力。這可以最大限度地訪問大量不同的數(shù)據(jù),并增加免于隱私問題的好處。

Gartner 注意到這一人工智能資產(chǎn)的重要性,還指出,“合成數(shù)據(jù)通常被視為質(zhì)量較低的替代品,只有在真實(shí)數(shù)據(jù)難以獲取、價(jià)格昂貴或受到監(jiān)管限制時(shí)才有用。這錯(cuò)過了合成數(shù)據(jù)的真正潛力。事實(shí)是,如果沒有合成數(shù)據(jù),您將無法構(gòu)建高質(zhì)量、高價(jià)值的 AI 模型。”

現(xiàn)實(shí)真的很隨機(jī)

多樣化的訓(xùn)練數(shù)據(jù)集是構(gòu)建 AI 模型的關(guān)鍵,但現(xiàn)實(shí)世界的數(shù)據(jù)可能不足。域隨機(jī)化的內(nèi)置功能使機(jī)器人模擬應(yīng)用程序和合成數(shù)據(jù)生成工具 Nvidia Isaac Sim 能夠隨機(jī)改變模擬中的紋理、顏色、照明和位置。

Nvidia Drive Sim 也是如此,這是一個(gè)用于測(cè)試自動(dòng)駕駛汽車的模擬平臺(tái)。它能夠改變路牌的大小或語言或太陽的位置。

O'Reilly Media 的報(bào)告“使用合成數(shù)據(jù)加速 AI ”中強(qiáng)調(diào)了這些功能,該報(bào)告強(qiáng)調(diào)安全和效率是模擬中的優(yōu)先事項(xiàng)。根據(jù)該報(bào)告,“使用合成數(shù)據(jù)可以解決的一些問題成本太高或太危險(xiǎn)(例如,在訓(xùn)練模型控制自動(dòng)駕駛汽車的情況下),無法使用更傳統(tǒng)的方法解決,或者根本無法解決?!?/p>


Nvidia Isaac 模擬引擎創(chuàng)建了更好的逼真環(huán)境,并簡(jiǎn)化了合成數(shù)據(jù)生成和域隨機(jī)化,為工程師和開發(fā)人員在廣泛的應(yīng)用程序中訓(xùn)練和部署機(jī)器人構(gòu)建數(shù)據(jù)集(來源:Nvidia)

隨機(jī)化條件(例如照明、顏色和對(duì)象放置)對(duì)于創(chuàng)建各種合成訓(xùn)練數(shù)據(jù)以實(shí)現(xiàn)更準(zhǔn)確的 AI 模型至關(guān)重要。這些數(shù)字世界的變化反映了現(xiàn)實(shí)生活中經(jīng)常出現(xiàn)的意外和不可預(yù)測(cè)的變化。

例如,在工廠中,當(dāng)不同的工人處理同一個(gè)物體時(shí),一個(gè)工人處理的物體可能最終處于不同的位置。在訓(xùn)練機(jī)器人如何使用合成數(shù)據(jù)和模擬在真實(shí)工廠中工作時(shí),環(huán)境條件(如定位)的變化非常重要。這些能力使強(qiáng)大的智能工廠和城市的生產(chǎn)成為可能。

圖形與人工智能之間的關(guān)鍵環(huán)節(jié)

除了虛擬城市和工廠,合成數(shù)據(jù)為計(jì)算機(jī)圖形學(xué)的復(fù)興鋪平了道路,因?yàn)槟M 3D 世界現(xiàn)在是訓(xùn)練 AI 模型的關(guān)鍵組成部分。在 3D 世界中,物體應(yīng)該下落,身體部位應(yīng)該彎曲,皮膚應(yīng)該被貼上紋理以與人類的所有運(yùn)動(dòng)部位非常相似。

個(gè)人在虛擬世界中出現(xiàn)的不同方式,具有自然的身體變化、面部特征和行為,說明了合成數(shù)據(jù)的真正力量。多樣化的合成數(shù)據(jù)可以準(zhǔn)確地彌合虛擬世界和現(xiàn)實(shí)世界之間的差距,其特征從萬有引力定律到身體動(dòng)作再到皮膚紋理。

人類因不同的膚色、反應(yīng)和表情而彼此不同,這些都可以在媒體制作和數(shù)字復(fù)制品中展示。數(shù)字人類只是難題的一部分,因?yàn)檎彰骱臀矬w定位等環(huán)境條件在計(jì)算機(jī)圖形和模擬中同樣重要。

例如,自動(dòng)駕駛汽車需要能夠在太陽低落時(shí)做出反應(yīng),這可能會(huì)妨礙能見度。合成數(shù)據(jù)可以通過創(chuàng)建更真實(shí)的虛擬環(huán)境來幫助改善模擬世界,這些虛擬環(huán)境是真正的數(shù)字雙胞胎。生成物理上準(zhǔn)確的、基于物理的環(huán)境和人類極具挑戰(zhàn)性,需要高級(jí)模擬、高性能計(jì)算資源和大量數(shù)據(jù)。


Nvidia Drive Sim 使用高保真和物理精確的模擬來創(chuàng)建一種安全、可擴(kuò)展且具有成本效益的方式,將自動(dòng)駕駛汽車帶到我們的道路上(來源:Nvidia)

人工智能推進(jìn)自己的未來

人工智能使用合成數(shù)據(jù)進(jìn)行自我改進(jìn)的能力使其成為一項(xiàng)獨(dú)特而強(qiáng)大的技術(shù)。綜合數(shù)據(jù)是提高用于高級(jí)模型和模擬的穩(wěn)健訓(xùn)練數(shù)據(jù)的質(zhì)量和數(shù)量的關(guān)鍵。

每一波人工智能創(chuàng)新都建立在上一波的基礎(chǔ)上。合成數(shù)據(jù)的機(jī)會(huì)將超越其在當(dāng)前人工智能應(yīng)用中的應(yīng)用,擴(kuò)展到農(nóng)業(yè)、自動(dòng)駕駛汽車、醫(yī)療保健、機(jī)器人等行業(yè)。

在為 AI 開發(fā)數(shù)據(jù)源時(shí),不要讓“人工”和“合成”這兩個(gè)詞阻止您。數(shù)據(jù)可能是人為創(chuàng)建的,但結(jié)果對(duì)于真正的成功至關(guān)重要。很快,將出現(xiàn)一個(gè)極其精確的數(shù)字現(xiàn)實(shí)鏡像,使用合成數(shù)據(jù)高效準(zhǔn)確地構(gòu)建。

——Rev Lebaredian 是 Nvidia 的仿真技術(shù)副總裁

*Gartner,“Maverick Research:忘記你的真實(shí)數(shù)據(jù)——合成數(shù)據(jù)是 AI 的未來”,Leinar Ramos,Jitendra Subramanyam,2021 年 6 月 24 日。


審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29435

    瀏覽量

    267752
  • 人工智能
    +關(guān)注

    關(guān)注

    1789

    文章

    46397

    瀏覽量

    236619
  • 先進(jìn)技術(shù)
    +關(guān)注

    關(guān)注

    0

    文章

    24

    瀏覽量

    6208
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    AI大模型的訓(xùn)練數(shù)據(jù)來源分析

    AI大模型的訓(xùn)練數(shù)據(jù)來源廣泛且多元化,這些數(shù)據(jù)對(duì)于構(gòu)建和優(yōu)化AI模型至關(guān)重要。以下是對(duì)
    的頭像 發(fā)表于 10-23 15:32 ?185次閱讀

    AI for Science:人工智能驅(qū)動(dòng)科學(xué)創(chuàng)新》第二章AI for Science的技術(shù)支撐學(xué)習(xí)心得

    和數(shù)量直接影響到模型的準(zhǔn)確性和可靠性。因此,數(shù)據(jù)獲取、處理、分析和質(zhì)量控制在AI for Science中至關(guān)重要。此外,數(shù)據(jù)驅(qū)動(dòng)的研究范式也促使科學(xué)家從傳統(tǒng)的假設(shè)驅(qū)動(dòng)轉(zhuǎn)向更加靈活和開
    發(fā)表于 10-14 09:16

    無刷電機(jī)驅(qū)動(dòng)芯片方案的選擇至關(guān)重要

    在當(dāng)今科技飛速發(fā)展的時(shí)代,無刷電機(jī)因其高效、低噪、長壽命等顯著優(yōu)勢(shì),在眾多領(lǐng)域得到了廣泛應(yīng)用,從工業(yè)自動(dòng)化到智能家居,從電動(dòng)汽車到航空航天。而在無刷電機(jī)系統(tǒng)中,驅(qū)動(dòng)芯片方案的選擇至關(guān)重要,它直接影響
    的頭像 發(fā)表于 09-05 17:28 ?373次閱讀

    選擇正確的負(fù)載組對(duì)于準(zhǔn)確的電源測(cè)試至關(guān)重要

    電路電源測(cè)試
    深圳崧皓電子
    發(fā)布于 :2024年07月31日 07:53:35

    夏季雷雨頻繁,新能源車輛車載充電機(jī)與整車防水設(shè)計(jì)至關(guān)重要

    車載充電機(jī)(On-Board Charger,OBC)與車載直流轉(zhuǎn)換器(DC-DC Converter)作為新能源汽車上至關(guān)重要的零部件,需要有特殊的防水處理。
    的頭像 發(fā)表于 07-30 09:07 ?255次閱讀
    夏季雷雨頻繁,新能源車輛車載充電機(jī)與整車防水設(shè)計(jì)<b class='flag-5'>至關(guān)重要</b>

    平衡創(chuàng)新與倫理:AI時(shí)代的隱私保護(hù)和算法公平

    ,企業(yè)和組織應(yīng)明確告知用戶他們的數(shù)據(jù)如何被收集和使用,并提供選擇退出的選項(xiàng),這是尊重和保護(hù)個(gè)人隱私權(quán)的基本要求。 跨國界的合作對(duì)于建立全球統(tǒng)一的AI倫理標(biāo)準(zhǔn)至關(guān)重要。不同國家和地區(qū)
    發(fā)表于 07-16 15:07

    為什么加速數(shù)據(jù)處理對(duì)各行各業(yè)的AI創(chuàng)新都至關(guān)重要

    在各行各業(yè),AI 正在用機(jī)器驅(qū)動(dòng)的計(jì)算來推動(dòng)創(chuàng)新。在金融領(lǐng)域,銀行正在使用 AI 更快地檢測(cè)欺詐行為并確保賬戶安全;電信公司正在使用 AI 優(yōu)化網(wǎng)絡(luò)以提供優(yōu)質(zhì)服務(wù);科學(xué)家正在使用 AI
    的頭像 發(fā)表于 07-05 10:46 ?620次閱讀

    ai開發(fā)需要什么配置

    AI開發(fā)是一個(gè)復(fù)雜的過程,涉及到多個(gè)方面的配置。 硬件配置 AI開發(fā)需要高性能的硬件支持,主要包括以下幾個(gè)方面: 1.1 CPU AI
    的頭像 發(fā)表于 07-02 09:54 ?948次閱讀

    為什么數(shù)字孿生對(duì)于智慧城市至關(guān)重要

    對(duì)其進(jìn)行預(yù)測(cè)。 中易云GIS與數(shù)字孿生系統(tǒng) 數(shù)字孿生在智慧城市中的重要性 智慧城市可以解決近年來快速城市化帶來的環(huán)境和社會(huì)問題,從而提高居民生活質(zhì)量,同時(shí)實(shí)現(xiàn)更加可持續(xù)的城市模式的發(fā)展之路。 數(shù)字孿生聯(lián)動(dòng)真實(shí)場(chǎng)景的
    的頭像 發(fā)表于 06-04 11:23 ?512次閱讀

    為何電感器對(duì)于數(shù)據(jù)及人工智能產(chǎn)業(yè)發(fā)展至關(guān)重要

    電感器作為智能設(shè)備電路中的重要元件,已經(jīng)成為推動(dòng)大數(shù)據(jù)和智能產(chǎn)業(yè)發(fā)展與革新的基礎(chǔ)技術(shù)??七_(dá)嘉通過技術(shù)創(chuàng)新,為大數(shù)據(jù)和人工智能領(lǐng)域提供高可靠的電感解決方案和豐富的電感器產(chǎn)品型號(hào)。
    的頭像 發(fā)表于 02-28 14:48 ?398次閱讀
    為何電感器<b class='flag-5'>對(duì)于</b>大<b class='flag-5'>數(shù)據(jù)</b>及人工智能產(chǎn)業(yè)發(fā)展<b class='flag-5'>至關(guān)重要</b>

    什么是網(wǎng)絡(luò)時(shí)鐘同步?為什么它對(duì)5G網(wǎng)絡(luò)至關(guān)重要?

    什么是網(wǎng)絡(luò)時(shí)鐘同步?為什么它對(duì)5G網(wǎng)絡(luò)至關(guān)重要? 網(wǎng)絡(luò)時(shí)鐘同步是指將計(jì)算機(jī)網(wǎng)絡(luò)中各個(gè)設(shè)備的時(shí)鐘進(jìn)行同步,使得網(wǎng)絡(luò)中的設(shè)備都可以基于同一個(gè)時(shí)間參考點(diǎn)進(jìn)行操作和通信。網(wǎng)絡(luò)時(shí)鐘同步對(duì)于5G網(wǎng)絡(luò)的重要性不可
    的頭像 發(fā)表于 01-16 16:03 ?899次閱讀

    Arm攜手Cadence加速AI時(shí)代芯片開發(fā)

    隨著人工智能 (AI) 的快速發(fā)展,使用經(jīng)優(yōu)化的芯片對(duì)于打造新一代應(yīng)用至關(guān)重要。
    的頭像 發(fā)表于 01-04 14:08 ?982次閱讀

    半導(dǎo)體行業(yè)邁入&quot;材料時(shí)代&quot;,創(chuàng)新材料至關(guān)重要

    他強(qiáng)調(diào)了材料領(lǐng)域的創(chuàng)新對(duì)于提升半導(dǎo)體元件生產(chǎn)效率至關(guān)重要。對(duì)此,默克集團(tuán)電子業(yè)務(wù)總經(jīng)理凱·貝克曼 (Kai Beckmann) 亦持相同看法,并贊同未來十年將以“材料時(shí)代”為主導(dǎo)。
    的頭像 發(fā)表于 12-27 14:52 ?452次閱讀

    為什么ESD靜電防護(hù)區(qū)域的濕度至關(guān)重要

    為什么ESD靜電防護(hù)區(qū)域的濕度至關(guān)重要? ESD靜電防護(hù)區(qū)域的濕度至關(guān)重要的原因有以下幾個(gè)方面: 1. 電子器件對(duì)濕度的敏感性: 大多數(shù)電子器件對(duì)濕度非常敏感。特別是集成電路和敏感元件,如晶振
    的頭像 發(fā)表于 12-20 13:45 ?1084次閱讀

    如何訓(xùn)練自主移動(dòng)機(jī)器人使用合成數(shù)據(jù)檢測(cè)倉庫托盤千斤頂

    在訓(xùn)練那些部署在自主移動(dòng)機(jī)器人(AMR)上的感知 AI 模型時(shí),合成數(shù)據(jù)可以發(fā)揮關(guān)鍵作用。這一過程在制造業(yè)中變得越來越重要。有關(guān)使用合成數(shù)據(jù)生成預(yù)訓(xùn)練模型,用于檢測(cè)倉庫中托盤的示例,可
    的頭像 發(fā)表于 11-09 10:45 ?345次閱讀
    如何訓(xùn)練自主移動(dòng)機(jī)器人使用<b class='flag-5'>合成數(shù)據(jù)</b>檢測(cè)倉庫托盤千斤頂