久久人人爽爽人人爽人人片AV,免费在线一区二区三区,国产成人亚洲欧美二区综合

在機(jī)器學(xué)習(xí)領(lǐng)域，數(shù)據(jù)重要還是模型重要?這是一個(gè)很難回答的問題。

模型和數(shù)據(jù)是 AI 系統(tǒng)的基礎(chǔ)，這兩個(gè)組件在模型的開發(fā)中扮演著重要的角色。

人工智能領(lǐng)域最權(quán)威的學(xué)者之一吳恩達(dá)曾提出「80% 的數(shù)據(jù) + 20% 的模型 = 更好的機(jī)器學(xué)習(xí)」，他認(rèn)為一個(gè)團(tuán)隊(duì)研究 80% 的工作應(yīng)該放在數(shù)據(jù)準(zhǔn)備上，數(shù)據(jù)質(zhì)量是重要的，但很少有人在乎。如果更多地強(qiáng)調(diào)以數(shù)據(jù)為中心而不是以模型為中心，機(jī)器學(xué)習(xí)會(huì)發(fā)展的更快。

我們不禁會(huì)問，機(jī)器學(xué)習(xí)的進(jìn)步是模型帶來的還是數(shù)據(jù)帶來的，目前還沒有一個(gè)明確的答案。

在本文中，Android 開發(fā)者和機(jī)器學(xué)習(xí)愛好者 Harshil Patel 介紹了「機(jī)器學(xué)習(xí)：以數(shù)據(jù)為中心 VS 以模型為中心」，通過對(duì)比以確定兩者中哪個(gè)更重要，此外，Patel 還介紹了如何使用以數(shù)據(jù)為中心的基礎(chǔ)設(shè)施。

以數(shù)據(jù)為中心的方法 VS 以模型為中心的方法

以模型為中心的方法意味著需要通過實(shí)驗(yàn)來提高機(jī)器學(xué)習(xí)模型性能，這涉及模型架構(gòu)的選擇、訓(xùn)練過程。而在以模型為中心的方法中，你需要保持?jǐn)?shù)據(jù)相同，通過改進(jìn)代碼和模型架構(gòu)來提高性能。此外，對(duì)代碼的改進(jìn)是以模型為中心的根本目標(biāo)。

目前，大多數(shù) AI 應(yīng)用都是以模型為中心的，其中一個(gè)可能的原因是學(xué)術(shù)研究非常重視 AI 領(lǐng)域。根據(jù)吳恩達(dá)的說法，AI 領(lǐng)域 90% 以上的研究論文都是以模型為中心的，因?yàn)槲覀兒茈y創(chuàng)建大型數(shù)據(jù)集，使其成為公認(rèn)的標(biāo)準(zhǔn)。因此，AI 社區(qū)認(rèn)為以模型為中心的機(jī)器學(xué)習(xí)更有前景。研究者在專注于模型的同時(shí)，往往會(huì)忽略數(shù)據(jù)的重要性。

對(duì)于研究者而言，數(shù)據(jù)是每個(gè)決策過程的核心，以數(shù)據(jù)為中心的公司通過使用其運(yùn)營產(chǎn)生的信息，可以獲得更準(zhǔn)確、更有條理、更透明的結(jié)果，從而可以幫助公司組織更順利地運(yùn)行。以數(shù)據(jù)為中心的方法涉及系統(tǒng)地改進(jìn)、改進(jìn)數(shù)據(jù)集，以提高 ML 應(yīng)用程序的準(zhǔn)確性，對(duì)數(shù)據(jù)進(jìn)行處理是以數(shù)據(jù)為中心的中心目標(biāo)。

數(shù)據(jù)驅(qū)動(dòng) VS 以數(shù)據(jù)為中心

許多人經(jīng)常混淆「以數(shù)據(jù)為中心」和「數(shù)據(jù)驅(qū)動(dòng)」這兩個(gè)概念。數(shù)據(jù)驅(qū)動(dòng)是一種從數(shù)據(jù)中收集、分析和提取見解的方法，它有時(shí)被稱為「分析」。另一方面，以數(shù)據(jù)為中心的方法側(cè)重于使用數(shù)據(jù)來定義應(yīng)該首先創(chuàng)建的內(nèi)容;而以數(shù)據(jù)為中心的架構(gòu)指的是一個(gè)系統(tǒng)，其中數(shù)據(jù)是主要和永久的資產(chǎn)。數(shù)據(jù)驅(qū)動(dòng)架構(gòu)意味著通過利用大量數(shù)據(jù)來創(chuàng)建技術(shù)、技能和環(huán)境。

對(duì)于數(shù)據(jù)科學(xué)家和機(jī)器學(xué)習(xí)工程師來說，以模型為中心的方法似乎更受歡迎。這是因?yàn)閺臉I(yè)者可以利用自身知識(shí)儲(chǔ)備來解決特定問題。另一方面，沒有人愿意花大量時(shí)間去標(biāo)注數(shù)據(jù)。

然而，在當(dāng)今的機(jī)器學(xué)習(xí)中，數(shù)據(jù)至關(guān)重要，但在 AI 發(fā)展中卻經(jīng)常被忽視和處理不當(dāng)。由于數(shù)據(jù)錯(cuò)誤，研究者可能花費(fèi)大量時(shí)間進(jìn)行查錯(cuò)。模型精度較低的根本原因可能不是來自模型本身，而是來自錯(cuò)誤的數(shù)據(jù)集。

除了關(guān)注數(shù)據(jù)外，模型和代碼也很重要。但研究者往往傾向于在關(guān)注模型的同時(shí)忽略數(shù)據(jù)的重要性。最好的方法是同時(shí)關(guān)注數(shù)據(jù)和模型的混合方法。根據(jù)應(yīng)用程序的不同，研究者應(yīng)該兼顧數(shù)據(jù)和模型。

以數(shù)據(jù)為中心的基礎(chǔ)架構(gòu)

以模型為中心的機(jī)器學(xué)習(xí)系統(tǒng)主要關(guān)注模型架構(gòu)優(yōu)化及其參數(shù)優(yōu)化。

以模型為中心的 ML 應(yīng)用程序

上圖中描述的是以模型為中心的工作流適用于少數(shù)行業(yè)，如媒體、廣告、醫(yī)療保健或制造業(yè)。但也可能面臨如下挑戰(zhàn)：

需要高級(jí)定制系統(tǒng)：不同于媒體和廣告行業(yè)，許多企業(yè)無法使用單一的機(jī)器學(xué)習(xí)系統(tǒng)來檢測(cè)其產(chǎn)品的生產(chǎn)故障。雖然媒體公司可以負(fù)擔(dān)得起有一個(gè)完整的 ML 部門來處理優(yōu)化問題，但需要多個(gè) ML 解決方案的制造企業(yè)不能按照這樣的模板進(jìn)行實(shí)施;

大型數(shù)據(jù)集的重要性：在大多數(shù)情況下，公司沒有大量數(shù)據(jù)可供使用。相反，他們經(jīng)常被迫處理微小的數(shù)據(jù)集，如果他們的方法是以模型為中心的，那么這些數(shù)據(jù)集很容易產(chǎn)生令人失望的結(jié)果。

吳恩達(dá)曾在他的 AI 演講中解釋了他如何相信以數(shù)據(jù)為中心的 ML 更有價(jià)值，并倡導(dǎo)社區(qū)朝著以數(shù)據(jù)為中心的方向發(fā)展。他曾經(jīng)舉了一個(gè)「鋼鐵缺陷檢測(cè)」的例子，其中以模型為中心的方法未能提高模型的準(zhǔn)確率，而以數(shù)據(jù)為中心的方法將準(zhǔn)確率提高了 16%。

以數(shù)據(jù)為中心的 ML 應(yīng)用程序

在實(shí)施以數(shù)據(jù)為中心的架構(gòu)時(shí)，可以將數(shù)據(jù)視為比應(yīng)用程序和基礎(chǔ)架構(gòu)更耐用的基本資產(chǎn)。以數(shù)據(jù)為中心的 ML 使數(shù)據(jù)共享和移動(dòng)變得簡(jiǎn)單。那么，在以數(shù)據(jù)為中心的機(jī)器學(xué)習(xí)到底涉及什么?在實(shí)現(xiàn)以數(shù)據(jù)為中心的方法時(shí)，我們應(yīng)該考慮以下因素：

數(shù)據(jù)標(biāo)簽質(zhì)量：當(dāng)大量的圖像被錯(cuò)誤標(biāo)記時(shí)，會(huì)出現(xiàn)意想不到的錯(cuò)誤，因此需要提高數(shù)據(jù)標(biāo)注質(zhì)量;

數(shù)據(jù)增強(qiáng)：讓有限的數(shù)據(jù)產(chǎn)生更多的數(shù)據(jù)，增加訓(xùn)練樣本的數(shù)量以及多樣性(噪聲數(shù)據(jù))，提升模型穩(wěn)健性;

特征工程：通過改變輸入數(shù)據(jù)、先驗(yàn)知識(shí)或算法向模型添加特征，常被用于機(jī)器學(xué)習(xí)，以幫助提高預(yù)測(cè)模型的準(zhǔn)確性;

數(shù)據(jù)版本控制：開發(fā)人員通過比較兩個(gè)版本來跟蹤錯(cuò)誤并查看沒有意義的內(nèi)容，數(shù)據(jù)版本控制是維護(hù)數(shù)據(jù)中最不可或缺的步驟之一，它可以幫助研究者跟蹤數(shù)據(jù)集的更改(添加和刪除)，版本控制使代碼協(xié)作和數(shù)據(jù)集管理變得更加容易;

領(lǐng)域知識(shí)：在以數(shù)據(jù)為中心的方法中，領(lǐng)域知識(shí)非常有價(jià)值。領(lǐng)域?qū)＜彝ǔ？梢詸z測(cè)到 ML 工程師、數(shù)據(jù)科學(xué)家和標(biāo)注人員無法檢測(cè)到的細(xì)微差異，ML 系統(tǒng)中仍然缺少涉及領(lǐng)域?qū)＜业膬?nèi)容。如果有額外的領(lǐng)域知識(shí)可用，ML 系統(tǒng)可能會(huì)表現(xiàn)得更好。

應(yīng)該優(yōu)先考慮哪一個(gè)：數(shù)據(jù)數(shù)量還是數(shù)據(jù)質(zhì)量?

需要強(qiáng)調(diào)的是，數(shù)據(jù)量多并不等同于數(shù)據(jù)質(zhì)量好。當(dāng)然，訓(xùn)練神經(jīng)網(wǎng)絡(luò)不能只用幾張圖就能完成，數(shù)據(jù)數(shù)量是一個(gè)方面，但現(xiàn)在的重點(diǎn)是質(zhì)量而不是數(shù)量。

如上圖所示，大多數(shù) Kaggle 數(shù)據(jù)集并沒有那么大。在以數(shù)據(jù)為中心的方法中，數(shù)據(jù)集的大小并不那么重要，并且可以使用質(zhì)量較小的數(shù)據(jù)集完成更多的工作。不過需要注意的是，數(shù)據(jù)質(zhì)量高且標(biāo)注正確。

上圖中是另一種標(biāo)注數(shù)據(jù)的方式，單獨(dú)或組合標(biāo)注。例如，如果數(shù)據(jù)科學(xué)家 1 單獨(dú)標(biāo)注菠蘿，而數(shù)據(jù)科學(xué)家 2 將其組合標(biāo)注，則兩者標(biāo)注的數(shù)據(jù)不兼容，導(dǎo)致學(xué)習(xí)算法變得混亂。因此，需要將數(shù)據(jù)標(biāo)簽保持一致;如果需要單獨(dú)標(biāo)注，請(qǐng)確保所有標(biāo)注都以相同的方式進(jìn)行。

上圖為吳恩達(dá)解釋了小數(shù)據(jù)集一致性的重要性

到底需要多少數(shù)據(jù)?

數(shù)據(jù)質(zhì)量不可忽視，但數(shù)據(jù)量也是至關(guān)重要的，研究者必須有足夠的數(shù)據(jù)支撐才能解決問題。深度網(wǎng)絡(luò)具有低偏差、高方差特性，我們可以預(yù)見更多的數(shù)據(jù)可以解決方差問題。但是多少數(shù)據(jù)才夠呢?目前這個(gè)問題還很難回答，不過我們可以認(rèn)為擁有大量的數(shù)據(jù)是一種優(yōu)勢(shì)，但也不是必須的。

如果你采用以數(shù)據(jù)為中心的方法，請(qǐng)記住以下幾點(diǎn)：

確保在整個(gè) ML 項(xiàng)目周期中數(shù)據(jù)保持一致;

數(shù)據(jù)標(biāo)注保持一致;

要及時(shí)反饋結(jié)果;

進(jìn)行錯(cuò)誤分析;

消除噪聲樣本。

那么，我們哪里可以找到高質(zhì)量的數(shù)據(jù)集?這里推薦幾個(gè)網(wǎng)站，首先是 Kaggle：在 Kaggle 中，你會(huì)找到進(jìn)行數(shù)據(jù)科學(xué)工作所需的所有代碼和數(shù)據(jù)，Kaggle 擁有超過 50,000 個(gè)公共數(shù)據(jù)集和 400,000 個(gè)公共 notebook，可以快速完成任務(wù)。

其次是 Datahub.io：Datahub 是一個(gè)主要專注于商業(yè)和金融的數(shù)據(jù)集平臺(tái)。許多數(shù)據(jù)集，例如國家、人口和地理邊界列表，目前在 DataHub 上可用。

最后是 Graviti Open Datasets：Graviti 是一個(gè)新的數(shù)據(jù)平臺(tái)，主要為計(jì)算機(jī)視覺提供高質(zhì)量的數(shù)據(jù)集。個(gè)人開發(fā)人員或組織可以輕松訪問、共享和更好地管理開放數(shù)據(jù)。

原文標(biāo)題：90%論文都是以模型為中心，AI領(lǐng)域，數(shù)據(jù)和模型到底哪個(gè)重要?

文章出處：【微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

審核編輯：湯梓紅

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請(qǐng)聯(lián)系本站處理。舉報(bào)投訴

數(shù)據(jù)

數(shù)據(jù)

+關(guān)注

關(guān)注
8

文章
6767

瀏覽量
88644
AI

AI

+關(guān)注

關(guān)注
87

文章
29438

瀏覽量
267758
模型

模型

+關(guān)注

關(guān)注
1

文章
3073

瀏覽量
48587

原文標(biāo)題：90%論文都是以模型為中心，AI領(lǐng)域，數(shù)據(jù)和模型到底哪個(gè)重要？

文章出處：【微信號(hào)：tyutcsplab，微信公眾號(hào)：智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注！文章轉(zhuǎn)載請(qǐng)注明出處。

評(píng)論

相關(guān)推薦

AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)在多個(gè)方面存在顯著的區(qū)別。以下是對(duì)這些區(qū)別的介紹：一、模型規(guī)模與復(fù)雜度 AI大

發(fā)表于 10-23 15:01 ?151次閱讀

電源穩(wěn)壓器和電源濾波器哪個(gè)重要

電源穩(wěn)壓器和電源濾波器在電子設(shè)備中都具有重要的作用，它們各自承擔(dān)著不同的功能，因此難以直接比較哪個(gè)更重要。以下是它們各自的重要性和功能分析：

發(fā)表于 10-03 15:25 ?195次閱讀

【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡(jiǎn)單建議

這本書以其系統(tǒng)性的框架和深入淺出的講解，為讀者繪制了一幅時(shí)間序列分析與機(jī)器學(xué)習(xí)融合應(yīng)用的宏偉藍(lán)圖。作者不僅扎實(shí)地構(gòu)建了時(shí)間序列分析的基礎(chǔ)知識(shí)，更巧妙地展示了機(jī)器學(xué)習(xí)如何在這一

發(fā)表于 08-12 11:21

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

今天來學(xué)習(xí)大語言模型在自然語言理解方面的原理以及問答回復(fù)實(shí)現(xiàn)。主要是基于深度學(xué)習(xí)和自然語言處理技術(shù)。大語言模型涉及以下幾個(gè)過程：

發(fā)表于 08-02 11:03

機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

在機(jī)器學(xué)習(xí)中，數(shù)據(jù)分割是一項(xiàng)至關(guān)重要的任務(wù)，它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評(píng)

發(fā)表于 07-10 16:10 ?955次閱讀

機(jī)器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

在機(jī)器學(xué)習(xí)的整個(gè)流程中，數(shù)據(jù)預(yù)處理與特征工程是兩個(gè)至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量，

發(fā)表于 07-09 15:57 ?243次閱讀

深度學(xué)習(xí)在視覺檢測(cè)中的應(yīng)用

深度學(xué)習(xí)是機(jī)器學(xué)習(xí)領(lǐng)域中的一個(gè)重要分支，其核心在于通過構(gòu)建具有多層次的神經(jīng)網(wǎng)絡(luò)模型，使計(jì)算機(jī)能夠

發(fā)表于 07-08 10:27 ?522次閱讀

Al大模型機(jī)器人

豐富的知識(shí)儲(chǔ)備。它們可以涵蓋各種領(lǐng)域的知識(shí)，并能夠回答相關(guān)問題。靈活性與通用性: AI大模型機(jī)器人具有很強(qiáng)的靈活性和通用性，能夠處理各種類型的任務(wù)和問題。持續(xù)學(xué)習(xí)和改進(jìn): 這些

發(fā)表于 07-05 08:52

人工神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)機(jī)器學(xué)習(xí)模型的區(qū)別

在人工智能領(lǐng)域，機(jī)器學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)是兩個(gè)核心概念，它們各自擁有獨(dú)特的特性和應(yīng)用場(chǎng)景。雖然它們都旨在使計(jì)算機(jī)系統(tǒng)能夠自動(dòng)從數(shù)據(jù)中

發(fā)表于 07-04 14:08 ?759次閱讀

深度學(xué)習(xí)中的模型權(quán)重

在深度學(xué)習(xí)這一充滿無限可能性的領(lǐng)域中，模型權(quán)重（Weights）作為其核心組成部分，扮演著至關(guān)重要的角色。它們不僅是

發(fā)表于 07-04 11:49 ?627次閱讀

名單公布！【書籍評(píng)測(cè)活動(dòng)NO.35】如何用「時(shí)間序列與機(jī)器學(xué)習(xí)」解鎖未來？

的提升和數(shù)據(jù)可獲取性的增加，大模型已經(jīng)成為人工智能研究和應(yīng)用的一個(gè)重要趨勢(shì)。這些模型在處理復(fù)雜任務(wù)時(shí)，尤其是

發(fā)表于 06-25 15:00

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

復(fù)用和優(yōu)化效果。這些趨勢(shì)共同推動(dòng)了大語言模型在深度學(xué)習(xí)研究和應(yīng)用中的重要地位。數(shù)據(jù)效應(yīng)指出大型模型

發(fā)表于 05-04 23:55

詳解機(jī)器人技術(shù)基礎(chǔ)模型

基礎(chǔ)模型在解決機(jī)器人技術(shù)中的數(shù)據(jù)稀缺問題上至關(guān)重要。它們?yōu)槭褂米钌俚奶囟?b class='flag-5'>數(shù)據(jù)

發(fā)表于 01-08 10:44 ?378次閱讀

如何使用TensorFlow構(gòu)建機(jī)器學(xué)習(xí)模型

在這篇文章中，我將逐步講解如何使用 TensorFlow 創(chuàng)建一個(gè)簡(jiǎn)單的機(jī)器學(xué)習(xí)模型。

發(fā)表于 01-08 09:25 ?874次閱讀

什么是機(jī)器學(xué)習(xí)？它的重要性體現(xiàn)在哪

機(jī)器學(xué)習(xí)是一種人工智能（AI）的子領(lǐng)域，旨在使計(jì)算機(jī)系統(tǒng)通過經(jīng)驗(yàn)自動(dòng)學(xué)習(xí)和改進(jìn)，而無需明確地進(jìn)行編程。它側(cè)重于開發(fā)算法和模型，使計(jì)算機(jī)能夠從

發(fā)表于 01-05 08:27 ?1271次閱讀

搜索歷史

在機(jī)器學(xué)習(xí)領(lǐng)域,數(shù)據(jù)和模型哪個(gè)更重要

評(píng)論

AI大模型與傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

電源穩(wěn)壓器和電源濾波器哪個(gè)重要

【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】+ 簡(jiǎn)單建議

【《大語言模型應(yīng)用指南》閱讀體驗(yàn)】+ 基礎(chǔ)知識(shí)學(xué)習(xí)

機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

機(jī)器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

深度學(xué)習(xí)在視覺檢測(cè)中的應(yīng)用

Al大模型機(jī)器人

人工神經(jīng)網(wǎng)絡(luò)與傳統(tǒng)機(jī)器學(xué)習(xí)模型的區(qū)別

深度學(xué)習(xí)中的模型權(quán)重

名單公布！【書籍評(píng)測(cè)活動(dòng)NO.35】如何用「時(shí)間序列與機(jī)器學(xué)習(xí)」解鎖未來？

【大語言模型：原理與工程實(shí)踐】揭開大語言模型的面紗

詳解機(jī)器人技術(shù)基礎(chǔ)模型

如何使用TensorFlow構(gòu)建機(jī)器學(xué)習(xí)模型

什么是機(jī)器學(xué)習(xí)？它的重要性體現(xiàn)在哪