免费看少妇高潮a片特黄,亚洲综合极品香蕉久久网

近日，有網(wǎng)友在 reddit 上提出 Google AI 拒絕公開 Conceptual Captions 數(shù)據(jù)集（相關(guān)論文發(fā)表在 ACL 2018 上），谷歌除了發(fā)表相關(guān)論文以外還舉辦了使用該數(shù)據(jù)集的挑戰(zhàn)賽（比賽結(jié)果在 2018 年 NeurIPS 會議上公布）。這引發(fā)了網(wǎng)友對這種做法是對是錯、學(xué)術(shù)會議同行評審是否應(yīng)該把論文復(fù)現(xiàn)作為重要考量因素等的激烈討論。

原帖主要內(nèi)容是：

谷歌曾在 ACL 2018 上發(fā)表了一篇數(shù)據(jù)集論文《Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning》，該數(shù)據(jù)集 Conceptual Captions 共有大約 330 萬張圖像。但他發(fā)現(xiàn)了幾個問題：

谷歌拒絕共享預(yù)訓(xùn)練模型，這使得基準(zhǔn)測試變得異常艱難：

https://github.com/google-research-datasets/conceptual-captions/issues/3；

拒絕共享與每張圖像相關(guān)的 Alt 文本（諷刺的是這篇論文的標(biāo)題中恰好有 Alt-text 一詞）：

https://github.com/google-research-datasets/conceptual-captions/issues/6；

拒絕共享圖像／鏡像鏈接（盡管我認(rèn)為這關(guān)乎法律問題，但僅有該數(shù)據(jù)集的幾百張圖像，社區(qū)很難對比不同模型）：

https://github.com/google-research-datasets/conceptual-captions/issues/1

發(fā)帖人表示對此很難過。他希望社區(qū)意識到數(shù)據(jù)集論文是一項重大責(zé)任，如果存在阻擋數(shù)據(jù)集共享的法律問題，那么可以基于私人數(shù)據(jù)發(fā)表論文，但是基于同樣的模型或整個數(shù)據(jù)集舉辦挑戰(zhàn)賽的行為不太好。

此帖發(fā)出后，引發(fā)了網(wǎng)友的大量討論。有網(wǎng)友認(rèn)為谷歌這么做沒什么問題，他們的任務(wù)是分享研究、把研究成果作為自己的優(yōu)勢，而不是相反。但評論中更多的是對這種行為的反對。

反對此類行為

網(wǎng)友_michaelx99 表示：

DeepMind 發(fā)表的好幾篇論文也是僅依靠論文本身完全無法復(fù)現(xiàn)。這讓我意識到發(fā)表在 arXiv 或企業(yè)網(wǎng)站上的「論文」并不是真正的發(fā)表，其主要目標(biāo)是表明該企業(yè)已經(jīng)具備了某種能力。我并不是說所有大企業(yè)在線發(fā)表的論文都這樣，但其中一些確實如此。

ModernShoe 表示：

我曾聽吳恩達(dá)談?wù)撋虡I(yè)如何利用 AI 盈利。他說企業(yè)應(yīng)該保護訓(xùn)練／測試數(shù)據(jù)集，而不是保護某個算法?；蛟S這與數(shù)據(jù)集論文不公布數(shù)據(jù)集有某種關(guān)系？

網(wǎng)友 epic：

這種行為不利于科學(xué)和機器學(xué)習(xí)的發(fā)展。雖然我們理解谷歌不發(fā)布數(shù)據(jù)集的原因，但這種行為仍然是不好的。尤其是數(shù)據(jù)集論文，在沒有數(shù)據(jù)的情況下復(fù)現(xiàn)研究及其困難。有能力的組織和人們應(yīng)該作為表率來引領(lǐng)社區(qū)，而不是相反。

網(wǎng)友SkinnyJoshPeck：

這是對機器學(xué)習(xí)和機器學(xué)習(xí)專家的海量需求的后果嗎？我在一家大企業(yè)工作，與機器學(xué)習(xí)科學(xué)家接觸較多，他們當(dāng)中一些人缺乏對科學(xué)方法的基本尊重，這令我非常驚訝。我認(rèn)為這并非技巧的缺乏（一些研究已經(jīng)發(fā)表），而是不明白「可觀的結(jié)果未必是準(zhǔn)確、有效的」。

我的大學(xué)專業(yè)是數(shù)學(xué)，而且專門學(xué)習(xí)了代數(shù)。我了解表示論和代數(shù)幾何，因此我知道大多數(shù)模型和技術(shù)的底層數(shù)學(xué)基礎(chǔ)，這些讓我對這些專家能夠坐在現(xiàn)在的崗位上感到驚訝。

復(fù)現(xiàn)性

網(wǎng)友GoAwayStupidAI：

復(fù)現(xiàn)性是科學(xué)的重要標(biāo)志。沒有相關(guān)數(shù)據(jù)、結(jié)果無法復(fù)現(xiàn)的研究都是垃圾。

網(wǎng)友kemfic：

論文就應(yīng)該是可復(fù)現(xiàn)的。如果不能，那么期刊就不應(yīng)該接收它們。

網(wǎng)友duckbill_principate：

讓我覺得困擾的不是共不共享模型、代碼或者數(shù)據(jù)集的問題，而是在這種事情發(fā)生的時候論文仍然被接收了。這某種程度上是同行評審的失敗，其責(zé)任則屬于我們每一個審稿人，因為這樣的論文往往是基于信任或權(quán)威而被接收的（我們知道盡管有雙盲評審，但我們不難推斷出某些論文一般會來自哪個研究組）。這更像是廣告而不是科學(xué)。

網(wǎng)友duckbill_principate：

在我實現(xiàn)的 20 多篇論文中，5 篇存在部分或完全影響研究結(jié)果驗證的錯誤／bug。而這些論文都是頂會上經(jīng)過同行評審的論文。

我認(rèn)為這是學(xué)術(shù)丑聞。

有些案例中問題被揪出來，作者進行了修改。但即使是在這種比較好的場景中，修改數(shù)字后的論文（可能使用了全新的超參數(shù)搜索！）靜悄悄地出現(xiàn)在 arXiv 上，而發(fā)表在會議上的論文并沒有修改，更不會被撤回。為什么？大家都知道原因，也熟悉那些辯護理由：「盡管我們的結(jié)果不如預(yù)想中的好，但我們認(rèn)為這項技術(shù)非常棒，非常有前途……」不管是從數(shù)學(xué)角度，還是從沒有所謂的「當(dāng)前最優(yōu)結(jié)果」的論文不該被接收的角度，這種說法都非常糟糕。

網(wǎng)友 habanero_ass_fire 認(rèn)為：

OpenImages 的圖片是從網(wǎng)上獲得的，其他幾個比較知名的數(shù)據(jù)集也是如此。就法律意義上來看，圖片的作者擁有版權(quán)，因此論文作者是不能共享這些圖片的。另外，無效的鏈接在現(xiàn)實中經(jīng)常發(fā)生。因此我對這種沒有公開數(shù)據(jù)集的行為沒有意見，只要他們能夠分享一個預(yù)訓(xùn)練模型即可；如果你可以依照論文訓(xùn)練出自己模型，即使沒有預(yù)訓(xùn)練模型也不會讓論文無效。

但這立刻遭到網(wǎng)友 duckbill_principate 的反駁：

如果你能夠訓(xùn)練出一個模型精確復(fù)現(xiàn)，那沒問題。但如果你曾試圖復(fù)現(xiàn)論文時就會明白，實際情況往往是，即使那些發(fā)布了自己代碼且提供定義清晰且可用的數(shù)據(jù)集的論文，復(fù)現(xiàn)的結(jié)果也往往是不可預(yù)測的。他們是公布了自己的代碼和參數(shù)，但卻可能沒有說明自己的訓(xùn)練過程；他們公布了訓(xùn)練代碼，但卻可能遺漏了部分自定義庫；他們使用了公共數(shù)據(jù)集，但卻沒有明確說明他們對這些數(shù)據(jù)集做了什么樣的預(yù)處理；他們公布了代碼、數(shù)據(jù)集，甚至也對此做了大量且詳盡的說明，但卻可能遺漏一些非常關(guān)鍵的內(nèi)容，等等不一而足。

事實是，如果沒有預(yù)訓(xùn)練模型，或者沒有對訓(xùn)練過程的完整描述，談復(fù)現(xiàn)性就是一個笑話。

正如網(wǎng)友所說，在沒有數(shù)據(jù)的情況下復(fù)現(xiàn)研究及其困難，尤其是數(shù)據(jù)集論文。

關(guān)于研究復(fù)現(xiàn)的討論由來已久，前段時間在某篇 CVPR 論文復(fù)現(xiàn)出現(xiàn)問題時，大家更是對頂會／期刊論文復(fù)現(xiàn)性進行了大量討論。不少人認(rèn)為論文復(fù)現(xiàn)也應(yīng)該作為同行評審中的重要部分。有網(wǎng)友表示「總體而言，論文評審過程不包含復(fù)現(xiàn)實驗結(jié)果。評審者不得不在很大程度上依靠作者的誠信」、「同行評審?fù)ǔ８P(guān)心論文中描述的方法。潛在的解決辦法是要求作者提交現(xiàn)成的實現(xiàn)（如通過 docker）。然而，在哪里運行仍然是一個問題。也許 AWS 資源等可以從提交費用中提取，供評審人員重新運行模型。然后，問題是確保評審人員不會「濫用」資源進行他們自己的實驗等。在任何情況下，「通過計算的方法」進行 DL 論文評審都很棘手」。

學(xué)術(shù)會議對研究復(fù)現(xiàn)也很重視。2017 年，ICML「機器學(xué)習(xí)復(fù)現(xiàn) Workshop」就對這一問題進行過討論；2018 年，ICLR 舉辦了復(fù)現(xiàn)挑戰(zhàn)賽，旨在保證接收論文公布的結(jié)果是可靠的、可復(fù)現(xiàn)的。此外，為了鼓勵可復(fù)現(xiàn)性和高質(zhì)量論文的提交，ICML 2019 在論文提交上做出了一些重要改變，如鼓勵提交的論文附帶代碼，結(jié)果的可復(fù)現(xiàn)性和代碼的易用性將作為論文接收和進一步?jīng)Q策的考慮因素。KDD 2019 的征稿通知中也表明：今年會議采取雙盲評審制度，論文接收結(jié)果公布之前投稿者不得將論文發(fā)布于 arXiv 等開放性平臺上。更重要的是，只有在論文中公開研究代碼和數(shù)據(jù)的論文才有資格競選「最佳論文獎」。

科學(xué)研究的復(fù)現(xiàn)性非常重要，機器學(xué)習(xí)社區(qū)一貫重視開放性、復(fù)現(xiàn)性，而這需要社區(qū)人們的維護。上述學(xué)術(shù)會議的變化無疑將促進研究復(fù)現(xiàn)性，鼓勵研究人員更加審慎地對待自己的研究、更加開放地共享研究的具體細(xì)節(jié)。那么具備強悍研究能力和開發(fā)能力的大型企業(yè)會不會做好表率呢？

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

Google

Google

+關(guān)注

關(guān)注
5

文章
1752

瀏覽量
57335
谷歌

谷歌

+關(guān)注

關(guān)注
27

文章
6106

瀏覽量
104837
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1199

瀏覽量
24595

原文標(biāo)題：Google AI發(fā)數(shù)據(jù)集論文、辦挑戰(zhàn)賽卻拒絕開放數(shù)據(jù)集？結(jié)果被懟了……

文章出處：【微信號：aicapital，微信公眾號：全球人工智能】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

50萬獎金池！開放原子大賽——第二屆OpenHarmony創(chuàng)新應(yīng)用挑戰(zhàn)賽正式啟動

第二屆OpenHarmony創(chuàng)新應(yīng)用挑戰(zhàn)賽作為開放原子大賽旗下的重要賽項，聚焦 OpenHarmony應(yīng)用開發(fā)，致力提升開發(fā)者的動手實踐能力與開發(fā)創(chuàng)新應(yīng)用的能力。賽項要求開發(fā)者

發(fā)表于 10-24 15:40

NVIDIA為AI城市挑戰(zhàn)賽構(gòu)建合成數(shù)據(jù)集

在一年一度的 AI 城市挑戰(zhàn)賽中，來自世界各地的數(shù)百支參賽隊伍在 NVIDIA Omniverse 生成的基于物理學(xué)的數(shù)據(jù)集上測試了他們的 AI

發(fā)表于 09-09 10:04 ?391次閱讀

請問NanoEdge AI數(shù)據(jù)集該如何構(gòu)建？

我想用NanoEdge來識別異常的聲音，但我目前沒有辦法生成模型，我感覺可能是數(shù)據(jù)集的問題，請問我該怎么構(gòu)建數(shù)據(jù)集？或者生成模型失敗還會有哪些原因？

發(fā)表于 05-28 07:27

開放原子開源大賽OpenHarmony智能化應(yīng)用生態(tài)挑戰(zhàn)賽決賽路成功舉辦

軟件定義世界，開源共筑未來。在江蘇省工信廳、市工信局、開放原子開源基金會及相關(guān)單位的指導(dǎo)和支持下，4月19-20日，由中軟國際教育科技集團聯(lián)合舉辦的開放原子開源大賽-OpenHarmony智能化應(yīng)用生態(tài)挑戰(zhàn)賽決賽路演在鹽城市大

發(fā)表于 04-24 09:48 ?351次閱讀

自動駕駛領(lǐng)域的數(shù)據(jù)集匯總

發(fā)自動駕駛論文哪少的了數(shù)據(jù)集，今天筆者將為大家推薦一篇最新的綜述，總結(jié)了200多個自動駕駛領(lǐng)域的數(shù)據(jù)集，大家堆工作量的時候也可以找一些小眾的

發(fā)表于 01-19 10:48 ?895次閱讀

30萬獎金！開放原子開源大賽“云原生數(shù)據(jù)緩存性能挑戰(zhàn)賽” 等你來挑戰(zhàn)！

? 開放原子開源基金會牽頭發(fā)起的首屆“開放原子開源大賽”正在火熱進行中。東方通支撐的“云原生數(shù)據(jù)緩存性能挑戰(zhàn)賽”將與1月10日正式啟動報名，誠摯歡迎有理想、有激情的開發(fā)者、發(fā)燒友們前來

發(fā)表于 01-11 10:31 ?347次閱讀

語音數(shù)據(jù)集：探索、挑戰(zhàn)與應(yīng)用

將探討語音數(shù)據(jù)集的重要性、面臨的挑戰(zhàn)以及其在各個領(lǐng)域的應(yīng)用。一、語音數(shù)據(jù)集的重要性語音數(shù)據(jù)

發(fā)表于 12-28 13:56 ?484次閱讀

語音數(shù)據(jù)集在智能家居中的應(yīng)用與挑戰(zhàn)

隨著科技的快速發(fā)展，智能家居已經(jīng)逐漸走進人們的生活。語音數(shù)據(jù)集在智能家居中發(fā)揮著重要的作用，為家居設(shè)備提供了語音交互的能力，提升了用戶體驗。本文將詳細(xì)介紹語音數(shù)據(jù)集在智能家居中的應(yīng)用、

發(fā)表于 12-25 09:48 ?562次閱讀

語音數(shù)據(jù)集在智能語音助手中的應(yīng)用與挑戰(zhàn)

和語音合成模型。本文將詳細(xì)介紹語音數(shù)據(jù)集在智能語音助手中的應(yīng)用、面臨的挑戰(zhàn)以及未來的發(fā)展趨勢。二、語音數(shù)據(jù)集在智能語音助手中的應(yīng)用語音識

發(fā)表于 12-14 15:07 ?691次閱讀

語音數(shù)據(jù)集在人工智能中的應(yīng)用與挑戰(zhàn)

一、引言隨著人工智能技術(shù)的快速發(fā)展，語音數(shù)據(jù)集在各種應(yīng)用中發(fā)揮著越來越重要的作用。語音數(shù)據(jù)集是AI語音技術(shù)的基石，對于語音識別、語音合成、

發(fā)表于 12-14 15:00 ?605次閱讀

語音數(shù)據(jù)集：AI語音技術(shù)的靈魂

一、引言在人工智能領(lǐng)域，語音技術(shù)被譽為“未來人機交互的入口”，而語音數(shù)據(jù)集則是AI語音技術(shù)的靈魂。本文將深入探討語音數(shù)據(jù)集的重要性、構(gòu)建方

發(fā)表于 12-14 14:33 ?907次閱讀

語音數(shù)據(jù)集：推動AI語音技術(shù)的核心力量

一、引言隨著人工智能的快速發(fā)展，語音技術(shù)作為人機交互的重要手段，正發(fā)揮著越來越重要的作用。而語音數(shù)據(jù)集則是推動AI語音技術(shù)的核心力量。本文將詳細(xì)介紹語音數(shù)據(jù)

發(fā)表于 12-12 11:32 ?615次閱讀

大模型數(shù)據(jù)集：揭秘AI背后的魔法世界

一、引言在人工智能的奇幻世界中，大模型數(shù)據(jù)集如同神秘的魔法書，蘊藏著無盡的智慧與力量。它們?yōu)?b class='flag-5'>AI注入了生命，使其具備了理解和改變世界的能力。今天，就讓我們一起揭開大模型數(shù)據(jù)

發(fā)表于 12-07 17:33 ?493次閱讀

大模型數(shù)據(jù)集：力量的源泉，進步的階梯

一、引言在? ? 的繁榮發(fā)展中，大模型數(shù)據(jù)集的作用日益凸顯。它們?nèi)琮嫶蟮闹R庫，為AI提供了豐富的信息和理解能力。本文將用一種獨特的風(fēng)格來探討大模型數(shù)據(jù)

發(fā)表于 12-07 17:18 ?589次閱讀

大模型數(shù)據(jù)集：構(gòu)建、挑戰(zhàn)與未來趨勢

隨著深度學(xué)習(xí)技術(shù)的快速發(fā)展，大型預(yù)訓(xùn)練模型如GPT-4、BERT等在各個領(lǐng)域取得了顯著的成功。這些大模型背后的關(guān)鍵之一是龐大的數(shù)據(jù)集，為模型提供了豐富的知識和信息。本文將探討大模型數(shù)據(jù)集

發(fā)表于 12-06 15:28 ?1403次閱讀

搜索歷史

Google AI發(fā)數(shù)據(jù)集論文、辦挑戰(zhàn)賽卻拒絕開放數(shù)據(jù)集？

評論

50萬獎金池！開放原子大賽——第二屆OpenHarmony創(chuàng)新應(yīng)用挑戰(zhàn)賽正式啟動

NVIDIA為AI城市挑戰(zhàn)賽構(gòu)建合成數(shù)據(jù)集

請問NanoEdge AI數(shù)據(jù)集該如何構(gòu)建？

開放原子開源大賽OpenHarmony智能化應(yīng)用生態(tài)挑戰(zhàn)賽決賽路成功舉辦

自動駕駛領(lǐng)域的數(shù)據(jù)集匯總

30萬獎金！開放原子開源大賽“云原生數(shù)據(jù)緩存性能挑戰(zhàn)賽” 等你來挑戰(zhàn)！

語音數(shù)據(jù)集：探索、挑戰(zhàn)與應(yīng)用

語音數(shù)據(jù)集在智能家居中的應(yīng)用與挑戰(zhàn)

語音數(shù)據(jù)集在智能語音助手中的應(yīng)用與挑戰(zhàn)

語音數(shù)據(jù)集在人工智能中的應(yīng)用與挑戰(zhàn)

語音數(shù)據(jù)集：AI語音技術(shù)的靈魂

語音數(shù)據(jù)集：推動AI語音技術(shù)的核心力量

大模型數(shù)據(jù)集：揭秘AI背后的魔法世界

大模型數(shù)據(jù)集：力量的源泉，進步的階梯

大模型數(shù)據(jù)集：構(gòu)建、挑戰(zhàn)與未來趨勢

搜索歷史

Google AI發(fā)數(shù)據(jù)集論文、辦挑戰(zhàn)賽卻拒絕開放數(shù)據(jù)集？

評論

Google AI發(fā)數(shù)據(jù)集論文、辦挑戰(zhàn)賽卻拒絕開放數(shù)據(jù)集？