0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

Google又為科研工作者推出了一款重磅產(chǎn)品——數(shù)據(jù)集搜索

電子工程師 ? 來源:未知 ? 作者:李倩 ? 2018-09-07 10:09 ? 次閱讀

繼 Google Scholar(Google 學術搜索)之后,Google 又為科研工作者推出了一款重磅產(chǎn)品—— Google Dataset Search(Google 數(shù)據(jù)集搜索)。

為什么說這款產(chǎn)品如此重要?因為數(shù)據(jù)從未如此重要。由于深度學習的興起,AI 研究員需要大量的數(shù)據(jù)來訓練他們的模型,吳恩達就曾表示,深度學習像火箭,計算是引擎,數(shù)據(jù)是燃料。有時候,數(shù)據(jù)可能比算法更重要。

然而,數(shù)據(jù)集和相關數(shù)據(jù)往往分布在網(wǎng)上的多個數(shù)據(jù)存儲區(qū)中。在大多數(shù)情況下,搜索引擎既無法提供這些數(shù)據(jù)庫相關信息的鏈接,也不會將這些信息編入索引,這會導致數(shù)據(jù)尋找變得無比繁瑣,或者在某些情況下無法實現(xiàn)。

一些掌握了大量數(shù)據(jù)的互聯(lián)網(wǎng)公司也因此擁有很大的優(yōu)勢,而高校的學者除了一些公開的知名數(shù)據(jù)集,想要擁有大量的數(shù)據(jù)則非常困難,因此 Google 的這款產(chǎn)品可謂是及時雨。當然,其他需要各種數(shù)據(jù)的工作者也能從中受益。

Google Dataset Search 為用戶提供了能夠同時搜索多個存儲區(qū)的單個界面,希望借此改變用戶發(fā)布和運用數(shù)據(jù)的方式。

現(xiàn)在,就讓我們來一起看下這款搜索工具。

與 Google Scholar 類似,Google Dataset Search 可方便用戶查找托管在任何位置的數(shù)據(jù)集,無論是出版網(wǎng)站、數(shù)字圖書館還是作者的個人網(wǎng)頁。

為了創(chuàng)建 Dataset Search,Google 還為數(shù)據(jù)集提供方制定了一套數(shù)據(jù)指南(https://developers.google.com/search/docs/data-types/dataset)。這些指南包括有關數(shù)據(jù)集的重要信息:數(shù)據(jù)集的作者,發(fā)布時間,數(shù)據(jù)收集方式,使用數(shù)據(jù)的條款等等。然后,Google 收集并鏈接這些信息,分析同一數(shù)據(jù)集的不同版本可能在哪里,并找到可能描述或討論這一數(shù)據(jù)集的出版物。

Google 的指南是基于一個數(shù)據(jù)集的開放標準(schema.org),任何發(fā)布數(shù)據(jù)的人都可以通過這種方式描述他們的數(shù)據(jù)集。

在這個新版本中,用戶可以找到很多環(huán)境和社會科學相關的數(shù)據(jù)集,以及其他學科的數(shù)據(jù),包括政府數(shù)據(jù)和新聞機構提供的數(shù)據(jù),如 ProPublica。隨著越來越多的數(shù)據(jù)倉庫使用 schema.org 標準來描述他們的數(shù)據(jù)集,Google Dataset Search 能夠搜索到的數(shù)據(jù)集的種類和覆蓋面將持續(xù)增長。

目前 Google Dataset Search 已經(jīng)支持多種語言,筆者嘗試了下,除了英文,還支持中文。

我們先嘗試下英文搜索,如果你想分析天氣記錄,那么就可以在 Google Dataset Search 的輸入欄里嘗試輸入“daily weather”,結果如下圖所示:

可以看到,左邊欄呈現(xiàn)的是各種數(shù)據(jù)源,右邊則是相應的介紹,包括數(shù)據(jù)集的名稱、下載鏈接、更新日期、提供者、說明等等,非常清晰。

現(xiàn)在,我們來嘗試下中文,在搜索欄輸入“房價”,第一條就是中國房價的數(shù)據(jù)集,該數(shù)據(jù)集由 CEIC 提供,涵蓋的時間段從 2017年7月1日 —2018 年 6 月 1 日,算是非常新的數(shù)據(jù)了。

打開該數(shù)據(jù)集的鏈接,嗯,是個收費網(wǎng)站。不過,花錢能解決的事,總比毫無頭緒來得好。

Dataset Search 的發(fā)布凸顯了 Google 對數(shù)據(jù)集的重視。最近,Google 也對自家的 Google Search 也進行了改進,使得用戶搜索結果中發(fā)現(xiàn)表格數(shù)據(jù)變得更加容易,不過該計劃更側(cè)重于新聞機構和數(shù)據(jù)記者,而 Dataset Search 的受眾則更加廣泛。

Google 表示,這個項目能夠帶來下列好處:

a) 形成數(shù)據(jù)共享生態(tài)系統(tǒng),鼓勵數(shù)據(jù)發(fā)布者依照最佳做法來存儲和發(fā)布數(shù)據(jù);

b) 為科學家提供相應平臺,方便大眾引用他們創(chuàng)建的數(shù)據(jù)集,展現(xiàn)他們的研究成果所帶來的影響力。

當然,Google Dataset Search 的搜索質(zhì)量取決于數(shù)據(jù)發(fā)布者,因此,如果大家都用開放標準來描述自己的數(shù)據(jù),那么搜索結果肯定會越來越好。

Google Dataset Search 目前仍處于測試階段,雖然支持中文搜索,但中國大陸的用戶想要使用依然需要“梯子”,不過這么好的工具,錯過豈不可惜!

針對 Google Scholar,2014 年 6 月百度上線了“百度學術”,不過大家似乎仍對 Google Scholar 情有獨鐘。這次,百度怎么看?

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • Google
    +關注

    關注

    5

    文章

    1752

    瀏覽量

    57333
  • 數(shù)據(jù)集

    關注

    4

    文章

    1199

    瀏覽量

    24595

原文標題:Google推出數(shù)據(jù)集搜索!百度,你怎么看?

文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關推薦

    俄羅斯科技巨頭Yandex推出一款智能音箱 售價160美元

      導讀:5月30日據(jù)國外媒體報道,俄羅斯搜索巨頭Yandex剛剛推出了一款家庭語音助理智能揚聲器,希望能夠與亞馬遜Echo和谷歌Google Home等公司的
    發(fā)表于 06-05 09:27

    分享一款驅(qū)動超聲波換能器的超聲波驅(qū)動電源

    頻率、不同驅(qū)動信號的換能器的簡便切換。超聲技術目前已在中國、美國、日本等多個國家引起了科研工作者的廣泛高度關注。超聲技術也在國民經(jīng)濟生產(chǎn)、生活、科研等各個領域扮演者十分重要的角色。功率超聲是利用超聲波的...
    發(fā)表于 01-03 06:10

    mil與mm換算的個小軟件(對LAYOUT工作者是個不錯的工具)

    電子發(fā)燒友網(wǎng)站提供《mil與mm換算的個小軟件(對LAYOUT工作者是個不錯的工具).rar》資料免費下載
    發(fā)表于 01-26 16:20 ?18次下載

    基于活躍度的工作者信譽模型實現(xiàn)眾包平臺的質(zhì)量控制

    針對現(xiàn)有眾包系統(tǒng)不能有效地控制眾包交互過程中工作者的活躍積極性和任務完成質(zhì)量的問題,提出了種基于活躍度的工作者信譽模型來實現(xiàn)眾包平臺的質(zhì)量控制。該模型改進了平均信譽模型,從
    發(fā)表于 11-30 09:52 ?6次下載

    谷歌推出了一款名為“Clips”的新設備 并開始銷售這款產(chǎn)品

    據(jù)外媒報道,去年10月,谷歌推出了一款名為“Clips”的新設備,它是一款使用人工智能(AI)技術的攝像頭,當它“看到”有趣的東西時就會拍下合適的照片。 谷歌尚未就這款設備發(fā)表過多評論,但它已悄然開始銷售這款
    的頭像 發(fā)表于 01-30 14:15 ?4681次閱讀

    Google-CH出現(xiàn),搜索結果與Google搜索致,Google搜索“重返中國”?

    5月21日,個名為Google-CH的網(wǎng)站在微博上引起了關注。這個域名為www.google-ch.com的網(wǎng)站不僅可以很方便的打開,而且搜索結果也與
    的頭像 發(fā)表于 06-12 10:46 ?4059次閱讀

    推出一款最新的SOC芯片IP6515

    近日,國內(nèi)知名芯片品牌INJOINIC英推出了一款最新的集成雙口DCP協(xié)議輸出的SOC芯片IP6515。
    發(fā)表于 06-26 16:44 ?7368次閱讀

    HumanEyes科技推出VR Horizons教育項目,將VR攝像頭植入工作者手中

    HumanEyes科技公司宣布推出項新的教育計劃,致力于將虛擬現(xiàn)實(VR)攝像頭植入教育工作者的手中,使他們能夠開發(fā)沉浸式虛擬現(xiàn)實課程,讓學生充分了解如何制作和分享沉浸式虛擬現(xiàn)實內(nèi)容。
    的頭像 發(fā)表于 07-27 10:27 ?4447次閱讀

    谷歌推出數(shù)據(jù)搜索黑科技,再也不用發(fā)愁找數(shù)據(jù)!

    旨在整合全球互聯(lián)網(wǎng)信息的谷歌,其首要目標本來是林林總總的商業(yè)網(wǎng)站。但最近,它推出了種新型的數(shù)據(jù)搜索引擎,將服務目標延展到了
    的頭像 發(fā)表于 09-14 14:09 ?3744次閱讀

    武漢大學研發(fā)出一款迷你軟體機器人

    軟體機器人相較于傳統(tǒng)剛性機器人,往往具有更大的自由度和變形能力,在生產(chǎn)生活、醫(yī)療救援等領域具有巨大的應用潛力,受到科研工作者的廣泛關注。
    的頭像 發(fā)表于 06-24 15:39 ?2594次閱讀

    Python爬蟲:工作者常用的動態(tài)IP代理

    爬蟲工作者應該經(jīng)常要與代理ip工具打交道,根據(jù)不同的抓取網(wǎng)站,大家要調(diào)用不同類型的動態(tài)ip代理。
    的頭像 發(fā)表于 06-28 16:29 ?3313次閱讀

    OPPO推出針對新冠肺炎的輔助診斷科研平臺 99.76%識別準確率

    11月17日,在OPPO未來科技大會上,OPPO正式宣布推出針對新冠肺炎的輔助診斷科研平臺。 OPPO研究院院長劉暢表示,該平臺能夠協(xié)助科研工作者開發(fā)快速有效的篩查工具,未來這平臺將
    的頭像 發(fā)表于 11-17 17:03 ?2145次閱讀

    昊芯聞丨中科昊芯獲批設立“博士后科研工作站”,助推高新技術產(chǎn)學研深度融合

    引領企業(yè)自主創(chuàng)新和推動產(chǎn)學研深度融合方面發(fā)揮著重要作用。中科昊芯博士后科研工作站將聚焦基于開源指令架構RISC-V設計研發(fā)數(shù)字信號處理器(DSP)芯片,為進站博士
    的頭像 發(fā)表于 12-31 11:24 ?404次閱讀
    昊芯聞丨中科昊芯獲批設立“博士后<b class='flag-5'>科研工作</b>站”,助推高新技術產(chǎn)學研深度融合

    訊維KVM坐席管理系統(tǒng)在科研機構多屏幕管理中的應用

    數(shù)據(jù)、圖像和視頻資料,而這些資料在多屏幕環(huán)境下能夠得到更好的展示和處理。訊維KVM坐席管理系統(tǒng)支持多屏顯示功能,可以將多個屏幕組合成個統(tǒng)工作區(qū)域,使
    的頭像 發(fā)表于 05-14 16:42 ?268次閱讀

    剖析SOLIDWORKS科研版的功能優(yōu)勢

    科研領域,高精度的建模與分析工具是科研工作者不可或缺的助手。SOLIDWORKS科研版作為一款專為科研人員和工程師設計的三維計算機輔助設計
    的頭像 發(fā)表于 07-19 15:27 ?228次閱讀
    剖析SOLIDWORKS<b class='flag-5'>科研</b>版的功能優(yōu)勢