0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)和機(jī)器學(xué)習(xí)的數(shù)據(jù)如何演變

姚小熊27 ? 來源: 新浪科技 ? 作者: 新浪科技 ? 2020-11-25 11:03 ? 次閱讀

大數(shù)據(jù)會影響質(zhì)量,因為大數(shù)據(jù)的定義特征是數(shù)量,種類和速度使驗證變得困難難以捉摸的“第四”,即準(zhǔn)確性組件(關(guān)于數(shù)據(jù)可靠性),由于可能會聚集大量的數(shù)據(jù)源而面臨挑戰(zhàn),每個數(shù)據(jù)源可能會遇到不同的質(zhì)量問題,大數(shù)據(jù)還釋放了可能引入新類型數(shù)據(jù)錯誤的新的和更復(fù)雜的查詢的可能性,同時由于非結(jié)構(gòu)化數(shù)據(jù)比結(jié)構(gòu)化數(shù)據(jù)具有更大的不確定性,因此非結(jié)構(gòu)化數(shù)據(jù)會產(chǎn)生問題,并且機(jī)器學(xué)習(xí)算法傾向于充當(dāng)“黑匣子”,其中數(shù)據(jù)中包含的偏差可能永遠(yuǎn)不會消失。

您的數(shù)據(jù)質(zhì)量工具箱盡管已經(jīng)開發(fā)了許多工具來解決數(shù)據(jù)質(zhì)量問題,但是如果不小心應(yīng)用自動條目更正本身可能會降低數(shù)據(jù)質(zhì)量,所有影響數(shù)據(jù)清晰度的因素(例如準(zhǔn)確性,一致性,及時性,重復(fù)性,易失性,完整性和相關(guān)性)都可能導(dǎo)致進(jìn)一步的問題,因為企業(yè)會更正數(shù)據(jù)并將其調(diào)整為適合處理的形式,每個轉(zhuǎn)換都可能會丟失可能與給定查詢相關(guān)的信息,當(dāng)前的數(shù)據(jù)質(zhì)量工具由主要的分析公司,利基公司和開源提供,它們提供諸如數(shù)據(jù)清理,數(shù)據(jù)概要分析,數(shù)據(jù)匹配,數(shù)據(jù)標(biāo)準(zhǔn)化,數(shù)據(jù)豐富和數(shù)據(jù)監(jiān)視之類的功能,諸如金融服務(wù)之類的利基工具專注于特殊類型的問題,并且正在開發(fā)新的工具,這些工具采用機(jī)器學(xué)習(xí)技術(shù)進(jìn)行數(shù)據(jù)分類和數(shù)據(jù)清理。在將大數(shù)據(jù)與機(jī)器學(xué)習(xí)相結(jié)合的地方,還會出現(xiàn)其他質(zhì)量問題為規(guī)范化數(shù)據(jù)而進(jìn)行的更改可能導(dǎo)致機(jī)器學(xué)習(xí)算法在解釋上出現(xiàn)偏差,大型數(shù)據(jù)存儲中錯誤發(fā)生的頻率相對較低,可以說使得對數(shù)據(jù)質(zhì)量檢查的需求變得不那么重要了,但現(xiàn)實情況是,質(zhì)量問題只是轉(zhuǎn)移到了其他領(lǐng)域,自動校正和一般假設(shè)可能會在整個數(shù)據(jù)集中引入隱藏的偏差。

保持真實必須根據(jù)業(yè)務(wù)需求了解數(shù)據(jù)質(zhì)量,在某些情況下,需要采用涉及無數(shù)變量的嚴(yán)格方法,但是對于許多查詢而言,更寬容的方法是可以接受的,在及時性和準(zhǔn)確性,查詢值和數(shù)據(jù)清理以及準(zhǔn)確性和可接受的錯誤之間始終需要權(quán)衡取舍,在復(fù)雜的數(shù)據(jù)和分析環(huán)境中,沒有一個適合所有大小的空間,查詢需要不同級別的準(zhǔn)確性和及時性。

以一種方式構(gòu)造的數(shù)據(jù)可能適用于某些用途,但會導(dǎo)致其他用途的結(jié)果不準(zhǔn)確或有偏差。數(shù)據(jù)質(zhì)量的最終測試是它是否產(chǎn)生所需的結(jié)果這要求進(jìn)行嚴(yán)格的測試,并考慮引入錯誤的潛在原因,盡管用于數(shù)據(jù)清理,規(guī)范化和整理的工具越來越受歡迎,但可能的因素的多樣性意味著這些過程不會在短期內(nèi)完全實現(xiàn)自動化,隨著自動化的普及,您必須確保自動化解決方案不會由于轉(zhuǎn)換規(guī)則而在數(shù)據(jù)流中引入新問題。確定性的不確定性由于數(shù)據(jù)集和結(jié)構(gòu)化數(shù)據(jù)有限,因此數(shù)據(jù)質(zhì)量問題相對明確,創(chuàng)建數(shù)據(jù)的過程通常是透明的,并且會遇到已知錯誤:數(shù)據(jù)輸入錯誤,表格填寫不正確,地址問題,重復(fù)等,可能的范圍相當(dāng)有限,并且要嚴(yán)格定義處理的數(shù)據(jù)格式,隨著機(jī)器學(xué)習(xí)和大數(shù)據(jù)的出現(xiàn),數(shù)據(jù)清理的機(jī)制必須改變,除了更多,更快的數(shù)據(jù)外,非結(jié)構(gòu)化數(shù)據(jù)的不確定性也大大增加,數(shù)據(jù)清理必須解釋數(shù)據(jù)并將其放入適合處理的格式,而不會引入新的偏差,此外質(zhì)量過程將根據(jù)特定用途而有所不同。數(shù)據(jù)質(zhì)量比絕對質(zhì)量更重要。

根據(jù)研究目標(biāo)和業(yè)務(wù)目標(biāo),需要使查詢與數(shù)據(jù)集更好地匹配,數(shù)據(jù)清理工具可以減少數(shù)據(jù)流中的一些常見錯誤,但始終存在潛在的意外偏見,同時查詢需要及時且負(fù)擔(dān)得起,從未迫切需要一種謹(jǐn)慎的數(shù)據(jù)質(zhì)量方法,機(jī)器學(xué)習(xí)和高級軟件工具無疑提供了解決方案的一部分,從而有可能為質(zhì)量問題帶來新的方法,但是沒有萬能藥,更高級別的復(fù)雜性意味著需要更仔細(xì)地檢查數(shù)據(jù)。
責(zé)任編輯:YYX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關(guān)推薦

    智慧城市與大數(shù)據(jù)的關(guān)系

    智慧城市與大數(shù)據(jù)之間存在著密切的關(guān)系,這種關(guān)系體現(xiàn)在大數(shù)據(jù)對智慧城市建設(shè)的支撐和推動作用,以及智慧城市產(chǎn)生的大量數(shù)據(jù)大數(shù)據(jù)技術(shù)的應(yīng)用需求。 大數(shù)據(jù)
    的頭像 發(fā)表于 10-24 15:27 ?297次閱讀

    基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價值利用效能

    處理超大數(shù)據(jù)集。 Hadoop的生態(tài)系統(tǒng)非常豐富,包括許多相關(guān)工具和技術(shù),如Hive、Pig、HBase等,這些工具可以方便地構(gòu)建復(fù)雜的大數(shù)據(jù)應(yīng)用。Hadoop廣泛應(yīng)用于各種場景,包括數(shù)據(jù)處理和分析、
    的頭像 發(fā)表于 10-08 15:12 ?82次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數(shù)據(jù)</b>應(yīng)用構(gòu)建-提升<b class='flag-5'>數(shù)據(jù)</b>價值利用效能

    基于大數(shù)據(jù)與深度學(xué)習(xí)的穿戴式運動心率算法

    性能的關(guān)鍵手段。然而,在復(fù)雜多變的運動環(huán)境中,準(zhǔn)確測量心率數(shù)據(jù)對于傳統(tǒng)算法而言具有較大的技術(shù)瓶頂。本文將探討如何運用大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)來開發(fā)創(chuàng)新的穿戴式運動心率算
    的頭像 發(fā)表于 09-10 08:03 ?171次閱讀
    基于<b class='flag-5'>大數(shù)據(jù)</b>與深度<b class='flag-5'>學(xué)習(xí)</b>的穿戴式運動心率算法

    【《時間序列與機(jī)器學(xué)習(xí)》閱讀體驗】+ 了解時間序列

    收到《時間序列與機(jī)器學(xué)習(xí)》一書,彩色印刷,公式代碼清晰,非常精美。感謝作者,感謝電子發(fā)燒友提供了一個讓我學(xué)習(xí)時間序列及應(yīng)用的機(jī)會! 前言第一段描述了編寫背景: 由此可知,這是一本關(guān)于時間序列進(jìn)行
    發(fā)表于 08-11 17:55

    使用CYW20829的BLE進(jìn)行最大數(shù)據(jù)發(fā)送應(yīng)用,BLE丟失數(shù)據(jù)如何解決?

    我目前正在使用 CYW20829 的 BLE 進(jìn)行最大數(shù)據(jù)發(fā)送應(yīng)用,我使用的是 FREERTOS(例程 Bluetooth_LE_GATT_Throughput_Server 是我的參考),藍(lán)牙被
    發(fā)表于 07-23 07:56

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

    機(jī)器學(xué)習(xí)中,數(shù)據(jù)分割是一項至關(guān)重要的任務(wù),它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評估。本文將從多個方面詳細(xì)探討機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 07-10 16:10 ?956次閱讀

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

    機(jī)器學(xué)習(xí)的整個流程中,數(shù)據(jù)預(yù)處理與特征工程是兩個至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,進(jìn)而影響模型的訓(xùn)練效果和泛化能力。本文將從數(shù)據(jù)預(yù)處理和特征工程的基本概念出發(fā),詳細(xì)探討這
    的頭像 發(fā)表于 07-09 15:57 ?243次閱讀

    機(jī)器學(xué)習(xí)數(shù)據(jù)分析中的應(yīng)用

    隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)量的爆炸性增長對數(shù)據(jù)分析提出了更高的要求。機(jī)器學(xué)習(xí)作為一種強(qiáng)大的工具,通過訓(xùn)練模型從
    的頭像 發(fā)表于 07-02 11:22 ?440次閱讀

    大數(shù)據(jù)采集系統(tǒng)分為幾類

    大數(shù)據(jù)采集系統(tǒng)是大數(shù)據(jù)生態(tài)系統(tǒng)中的重要組成部分,它負(fù)責(zé)從各種數(shù)據(jù)源收集、整合和存儲數(shù)據(jù)。根據(jù)不同的數(shù)據(jù)源、采集方法和應(yīng)用場景,
    的頭像 發(fā)表于 07-01 15:44 ?1208次閱讀

    機(jī)器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

    關(guān)于數(shù)據(jù)機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù),讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個經(jīng)典數(shù)據(jù)
    的頭像 發(fā)表于 06-27 08:27 ?1499次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典算法與應(yīng)用

    大數(shù)據(jù)在軍事方面的應(yīng)用有哪些

    智慧華盛恒輝大數(shù)據(jù)在軍事方面的應(yīng)用涵蓋了多個方面,這些應(yīng)用不僅提高了軍事管理的效率和水平,也極大地提升了軍隊的作戰(zhàn)能力和情報獲取能力。以下是大數(shù)據(jù)在軍事方面的主要應(yīng)用: 智慧華盛恒輝戰(zhàn)爭決策輔助
    的頭像 發(fā)表于 06-23 10:34 ?728次閱讀

    CYBT-343026傳輸大數(shù)據(jù)時會丟數(shù)據(jù)的原因?

    我正在使用 CYBT-343026 (CYW-20706 Silicon) 模塊。 我根據(jù) SPP 樣本制作了一個操作 SPP 的應(yīng)用程序。 但是,傳輸大數(shù)據(jù)時有時會丟失數(shù)據(jù)。 它從
    發(fā)表于 03-01 15:04

    大數(shù)據(jù)技術(shù)是干嘛的 大數(shù)據(jù)核心技術(shù)有哪些

    大數(shù)據(jù)技術(shù)是指用來處理和存儲海量、多類型、高速的數(shù)據(jù)的一系列技術(shù)和工具?,F(xiàn)如今,大數(shù)據(jù)已經(jīng)滲透到各個行業(yè)和領(lǐng)域,對企業(yè)決策和業(yè)務(wù)發(fā)展起到了重要作用。本文將詳細(xì)介紹大數(shù)據(jù)技術(shù)的概念、發(fā)展
    的頭像 發(fā)表于 01-31 11:07 ?2820次閱讀

    Get職場新知識:做分析,用大數(shù)據(jù)分析工具

    綜合分析。但現(xiàn)在有了大數(shù)據(jù)分析工具,一切問題都可迎刃而解。 大數(shù)據(jù)分析工具,顧名思義就是專門為分析海量數(shù)據(jù)而開發(fā)的一類工具。這類工具具有極強(qiáng)的大數(shù)據(jù)分析、指標(biāo)計算、
    發(fā)表于 12-05 09:36

    淺析can技術(shù)的演變過程

    CAN技術(shù)的演變 為了了解從 CAN FD 到 CAN XL 的轉(zhuǎn)變,讓我們簡單回顧一下 CAN 技術(shù)的演變: 經(jīng)典 CAN:原始 CAN 協(xié)議,最大數(shù)據(jù)速率為 1 Mbps,有效負(fù)載大小高達(dá) 8 字節(jié)。幾十年來,它已廣泛應(yīng)
    發(fā)表于 11-17 11:41 ?444次閱讀
    淺析can技術(shù)的<b class='flag-5'>演變</b>過程