0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

機(jī)器學(xué)習(xí)如何幫助解決大數(shù)據(jù)轉(zhuǎn)換及管理問(wèn)題?

電子設(shè)計(jì) ? 來(lái)源:電子設(shè)計(jì) ? 作者:電子設(shè)計(jì) ? 2020-12-24 23:20 ? 次閱讀

盡管大數(shù)據(jù)分析技術(shù)取得了驚人的進(jìn)步,但我們?cè)诤艽蟪潭壬先孕枰謩?dòng)來(lái)完成重要任務(wù),例如數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)管理。隨著數(shù)據(jù)量的增長(zhǎng),手動(dòng)完成任務(wù)與自動(dòng)化產(chǎn)生的生產(chǎn)力差距越來(lái)越大,這使得以人工智能機(jī)器學(xué)習(xí)為基礎(chǔ)的自動(dòng)化趨勢(shì)越來(lái)越有市場(chǎng)。機(jī)器學(xué)習(xí)可以幫助縮小這一差距嗎?

坦率地說(shuō),數(shù)據(jù)轉(zhuǎn)換和數(shù)據(jù)管理問(wèn)題頗具挑戰(zhàn)性。各行各業(yè)的公司都渴望將機(jī)器學(xué)習(xí)與他們的數(shù)據(jù)庫(kù)結(jié)合使用,以獲得競(jìng)爭(zhēng)優(yōu)勢(shì)。但是,數(shù)據(jù)不干凈、數(shù)據(jù)未集成、不可比較和不匹配的數(shù)據(jù)問(wèn)題層出不窮,使公司的大數(shù)據(jù)計(jì)劃陷入困境。

許多從事機(jī)器學(xué)習(xí)的數(shù)據(jù)科學(xué)家花費(fèi)了90%的時(shí)間來(lái)查找、集成、修復(fù)和清理其輸入數(shù)據(jù)。 人們似乎沒(méi)有意識(shí)到數(shù)據(jù)科學(xué)家不再是數(shù)據(jù)科學(xué)家,而是成為了數(shù)據(jù)集成商。

不過(guò)也有一個(gè)好消息,機(jī)器學(xué)習(xí)本身可以幫助機(jī)器學(xué)習(xí)。這個(gè)想法是利用算法的預(yù)測(cè)能力來(lái)模擬人類數(shù)據(jù)處理。這不是100%完美的解決方案,但它可以幫助緩解工作強(qiáng)度,讓數(shù)據(jù)科學(xué)家轉(zhuǎn)向真正的創(chuàng)新工作。

您可以在任何你能買到的地方購(gòu)買ML,通過(guò)使用ML來(lái)來(lái)幫助您完成ETL的轉(zhuǎn)換部分。

轉(zhuǎn)換和管理數(shù)據(jù)

雖然它們?cè)谀承┓矫媸窍嗨频?,但是?shù)據(jù)管理和數(shù)據(jù)轉(zhuǎn)換之間有重要的區(qū)別。數(shù)據(jù)轉(zhuǎn)換是數(shù)據(jù)集成過(guò)程中的第一步,其目標(biāo)是將異類數(shù)據(jù)轉(zhuǎn)換為通用的全局模式,組織可以提前制定該模式。自動(dòng)腳本通常用于將美元轉(zhuǎn)換成歐元,或?qū)⒂㈡^轉(zhuǎn)換成公斤。

轉(zhuǎn)換階段之后,分析人員開(kāi)始管理和分析數(shù)據(jù)。第一步通常涉及運(yùn)行“match/merge”函數(shù)來(lái)創(chuàng)建與相同實(shí)體對(duì)應(yīng)的記錄集群,例如將不同但拼寫相似的名稱分組在一起。像“編輯距離”這樣的概念可以用來(lái)確定兩個(gè)不同實(shí)體之間的距離。

然后使用更多的規(guī)則來(lái)比較各種實(shí)體,以確定給定記錄的最佳值。公司可以聲明最后一項(xiàng)是最好的,或者使用一組值中的公共值,這樣就可以產(chǎn)生最佳數(shù)據(jù)。

幾十年來(lái),這種通用的兩步過(guò)程已在許多數(shù)據(jù)倉(cāng)庫(kù)中使用,并且在現(xiàn)代的數(shù)據(jù)湖中繼續(xù)使用。但是,ETL和數(shù)據(jù)管理在很大程度上未能跟上今天的數(shù)據(jù)量以及企業(yè)面臨的挑戰(zhàn)規(guī)模。

例如,這需要預(yù)先定義一個(gè)全局模式,這阻礙了許多ETL的進(jìn)行,這些工作試圖集成更多的數(shù)據(jù)源。在有些時(shí)候,程序員無(wú)法跟上必須設(shè)置的數(shù)據(jù)轉(zhuǎn)換規(guī)則的數(shù)量。

如果您有10個(gè)數(shù)據(jù)源,您還可以這樣做,但是,如果您有10,000個(gè),那就不太可能了。

顯然,這需要一種不同的方法。

在小型企業(yè)中,您可能可以提前創(chuàng)建全局?jǐn)?shù)據(jù)模式,然后在整個(gè)組織中強(qiáng)制使用它,從而省去了昂貴的ETL和數(shù)據(jù)管理項(xiàng)目的成本,一起放在數(shù)據(jù)倉(cāng)庫(kù)中。但是,在大型組織中,這種自上而下的方法不可避免地會(huì)失敗。

即使大型企業(yè)中的業(yè)務(wù)部門彼此非常相似,它們記錄數(shù)據(jù)的方式也會(huì)有微小的差異。這些微小差異需要加以考慮,然后才能對(duì)其進(jìn)行有意義的分析,這只是企業(yè)數(shù)據(jù)性質(zhì)的反映。

因此業(yè)務(wù)靈活性需要一定程度的獨(dú)立性,這意味著每個(gè)業(yè)務(wù)部門都建立自己的數(shù)據(jù)中心。

例如,以豐田汽車歐洲公司(Toyota Motor Europe)為例,該公司在每個(gè)業(yè)務(wù)國(guó)家都有獨(dú)立的客戶支持組織。該公司希望為250個(gè)數(shù)據(jù)庫(kù)中的所有實(shí)體創(chuàng)建一個(gè)主記錄,其中包含40種不同語(yǔ)言的3000萬(wàn)條記錄。

豐田汽車歐洲公司面臨的問(wèn)題是,ETL和數(shù)據(jù)管理項(xiàng)目的規(guī)模是巨大的,如果按照傳統(tǒng)方式進(jìn)行,將消耗大量的資源。該公司決定使用Tamr來(lái)幫助解決機(jī)器學(xué)習(xí)的挑戰(zhàn),而不是數(shù)據(jù)轉(zhuǎn)換和使用數(shù)據(jù)管理過(guò)程。

ETL最大的問(wèn)題是已經(jīng)預(yù)先定義了全局模式,如何大規(guī)模地做到這一點(diǎn)是個(gè)問(wèn)題。需要使用機(jī)器學(xué)習(xí)進(jìn)行自下向上的匹配、自下而上地構(gòu)造目標(biāo)模式,從規(guī)模上看,這是唯一可行的方式。

這并不意味著機(jī)器學(xué)習(xí)提供了非常簡(jiǎn)單的方法來(lái)解決這些棘手的數(shù)據(jù)集成問(wèn)題。它仍然需要大量的數(shù)據(jù)和處理能力,您通常需要一個(gè)最優(yōu)秀的員工來(lái)幫助指導(dǎo)軟件獲得正確的數(shù)據(jù)分析結(jié)果與決策見(jiàn)解。

這樣來(lái)看的話,成本并不便宜,但這不是最重要的。但還有一個(gè)問(wèn)題是,不同的供應(yīng)商之間該如何選擇。不同國(guó)家或地區(qū)的供應(yīng)商提供的解決方案不同,而且出于一些宏觀因素,會(huì)出現(xiàn)不同的選擇。

出于安全考慮,這些數(shù)據(jù)問(wèn)題不能完全外包給其他公司,所以不要指望完全用機(jī)器學(xué)習(xí)來(lái)處理數(shù)據(jù),人在其中的作用還是非常重要的。人與機(jī)器學(xué)習(xí)合作才能夠使您的數(shù)據(jù)集成和管理效率最大化。

審核編輯 黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價(jià)值利用效能

    處理超大數(shù)據(jù)集。 Hadoop的生態(tài)系統(tǒng)非常豐富,包括許多相關(guān)工具和技術(shù),如Hive、Pig、HBase等,這些工具可以方便地構(gòu)建復(fù)雜的大數(shù)據(jù)應(yīng)用。Hadoop廣泛應(yīng)用于各種場(chǎng)景,包括數(shù)據(jù)處理和分析、
    的頭像 發(fā)表于 10-08 15:12 ?75次閱讀
    基于Kepware的Hadoop<b class='flag-5'>大數(shù)據(jù)</b>應(yīng)用構(gòu)建-提升<b class='flag-5'>數(shù)據(jù)</b>價(jià)值利用效能

    基于大數(shù)據(jù)與深度學(xué)習(xí)的穿戴式運(yùn)動(dòng)心率算法

    性能的關(guān)鍵手段。然而,在復(fù)雜多變的運(yùn)動(dòng)環(huán)境中,準(zhǔn)確測(cè)量心率數(shù)據(jù)對(duì)于傳統(tǒng)算法而言具有較大的技術(shù)瓶頂。本文將探討如何運(yùn)用大數(shù)據(jù)和深度學(xué)習(xí)技術(shù)來(lái)開(kāi)發(fā)創(chuàng)新的穿戴式運(yùn)動(dòng)心率算
    的頭像 發(fā)表于 09-10 08:03 ?161次閱讀
    基于<b class='flag-5'>大數(shù)據(jù)</b>與深度<b class='flag-5'>學(xué)習(xí)</b>的穿戴式運(yùn)動(dòng)心率算法

    【「時(shí)間序列與機(jī)器學(xué)習(xí)」閱讀體驗(yàn)】時(shí)間序列的信息提取

    個(gè)重要環(huán)節(jié),目標(biāo)是從給定的時(shí)間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預(yù)測(cè)任務(wù)。 特征工程(Feature Engineering)是將數(shù)據(jù)轉(zhuǎn)換為更好地表示潛在問(wèn)題的特征,從而提高
    發(fā)表于 08-17 21:12

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 時(shí)間序列的信息提取

    本人有些機(jī)器學(xué)習(xí)的基礎(chǔ),理解起來(lái)一點(diǎn)也不輕松,加油。 作者首先說(shuō)明了時(shí)間序列的信息提取是時(shí)間序列分析的一個(gè)重要環(huán)節(jié),目標(biāo)是從給定的時(shí)間序列數(shù)據(jù)中提取出有用的信息和特征,以支持后續(xù)的分析和預(yù)測(cè)任務(wù),可以
    發(fā)表于 08-14 18:00

    【《時(shí)間序列與機(jī)器學(xué)習(xí)》閱讀體驗(yàn)】+ 了解時(shí)間序列

    收到《時(shí)間序列與機(jī)器學(xué)習(xí)》一書,彩色印刷,公式代碼清晰,非常精美。感謝作者,感謝電子發(fā)燒友提供了一個(gè)讓我學(xué)習(xí)時(shí)間序列及應(yīng)用的機(jī)會(huì)! 前言第一段描述了編寫背景: 由此可知,這是一本關(guān)于時(shí)間序列進(jìn)行
    發(fā)表于 08-11 17:55

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)分割方法

    機(jī)器學(xué)習(xí)中,數(shù)據(jù)分割是一項(xiàng)至關(guān)重要的任務(wù),它直接影響到模型的訓(xùn)練效果、泛化能力以及最終的性能評(píng)估。本文將從多個(gè)方面詳細(xì)探討機(jī)器學(xué)習(xí)
    的頭像 發(fā)表于 07-10 16:10 ?896次閱讀

    機(jī)器學(xué)習(xí)中的數(shù)據(jù)預(yù)處理與特征工程

    機(jī)器學(xué)習(xí)的整個(gè)流程中,數(shù)據(jù)預(yù)處理與特征工程是兩個(gè)至關(guān)重要的步驟。它們直接決定了模型的輸入質(zhì)量,進(jìn)而影響模型的訓(xùn)練效果和泛化能力。本文將從數(shù)據(jù)預(yù)處理和特征工程的基本概念出發(fā),詳細(xì)探討這
    的頭像 發(fā)表于 07-09 15:57 ?234次閱讀

    機(jī)器學(xué)習(xí)數(shù)據(jù)分析中的應(yīng)用

    隨著大數(shù)據(jù)時(shí)代的到來(lái),數(shù)據(jù)量的爆炸性增長(zhǎng)對(duì)數(shù)據(jù)分析提出了更高的要求。機(jī)器學(xué)習(xí)作為一種強(qiáng)大的工具,通過(guò)訓(xùn)練模型從
    的頭像 發(fā)表于 07-02 11:22 ?407次閱讀

    機(jī)器學(xué)習(xí)的經(jīng)典算法與應(yīng)用

    關(guān)于數(shù)據(jù)機(jī)器學(xué)習(xí)就是喂入算法和數(shù)據(jù),讓算法從數(shù)據(jù)中尋找一種相應(yīng)的關(guān)系。Iris鳶尾花數(shù)據(jù)集是一個(gè)經(jīng)典數(shù)據(jù)
    的頭像 發(fā)表于 06-27 08:27 ?1496次閱讀
    <b class='flag-5'>機(jī)器</b><b class='flag-5'>學(xué)習(xí)</b>的經(jīng)典算法與應(yīng)用

    名單公布!【書籍評(píng)測(cè)活動(dòng)NO.35】如何用「時(shí)間序列與機(jī)器學(xué)習(xí)」解鎖未來(lái)?

    設(shè)備的運(yùn)行狀況,生成各種維度的報(bào)告。 同時(shí),通過(guò)大數(shù)據(jù)分析和機(jī)器學(xué)習(xí)技術(shù),可以對(duì)業(yè)務(wù)進(jìn)行預(yù)測(cè)和預(yù)警,從而協(xié)助社會(huì)和企業(yè)進(jìn)行科學(xué)決策、降低成本并創(chuàng)造新的價(jià)值。 當(dāng)今時(shí)代,數(shù)據(jù)無(wú)處不在,
    發(fā)表于 06-25 15:00

    大數(shù)據(jù)在部隊(duì)管理中的運(yùn)用有哪些

    智慧華盛恒輝大數(shù)據(jù)在部隊(duì)管理中的運(yùn)用主要體現(xiàn)在以下幾個(gè)方面: 決策支持: 智慧華盛恒輝部隊(duì)管理可以利用大數(shù)據(jù)技術(shù),對(duì)海量的數(shù)據(jù)進(jìn)行分析,為決
    的頭像 發(fā)表于 06-23 09:53 ?828次閱讀

    淺析大數(shù)據(jù)時(shí)代下的數(shù)據(jù)中心運(yùn)維管理

    淺析大數(shù)據(jù)時(shí)代下的數(shù)據(jù)中心運(yùn)維管理 張穎姣 安科瑞電氣股份有限公司?上海嘉定201801 摘要:本文將從數(shù)據(jù)中心運(yùn)維管理的角度,聯(lián)系現(xiàn)實(shí)情況
    的頭像 發(fā)表于 02-22 14:40 ?292次閱讀
    淺析<b class='flag-5'>大數(shù)據(jù)</b>時(shí)代下的<b class='flag-5'>數(shù)據(jù)</b>中心運(yùn)維<b class='flag-5'>管理</b>

    大數(shù)據(jù)技術(shù)是干嘛的 大數(shù)據(jù)核心技術(shù)有哪些

    的核心技術(shù),包括數(shù)據(jù)采集、存儲(chǔ)與管理、處理與分析等方面。 一、大數(shù)據(jù)技術(shù)背景和概念 1.1 背景 隨著互聯(lián)網(wǎng)技術(shù)的迅猛發(fā)展,人們可以通過(guò)各種途徑產(chǎn)生、獲取和傳輸數(shù)據(jù),使
    的頭像 發(fā)表于 01-31 11:07 ?2741次閱讀

    大數(shù)據(jù)技術(shù)如何為精益管理賦能?

    隨著科技的飛速發(fā)展,大數(shù)據(jù)技術(shù)已經(jīng)逐漸滲透到各個(gè)領(lǐng)域,為企業(yè)帶來(lái)了前所未有的變革。在精益管理領(lǐng)域,大數(shù)據(jù)技術(shù)的運(yùn)用更是為企業(yè)管理帶來(lái)了諸多優(yōu)勢(shì),為企業(yè)高效運(yùn)營(yíng)注入了新的活力。 一、
    的頭像 發(fā)表于 12-19 09:58 ?529次閱讀

    Get職場(chǎng)新知識(shí):做分析,用大數(shù)據(jù)分析工具

    數(shù)據(jù)管理的。 隨著原來(lái)越多的企業(yè)加入了數(shù)字化轉(zhuǎn)型的隊(duì)伍,大數(shù)據(jù)分析工具也越來(lái)越多地被應(yīng)用于各行各業(yè)的業(yè)務(wù)數(shù)據(jù)分析中,直至今日,大數(shù)據(jù)分析工具也成為了
    發(fā)表于 12-05 09:36