0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

數(shù)據(jù)倉庫、數(shù)據(jù)湖以及中心化數(shù)據(jù)所有權(quán)的問題

茶棚小二a ? 來源:Thoughtworks ? 作者:茶棚小二的專欄 ? 2021-10-18 16:23 ? 次閱讀

在數(shù)據(jù)和分析領(lǐng)域中,數(shù)據(jù)網(wǎng)格(Data Mesh)范式是取代數(shù)據(jù)湖、成為主要架構(gòu)模式的強勢候選者。 重要的是,數(shù)據(jù)網(wǎng)格引入了新的組織視角,并且它與特定技術(shù)無關(guān)。 其關(guān)鍵思想是將領(lǐng)域驅(qū)動設(shè)計(DDD)和產(chǎn)品思維,應(yīng)用到數(shù)據(jù)和分析領(lǐng)域的難題中。與引入DevOps文化相比,建立數(shù)據(jù)網(wǎng)格文化包含人與人的連接,同理心,以及聯(lián)合責(zé)任結(jié)構(gòu)的建立。 通過這種方式,從數(shù)據(jù)中產(chǎn)生業(yè)務(wù)價值能夠?qū)崿F(xiàn)可持續(xù)的規(guī)?;?/p>

隨著各個公司在關(guān)鍵業(yè)務(wù)領(lǐng)域進行數(shù)字化,他們收集了越來越多的有關(guān)其自身流程和客戶的數(shù)據(jù)。 因此,他們希望使用這些數(shù)據(jù)來推動基于事實的決策,以便更好地滿足客戶的需求。 在某些行業(yè)中,數(shù)據(jù)驅(qū)動的水平,即公司能夠基于數(shù)據(jù)而不是憑直覺做出決策的速度,已經(jīng)成為決定性的競爭優(yōu)勢。

數(shù)據(jù)倉庫、數(shù)據(jù)湖以及關(guān)于中心化數(shù)據(jù)所有權(quán)的問題

在傳統(tǒng)的商業(yè)智能(BI)中,集中維護的數(shù)據(jù)倉庫是許多商業(yè)決策的基礎(chǔ),例如:通過最新的報表來支持這些商業(yè)決策。 隨著大數(shù)據(jù)技術(shù)的成熟以及數(shù)據(jù)科學(xué)的日益普及,許多公司投資建設(shè)了中央數(shù)據(jù)湖——有些是為了替代數(shù)據(jù)倉庫,但更多情況下是對現(xiàn)有數(shù)據(jù)倉庫的補充。 二者的主要區(qū)別在于集展和建模的不同:通過數(shù)據(jù)倉庫的方式,數(shù)據(jù)在攝取時,已經(jīng)根據(jù)特定的應(yīng)用進行了轉(zhuǎn)換; 對于數(shù)據(jù)湖,這種轉(zhuǎn)換僅在數(shù)據(jù)用于消費時發(fā)生。 但是,這兩種方法的共同特點是中心化。 而正是這種中心化導(dǎo)致了問題的反復(fù)出現(xiàn)。

我一次又一次看到,一個模式是不堪重負(fù)、壓力重重的中央“數(shù)據(jù)團隊”。 這個團隊維護著中央數(shù)據(jù)基礎(chǔ)設(shè)施,無論是數(shù)據(jù)倉庫還是數(shù)據(jù)湖。然而,更重要的是,該團隊孤立地負(fù)責(zé)向利益相關(guān)者,產(chǎn)品團隊和數(shù)據(jù)科學(xué)家提供及時可靠的數(shù)據(jù)集或報表。 我故意稱其為數(shù)據(jù)團隊,而不是更具體地稱為數(shù)據(jù)工程或數(shù)據(jù)洞察團隊,是因為它反映了這個團隊經(jīng)常要處理的不明確的責(zé)任組合。

因此,該數(shù)據(jù)團隊的成員經(jīng)常會陷入困境。 他們花費大量時間進行“消防員”式的救急工作,也修復(fù)數(shù)據(jù)生產(chǎn)團隊引入的問題,但也很難使數(shù)據(jù)的消費者滿意。 尤其令人悲傷的是,這些團隊成員通常是公司中最精通數(shù)據(jù)的人。并且經(jīng)??梢钥吹降氖牵哼@種長期的壓力會導(dǎo)致生產(chǎn)力下降,工作場所滿意度降低,甚至員工流失率增加。

如今有能力的工程師為什么無法解決這種問題? 原因在于這不是技術(shù)問題,而是組織問題。 主要問題之一是參與各方的職責(zé)劃分不當(dāng)。

數(shù)據(jù)生產(chǎn)者一方,具有領(lǐng)域?qū)I(yè)知識,即他們了解數(shù)據(jù)的含義,并且可以直接更改數(shù)據(jù)的形式; 而數(shù)據(jù)使用者一方,是數(shù)據(jù)的既得利益者,了解數(shù)據(jù)的業(yè)務(wù)潛力,因此可以清楚地描述需求,包括數(shù)據(jù)質(zhì)量的相關(guān)需求。 數(shù)據(jù)團隊的成員夾于這兩方之間:他們有責(zé)任交付可靠和高質(zhì)量的數(shù)據(jù),但他們既沒有領(lǐng)域?qū)I(yè)知識,也無法直接影響數(shù)據(jù)如何產(chǎn)生。 此外,他們并不是最終使用數(shù)據(jù)的決策者。 這意味著利益,責(zé)任和能力分布在三個不同的方面,這導(dǎo)致了摩擦,沮喪和誤解。

poYBAGFlU9uAXB-tAAEizWBNfA8068.png

圖一,處理數(shù)據(jù)的傳統(tǒng)方式切斷了數(shù)據(jù)負(fù)責(zé)人與數(shù)據(jù)使用者的關(guān)系

Data Mesh:去中心化的領(lǐng)域所有權(quán),共享的基礎(chǔ)設(shè)施

相反,數(shù)據(jù)網(wǎng)格的目標(biāo)狀態(tài)是讓數(shù)據(jù)生產(chǎn)者和數(shù)據(jù)使用者盡可能緊密地合作。從組織的角度來看,理想的情況是同一團隊同時生產(chǎn)和使用相同的數(shù)據(jù),以便能夠在同一個團隊中考量利益,責(zé)任和能力。在實踐中,這通常是不可行的,因為數(shù)據(jù)生產(chǎn)團隊已經(jīng)在其特定領(lǐng)域承擔(dān)了太多責(zé)任,以至于他們也無法完全負(fù)責(zé)數(shù)據(jù)消費應(yīng)用。因此,將這些角色分成兩個直接溝通無需中間人的團隊,已經(jīng)是向前邁出了一大步。數(shù)據(jù)生產(chǎn)團隊的目標(biāo)應(yīng)該是提供數(shù)據(jù),以便其他人可以在不需要詳細(xì)領(lǐng)域知識的前提下就能從該數(shù)據(jù)中獲得價值,即數(shù)據(jù)產(chǎn)生者應(yīng)隱藏“實施細(xì)節(jié)”。當(dāng)然,這樣的數(shù)據(jù)生產(chǎn)團隊也可以同時處于數(shù)據(jù)消費者的位置。有一些面向消費者的數(shù)據(jù)領(lǐng)域非常復(fù)雜,足以證明整個領(lǐng)域?qū)<覉F隊的價值,但是這些專家自己使用的數(shù)據(jù)與數(shù)據(jù)源對齊。

單純從組織角度來看,這種數(shù)據(jù)生產(chǎn)者和消費者的雙邊關(guān)系結(jié)構(gòu)將特定領(lǐng)域的一切交給了一個團隊,有利于減少摩擦,增加了所有權(quán),從而能夠高質(zhì)量地擴展。如果我們接受這個前提,那為什么有著集中所有權(quán)的中央數(shù)據(jù)團隊的模式如此普遍?以我的經(jīng)驗,有三個主要的關(guān)注點,它們在很大程度上驅(qū)動了企業(yè)中不幸的中心化數(shù)據(jù)所有權(quán)模式:

擔(dān)心團隊中沒有足夠的數(shù)據(jù)工程師和數(shù)據(jù)科學(xué)專家來組成多個團隊。相反,中央團隊被認(rèn)為可以更有效地利用那些稀缺的專家,并可以更平等地支持多個團隊。

擔(dān)心失去對數(shù)據(jù)質(zhì)量的控制,例如建立去中心化所有權(quán)的全局標(biāo)準(zhǔn)似乎很困難。

擔(dān)心重復(fù)的基礎(chǔ)設(shè)施投資,因為每個團隊都需要創(chuàng)建和維護類似的基礎(chǔ)設(shè)施,例如管道,服務(wù)和存儲。

通常,中心化數(shù)據(jù)所有權(quán)和中心化數(shù)據(jù)基礎(chǔ)設(shè)施之間缺乏概念上的分離, 阻礙了去中心化數(shù)據(jù)所有權(quán)的優(yōu)勢。 實際上,在上述所有三種情況下,創(chuàng)建專注于自助服務(wù)工具的共享數(shù)據(jù)基礎(chǔ)設(shè)施平臺可以幫助緩解此類擔(dān)憂。但是,至關(guān)重要的是,與領(lǐng)域無關(guān)的自助服務(wù)工具要能夠使該數(shù)據(jù)架構(gòu)平臺脫離中心化的領(lǐng)域數(shù)據(jù)所有權(quán)。 然而,通過使用領(lǐng)域無關(guān)的自助服務(wù)工具,能夠與讓數(shù)據(jù)基礎(chǔ)設(shè)施平臺脫離中心化的領(lǐng)域數(shù)據(jù)所有權(quán)。否則,數(shù)據(jù)基礎(chǔ)設(shè)施平臺將存在迅速成為具有中心化數(shù)據(jù)所有權(quán)的中央數(shù)據(jù)平臺的風(fēng)險,這正是我們首先要擺脫的境況。 最后,此方法還需要與建立針對數(shù)據(jù)的產(chǎn)品思維相結(jié)合,以確保去中心化的數(shù)據(jù)所有權(quán)是可持續(xù)的。

pYYBAGFlU9yATVu5AAGQCRv0808307.png

圖2:與領(lǐng)域無關(guān)的數(shù)據(jù)平臺

領(lǐng)域無關(guān)基礎(chǔ)架構(gòu)以及產(chǎn)品思維

為什么說數(shù)據(jù)基礎(chǔ)設(shè)施平臺確實是領(lǐng)域無關(guān)且專注于自助服務(wù)的呢?一個標(biāo)志是,無需聯(lián)系數(shù)據(jù)基礎(chǔ)設(shè)施平臺團隊,團隊即可通過提供領(lǐng)域數(shù)據(jù)來共享其專業(yè)知識。這意味著,那些數(shù)據(jù)基礎(chǔ)設(shè)施平臺的開發(fā)人員在完成本職工作時,并不需要詳細(xì)的領(lǐng)域知識。

另一方面,該平臺必須提供工具,讓領(lǐng)域數(shù)據(jù)專家在無需深厚的數(shù)據(jù)工程專業(yè)知識的情況下管理其數(shù)據(jù)交付物的整個生命周期。這意味著必須使他們能夠創(chuàng)建數(shù)據(jù)領(lǐng)域產(chǎn)品,對其進行描述和演進升級,觀察其使用情況以及適時銷毀數(shù)據(jù)。

創(chuàng)建提供這種使能水平的自助服務(wù)平臺是一項巨大的技術(shù)和產(chǎn)品開發(fā)挑戰(zhàn)。不過,它的核心是傳統(tǒng)的內(nèi)部軟件產(chǎn)品開發(fā)可以從實現(xiàn)最常見的用例開始,再逐步地擴展平臺的功能。

這樣,可以避免了構(gòu)建重復(fù)的基礎(chǔ)設(shè)施,因為沒有將基礎(chǔ)設(shè)施平臺團隊拉入中心化的數(shù)據(jù)所有權(quán)中。這樣一個與領(lǐng)域無關(guān)的平臺團隊可以更好地進行擴展,因為其成員不需要跟進特定領(lǐng)域的難題和所有業(yè)務(wù)領(lǐng)域的需求。相反,那些領(lǐng)域數(shù)據(jù)團隊?wèi)?yīng)該積極地培養(yǎng)和維護這些詳盡的領(lǐng)域知識。因此,如果能夠正確地關(guān)注重點,一個中型團隊就能夠可持續(xù)地開發(fā)和維護共享的數(shù)據(jù)基礎(chǔ)設(shè)施平臺。

共享的自助服務(wù)數(shù)據(jù)基礎(chǔ)設(shè)施平臺的另一個重要優(yōu)點是,除了避免重復(fù)工作外,還關(guān)乎數(shù)據(jù)治理和標(biāo)準(zhǔn)化。如果對于領(lǐng)域數(shù)據(jù)團隊而言,使用平臺的工具提供數(shù)據(jù)要比通過構(gòu)建自己的基礎(chǔ)設(shè)施還方便,那么通過這些平臺工具來實施某些標(biāo)準(zhǔn)將變得很容易。這樣,標(biāo)準(zhǔn)化和一定程度上的治理就會由便利性驅(qū)動。

因此,在上面概述的關(guān)于去中心化數(shù)據(jù)所有權(quán)的三個問題中,僅剩下一個數(shù)據(jù)質(zhì)量的相關(guān)問題?,F(xiàn)在,中心化團隊無法承擔(dān)數(shù)據(jù)質(zhì)量的責(zé)任。如今,數(shù)據(jù)質(zhì)量的責(zé)任無論如何也不能由一個中心化的團隊以可擴展和可持續(xù)的方式來承擔(dān)。沒有任何一個團隊可以針對所有業(yè)務(wù)領(lǐng)域建立足夠的領(lǐng)域?qū)I(yè)知識來確保數(shù)據(jù)質(zhì)量。這就是數(shù)據(jù)質(zhì)量的意義:它不是對數(shù)據(jù)形態(tài)的普遍保證,而是與數(shù)據(jù)的具體內(nèi)容,語義和演進的息息相關(guān)。

但是,單純以去中心化的責(zé)任制還不能解決這一挑戰(zhàn)。為此,產(chǎn)品思維開始發(fā)揮作用。需要激勵領(lǐng)域數(shù)據(jù)團隊以可靠的方式提供高質(zhì)量的數(shù)據(jù),例如通過使預(yù)算與數(shù)據(jù)消費者的數(shù)量和消費滿意度相匹配。這樣,領(lǐng)域數(shù)據(jù)團隊將嘗試提高其數(shù)據(jù)的價值,并嘗試滿足其數(shù)據(jù)消費者的需求。

最后總結(jié)一下,我們需要建立三種方法,以實現(xiàn)具有去中心化數(shù)據(jù)所有權(quán)的可擴展和可持續(xù)的數(shù)據(jù)格局:

使用領(lǐng)域驅(qū)動設(shè)計作為主要手段構(gòu)建數(shù)據(jù),并將領(lǐng)域(或子域)的完整端到端所有權(quán)分配給一個能夠滿足其職責(zé)所需的跨職能團隊。

利用平臺思維,投資創(chuàng)建共享且與領(lǐng)域無關(guān)的自助數(shù)據(jù)基礎(chǔ)設(shè)施平臺。該平臺沒有中心化的數(shù)據(jù)所有權(quán),而是專注于支持和促進數(shù)據(jù)生產(chǎn)者和消費者者之間的直接協(xié)作。

利用產(chǎn)品思維,激勵領(lǐng)域數(shù)據(jù)團隊提高高質(zhì)量的數(shù)據(jù)以滿足數(shù)據(jù)消費團隊的需求。

fqj

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
收藏 人收藏

    評論

    相關(guān)推薦

    云計算與數(shù)據(jù)中心的關(guān)系

    設(shè)備,以及冗余的數(shù)據(jù)通信連接、環(huán)境控制設(shè)備、監(jiān)控設(shè)備和各種安全裝置。數(shù)據(jù)中心是全球協(xié)作的特定設(shè)備網(wǎng)絡(luò),基于互聯(lián)網(wǎng)的相關(guān)服務(wù)增加、使用和交付模式,通常涉及通過互聯(lián)網(wǎng)來提供動態(tài)易擴展且經(jīng)常是虛擬
    的頭像 發(fā)表于 10-24 16:15 ?56次閱讀

    數(shù)據(jù)中心虛擬應(yīng)用案例

    數(shù)據(jù)中心虛擬應(yīng)用案例展示了虛擬技術(shù)在提高資源利用率、降低成本、增強系統(tǒng)靈活性和快速響應(yīng)等方面的顯著優(yōu)勢。以下是一些具體的數(shù)據(jù)中心虛擬應(yīng)
    的頭像 發(fā)表于 10-24 15:18 ?127次閱讀

    數(shù)據(jù)倉庫數(shù)據(jù)庫的主要區(qū)別

    數(shù)據(jù)倉庫數(shù)據(jù)庫是兩個在信息技術(shù)領(lǐng)域中常見的概念,它們在數(shù)據(jù)管理和分析方面發(fā)揮著重要作用。盡管它們在某些方面有相似之處,但它們在設(shè)計、目的和功能上存在顯著差異。本文將介紹數(shù)據(jù)倉庫
    的頭像 發(fā)表于 07-05 14:57 ?413次閱讀

    工業(yè)數(shù)據(jù)中臺的功能和應(yīng)用場景

    。 實時數(shù)據(jù)流處理和批量數(shù)據(jù)處理。 2.數(shù)據(jù)存儲與管理: 提供分布式存儲解決方案,如Hadoop、HBase等。 數(shù)據(jù)
    的頭像 發(fā)表于 07-04 16:18 ?252次閱讀

    什么是數(shù)據(jù)?數(shù)據(jù)數(shù)據(jù)倉庫有什么區(qū)別?

    從本質(zhì)上說,數(shù)據(jù)就是一個信息資源庫。人們常常將數(shù)據(jù)數(shù)據(jù)倉庫混為一談,但兩者在架構(gòu)和滿足的業(yè)務(wù)需求上都不一樣。尤其是,隨著社交媒體
    的頭像 發(fā)表于 05-20 12:38 ?543次閱讀
    什么是<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>?<b class='flag-5'>數(shù)據(jù)</b><b class='flag-5'>湖</b>和<b class='flag-5'>數(shù)據(jù)倉庫</b>有什么區(qū)別?

    數(shù)據(jù)中臺、數(shù)據(jù)倉庫、數(shù)據(jù)治理與主數(shù)據(jù)的定位與差異

    在數(shù)字化時代,大數(shù)據(jù)已經(jīng)成為企業(yè)運營和決策的重要資產(chǎn)。為了更好地管理和利用這些數(shù)據(jù),數(shù)據(jù)中臺、數(shù)據(jù)倉庫、數(shù)據(jù)治理和主
    的頭像 發(fā)表于 05-08 10:40 ?378次閱讀

    #mpo極性 #數(shù)據(jù)中心mpo

    數(shù)據(jù)中心MPO
    jf_51241005
    發(fā)布于 :2024年04月07日 10:05:13

    模塊機房:數(shù)據(jù)中心的未來

    隨著數(shù)字轉(zhuǎn)型加速,數(shù)據(jù)中心已成為企業(yè)運營的核心。傳統(tǒng)的數(shù)據(jù)中心面臨空間利用不足、能源效率低下、擴展性差和維護成本高等問題。模塊機房應(yīng)運而生,它不僅克服了傳統(tǒng)設(shè)計的局限,還為
    的頭像 發(fā)表于 03-12 17:26 ?774次閱讀

    華為推出全新數(shù)據(jù)解決方案及全閃存新品

    近日,華為在數(shù)據(jù)存儲新春新品發(fā)布會上,向全球展示了其全新的數(shù)據(jù)解決方案,以及專為商業(yè)市場與分銷市場設(shè)計的全閃存存儲新品。這些創(chuàng)新產(chǎn)品的推出,標(biāo)志著華為在
    的頭像 發(fā)表于 02-21 10:35 ?567次閱讀

    微模塊數(shù)據(jù)中心的優(yōu)勢

    微模塊數(shù)據(jù)中心是以模塊、標(biāo)準(zhǔn)的架構(gòu)和高效高可靠的UPS、精密空調(diào)等靈活組合于一體打造的模塊數(shù)據(jù)中心基礎(chǔ)設(shè)施,可實現(xiàn)靈活快速部署、高效節(jié)
    的頭像 發(fā)表于 01-19 13:53 ?563次閱讀

    構(gòu)建高效數(shù)據(jù)生態(tài):數(shù)據(jù)庫、數(shù)據(jù)倉庫數(shù)據(jù)、大數(shù)據(jù)平臺與數(shù)據(jù)中臺解析_光點科技

    在數(shù)字的浪潮中,一套高效的數(shù)據(jù)管理系統(tǒng)是企業(yè)競爭力的核心。從傳統(tǒng)的數(shù)據(jù)庫到現(xiàn)代的數(shù)據(jù)中臺,每一種技術(shù)都在數(shù)據(jù)的旅程中扮演著關(guān)鍵角色。本文將
    的頭像 發(fā)表于 01-17 10:20 ?315次閱讀

    #光纜水峰 #綜合布線光纜 #數(shù)據(jù)中心

    數(shù)據(jù)中心光纜
    jf_51241005
    發(fā)布于 :2024年01月15日 09:43:26

    #預(yù)端接光纜 #24芯光纜 #數(shù)據(jù)中心

    數(shù)據(jù)中心光纜
    jf_51241005
    發(fā)布于 :2023年12月08日 11:01:21