0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內(nèi)不再提示

前沿開源技術領域的開源大數(shù)據(jù)一一解讀

OSC開源社區(qū) ? 來源:2022 中國開源開發(fā)者報告 ? 2023-02-21 15:19 ? 次閱讀

近日,OSCHINA 和 Gitee 聯(lián)合發(fā)布了《2022 中國開源開發(fā)者報告》。

其中“前沿開源技術領域解讀” 部分,多位在其領域有所建樹的一線開發(fā)者和開源商業(yè)化公司創(chuàng)始人,對目前國內(nèi)外流行的前沿開源技術領域過去的發(fā)展和未來的趨勢進行了深入的洞察,覆蓋開源云原生、開源 AI、開源大前端、開源大數(shù)據(jù)、開源 DevOps、RISC-V、開源操作系統(tǒng)、開源數(shù)據(jù)庫、編程語言九大領域。

本篇為開源大數(shù)據(jù)領域的解讀。

近幾年,數(shù)據(jù)技術快速發(fā)展,技術棧逐漸成熟,從新一代數(shù)據(jù)源體系到數(shù)據(jù)處理體系,再到數(shù)據(jù)分析、AI 算法體系,數(shù)據(jù)技術逐步相互融合、相互支持形成有機整體。OLAP、數(shù)據(jù)湖、數(shù)據(jù)集成、DataOps、MLOps 等領域變得更加火熱。未來,大數(shù)據(jù)技術會沿著異構計算、批流融合、云化、兼容AI、內(nèi)存計算等方向持續(xù)更迭。

新一代數(shù)據(jù)棧將逐步替代國內(nèi)單一“數(shù)據(jù)中臺”

2021 年,美國硅谷最火爆的詞匯就是現(xiàn)代數(shù)據(jù)棧(Modern Data Stack,簡稱 MDS),它們是以云原生、開源為背景的一系列全新數(shù)據(jù)技術引擎。相對于傳統(tǒng)的閉源、私有化的數(shù)據(jù)技術來講,現(xiàn)代數(shù)據(jù)棧憑借其開放性及公有云的 SaaS 服務快速得到了大量企業(yè)用戶的認可。

現(xiàn)代數(shù)據(jù)棧分為若干層次,每個層次相互支持,相互協(xié)助,形成一個有機的整體。企業(yè)使用的時候,很容易就能利用 SaaS 模式將其整合到一起解決企業(yè)數(shù)據(jù)問題。而開源模式,又給 MDS 生態(tài)加入了新的活力,快速發(fā)展社區(qū)的同時讓上下游快速出現(xiàn)新的合作。

201500fa-aaa4-11ed-bfe3-dac502259ad0.png

近幾年,國內(nèi)出現(xiàn)了大量的開源數(shù)據(jù)技術。2022 年,這些技術形成了具有上下游的有機集合體,從新一代數(shù)據(jù)源體系到數(shù)據(jù)處理體系,再到數(shù)據(jù)分析、AI 算法體系,逐步相互融合、相互支持形成有機整體??梢钥吹剑瑖鴥?nèi)新一代的數(shù)據(jù)棧在支持云原生技術基礎上,還支持私有云/公有云部署,用新一代的計算引擎、算法、調(diào)度、同步機制來支持新一代的數(shù)據(jù)基礎建設。

202c2000-aaa4-11ed-bfe3-dac502259ad0.png

這些新一代技術棧的流行和商業(yè)工具生態(tài)的整合,將逐步替代國內(nèi)單一“數(shù)據(jù)中臺”服務四五個領域的局面。這變得跟美國類似——若干家各自領域的專業(yè)企業(yè)相互集成,最終給用戶提供高效且靈活的專業(yè)解決方案。

同時,我也高興看到,這些開源現(xiàn)代數(shù)據(jù)棧中很多的商業(yè)公司,正在美國、歐洲快速建立社區(qū)、SaaS 和相關的商業(yè)服務,也有一些公司已經(jīng)和全球的開源現(xiàn)代技術棧公司進行競爭。整體上,來自國內(nèi)的新一代的開源現(xiàn)代數(shù)據(jù)棧(Open-source MDS)現(xiàn)在剛剛興起。我相信,國內(nèi)具有大量優(yōu)秀的開發(fā)者、豐富的場景和大量的數(shù)據(jù)基礎,一定會有若干家卓越的開源商業(yè)公司出現(xiàn),最終在全球開源現(xiàn)代數(shù)據(jù)棧中有一席之地!

20407dc0-aaa4-11ed-bfe3-dac502259ad0.png

郭煒

Apache 基金會成員,Apache 孵化器導師,ClickHouse 華人社區(qū)創(chuàng)始人, Apache Dolphin Scheduler PMC,Apache SeaTunnel(incubating) 導師。郭煒先生畢業(yè)于北京大學,曾任易觀 CTO,聯(lián)想研究院大數(shù)據(jù)總監(jiān),萬達電商數(shù)據(jù)部總經(jīng)理,先后在中金、IBM、Teradata 任大數(shù)據(jù)方重要職位,對大數(shù)據(jù)前沿研究做出卓越貢獻。同時郭先生參與多個技術社區(qū)工作,Presto、 Alluxio、Hbase 等,是國內(nèi)開源社區(qū)領軍人物。

數(shù)據(jù)湖與 LakeHouse 依然炙手可熱

2022 年,數(shù)據(jù)湖與 LakeHouse 依然是炙手可熱的話題。一方面,在 Apache Iceberg、Apache Hudi、Delta 等知名開源項目的帶動下,國內(nèi)的一些基礎軟件公司也開始在數(shù)據(jù)湖開源領域積極布局,代表有網(wǎng)易數(shù)帆開源的湖倉管理系統(tǒng) Arctic,阿里云開源的流式數(shù)倉 Flink Tablestore;另一方面,一些傳統(tǒng)架構的開源數(shù)倉軟件,以及閉源的數(shù)據(jù)分析引擎,也開始積極擁抱開放的數(shù)據(jù)湖格式,標志性事件如 Snowfake 可以對接 Delta 和 Iceberg,Doris 系的開源數(shù)倉可以查詢 Iceberg 數(shù)據(jù)。

在眾多開源項目與頭部企業(yè)的帶動下,行業(yè)和市場相比去年對 LakeHouse 的價值認知有了長足進步。

目前,用戶切入 LakeHouse 主要有兩點:一是數(shù)據(jù)湖上云,公有云的對象存儲與私有化的 Hadoop 在一些功能上有較大不同,比如 list 和 rename 接口的性能缺陷,導致用戶在把圍繞 Hadoop 構建的數(shù)倉體系遷往云端時需要應對各種問題,而以 Iceberg 為代表的新型表格式在使用上天然不依賴這些接口,并且提供了 ACID、模式演進等高階特性,為用戶提供了更好的上云方案;二是數(shù)據(jù)處理的流批一體,新型數(shù)據(jù)湖格式的快照機制對流更加友好,可以將數(shù)據(jù)湖拓展到更多流計算場景,甚至演進到流式湖倉的場景,實現(xiàn)實時數(shù)倉和離線數(shù)倉在湖倉上的統(tǒng)一。

但需要承認的是,LakeHouse 這項技術還沒有瓜熟蒂落,尤其在流批一體方面,依然有很多想象空間。在 Gartner 技術成熟度曲線中,LakeHouse 處于期望膨脹期的臨界點,距離主流市場采納還需要 2-5 年的時間。得益于數(shù)據(jù)湖天然的體量和成本優(yōu)勢,可以預見當 LakeHouse 成為標準技術方案時,它將給企業(yè)的數(shù)字化轉型帶來極具意義的變革。

20501d70-aaa4-11ed-bfe3-dac502259ad0.png

馬進

網(wǎng)易數(shù)帆大數(shù)據(jù)實時計算技術專家、湖倉一體項目負責人,負責網(wǎng)易集團分布式數(shù)據(jù)庫、數(shù)據(jù)傳輸平臺、實時計算平臺、實時數(shù)據(jù)湖等項目,長期從事中間件、大數(shù)據(jù)基礎設施方面的研究和實踐,目前帶領團隊聚焦于流批一體、湖倉一體的平臺方案和技術演進,及流式湖倉服務 Arctic 項目開源。

數(shù)據(jù)技術快速更迭, DataOps 應運而生

今年的大數(shù)據(jù)發(fā)展如火如荼,OLAP、數(shù)據(jù)湖、數(shù)據(jù)集成、DataOps、MLOps 等領域非?;馃?,企業(yè)數(shù)字化、數(shù)智化發(fā)展十分蓬勃,開源原生公司發(fā)展迅速,數(shù)據(jù)湖三劍客 Apache Iceberg、Apache Hudi 加上 DataBricks 主導的 Delta Lake 都已經(jīng)有商業(yè)化公司的助力。數(shù)據(jù)領域的估值愈發(fā)突起,比如 DBT Labs 估值已經(jīng)達到 40 多億美金,Airbyte 估值已經(jīng) 15 億美金。國內(nèi)以天謀科技、思斐、SelectDB、白鯨開源為代表的大數(shù)據(jù)開源原生公司開始展露頭角。

數(shù)據(jù)技術正在快速迭代,且迭代速度比以往任何時候都更快,每年新誕生的技術多達幾十種,在此的背景下,DataOps 應運而生。DataOps 圍繞云原生、敏捷智能化、多云能力等方向重構現(xiàn)代數(shù)據(jù)技術棧,涵蓋了現(xiàn)代數(shù)據(jù)處理的整個生命周期,包括數(shù)據(jù)采集、數(shù)據(jù)加工(ELT/ETL)、數(shù)據(jù)集成、數(shù)據(jù)安全、數(shù)據(jù)治理等多個方面,利用 DataOps 可以高效打造現(xiàn)代數(shù)據(jù)智能高速公路。

根據(jù) Gartner 的總結,我們來看一下 DataOps 在數(shù)據(jù)運營體系關鍵要素中的作用:

(1)流程控制:在 DataOps 中,自動化測試和統(tǒng)計流程控制在數(shù)據(jù)管道的每一步運行,過濾和消除數(shù)據(jù)錯誤,這些數(shù)據(jù)錯誤會破壞分析,并產(chǎn)生大量計劃外工作影響生產(chǎn)效率。

(2)變更管理:DataOps 關注的是跟蹤、更新、同步、集成和維護驅動數(shù)據(jù)分析管道的代碼、文件和功能組件。

(3)并行開發(fā):DataOps 組織并劃分數(shù)據(jù)開發(fā)各個階段,以便團隊成員可以高效地協(xié)同工作,而不會發(fā)生資源沖突。

(4)虛擬化技術環(huán)境:DataOps 會虛擬化技術環(huán)境,以便將開發(fā)與生產(chǎn)隔離。虛擬化可以讓業(yè)務創(chuàng)新更輕松地通過開發(fā)流程,并快速流向生產(chǎn)環(huán)境。當需要時,數(shù)據(jù)分析師可以快速啟動一個開發(fā)環(huán)境,其中包括所需的工具、安全訪問、數(shù)據(jù)、代碼。

(5)復用:DataOps 支持復用模型,標準化被廣泛使用的功能和分析組件,并簡化虛擬環(huán)境之間的遷移。

(6)響應能力和靈活性:DataOps 設計數(shù)據(jù)分析管道以適應不同的運行時情況。這種靈活性使分析能夠更好地響應組織的需求和不斷變化的優(yōu)先級。

(7)快速變化:DataOps 將構建技術環(huán)境,以實現(xiàn)盡可能短的開發(fā)周期時間,同時滿足數(shù)據(jù)使用者的要求。DataOps 的設計理念就是基于變革,DataOps 體系結構將動態(tài)數(shù)據(jù)處理能力視為 “核心思想”,而不是 “亡羊補牢”,做事后的更改。

(8)團隊協(xié)同:DataOps 協(xié)調(diào)任務、角色和工作流,以打破不同數(shù)據(jù)團隊和業(yè)務團隊之間的障礙,以便更好地協(xié)同工作。

可以說,DataOps 是快速實踐數(shù)字化轉型的理論指導,貫穿于現(xiàn)代數(shù)據(jù)技術棧的始末,DataOps 也是降本提效的最佳路徑,實踐 DataOps 路徑的收益立竿見影。

2063ec38-aaa4-11ed-bfe3-dac502259ad0.png

代立冬

白鯨開源聯(lián)合創(chuàng)始人,Apache DolphinScheduler PMC 主席,Apache SeaTunnel PPMC,Apache 基金會正式成員,Apache 孵化器導師,ApacheCon Asia 大數(shù)據(jù)論壇主席。

更多內(nèi)容請查看《2022 中國開源開發(fā)者報告》

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用,如有內(nèi)容侵權或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 開源
    +關注

    關注

    3

    文章

    3181

    瀏覽量

    42235
  • 內(nèi)存計算

    關注

    1

    文章

    15

    瀏覽量

    12142
  • 大數(shù)據(jù)

    關注

    64

    文章

    8831

    瀏覽量

    137137
  • 云原生
    +關注

    關注

    0

    文章

    239

    瀏覽量

    7924

原文標題:前沿開源技術領域解讀——開源大數(shù)據(jù)

文章出處:【微信號:OSC開源社區(qū),微信公眾號:OSC開源社區(qū)】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦

    介紹幾大引人注目的開源大數(shù)據(jù)工具

    大數(shù)據(jù)技術領域正被越來越多的公司關注,而開源一直是大數(shù)據(jù)技術的靈魂。隨著一些細分領域
    的頭像 發(fā)表于 01-29 08:46 ?8821次閱讀
    介紹幾大引人注目的<b class='flag-5'>開源</b><b class='flag-5'>大數(shù)據(jù)</b>工具

    常用大數(shù)據(jù)處理技術歸類

    性能方面更加出色。想要學習大數(shù)據(jù),建議從應用切入、以點帶面,先從一個實際的應用領域需求,搞定一個一個技術點,有一定功底之后,再舉一反三橫向擴展,這樣學習效果就會好很多。
    發(fā)表于 02-28 17:02

    大數(shù)據(jù)運用的技術

    處理、集群、實時性計算等,匯集了當前IT領域熱門流行的IT技術。想要學好大數(shù)據(jù)需掌握以下技術:1. Java編程技術Java編程
    發(fā)表于 04-08 16:50

    阿里巴巴高級技術專家章劍鋒:大數(shù)據(jù)發(fā)展的 8 個要點

    8、開源閉源并駕齊驅11 月 28-30 日,Apache Flink 及大數(shù)據(jù)領域年度盛會 Flink ForwardAsia 2019 將在北京國家會議中心舉辦,更多大數(shù)據(jù)
    發(fā)表于 10-14 10:56

    螞蟻集團基礎設施委員會主席何征宇:開源是核心技術戰(zhàn)略

    ,另一方面也開源了SOFAStack,其中,MOSN為雙十一提供了Mesh化解決方案。在安全容器技術領域,Kata Containers是Open Infra頂級項目,于2022年拿到SuperUser
    發(fā)表于 08-17 11:37

    征集令 | 首屆開放原子全球開源大賽等你來戰(zhàn)!

    基于開源技術和智慧交通領域相融合的創(chuàng)新解決方案,不斷融合大數(shù)據(jù)、邊緣計算、物聯(lián)網(wǎng)等技術能力,以全棧開源
    發(fā)表于 12-08 11:38

    中國開源未來發(fā)展峰會“問道 AI 分論壇”即將開幕!

    過去幾個月,AI 幾乎已經(jīng)成為全民熱議的話題。各式開源大模型、訓練框架層出不窮;AI 技術也加速應用在各個領域和行業(yè),例如服務運營優(yōu)化、解決供應鏈問題等等;數(shù)據(jù)庫、云計算、大前端等多類
    發(fā)表于 05-09 09:49

    大數(shù)據(jù)開源技術大變遷

    在這個基礎上,我們看到很多開源云計算、大數(shù)據(jù)技術框架得到了飛速發(fā)展,其中更有一些已經(jīng)成文業(yè)內(nèi)事實上的標準。這些開源框架的出現(xiàn)大幅度降低了云計算和大數(shù)
    發(fā)表于 10-10 17:02 ?0次下載

    深度解讀大數(shù)據(jù)的應用現(xiàn)狀和開源未來

    本文對當前最前沿開源大數(shù)據(jù)基準測試集進行全面總結,闡述其歷史、現(xiàn)狀并展望下一步研究方向。
    的頭像 發(fā)表于 12-21 15:57 ?4580次閱讀

    解讀ArduBee開源技術背后的創(chuàng)新

    這兩年,隨著開源技術在國內(nèi)的普及,越來越多用戶開始接觸到開源產(chǎn)品。技術的精進,使產(chǎn)品也發(fā)生了翻天覆地的變化。一些產(chǎn)品正在顛覆你的想象,比如ArduBee: ArduBee是什么?是一款
    的頭像 發(fā)表于 04-12 16:41 ?1155次閱讀
    <b class='flag-5'>解讀</b>ArduBee<b class='flag-5'>開源</b><b class='flag-5'>技術</b>背后的創(chuàng)新

    《2022開源大數(shù)據(jù)熱力報告》重磅發(fā)布

    開放原子開源基金會副秘書長劉京娟對報告進行了深度解讀 。報告基于公開數(shù)據(jù)研究最活躍的102個開源大數(shù)據(jù)項目,探尋出
    的頭像 發(fā)表于 11-06 22:15 ?755次閱讀

    開源“摩爾定律”即將打破《2022開源大數(shù)據(jù)熱力報告》云棲大會上發(fā)布

    京娟女士對報告進行了深度解讀。報告基于公開數(shù)據(jù)研究最活躍的102個開源大數(shù)據(jù)項目,探尋出開源大數(shù)據(jù)
    的頭像 發(fā)表于 11-09 15:07 ?575次閱讀

    前沿開源技術領域解讀——開源大前端

    WebGPU 是由 W3C GPU for the Web 社區(qū)組所發(fā)布的規(guī)范,目標是允許網(wǎng)頁代碼以高性能且安全可靠的方式訪問 GPU 功能。WebGPU 是一套為瀏覽器設計的次時代圖形 API 標準,為了彌合各個平臺圖形 API 的差異性
    的頭像 發(fā)表于 02-13 10:45 ?1001次閱讀

    誠邀報名|黃向東邀您共話開源工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)

    提供了堅實的技術基礎。 在推進 新型工業(yè)化建 設的征程 中, 應對各種復 雜的 工業(yè)場 景,亟 需在 底層操作系統(tǒng)、物聯(lián) 網(wǎng)數(shù)據(jù)采集、數(shù)據(jù)管 理以及數(shù)據(jù)分 析應用等 全生命周期取得 軟
    的頭像 發(fā)表于 12-05 19:35 ?497次閱讀
    誠邀報名|黃向東邀您共話<b class='flag-5'>開源</b>工業(yè)物聯(lián)網(wǎng)<b class='flag-5'>大數(shù)據(jù)</b>

    誠邀報名|黃向東邀您共話開源工業(yè)物聯(lián)網(wǎng)大數(shù)據(jù)

    堅實的技術基礎。在推進新型工業(yè)化建設的征程中,應對各種復雜的工業(yè)場景,亟需在底層操作系統(tǒng)、物聯(lián)網(wǎng)數(shù)據(jù)采集、數(shù)據(jù)管理以及數(shù)據(jù)分析應用等全生命周期取得軟件
    的頭像 發(fā)表于 12-20 16:54 ?321次閱讀
    誠邀報名|黃向東邀您共話<b class='flag-5'>開源</b>工業(yè)物聯(lián)網(wǎng)<b class='flag-5'>大數(shù)據(jù)</b>