0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

對于大數(shù)據(jù)的處理,主要有幾個工具引擎

姚小熊27 ? 來源:今日頭條 ? 作者:今日頭條 ? 2020-11-05 10:14 ? 次閱讀

提到大數(shù)據(jù),我們就離不開數(shù)據(jù)的收集整理,其中ETL是我們經(jīng)常使用的用于構(gòu)建數(shù)據(jù)倉庫, 構(gòu)建大數(shù)據(jù)的方法。

大數(shù)據(jù)處理階段

此階段的目標(biāo)是使用單個模式來清理,規(guī)范化,處理和保存數(shù)據(jù)。最終結(jié)果是具有定義良好的架構(gòu)的可信數(shù)據(jù)集。例如Spark之類的處理框架用于在機(jī)器集群中并行處理數(shù)據(jù)。在這里我們需要進(jìn)行數(shù)據(jù)的驗證,隔離掉不合法的數(shù)據(jù),我們需要對不良數(shù)據(jù)進(jìn)行篩選過濾。對于不規(guī)范的數(shù)據(jù),我們需要有整理和清潔功能,我們要能夠?qū)⒁恍┑托У母袷饺雑son進(jìn)行轉(zhuǎn)換。同時我們可能還需要一些標(biāo)準(zhǔn)化的操作,比如對一些數(shù)值進(jìn)行小數(shù)點(diǎn)位的精度轉(zhuǎn)化。

大數(shù)據(jù)處理的最終目的就是創(chuàng)建一個可信數(shù)據(jù)集,然后下游系統(tǒng)可以依賴此數(shù)據(jù)源進(jìn)行業(yè)務(wù)分析和數(shù)據(jù)計算。

對于大數(shù)據(jù)的處理,主要有下面的幾個工具引擎。

Apache Hive

它是將SQL請求轉(zhuǎn)換為MapReduce任務(wù)鏈的引擎。它主要實現(xiàn)的功能是對傳入的SQL進(jìn)行排序然后優(yōu)化排序結(jié)果,最終得到高效率的請求結(jié)果。2018年它將MapReduce替換為Tez作為搜索引擎。它具有機(jī)器學(xué)習(xí)功能,并且在和其他流行的大數(shù)據(jù)框架進(jìn)行集成。

Apache Spark

這是最著名的批處理框架。它是Hadoop生態(tài)系統(tǒng)的一部分,是一個托管集群,可提供強(qiáng)大的并性,有著精準(zhǔn)的監(jiān)控和出色的UI。它還支持流處理(結(jié)構(gòu)化流)?;旧?,Spark在內(nèi)存中運(yùn)行MapReduce作業(yè),其性能是常規(guī)MapReduce性能的100倍。它與Hive集成以支持SQL,并可用于創(chuàng)建Hive表,視圖或查詢數(shù)據(jù)。它具有很多集成,支持多種格式,并且擁有龐大的社區(qū)。所有云提供商都支持它。它可以在YARN上運(yùn)行作為Hadoop集群的一部分,還可以在Kubernetes和其他平臺中使用。它具有許多的第三方庫可以使用。

Apache Flink

第一個統(tǒng)一批處理和流傳輸?shù)囊?,它可以用作像Kafka這樣的微服務(wù)的主干。它可以作為Hadoop集群的一部分在YARN上運(yùn)行,它還針對其他平臺(如Kubernetes或Mesos)進(jìn)行了優(yōu)化。它非???,并且提供實時流傳輸,使其成為針對低延遲流處理(尤其是有狀態(tài)流)的一個比Spark更好的選擇。它還具有用于SQL,機(jī)器學(xué)習(xí)等的庫。它比Spark更快,是數(shù)據(jù)流的更好選擇。

Apache Storm

是一個免費(fèi)和開源的分布式實時計算系統(tǒng),它專注于流傳輸,是Hadoop生態(tài)系統(tǒng)的托管解決方案部分。它具有可擴(kuò)展性,容錯性,可確保您的數(shù)據(jù)將得到處理,并且易于設(shè)置和操作。

Apache Samza

一個出色的有狀態(tài)流處理引擎。Samza允許您構(gòu)建有狀態(tài)的應(yīng)用程序,它可以從多個來源實時處理數(shù)據(jù)。它不僅可以在YARN集群上運(yùn)行,也可以作為獨(dú)立庫單獨(dú)運(yùn)行。

Apache Beam

它本身不是引擎,而是將所有其他引擎結(jié)合在一起的統(tǒng)一編程模型的規(guī)范。它提供了可以與不同語言一起使用的編程模型,因此開發(fā)人員在處理大數(shù)據(jù)管道時不必學(xué)習(xí)新的語言。然后,它為可以在云或本地運(yùn)行的處理步驟插入了不同的后端。Beam支持前面提到的所有引擎,您可以在它們之間輕松切換并在任何平臺上運(yùn)行它們:云,YARN,Mesos,Kubernetes。如果您要開始一個新項目,那么建議您從Beam開始,因為Beam是面向未來的。

Presto

Presto是一個開放源代碼的分布式SQL查詢引擎,適合于對各種大小,各種數(shù)據(jù)源進(jìn)行交互式分析查詢。

Presto是專為交互式分析而設(shè)計和編寫的,當(dāng)它的規(guī)模擴(kuò)展到一定的規(guī)模的時候,它也可以實現(xiàn)商業(yè)數(shù)據(jù)倉庫的處理速度。

Presto允許查詢數(shù)據(jù)存在多個地方,包括Hive,Cassandra,關(guān)系數(shù)據(jù)庫甚至專有數(shù)據(jù)存儲。一個Presto查詢可以合并來自多個來源的數(shù)據(jù),從而可以在整個組織中進(jìn)行分析。

Presto適用于期望響應(yīng)時間從亞秒到數(shù)分鐘不等的分析師。Presto打破了使用昂貴的商業(yè)解決方案進(jìn)行快速分析或使用需要大量硬件的慢速“免費(fèi)”解決方案之間的錯誤選擇。

總結(jié)

處理引擎是當(dāng)前在大數(shù)據(jù)詞中使用的很著名的工具。作為大數(shù)據(jù)工程師,您將經(jīng)常使用這些引擎。了解這些引擎的分布式特性并知道如何優(yōu)化它們,保護(hù)它們并監(jiān)視它們至關(guān)重要。

請記住,還有一些OLAP引擎提供了一種查詢大量數(shù)據(jù)的單一解決方案,而無需編寫復(fù)雜的轉(zhuǎn)換,而是通過以一種特定的格式加載數(shù)據(jù)來提高查詢的性能。

對于一個新項目,建議您研究Apache Beam,因為它在所有其他引擎的基礎(chǔ)上提供了一個抽象,使您無需更改代碼即可更改處理引擎。

對于流處理,特別是有狀態(tài)流處理,請考慮Flink或Samza。對于批處理,請使用Spark。
責(zé)任編輯:YYX

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8832

    瀏覽量

    137138
收藏 人收藏

    評論

    相關(guān)推薦

    SMT錫膏鋼網(wǎng)的清洗工藝主要有哪些?

    成本,就需要選擇合適的清洗工藝及清洗劑。下面佳金源錫膏廠家來講解一下SMT錫膏鋼網(wǎng)的清洗工藝主要有哪些?一、手工浸泡擦洗方式:手工浸泡擦洗就是把SMT鋼網(wǎng)浸泡入清
    的頭像 發(fā)表于 08-26 16:22 ?343次閱讀
    SMT錫膏鋼網(wǎng)的清洗工藝<b class='flag-5'>主要有</b>哪些?

    邊緣計算網(wǎng)關(guān)主要有哪些功能?

    數(shù)據(jù)處理效率以及減輕云數(shù)據(jù)中心壓力等方面發(fā)揮了重要作用。接下來,我們將詳細(xì)探討邊緣計算網(wǎng)關(guān)的主要功能。 一、數(shù)據(jù)采集與處理 邊緣計算網(wǎng)關(guān)具備
    的頭像 發(fā)表于 04-16 15:24 ?731次閱讀

    在PCB板上加入晶振的原因主要有哪些?

    一定的時序和頻率要求。這就需要晶振這一重要的電子元件來提供穩(wěn)定的時鐘信號。 在PCB板上加入晶振的原因主要有以下幾點(diǎn): 1.提供穩(wěn)定的時鐘信號:晶振可以產(chǎn)生穩(wěn)定、準(zhǔn)確的振蕩信號,為電子設(shè)備提供穩(wěn)定
    發(fā)表于 04-09 17:06

    X安規(guī)電容和CBB電容主要有哪些區(qū)別呢?

    X安規(guī)電容主要指X1和X2安規(guī)電容器,而CBB電容的種類就更多了,主要有CBB21/CBB22、MPB盒裝電容、CBB81諧振電容、MMKP82雙面金屬化電容等。
    的頭像 發(fā)表于 04-08 11:18 ?1440次閱讀

    多路復(fù)用技術(shù)主要有幾種類型?它們各有什么特點(diǎn)?

    多路復(fù)用技術(shù)主要有幾種類型?它們各有什么特點(diǎn)? 多路復(fù)用技術(shù)主要有以下幾種類型:進(jìn)程多路復(fù)用、I/O多路復(fù)用、信號驅(qū)動I/O和異步I/O。每種類型都有其特點(diǎn)和應(yīng)用場景。 1. 進(jìn)程多路復(fù)用:進(jìn)程
    的頭像 發(fā)表于 03-28 15:36 ?2110次閱讀

    編碼器的類型主要有哪幾種?

    編碼器類型主要有兩種:絕對編碼器和增量編碼器。
    的頭像 發(fā)表于 02-20 18:14 ?1740次閱讀

    請問TC234和TC275主要有哪些區(qū)別?

    TC234 和TC275主要有哪些區(qū)別?
    發(fā)表于 02-20 06:30

    變壓器的保護(hù)主要有哪些?主變跳閘后應(yīng)該如何處理?

    變壓器的保護(hù)主要有哪些?主變跳閘后應(yīng)該如何處理? 變壓器的保護(hù)主要包括過載保護(hù)、短路保護(hù)、過壓保護(hù)、欠壓保護(hù)、過溫保護(hù)等。在變壓器跳閘后需要進(jìn)行一系列處理工作,包括檢查故障原因、消除故
    的頭像 發(fā)表于 12-18 16:58 ?1692次閱讀

    電動機(jī)振動大的原因主要有哪些

    電動機(jī)振動大的原因主要有哪些? 電動機(jī)振動大的原因可以從以下幾個方面進(jìn)行探討: 一、結(jié)構(gòu)與設(shè)計問題: 1.剛性不足:電動機(jī)的結(jié)構(gòu)剛性不足,例如機(jī)殼、定子、轉(zhuǎn)子等零部件的連接方式不牢固,容易引起振動
    的頭像 發(fā)表于 12-12 14:04 ?2248次閱讀

    Get職場新知識:做分析,用大數(shù)據(jù)分析工具

    分析工具值得推薦? 那就得是奧威BI大數(shù)據(jù)分析工具。主要原因有三: 1、奧威BI方案,開箱即用,立得百張BI報表,大量節(jié)省BI報表開發(fā)時間,一步到位完成銷售、財務(wù)、庫存、采購、應(yīng)收、生
    發(fā)表于 12-05 09:36

    zookeeper集群主要有哪三種角色

    Zookeeper是一個開源的分布式協(xié)調(diào)服務(wù),用于維護(hù)和管理分布式集群中的配置信息、命名服務(wù)、分布式鎖、領(lǐng)導(dǎo)者選舉等。在Zookeeper集群中,主要有以下三種角色:Leader、Follower
    的頭像 發(fā)表于 12-03 16:35 ?2853次閱讀

    電源變頻驅(qū)動主要有哪2種驅(qū)動方式?

    電源變頻驅(qū)動主要有哪2種驅(qū)動方式? 電源變頻驅(qū)動是一種通過調(diào)節(jié)電源輸出頻率的方法來控制電機(jī)的轉(zhuǎn)速和運(yùn)行模式。它適用于各種需要控制電機(jī)轉(zhuǎn)速和降低能耗的應(yīng)用,如工業(yè)生產(chǎn)線、空調(diào)系統(tǒng)、通風(fēng)系統(tǒng)、泵站等
    的頭像 發(fā)表于 11-16 14:47 ?524次閱讀

    mysql主從復(fù)制主要有幾種模式

    MySQL主從復(fù)制是MySQL數(shù)據(jù)庫中常用的一種數(shù)據(jù)復(fù)制方式,用于實現(xiàn)數(shù)據(jù)的備份、負(fù)載均衡、故障恢復(fù)等目的。主從復(fù)制主要有以下幾種模式: 異步復(fù)制 異步復(fù)制是MySQL主從復(fù)制的默認(rèn)模
    的頭像 發(fā)表于 11-16 14:15 ?1094次閱讀

    現(xiàn)在32位和64位mcu主要有哪些?哪種性價比高呢?

    現(xiàn)在32位和64位mcu主要有哪些?哪種性價比高?
    發(fā)表于 11-08 08:26

    單片機(jī)的存儲器主要有幾個物理存儲空間?

    單片機(jī)的存儲器主要有幾個物理存儲空間
    發(fā)表于 11-01 06:22