0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

大數(shù)據(jù)的4個(gè)關(guān)鍵技術(shù)

jf_78858299 ? 來(lái)源:Datawhale ? 作者:牧小熊 ? 2023-05-10 15:30 ? 次閱讀

我們引用了大數(shù)據(jù)的4V特征

  • Volume 大數(shù)據(jù)數(shù)據(jù)量大,數(shù)據(jù)量單位為T(mén) 或者P級(jí)
  • Variety 數(shù)據(jù)類型多,大數(shù)據(jù)包含多種數(shù)據(jù)維度 比如 日志、視頻、圖片
  • Value 價(jià)值密度低,商業(yè)價(jià)值高 比如監(jiān)控視頻,其中關(guān)鍵1-2秒可能具有極高的價(jià)值
  • Velocity 要求處理速度塊

1.2 大數(shù)據(jù)的4個(gè)關(guān)鍵技術(shù)

圖片

1.3 ETL/ELT的區(qū)別

ETL 包含的過(guò)程是 Extract、Transform、Load的縮寫(xiě)

包括了數(shù)據(jù)抽取 => 轉(zhuǎn)換 => 加載三個(gè)過(guò)程

圖片

在數(shù)據(jù)源抽取后首先進(jìn)行轉(zhuǎn)換,然后將轉(zhuǎn)換的結(jié)果寫(xiě)入目的地

ETL 包含的過(guò)程是 Extract、Load、Transform的縮寫(xiě)

ELT的過(guò)程是,在抽取后將結(jié)果先寫(xiě)入目的地,然后利用數(shù)據(jù)庫(kù)的聚合分析能力或者外部計(jì)算框架,如Spark來(lái)完成轉(zhuǎn)換

目前數(shù)據(jù)主流框架是ETL,重抽取和加載,輕轉(zhuǎn)換,搭建的數(shù)據(jù)平臺(tái)屬于輕量級(jí)

ELT架構(gòu),在提取完成之后,數(shù)據(jù)加載會(huì)立即開(kāi)始,更省時(shí),數(shù)據(jù)變換這個(gè)過(guò)程根據(jù)后續(xù)使用需求在 SQL 中進(jìn)行,而不是在加載階段

ELT框架的優(yōu)點(diǎn)就是保留了原始數(shù)據(jù),能夠?qū)⒃紨?shù)據(jù)展現(xiàn)給數(shù)據(jù)分析人員

ETL相關(guān)軟件:

  • 商業(yè)軟件:Informatica PowerCenter、IBM InfoSphere DataStage、Oracle Data Integrator、Microsoft SQL Server Integration Services等
  • 開(kāi)源軟件:Kettle、DataX、Sqoop

1.4 大數(shù)據(jù)與數(shù)據(jù)庫(kù)管理系統(tǒng)

DataBase Management System,數(shù)據(jù)庫(kù)管理系統(tǒng),可以管理多個(gè)數(shù)據(jù)庫(kù)

目前關(guān)系型數(shù)據(jù)庫(kù)在DBMS中占據(jù)主流地位,常用的關(guān)系型數(shù)據(jù)庫(kù)有Oracle、MySQL和SQL Server

其中SQL就是關(guān)系型數(shù)據(jù)庫(kù)的查詢語(yǔ)言

SQL是與數(shù)據(jù)直接打交道的語(yǔ)言,是與前端、后端語(yǔ)言進(jìn)行交互的“中臺(tái)”語(yǔ)言

SQL語(yǔ)言特點(diǎn):

  • 價(jià)值大,技術(shù)、產(chǎn)品、運(yùn)營(yíng)人員都要掌握SQL,使用無(wú)處不在
  • 很少變化,SQL語(yǔ)言從誕生到現(xiàn)在,語(yǔ)法很少變化
  • 入門(mén)并不難,很多人都會(huì)寫(xiě)SQL語(yǔ)句,但是效率差別很大

除了關(guān)系型數(shù)據(jù)庫(kù)還有文檔型數(shù)據(jù)庫(kù)MongoDB、鍵值型數(shù)據(jù)庫(kù)Redis、列存儲(chǔ)數(shù)據(jù)庫(kù)Cassandra等

提到大數(shù)據(jù)就不得不說(shuō)Hive

Hive是基于Hadoop的一個(gè)數(shù)據(jù)倉(cāng)庫(kù)工具,用來(lái)進(jìn)行數(shù)據(jù)提取、轉(zhuǎn)化、加載,這是一種可以存儲(chǔ)、查詢和分析存儲(chǔ)在Hadoop中的大規(guī)模數(shù)據(jù)的機(jī)制。

Hive與關(guān)聯(lián)型數(shù)據(jù)庫(kù)RDBMS相比

不足:

  • 不能像 RDBMS 一般實(shí)時(shí)響應(yīng),Hive 查詢延時(shí)大
  • 不能像 RDBMS 做事務(wù)型查詢,Hive 沒(méi)有事務(wù)機(jī)制
  • 不能像 RDBMS 做行級(jí)別的變更操作(包括插入、更新、刪除)

優(yōu)點(diǎn):

  • Hive 沒(méi)有定長(zhǎng)的 varchar 這種類型,字符串都是 string
  • Hive 是讀時(shí)模式,保存表數(shù)據(jù)時(shí)不會(huì)對(duì)數(shù)據(jù)進(jìn)行校驗(yàn),而在讀數(shù)據(jù)時(shí)將校驗(yàn)不符合格式的數(shù)據(jù)設(shè)置為NULL

1.5 OLTP/OLAP

在數(shù)據(jù)倉(cāng)庫(kù)架構(gòu)中有非常相關(guān)的2個(gè)概念,一個(gè)是OLTP,一個(gè)是OLAP

圖片

  • OLTP( On-Line Transaction Processing )

聯(lián)機(jī)事務(wù)處理,主要是對(duì)數(shù)據(jù)的增刪改

記錄業(yè)務(wù)發(fā)生,比如購(gòu)買(mǎi)行為,發(fā)生后,要記錄是誰(shuí)在什么時(shí)候做了什么事,數(shù)據(jù)會(huì)以增刪改的方式在數(shù)據(jù)庫(kù)中進(jìn)行數(shù)據(jù)的更新處理操作

實(shí)時(shí)性高、穩(wěn)定性強(qiáng),ATM,ERP,CRM,OA等都屬于OLTP

  • OLAP( On-Line Analytical Processing )

聯(lián)機(jī)分析處理,主要是對(duì)數(shù)據(jù)的分析查詢

當(dāng)數(shù)據(jù)積累到一定的程度,需要做總結(jié)分析,BI報(bào)表=> OLAP

OLTP產(chǎn)生的數(shù)據(jù)通常在不同的業(yè)務(wù)系統(tǒng)中

OLAP需要將不同的數(shù)據(jù)源 => 數(shù)據(jù)集成 => 數(shù)據(jù)清洗 => 數(shù)據(jù)倉(cāng)庫(kù),然后由數(shù)據(jù)倉(cāng)庫(kù)統(tǒng)一提供OLAP分析

2.大數(shù)據(jù)計(jì)算

2.1 大數(shù)據(jù)計(jì)算模式

大數(shù)據(jù)計(jì)算模式 解決問(wèn)題 代表產(chǎn)品
批處理計(jì)算 針對(duì)大規(guī)模數(shù)據(jù)的批量處理 MapReduce、Spark等
流計(jì)算 針對(duì)流數(shù)據(jù)的實(shí)時(shí)計(jì)算 Storm、S4、Flume、Streams、Puma、DStream、Super Mario、銀河流數(shù)據(jù)處理平臺(tái)
圖計(jì)算 針對(duì)大規(guī)模圖結(jié)構(gòu)數(shù)據(jù)的處理 Pregel、GraphX、Giraph、PowerGraph、Hama、GoldenOrb等
查詢分析計(jì)算 大規(guī)模數(shù)據(jù)的存儲(chǔ)管理和查詢分析 Dremel、Hive、Cassandra、Impala等

2.2 Lambda大數(shù)據(jù)框架

圖片

Lambda架構(gòu):

Batch Layer(批處理層),對(duì)離線的歷史數(shù)據(jù)進(jìn)行預(yù)計(jì)算,能讓下游進(jìn)行快速查詢。因?yàn)榛谕暾臄?shù)據(jù)集,準(zhǔn)確性能得到保證??梢杂肏adoop、Spark 和 Flink 等計(jì)算框架

Speed Layer(加速處理層),處理實(shí)時(shí)的增量數(shù)據(jù),加速層的數(shù)據(jù)不如批處理層完整和準(zhǔn)確,但重點(diǎn)在于低延遲??梢杂?Spark streaming、Storm 和 Flink 等計(jì)框架算

Serving Layer(合并層),將歷史數(shù)據(jù)計(jì)算與實(shí)時(shí)數(shù)據(jù)計(jì)算合并,輸出到數(shù)據(jù)庫(kù),供下游分析

2.3 大數(shù)據(jù)典型技術(shù)

  • Hadoop

一個(gè)文件系統(tǒng),外加一個(gè)離線處理框架MapReduce,由于提供的上層api不太友好,加上MapReduce 處理框架比較慢,基本上都用作文件系統(tǒng)

  • Spark

本身是一個(gè)執(zhí)行引擎,不保存數(shù)據(jù),所以需要外部的文件系統(tǒng)(通常會(huì)基于hadoop)提出了內(nèi)存計(jì)算的概念,即盡可能把數(shù)據(jù)放到內(nèi)存中,還提供了良好的上層使用接口,包括spl語(yǔ)句(spark sql)處理數(shù)據(jù)十分方便。相比 Hadoop MapReduce 獲得了百倍的性能提升,基本上用它來(lái)做離線數(shù)據(jù)處理

  • Flink

分布式實(shí)時(shí)計(jì)算框架,具有超高的性能,支持Flink流式計(jì)算與Storm性能差不多,支持毫秒級(jí)計(jì)算

Spark 和 Flink的區(qū)別

圖片

3.大數(shù)據(jù)實(shí)踐

本文主要講解了大數(shù)據(jù)的概念和基礎(chǔ)知識(shí),幫助讀者對(duì)大數(shù)據(jù)有一個(gè)基本了解。如果對(duì)實(shí)踐有學(xué)習(xí)需要(可以留言),我再花時(shí)間整理大數(shù)據(jù)的實(shí)踐講解:Pyspark進(jìn)行Titanic乘客生存預(yù)測(cè)。使用pyspark進(jìn)行初步的大數(shù)據(jù)操作,數(shù)據(jù)選取Kaggle泰坦尼克號(hào)項(xiàng)目的數(shù)據(jù),通過(guò)Spark讀取數(shù)據(jù),并利用Spark中的ML工具對(duì)數(shù)據(jù)進(jìn)行構(gòu)建模型。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • SQL
    SQL
    +關(guān)注

    關(guān)注

    1

    文章

    751

    瀏覽量

    43987
  • volume
    +關(guān)注

    關(guān)注

    0

    文章

    5

    瀏覽量

    7828
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8832

    瀏覽量

    137138
收藏 人收藏

    評(píng)論

    相關(guān)推薦

    一文匯總大數(shù)據(jù)四大方面十五大關(guān)鍵技術(shù)

    本文針對(duì)大數(shù)據(jù)關(guān)鍵技術(shù)大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)、大數(shù)據(jù)分析挖掘四大方面的15大
    發(fā)表于 11-11 15:46 ?1w次閱讀

    汽車(chē)總線及其關(guān)鍵技術(shù)的研究

    汽車(chē)總線及其關(guān)鍵技術(shù)的研究
    發(fā)表于 07-10 11:33

    CDMA原理與關(guān)鍵技術(shù)

    CDMA原理與關(guān)鍵技術(shù)
    發(fā)表于 08-16 20:25

    工業(yè)4.O的關(guān)鍵技術(shù)

    和靈活性在內(nèi)的智能制造設(shè)計(jì),同時(shí)提供制造流程的實(shí)時(shí)視圖、連通性和通信。以下為促成更智能、更高效制造的工業(yè)4.0的一些關(guān)鍵技術(shù),:兼容的工業(yè)通信。為了獲得完整制造系統(tǒng)的透明視圖,所有數(shù)據(jù)必須通過(guò)具有共同
    發(fā)表于 03-06 06:45

    智能穿戴產(chǎn)業(yè)的五大關(guān)鍵技術(shù)

    運(yùn)算與抓取顯然是難以滿足物聯(lián)網(wǎng)時(shí)代發(fā)展需求的,于是,具有自我運(yùn)算、判斷能力的人工智能技術(shù)勢(shì)必將成為下一個(gè)關(guān)鍵技術(shù)。當(dāng)前,不論是IBM,還是阿里、百度、360等都已經(jīng)開(kāi)始布局云平臺(tái)。顯然,他們已經(jīng)
    發(fā)表于 05-09 06:20

    無(wú)人駕駛汽車(chē)的關(guān)鍵技術(shù)是什么?

    無(wú)人駕駛汽車(chē)開(kāi)發(fā)的關(guān)鍵技術(shù)主要有兩個(gè)方面:車(chē)輛定位和車(chē)輛控制技術(shù)。這兩方面相輔相成共同構(gòu)成無(wú)人駕駛汽車(chē)的基礎(chǔ)。
    發(fā)表于 03-18 09:02

    物聯(lián)網(wǎng)的關(guān)鍵技術(shù)有哪些

    物聯(lián)網(wǎng)關(guān)鍵技術(shù)————傳感器技術(shù)
    發(fā)表于 06-16 17:25

    4G移動(dòng)通信關(guān)鍵技術(shù)及特征是什么?

    4G移動(dòng)通信關(guān)鍵技術(shù)及特征是什么?
    發(fā)表于 05-26 06:37

    4G移動(dòng)通信是什么?4G中有哪些關(guān)鍵技術(shù)?

    4G移動(dòng)通信是什么?4G中有哪些關(guān)鍵技術(shù)?
    發(fā)表于 05-27 06:17

    POE的關(guān)鍵技術(shù)有哪些?

    使用以太網(wǎng)線供電的優(yōu)勢(shì)是什么?PoE設(shè)備是怎么供電的?POE的關(guān)鍵技術(shù)有哪些?
    發(fā)表于 06-10 09:26

    明白VPP關(guān)鍵技術(shù)有哪些

    隨著人工智能技術(shù)的不斷發(fā)展,越來(lái)越多的行業(yè)開(kāi)始使用人工智能技術(shù),這也使得智能虛擬代理技術(shù)得到了廣泛的應(yīng)用。為了能夠深入了解智能虛擬代理技術(shù),需要明白VPP
    發(fā)表于 08-31 07:28

    視覺(jué)導(dǎo)航關(guān)鍵技術(shù)及應(yīng)用

    由于視覺(jué)導(dǎo)航技術(shù)的應(yīng)用越來(lái)越普及 ,因此 ,有必要對(duì)視覺(jué)導(dǎo)航中的關(guān)鍵技術(shù)及應(yīng)用進(jìn)行研究。文章對(duì)其中的圖像處理技術(shù)和定位與跟蹤技術(shù)進(jìn)行了詳細(xì)研究 ,并與此相對(duì)應(yīng) ,介紹的相關(guān)的應(yīng)用。
    發(fā)表于 09-25 08:09

    大數(shù)據(jù)時(shí)代,這十五大關(guān)鍵技術(shù)你竟不知道?

    近年來(lái),大數(shù)據(jù)來(lái)勢(shì)洶洶,滲透到各行各業(yè),帶來(lái)了一場(chǎng)翻天覆地的變革。讓人們?cè)桨l(fā)認(rèn)識(shí)到,比掌握龐大的數(shù)據(jù)信息更重要的是掌握對(duì)含有意義的數(shù)據(jù)進(jìn)行專業(yè)化處理的技術(shù)。
    發(fā)表于 12-06 11:08 ?0次下載

    貴州省大數(shù)據(jù)領(lǐng)域技術(shù)榜單“大數(shù)據(jù)安全與隱私保護(hù)關(guān)鍵技術(shù)”項(xiàng)目啟動(dòng)

    記者從貴州省科技廳獲悉,日前,貴州省大數(shù)據(jù)領(lǐng)域技術(shù)榜單“大數(shù)據(jù)安全與隱私保護(hù)關(guān)鍵技術(shù)”項(xiàng)目啟動(dòng),將對(duì)公共大數(shù)據(jù)安全、隱私保護(hù)等課題開(kāi)展研究。
    發(fā)表于 05-09 16:08 ?1713次閱讀

    水文大數(shù)據(jù)標(biāo)準(zhǔn)化方法和水文大數(shù)據(jù)共享平臺(tái)關(guān)鍵技術(shù)的設(shè)計(jì)和資料概述

    本文根據(jù)水文數(shù)據(jù)的特點(diǎn)探討了水文大數(shù)據(jù)標(biāo)準(zhǔn)化方法,探索數(shù)據(jù)預(yù)處理、數(shù)據(jù)索引、數(shù)據(jù)高效存儲(chǔ)等水文大數(shù)據(jù)
    發(fā)表于 10-15 16:31 ?12次下載
    水文<b class='flag-5'>大數(shù)據(jù)</b>標(biāo)準(zhǔn)化方法和水文<b class='flag-5'>大數(shù)據(jù)</b>共享平臺(tái)<b class='flag-5'>關(guān)鍵技術(shù)</b>的設(shè)計(jì)和資料概述