中文字幕在线视频一区,无码日韩人妻精品久久,日韩国产欧美亚洲一区不卡

SPARK

Apache Spark 是專為大規(guī)模數(shù)據(jù)處理而設計的快速通用的計算引擎。Spark是UC Berkeley AMP lab （加州大學伯克利分校的AMP實驗室）所開源的類Hadoop MapReduce的通用并行框架，Spark，擁有Hadoop MapReduce所具有的優(yōu)點；但不同于MapReduce的是——Job中間輸出結果可以保存在內存中，從而不再需要讀寫HDFS，因此Spark能更好地適用于數(shù)據(jù)挖掘與機器學習等需要迭代的MapReduce的算法。

Spark 是一種與 Hadoop 相似的開源集群計算環(huán)境，但是兩者之間還存在一些不同之處，這些有用的不同之處使 Spark 在某些工作負載方面表現(xiàn)得更加優(yōu)越，換句話說，Spark 啟用了內存分布數(shù)據(jù)集，除了能夠提供交互式查詢外，它還可以優(yōu)化迭代工作負載。

Spark 是在 Scala 語言中實現(xiàn)的，它將 Scala 用作其應用程序框架。與 Hadoop 不同，Spark 和 Scala 能夠緊密集成，其中的 Scala 可以像操作本地集合對象一樣輕松地操作分布式數(shù)據(jù)集。

盡管創(chuàng)建 Spark 是為了支持分布式數(shù)據(jù)集上的迭代作業(yè)，但是實際上它是對 Hadoop 的補充，可以在 Hadoop 文件系統(tǒng)中并行運行。通過名為 Mesos 的第三方集群框架可以支持此行為。Spark 由加州大學伯克利分校 AMP 實驗室（Algorithms， Machines， and People Lab）開發(fā)，可用來構建大型的、低延遲的數(shù)據(jù)分析應用程序。

Hadoop

Hadoop是一個由Apache基金會所開發(fā)的分布式系統(tǒng)基礎架構。

用戶可以在不了解分布式底層細節(jié)的情況下，開發(fā)分布式程序。充分利用集群的威力進行高速運算和存儲。

Hadoop實現(xiàn)了一個分布式文件系統(tǒng)（Hadoop Distributed File System），簡稱HDFS。HDFS有高容錯性的特點，并且設計用來部署在低廉的（low-cost）硬件上；而且它提供高吞吐量（high throughput）來訪問應用程序的數(shù)據(jù)，適合那些有著超大數(shù)據(jù)集（large data set）的應用程序。HDFS放寬了（relax）POSIX的要求，可以以流的形式訪問（streaming access）文件系統(tǒng)中的數(shù)據(jù)。

Hadoop的框架最核心的設計就是：HDFS和MapReduce。HDFS為海量的數(shù)據(jù)提供了存儲，則MapReduce為海量的數(shù)據(jù)提供了計算。

spark和hadoop的區(qū)別

解決問題的層面不一樣

首先，Hadoop和Apache Spark兩者都是大數(shù)據(jù)框架，但是各自存在的目的不盡相同。Hadoop實質上更多是一個分布式數(shù)據(jù)基礎設施：它將巨大的數(shù)據(jù)集分派到一個由普通計算機組成的集群中的多個節(jié)點進行存儲，意味著您不需要購買和維護昂貴的服務器硬件。

同時，Hadoop還會索引和跟蹤這些數(shù)據(jù)，讓大數(shù)據(jù)處理和分析效率達到前所未有的高度。Spark，則是那么一個專門用來對那些分布式存儲的大數(shù)據(jù)進行處理的工具，它并不會進行分布式數(shù)據(jù)的存儲。

兩者可合可分

Hadoop除了提供為大家所共識的HDFS分布式數(shù)據(jù)存儲功能之外，還提供了叫做MapReduce的數(shù)據(jù)處理功能。所以這里我們完全可以拋開Spark，使用Hadoop自身的MapReduce來完成數(shù)據(jù)的處理。

相反，Spark也不是非要依附在Hadoop身上才能生存。但如上所述，畢竟它沒有提供文件管理系統(tǒng)，所以，它必須和其他的分布式文件系統(tǒng)進行集成才能運作。這里我們可以選擇Hadoop的HDFS，也可以選擇其他的基于云的數(shù)據(jù)系統(tǒng)平臺。但Spark默認來說還是被用在Hadoop上面的，畢竟，大家都認為它們的結合是最好的。

以下是從網(wǎng)上摘錄的對MapReduce的最簡潔明了的解析：

我們要數(shù)圖書館中的所有書。你數(shù)1號書架，我數(shù)2號書架。這就是“Map”。我們人越多，數(shù)書就更快。

現(xiàn)在我們到一起，把所有人的統(tǒng)計數(shù)加在一起。這就是“Reduce”。

spark和hadoop的區(qū)別

Spark數(shù)據(jù)處理速度秒殺MapReduce

Spark因為其處理數(shù)據(jù)的方式不一樣，會比MapReduce快上很多。MapReduce是分步對數(shù)據(jù)進行處理的： ”從集群中讀取數(shù)據(jù)，進行一次處理，將結果寫到集群，從集群中讀取更新后的數(shù)據(jù)，進行下一次的處理，將結果寫到集群，等等…“ Booz Allen Hamilton的數(shù)據(jù)科學家Kirk Borne如此解析。

反觀Spark，它會在內存中以接近“實時”的時間完成所有的數(shù)據(jù)分析：“從集群中讀取數(shù)據(jù)，完成所有必須的分析處理，將結果寫回集群，完成，” Born說道。Spark的批處理速度比MapReduce快近10倍，內存中的數(shù)據(jù)分析速度則快近100倍。

如果需要處理的數(shù)據(jù)和結果需求大部分情況下是靜態(tài)的，且你也有耐心等待批處理的完成的話，MapReduce的處理方式也是完全可以接受的。

但如果你需要對流數(shù)據(jù)進行分析，比如那些來自于工廠的傳感器收集回來的數(shù)據(jù)，又或者說你的應用是需要多重數(shù)據(jù)處理的，那么你也許更應該使用Spark進行處理。

大部分機器學習算法都是需要多重數(shù)據(jù)處理的。此外，通常會用到Spark的應用場景有以下方面：實時的市場活動，在線產(chǎn)品推薦，網(wǎng)絡安全分析，機器日記監(jiān)控等。

災難恢復

兩者的災難恢復方式迥異，但是都很不錯。因為Hadoop將每次處理后的數(shù)據(jù)都寫入到磁盤上，所以其天生就能很有彈性的對系統(tǒng)錯誤進行處理。

Spark的數(shù)據(jù)對象存儲在分布于數(shù)據(jù)集群中的叫做彈性分布式數(shù)據(jù)集（RDD： Resilient Distributed Dataset）中?！斑@些數(shù)據(jù)對象既可以放在內存，也可以放在磁盤，所以RDD同樣也可以提供完成的災難恢復功能，”Borne指出。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權轉載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

數(shù)據(jù)分析

數(shù)據(jù)分析

+關注

關注
2

文章
1400

瀏覽量
33963
Hadoop

Hadoop

+關注

關注
1

文章
90

瀏覽量
15935
SPARK

SPARK

+關注

關注
1

文章
105

瀏覽量
19842

大數(shù)據(jù)分析中Spark，Hadoop，Hive框架該用哪種開源分布式系統(tǒng)

眾所周知，大數(shù)據(jù)開發(fā)和分析、機器學習、數(shù)據(jù)挖掘中，都離不開各種開源分布式系統(tǒng)。最常見的就是 Hadoop、Hive、Spark這三個框架了。最近不少朋友有問到關于這些的問題：大廠里還有在用

發(fā)表于 09-17 13:17 ?4372次閱讀

如何將Hadoop部署在低廉的硬件上

了 YARN，Yarn 是資源調度框架，能夠細粒度的管理和調度任務，還能夠支持其他的計算框架，比如 spark）為核心的 Hadoop 為用戶提供了系統(tǒng)底層細節(jié)透明的分布式基礎架構。

發(fā)表于 09-27 09:40 ?1453次閱讀

山西嵌入式系統(tǒng)課程| Spark與Hadoop計算模型之Spark比Hadoop更...

上次我們分享了Spark與Hadoop計算模型的內存問題，今天山西思軟嵌入式學員為大家分享Spark與Hadoop計算模型的Spark比

發(fā)表于 11-17 16:44

Hadoop的整體框架組成

Hadoop是一個用Java編寫的Apache開源框架，允許使用簡單的編程模型跨計算機集群分布式處理大型數(shù)據(jù)集。Hadoop框架工作的應用程序在跨計算機集群提供分布式存儲和計算的環(huán)境中工作

發(fā)表于 05-11 16:00

Spark入門及安裝與配置

1.下載spark-2.1.0-bin-hadoop2.7.tgz以下是Spark的官方下載地址：https://www.apache.org/dyn/closer.lua/spark

發(fā)表于 07-31 16:22

hadoop發(fā)行版本之間的區(qū)別

hadoop發(fā)行版本之間的區(qū)別Hadoop是一個能夠對大量數(shù)據(jù)進行分布式處理的軟件框架。 Hadoop 以一種可靠、高效、可伸縮的方式進行數(shù)據(jù)處理。

發(fā)表于 09-18 16:30

hadoop框架結構的說明介紹

如下：（1）數(shù)據(jù)源與SQL引擎：DK.Hadoop、spark、hive、sqoop、flume、kafka（2）數(shù)據(jù)采集：DK.hadoop（3）數(shù)據(jù)處理模塊：DK.Hadoop、

發(fā)表于 10-15 15:59

hadoop和spark的區(qū)別

什么大的區(qū)別。我記得剛開始接觸大數(shù)據(jù)這方面內容的時候，也就這個問題查閱了一些資料，在《FreeRCH大數(shù)據(jù)一體化開發(fā)框架》的這篇說明文檔中有就Hadoop和spark的區(qū)別進行了簡單的

發(fā)表于 11-30 15:51

大數(shù)據(jù)hadoop入門之hadoop家族產(chǎn)品詳解

Spark和Strom數(shù)據(jù)存在內存中 Pig/Hive（Hadoop編程）：角色描述Pig是一種高級編程語言，在處理半結構化數(shù)據(jù)上擁有非常高的性能，可以幫助我們縮短開發(fā)周期。Hive是數(shù)據(jù)分析查詢工具，尤其在

發(fā)表于 12-26 15:02

采用VMware和CentOS及Hadoop的Spark安裝和配置

5 基于 Mac 平臺 VMware 虛擬機的 Spark 安裝 (5)

發(fā)表于 03-08 16:35

Spark和Hadoop的對比

【Spark系列】：Spark為什么比Hadoop快

發(fā)表于 04-06 09:11

如何使用Apache Spark 2.0

數(shù)據(jù)集（Resilient Distributed Dataset，RDD）一直是Spark中的主要抽象。RDD API是在Scala集合框架之后建模的，因此間接提供了Hadoop Map / Reduce熟悉的編程

發(fā)表于 09-28 19:00 ?0次下載

什么是Hadoop? Spark和Hadoop對比

Hadoop在2006年開始成為雅虎項目，隨后成為頂級的Apache開源項目。它是一種通用的分布式處理形式，具有多個組件： HDFS(分布式文件系統(tǒng))，它將文件以Hadoop本機格式存儲，并在集群中并行化; YARN，協(xié)調應用程序運行時的調度程序.

發(fā)表于 06-04 12:48 ?6778次閱讀

快速學習Spark和Hadoop的架構的方法

Spark和Hadoop的架構區(qū)別是什么，什么是spark，什么是Hadoop，怎么樣學習這些知識點？總的來說，

發(fā)表于 07-18 09:42 ?2026次閱讀

未來大數(shù)據(jù)時代，Hadoop會被Spark取代?

毫無疑問，為專家設計的產(chǎn)品一般都會停留在原來的軌道上，在其他方面不會有所涉及。但Spark在各個行業(yè)都存在一些有意義的分布，這可能要歸功于各種市場上的大數(shù)據(jù)的泛濫。所以，雖然Spark可能有更廣泛的應用，但Hadoop仍然支配著

發(fā)表于 03-20 14:12 ?2449次閱讀

搜索歷史

spark和hadoop的區(qū)別

SPARK

Hadoop

spark和hadoop的區(qū)別

評論

大數(shù)據(jù)分析中Spark，Hadoop，Hive框架該用哪種開源分布式系統(tǒng)

如何將Hadoop部署在低廉的硬件上

山西嵌入式系統(tǒng)課程| Spark與Hadoop計算模型之Spark比Hadoop更...

Hadoop的整體框架組成

Spark入門及安裝與配置

hadoop發(fā)行版本之間的區(qū)別

hadoop框架結構的說明介紹

hadoop和spark的區(qū)別

大數(shù)據(jù)hadoop入門之hadoop家族產(chǎn)品詳解

采用VMware和CentOS及Hadoop的Spark安裝和配置

Spark和Hadoop的對比

如何使用Apache Spark 2.0

什么是Hadoop? Spark和Hadoop對比

快速學習Spark和Hadoop的架構的方法

未來大數(shù)據(jù)時代，Hadoop會被Spark取代?