0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

如何定義大數(shù)據(jù),大數(shù)據(jù)的特點及主流平臺

RG15206629988 ? 來源:學(xué)堂在線 ? 2023-02-02 15:57 ? 次閱讀

一、大數(shù)據(jù)定義

大數(shù)據(jù)尚未形成統(tǒng)一的定義,主流的定義包括三種:

(1)高德納咨詢公司(Gartner Group)對大數(shù)據(jù)的定義:大數(shù)據(jù)又可被稱為巨量資料,是指需要新處理模式才能具有更強的決策力、洞察發(fā)現(xiàn)力、流程優(yōu)化能力的海量、高增長率、多樣化的信息資產(chǎn)。

(2)維克托·邁爾·舍恩伯格和肯尼斯·庫克耶編寫的《大數(shù)據(jù)時代》對大數(shù)據(jù)的定義:相較于隨機分析法中的抽樣調(diào)查數(shù)據(jù),大數(shù)據(jù)指所有數(shù)據(jù)(含個人理解)。

(3)著云臺(根據(jù)百度百科:一家中國云服務(wù)企業(yè))的分析師團隊對大數(shù)據(jù)的定義:通常形容一個公司創(chuàng)造的大量非結(jié)構(gòu)化數(shù)據(jù)和半結(jié)構(gòu)化數(shù)據(jù),此類數(shù)據(jù)在下載至關(guān)系型數(shù)據(jù)庫用于分析時會花費較多時間和金錢。

36444386-a2a2-11ed-bfe3-dac502259ad0.png

圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》

二、大數(shù)據(jù)的特點

大數(shù)據(jù)的特點也被稱為大數(shù)據(jù)的4個“V”,具體如下: (1)數(shù)據(jù)量大(Volume),集中存儲和集中計算已無法處理其數(shù)據(jù)量。 數(shù)據(jù)量大舉例:tumblr(全球最大輕博客網(wǎng)站)每日產(chǎn)出9500萬條信息,F(xiàn)acebook每日產(chǎn)出25TB日志數(shù)據(jù),YouTube每日新增視頻數(shù)據(jù)量168TB。 (2)數(shù)據(jù)種類和來源多樣(Variety)。大數(shù)據(jù)的數(shù)據(jù)種類包括:結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。非結(jié)構(gòu)化數(shù)據(jù)占比為80%,且非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)量以63%的年增長率增長(非結(jié)構(gòu)化數(shù)據(jù)沒有統(tǒng)一的數(shù)據(jù)處理技術(shù))。大數(shù)據(jù)的數(shù)據(jù)來源包括:日志、圖片、視頻、文檔、地理位置等。 (3)需要較快的分析處理速度(Velocity)。因為大數(shù)據(jù)產(chǎn)生速度快,所以也需要較快的分析處理速度。 (4)價值密度較低,但商業(yè)價值高(Value)。因為大數(shù)據(jù)數(shù)據(jù)量大,所以價值密度相對較低。但通過大數(shù)據(jù)分析,可以為企業(yè)創(chuàng)造高的價值。

三、大數(shù)據(jù)平臺

目前,大數(shù)據(jù)主流技術(shù)平臺是Hadoop。Hadoop被公認(rèn)為大數(shù)據(jù)標(biāo)準(zhǔn)開源軟件。Hadoop創(chuàng)立于2002年,創(chuàng)始人是Doug Cutting,Hadoop名稱來源于Doug Cutting兒子的一頭黃色大象玩具。 Hadoop的發(fā)展歷程如圖一所示。Hadoop項目于2006年2月被單獨立項(根據(jù)百度百科:此前為Apache Lucene的子項目之一),2008年打破1TB數(shù)據(jù)排序紀(jì)錄,2017年Hadoop3.0版本發(fā)布。

36dffbc8-a2a2-11ed-bfe3-dac502259ad0.png

圖片來源:學(xué)堂在線《大數(shù)據(jù)導(dǎo)論》 Hadoop的主流版本包括:Apache Hadoop、CDH。

(1)Apache Hadoop Apache Hadoop的優(yōu)點包括: 1)完全開源免費。 2)社區(qū)活躍。 3)文檔資料詳實。 Apache Hadoop的缺點包括: 1)版本管理比較混亂。 2)選擇生態(tài)組件時需要考慮兼容性問題。 3)集群的部署安裝配置復(fù)雜,集群運維復(fù)雜。

(2)CDH CDH由CLOUDERA維護。

CDH的優(yōu)點包括: 1)基于Apache協(xié)議,100%開源。 2)版本管理清晰,相比于Apache Hadoop在兼容性、安全性、穩(wěn)定性方面更優(yōu)。 3)提供了部署、安裝、配置工具,大大提高了集群部署的效率。 4)提供了管理、監(jiān)控、診斷、配置修改的工具,管理配置方便。 CDH的缺點是設(shè)計廠商鎖定問題。如果某公司選用CDH,當(dāng)公司需要改用其他平臺的服務(wù)時,可能對該公司生產(chǎn)環(huán)境產(chǎn)生較大影響,即該公司被CDH廠商鎖定。

編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 大數(shù)據(jù)
    +關(guān)注

    關(guān)注

    64

    文章

    8831

    瀏覽量

    137137

原文標(biāo)題:大數(shù)據(jù)相關(guān)介紹(1)——大數(shù)據(jù)概述(上)

文章出處:【微信號:行業(yè)學(xué)習(xí)與研究,微信公眾號:行業(yè)學(xué)習(xí)與研究】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦

    探尋大數(shù)據(jù)時代的商業(yè)變革

    `科技的進步在很多時候總會超出我們的想象。近年來,“大數(shù)據(jù)”一詞逐漸被大眾所熟知,人們用它來描述和定義信息爆炸時代產(chǎn)生的海量數(shù)據(jù),并命名與之相關(guān)的技術(shù)發(fā)展與創(chuàng)新。大數(shù)據(jù)時代已然來臨,它
    發(fā)表于 05-27 17:11

    為什么小數(shù)據(jù)大數(shù)據(jù)更重要

    of Things (物聯(lián)網(wǎng),簡稱IoT)的為題“數(shù)據(jù)與分析:從小數(shù)據(jù)大數(shù)據(jù)”的演講,旨在通過谷歌云平臺利用各種日常電子設(shè)備進行小數(shù)據(jù)
    發(fā)表于 12-27 14:54

    常見大數(shù)據(jù)應(yīng)用有哪些?

    大數(shù)據(jù)技術(shù)為決策提供依據(jù),在***、企業(yè)、科研項目等決策中扮演著重要的角色,在社會治理和企業(yè)管理中起到了不容忽視的作用,很多國家,如中國、美國以及歐盟等都已將大數(shù)據(jù)列入國家發(fā)展戰(zhàn)略,微軟、谷歌、百度
    發(fā)表于 03-13 16:50

    大數(shù)據(jù)運用的技術(shù)

    處理、集群、實時性計算等,匯集了當(dāng)前IT領(lǐng)域熱門流行的IT技術(shù)。想要學(xué)好大數(shù)據(jù)需掌握以下技術(shù):1. Java編程技術(shù)Java編程技術(shù)是大數(shù)據(jù)學(xué)習(xí)的基礎(chǔ),Java是一種強類型語言,擁有極高的跨平臺能力
    發(fā)表于 04-08 16:50

    大數(shù)據(jù)專業(yè)技術(shù)學(xué)習(xí)之大數(shù)據(jù)處理流程

    隨著互聯(lián)網(wǎng)的發(fā)展,大數(shù)據(jù)也在逐漸彰顯出自己的優(yōu)勢特點,那么關(guān)于大數(shù)據(jù)的處理流程,你是否了解?第一,數(shù)據(jù)采集定義:利用多種輕型
    發(fā)表于 06-11 16:41

    DKHadoop大數(shù)據(jù)平臺架構(gòu)詳解

    大數(shù)據(jù)的時代已經(jīng)來了,信息的爆炸式增長使得越來越多的行業(yè)面臨這大量數(shù)據(jù)需要存儲和分析的挑戰(zhàn)。Hadoop作為一個開源的分布式并行處理平臺,以其高拓展、高效率、高可靠等優(yōu)點越來越受到歡迎。這同時也帶動
    發(fā)表于 10-17 15:12

    DKhadoop大數(shù)據(jù)平臺基礎(chǔ)框架方案概述

    也不是特別長。僅以我熟悉的DKhadoop為例給大家分享一些小知識,往對初學(xué)者有點小幫助就可以了。大數(shù)據(jù)平臺基礎(chǔ)框架是很多初學(xué)者必然要掌握的內(nèi)容,大數(shù)據(jù)太過抽象,有時候?qū)懛窒淼臅r候難免感覺寫的很多困難
    發(fā)表于 10-31 13:58

    基于hadoop的免費大數(shù)據(jù)平臺有哪些?

    時期內(nèi)關(guān)于大數(shù)據(jù)應(yīng)用開發(fā)又將進入到一個新的階段。現(xiàn)在市面上圍繞大數(shù)據(jù)的應(yīng)用開發(fā)如火如荼,比如,企業(yè)級大數(shù)據(jù)處理平臺開發(fā)、政務(wù)大數(shù)據(jù)
    發(fā)表于 11-07 14:10

    工業(yè)大數(shù)據(jù)分析平臺的應(yīng)用價值探討

    一條很有意思的娛樂新聞——警方在某歌手的演唱會上抓捕了好幾個被網(wǎng)上追逃的人。這同樣是大數(shù)據(jù)技術(shù)的應(yīng)用······工業(yè)大數(shù)據(jù)分析平臺是利用大數(shù)據(jù)技術(shù)開發(fā)搭建的為工業(yè)企業(yè)服務(wù)的一體化信息
    發(fā)表于 11-12 15:56

    大數(shù)據(jù)平臺開發(fā)公司有哪些?

    的關(guān)鍵。越來越多的企業(yè)開始重視大數(shù)據(jù)戰(zhàn)略布局,并重新定義了自己的核心競爭力。這里就給大家整理一些國內(nèi)的站在大數(shù)據(jù)風(fēng)口的公司。如果在網(wǎng)絡(luò)上查一下“國內(nèi)大數(shù)據(jù)公司”,你就會發(fā)現(xiàn)各式各樣的排
    發(fā)表于 11-15 15:17

    大數(shù)據(jù)定義及其應(yīng)用

    目錄1、大數(shù)據(jù)概述1.1. 概述1.2. 大數(shù)據(jù)定義1.3. 大數(shù)據(jù)技術(shù)發(fā)展2、大數(shù)據(jù)應(yīng)用2.1. 大數(shù)
    發(fā)表于 07-12 06:12

    什么是大數(shù)據(jù)?大數(shù)據(jù)特點有哪些

    大數(shù)據(jù)(big data)目錄1什么是大數(shù)據(jù)2大數(shù)據(jù)定義3大數(shù)據(jù)特點[1]4
    發(fā)表于 07-12 06:52

    大數(shù)據(jù)技術(shù)與應(yīng)用是學(xué)什么的?

    大規(guī)模并行處理數(shù)據(jù)庫,數(shù)據(jù)挖掘電網(wǎng),分布式文件系統(tǒng),分布式數(shù)據(jù)庫,云計算平臺,互聯(lián)網(wǎng),和可擴展的存儲系統(tǒng)。[編輯]大數(shù)據(jù)
    發(fā)表于 07-27 07:47

    什么是大數(shù)據(jù)

    近幾年,"大數(shù)據(jù)"這個詞以烈火燎原之勢,在互聯(lián)網(wǎng)領(lǐng)域迅速的扎根生長。尤其是"大數(shù)據(jù)"時代的到來,刺激了各大行業(yè)發(fā)展,也增加了很多相關(guān)崗位。許多人了解情況之后
    發(fā)表于 08-31 08:52

    物聯(lián)網(wǎng)大數(shù)據(jù)平臺具備的特點

    物聯(lián)網(wǎng)大數(shù)據(jù)平臺應(yīng)具備的功能和特點
    的頭像 發(fā)表于 08-26 15:16 ?4162次閱讀