大數(shù)據(jù)處理關(guān)鍵技術(shù)一般包括:大數(shù)據(jù)采集、大數(shù)據(jù)預(yù)處理、大數(shù)據(jù)存儲(chǔ)及管理、大數(shù)據(jù)分析及挖掘、大數(shù)據(jù)展現(xiàn)和應(yīng)用(大數(shù)據(jù)檢索、大數(shù)據(jù)可視化、大數(shù)據(jù)應(yīng)用大數(shù)據(jù)安全等)。
大數(shù)據(jù)采集技術(shù):
數(shù)據(jù)是指通過(guò)REID射頻數(shù)據(jù)、傳威器數(shù)據(jù)、社交網(wǎng)絡(luò)交互數(shù)據(jù)及移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)等方式獲得的各種類(lèi)型的結(jié)構(gòu)化、半結(jié)構(gòu)化(或稱之為弱結(jié)構(gòu)化)及非結(jié)構(gòu)化的海量數(shù)據(jù),是大數(shù)據(jù)知識(shí)服務(wù)模型的根本。重點(diǎn)要突破分布式高速高可靠數(shù)據(jù)爬取或采集、高速數(shù)據(jù)全映像等大數(shù)據(jù)收集技術(shù);突破高速數(shù)據(jù)解析、轉(zhuǎn)換與裝載等大數(shù)據(jù)整合技術(shù);設(shè)計(jì)質(zhì)量評(píng)估模型,開(kāi)發(fā)數(shù)據(jù)質(zhì)量技術(shù)。
大數(shù)據(jù)采集一般分為大數(shù)據(jù)智能感知層:主要包括數(shù)據(jù)傳感體系、網(wǎng)絡(luò)通信體系、傳感適配體系、智能識(shí)別體系及軟硬件資源接入系統(tǒng),實(shí)現(xiàn)對(duì)結(jié)構(gòu)化、半結(jié)構(gòu)化、非結(jié)構(gòu)化的海量數(shù)據(jù)的智能化識(shí)別、定位、跟蹤、接入、傳輸、信號(hào)轉(zhuǎn)換、監(jiān)控、初步處理和管理等。必須著重攻克針對(duì)大數(shù)據(jù)源的智能識(shí)別、感知、適配、傳輸、接入等技術(shù)?;A(chǔ)支撐層;提供大數(shù)據(jù)服務(wù)平臺(tái)所器的虛擬服務(wù)器,結(jié)構(gòu)化、半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的數(shù)據(jù)庫(kù)及物聯(lián)網(wǎng)絡(luò)資源等基礎(chǔ)支撐環(huán)境。重點(diǎn)攻克分布式虛擬存儲(chǔ)技術(shù),大數(shù)據(jù)獲取、存儲(chǔ)、組織、分析和決策操作的可視化接口技術(shù),大數(shù)據(jù)的網(wǎng)絡(luò)傳輸與壓縮技術(shù),大數(shù)據(jù)隱私保護(hù)技術(shù)等。
大數(shù)據(jù)預(yù)處理技術(shù):
主要完成對(duì)已接收數(shù)據(jù)的辨析、抽取、清洗等操作。
1)抽取:因獲取的數(shù)據(jù)可能具有多種結(jié)構(gòu)和類(lèi)型,數(shù)據(jù)抽取過(guò)程可以幫助
我們將這些復(fù)雜的數(shù)據(jù)轉(zhuǎn)化為單一的或者便于處理的構(gòu)型,以達(dá)到快速分析處理的目的。
2)清洗:對(duì)于大數(shù)據(jù),并不全是有價(jià)值的,有些數(shù)據(jù)并不是我們所關(guān)心的
內(nèi)容,而另一些數(shù)據(jù)則是完全錯(cuò)誤的干擾項(xiàng),因此要對(duì)數(shù)據(jù)通過(guò)過(guò)濾“去噪”從而提取出有效數(shù)據(jù)。
大數(shù)據(jù)存儲(chǔ)及管理技術(shù):
大數(shù)據(jù)存儲(chǔ)與管理要用存儲(chǔ)器把采集到的數(shù)據(jù)存儲(chǔ)起來(lái),建立相應(yīng)的數(shù)據(jù)庫(kù),并進(jìn)行管理和調(diào)用。重點(diǎn)解決復(fù)雜結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化大數(shù)據(jù)管理與處理技術(shù)。主要解決大數(shù)據(jù)的可存儲(chǔ)、可表示、可處理、可靠性及有效傳輸?shù)葍簜€(gè)關(guān)鍵問(wèn)題。開(kāi)發(fā)可靠的分布式文件系統(tǒng)(DFS)、能效優(yōu)化的存儲(chǔ)、計(jì)算融入存儲(chǔ)、大數(shù)據(jù)的去冗余及高效低成本的大數(shù)據(jù)存儲(chǔ)技術(shù);突破分布式非關(guān)系型大數(shù)據(jù)管理與處理技術(shù)異構(gòu)數(shù)據(jù)的數(shù)據(jù)融合技術(shù),數(shù)據(jù)組織技術(shù),研究大數(shù)據(jù)建模技術(shù);突破大數(shù)據(jù)索引技術(shù);突破大數(shù)據(jù)移動(dòng)、備份、復(fù)制等技術(shù):開(kāi)發(fā)大數(shù)據(jù)可視化技術(shù)。
開(kāi)發(fā)新型數(shù)據(jù)庫(kù)技術(shù),數(shù)據(jù)庫(kù)分為關(guān)系型數(shù)據(jù)庫(kù)、非關(guān)系型數(shù)據(jù)庫(kù)以及數(shù)據(jù)庫(kù)緩存系統(tǒng)。其中,非關(guān)系型數(shù)據(jù)庫(kù)主要指的是NoSQL數(shù)據(jù)庫(kù),分為:鍵值數(shù)據(jù)庫(kù)、列存數(shù)據(jù)庫(kù)、圖存數(shù)據(jù)庫(kù)以及文檔數(shù)據(jù)庫(kù)等類(lèi)型。關(guān)系型數(shù)據(jù)庫(kù)包含了傳統(tǒng)關(guān)系數(shù)據(jù)庫(kù)系統(tǒng)以及NewSQL 數(shù)據(jù)庫(kù)。
開(kāi)發(fā)大數(shù)據(jù)安全技術(shù)。收進(jìn)數(shù)據(jù)銷(xiāo)毀、透明加解密、分布式訪問(wèn)控制、數(shù)據(jù)審計(jì)等技術(shù):突破隱私保護(hù)和推理控制、數(shù)據(jù)真?zhèn)巫R(shí)別和取證、數(shù)據(jù)持有完整性驗(yàn)證等技術(shù)。
大數(shù)據(jù)分析及挖掘技術(shù):
大數(shù)據(jù)分析技術(shù)。改進(jìn)已有數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)技術(shù);開(kāi)發(fā)數(shù)據(jù)網(wǎng)絡(luò)挖掘、特異群組挖掘、圖挖掘等新型數(shù)據(jù)挖掘技術(shù);突破基于對(duì)象的數(shù)據(jù)連接相似性連護(hù)第大數(shù)據(jù)融合技術(shù):突破用戶興趣分析、網(wǎng)絡(luò)行為介析、情感語(yǔ)義介析等面向領(lǐng)域的大數(shù)據(jù)挖掘技術(shù)。
數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘涉及的技術(shù)方法很多,有多種分類(lèi)法。根據(jù)挖掘任務(wù)可分為分類(lèi)或預(yù)測(cè)模型發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、聚類(lèi)關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等等;根據(jù)挖擁對(duì)象可分為關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及環(huán)球網(wǎng)Web;根據(jù)挖掘方法分,可粗分為:機(jī)器學(xué)習(xí)方法、統(tǒng)計(jì)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫(kù)方法。機(jī)器學(xué)習(xí)中,可細(xì)分為:歸納學(xué)習(xí)方法(決策樹(shù)、規(guī)則歸納等)、基于 X 例學(xué)習(xí)、遺傳算法筆。統(tǒng)讓方法中,可細(xì)分為:回歸分析(多元/口歸、自回歸等)、判別分析(貝葉斯判別、費(fèi)歇爾判別、非參數(shù)判別等) 聚類(lèi)分析(系統(tǒng)聚類(lèi)、動(dòng)態(tài)聚類(lèi)等)、探索性分析(主元分析法、相關(guān)分析法等)等。神經(jīng)網(wǎng)絡(luò)方法中,可細(xì)分為:前向神經(jīng)網(wǎng)絡(luò)(BP算法等)、自組織神經(jīng)網(wǎng)絡(luò)(自組織特征映射、競(jìng)爭(zhēng)學(xué)習(xí)等)等。數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。
從挖掘任務(wù)和挖掘方法的角度,著重突破:1可視化分析。數(shù)據(jù)可視化無(wú)論對(duì)于普通用戶或是數(shù)據(jù)分析專(zhuān)家,都是最基本的功能。數(shù)據(jù)圖像化可以讓數(shù)據(jù)自己說(shuō)話,讓用戶直觀的感受到結(jié)果。2數(shù)據(jù)挖掘算法。圖像化是將機(jī)器語(yǔ)言翻譯給人看,而數(shù)據(jù)挖掘就是機(jī)器的母語(yǔ)。分割、集群、孤立點(diǎn)分析還有各種各樣五花八門(mén)的算法讓我們精煉數(shù)據(jù),挖掘價(jià)值。這些算法一定要能夠應(yīng)付大數(shù)據(jù)的量,同時(shí)還具有很高的處理速度。3.預(yù)測(cè)性分析。預(yù)測(cè)性分析可以讓分析師根據(jù)圖像化分析和數(shù)據(jù)挖掘的結(jié)果做出一些前瞻性判斷。4.語(yǔ)義引擎。語(yǔ)義引擎需要設(shè)計(jì)到有足夠的人工智能以足以從數(shù)據(jù)中主動(dòng)地提取信息。語(yǔ)言處理技術(shù)包括機(jī)器翻譯、情感分析、輿情分析、智能輸入、問(wèn)答系統(tǒng)等。5.數(shù)據(jù)質(zhì)量和數(shù)據(jù)管理。數(shù)據(jù)質(zhì)量與管理是管理的最佳實(shí)踐,透過(guò)標(biāo)準(zhǔn)化流程和機(jī)器對(duì)數(shù)據(jù)進(jìn)行處理可以確保獲得一個(gè)預(yù)設(shè)質(zhì)量的分析結(jié)果。
大數(shù)據(jù)展現(xiàn)與應(yīng)用技術(shù):大數(shù)據(jù)技術(shù)能夠?qū)㈦[藏于海量數(shù)據(jù)中的信息和知識(shí)挖掘
出來(lái),為人類(lèi)的社會(huì)經(jīng)濟(jì)活動(dòng)提供依據(jù),從而提高各個(gè)領(lǐng)域的運(yùn)行效率,大大提高整個(gè)社會(huì)經(jīng)濟(jì)的集約化程度。在我國(guó),大數(shù)據(jù)將重點(diǎn)應(yīng)用于以下三大領(lǐng)域:商業(yè)智能、政府決策、公共服務(wù)。例如:商業(yè)智能技術(shù),政府決策技術(shù),電信數(shù)據(jù)信息處理與挖掘技術(shù),電網(wǎng)數(shù)據(jù)信息處理與挖掘技術(shù),氣象信息分析技術(shù),環(huán)境監(jiān)測(cè)技術(shù),敬務(wù)云應(yīng)用系統(tǒng)(道路監(jiān)控、視頻監(jiān)控、網(wǎng)絡(luò)監(jiān)控、智能交通、反電信詐騙、指揮調(diào)度等公安信息系統(tǒng)),大規(guī)?;蛐蛄蟹治霰葘?duì)技術(shù),Web信息挖掘技術(shù),多媒體數(shù)據(jù)并行化處理技術(shù),影視制作渲染技術(shù),其他各種行業(yè)的云計(jì)算和海量數(shù)據(jù)處理應(yīng)用技術(shù)等。
分享安排
時(shí)間:2022年11月24日 —2022年11月28日線上直播
目標(biāo):1.掌握大數(shù)據(jù)建模分析與使用方法。
2.掌握大數(shù)據(jù)平臺(tái)技術(shù)架構(gòu)。
3.掌握國(guó)內(nèi)外主流的大數(shù)據(jù)分析與BI商業(yè)智能分析解決方案。
4.掌握大數(shù)據(jù)分析在搜索引擎、廣告服務(wù)推薦、電商數(shù)據(jù)分析、金融客戶分析方面的應(yīng)用。
5.掌握主流的基于大數(shù)據(jù)Hadoop和Spark、R的大數(shù)據(jù)分析平臺(tái)架構(gòu)和實(shí)際應(yīng)用。
6.掌握基于Hadoop大數(shù)據(jù)平臺(tái)的數(shù)據(jù)挖掘和數(shù)據(jù)倉(cāng)庫(kù)分布式系統(tǒng)平臺(tái)應(yīng)用,以及商業(yè)和開(kāi)源的數(shù)據(jù)分析產(chǎn)品加上Hadoop平臺(tái)形成大數(shù)據(jù)分析平臺(tái)的應(yīng)用剖析。
7.掌握常見(jiàn)的機(jī)器學(xué)習(xí)算法。
大數(shù)據(jù)課程知識(shí)點(diǎn):
一、大數(shù)據(jù)概述:1.大數(shù)據(jù)及特點(diǎn)分析;2.大數(shù)據(jù)關(guān)健技術(shù);3.大數(shù)據(jù)計(jì)算模式;4.大數(shù)據(jù)應(yīng)用實(shí)例
二、大數(shù)據(jù)處理架構(gòu)Hadoop:1.Hadoop項(xiàng)目結(jié)構(gòu);2.Hadoop安裝與使用;3.Hadoop集群的部署與使用;4.Hadoop 代表性組件
三、分布式文件系統(tǒng)HDFS :1.HDFS體系結(jié)構(gòu);2.HDFS存儲(chǔ);3.HDFS數(shù)據(jù)讀寫(xiě)過(guò)程
四、分布式數(shù)據(jù)庫(kù)HBase :1.HBase訪問(wèn)接口;2.HBase數(shù)據(jù)類(lèi)型;3.HBase實(shí)現(xiàn)原理;4.HBase運(yùn)行機(jī)制;5.HBase應(yīng)用
五、MapReduce :1.MapReduce體系結(jié)構(gòu);2.MapReduce工作流程;3.資源管理調(diào)度框架YARN ;4.MapReduce應(yīng)用
六、Spark :1.Spark生態(tài)與運(yùn)行架構(gòu);2.Spark SQL;3.Spark部署與應(yīng)用方式
七、IPython Notebook運(yùn)行Python Spark程序:1.Anaconda;2.IPython Notebook使用Spark;3.使用IPython Notebook在Hadoop YARN模式運(yùn)行
八、Python Spark集成開(kāi)發(fā)環(huán)境 :1.Python Spark集成開(kāi)發(fā)環(huán)境部署配置;2.Spark數(shù)據(jù)分析庫(kù)MLlib的開(kāi)發(fā)部署
九、Python Spark決策樹(shù)二分類(lèi)與多分類(lèi) :1.決策樹(shù)原理;2.大數(shù)據(jù)問(wèn)題;3.決策樹(shù)二分類(lèi);4.決策樹(shù)多分類(lèi)
十、Python Spark支持向量機(jī) :1.支持向量機(jī)SVM 原理與算法;2.Python Spark SVM程序設(shè)計(jì)
十一、Python Spark 貝葉斯模型 :1.樸素貝葉斯模型原理;2.Python Spark貝葉斯模型程序設(shè)計(jì)
十二、Python Spark邏輯回歸 :1.邏輯回歸原理;2.Python Spark邏輯回歸程序設(shè)計(jì)
十三、Python Spark回歸分析 :1.大數(shù)據(jù)分析;2.數(shù)據(jù)集介紹;3.Python Spark回歸程序設(shè)計(jì)
十四、Spark ML Pipeline 機(jī)器學(xué)習(xí)流程分類(lèi) :1.機(jī)器學(xué)習(xí)流程組件:StringIndexer、OneHotEncoder、VectorAssembler等
2.使用Spark ML Pipeline 機(jī)器學(xué)習(xí)流程分類(lèi)程序設(shè)計(jì)
十五、Python Spark 創(chuàng)建推薦引擎 :1.推薦算法;2.推薦引擎大數(shù)據(jù)分析使用場(chǎng)景;3.推薦引擎設(shè)計(jì)
十六、項(xiàng)目實(shí)踐:1.日志分析系統(tǒng)與日志挖掘項(xiàng)目實(shí)踐;2.推薦系統(tǒng)項(xiàng)目實(shí)踐
審核編輯 黃昊宇
-
算法
+關(guān)注
關(guān)注
23文章
4576瀏覽量
92341 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8832瀏覽量
137138
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論