企業(yè)數(shù)據(jù)集成是將不同來(lái)源的數(shù)據(jù)整合在一個(gè)數(shù)據(jù)庫(kù)中的過(guò)程,即異構(gòu)數(shù)據(jù)之間的同步。將不同種類,不同版本的數(shù)據(jù)庫(kù)、文件、Mail等之間進(jìn)行同步。由于不同的數(shù)據(jù)源定義屬性時(shí)命名規(guī)則不同,存入的數(shù)據(jù)格式、取值方式、單位都會(huì)有不同。因此即便兩個(gè)值代表的業(yè)務(wù)意義相同,也不代表存在數(shù)據(jù)庫(kù)中的值就是相同的。因此需要數(shù)據(jù)入庫(kù)前進(jìn)行集成,去冗余,保證數(shù)據(jù)質(zhì)量。數(shù)據(jù)集成可以認(rèn)為是ETL(BI上的定義為:抽取——轉(zhuǎn)換——清洗——過(guò)濾——加載);但更強(qiáng)調(diào)自動(dòng)化過(guò)程管理。
在實(shí)現(xiàn)機(jī)制上,應(yīng)包括常見(jiàn)的集成模式:Split/Merge/Route/PS等;另外還應(yīng)該具備建模(元數(shù)據(jù)管理)和治理(Governace)功能。
數(shù)據(jù)集成有什么意義呢?
數(shù)據(jù)集成意義主要是實(shí)現(xiàn)數(shù)據(jù)中心,例如企業(yè)級(jí)SID;或者遺留系統(tǒng)在數(shù)據(jù)層面的集成。在建立全局SID的基礎(chǔ)上,可以構(gòu)建很多有意義的東西:例如Portal/CMS,報(bào)表,數(shù)據(jù)搜索,挖掘等等,這些可以概括地稱為BI,即商業(yè)智能。
因此,數(shù)據(jù)集成有兩個(gè)層面的意義:
1)操作層面
2)分析層面
數(shù)據(jù)集成的實(shí)現(xiàn)步驟:
1.界定數(shù)據(jù)交互的項(xiàng)別與內(nèi)容,如:PDM系統(tǒng)和ERP系統(tǒng)之間的BOM數(shù)據(jù);
2.指定數(shù)據(jù)交互周期,一天一次,還是一周一次;
3.選擇交互方式,通過(guò)數(shù)據(jù)庫(kù),還是中間件技術(shù)來(lái)交互;
4.由ODS數(shù)據(jù)交互調(diào)度程序?qū)崿F(xiàn)數(shù)據(jù)上載或是由外圍系統(tǒng)自行實(shí)現(xiàn)數(shù)據(jù)下載,從而實(shí)現(xiàn)數(shù)據(jù)的集成。
數(shù)據(jù)集成會(huì)出現(xiàn)的問(wèn)題:
1.數(shù)據(jù)重復(fù)
檢查數(shù)據(jù)重復(fù)一般需要通過(guò)主要關(guān)鍵詞,最好對(duì)主要關(guān)鍵詞進(jìn)行優(yōu)化,過(guò)濾重復(fù)數(shù)據(jù)。在數(shù)據(jù)結(jié)構(gòu)盡量調(diào)研每個(gè)字段的含義,拆分或整合。重復(fù)數(shù)據(jù)入庫(kù),不僅會(huì)給日后的數(shù)據(jù)關(guān)聯(lián)造成極大的影響,也會(huì)影響數(shù)據(jù)分析與挖掘的效果,應(yīng)盡量避免。
2.數(shù)據(jù)沖突
數(shù)據(jù)沖突就是兩個(gè)數(shù)據(jù)源中同樣的數(shù)據(jù),但是取值記錄的不一樣。造成這種情況除了有人工誤入,還有可能是因?yàn)樨泿庞?jì)量的方法不同,匯率不同,稅收水平不同、評(píng)分體系不同等等原因。
對(duì)待數(shù)據(jù)沖突問(wèn)題,就需要對(duì)實(shí)際的業(yè)務(wù)知識(shí)有一定的理解。同時(shí),對(duì)數(shù)據(jù)進(jìn)行調(diào)研,盡量明確造成沖突的原因。如果數(shù)據(jù)的沖突實(shí)在無(wú)法避免,就要考慮沖突數(shù)據(jù)是否都要保留、是否要進(jìn)行取舍,如何取舍等。
審核編輯 黃昊宇
-
數(shù)據(jù)庫(kù)
+關(guān)注
關(guān)注
7文章
3739瀏覽量
64181 -
ETL
+關(guān)注
關(guān)注
0文章
20瀏覽量
9373 -
數(shù)據(jù)集成
+關(guān)注
關(guān)注
0文章
52瀏覽量
9174
發(fā)布評(píng)論請(qǐng)先 登錄
相關(guān)推薦
評(píng)論