0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

50億海量數(shù)據(jù)如何高效存儲和分析? 華為云數(shù)據(jù)庫GaussDB (for Cassandra) 3個(gè)秘訣搞定

IT科技蘇辭 ? 來源:IT科技蘇辭 ? 作者:IT科技蘇辭 ? 2022-12-01 21:36 ? 次閱讀

50億海量數(shù)據(jù)如何高效存儲和分析?

華為云數(shù)據(jù)庫GaussDB (for Cassandra) 3個(gè)秘訣搞定

當(dāng)下,信息社會正在從互聯(lián)網(wǎng)時(shí)代走向物聯(lián)網(wǎng)時(shí)代,信息交互變得更加龐雜、高效和智能。對于互聯(lián)網(wǎng)公司IOT企業(yè)來說,既是機(jī)遇,也是挑戰(zhàn)。因?yàn)?,企業(yè)不可避免的要面對數(shù)據(jù)量劇增帶來的一系列問題:如何高效存儲和擴(kuò)容,如何在對原有業(yè)務(wù)改動(dòng)最小的情況下做到智能化和實(shí)時(shí)分析。

針對挑戰(zhàn),華為云GaussDB (for Cassandra)為客戶提供了強(qiáng)擴(kuò)展、高存儲、高效導(dǎo)入/導(dǎo)出和實(shí)時(shí)分析等一系列能力,并成功服務(wù)了眾多互聯(lián)網(wǎng)公司和IOT企業(yè),獲得了客戶的高度認(rèn)可和支持。本文將以其中一個(gè)客戶業(yè)務(wù)的痛點(diǎn)問題舉例,聊聊高效存儲和實(shí)時(shí)分析的3個(gè)秘訣。

海量存儲,PB級無感擴(kuò)展

該用戶在線下本地化部署使用數(shù)據(jù)庫或者使用其他的存儲為云盤的數(shù)據(jù)庫時(shí),常常需要在容量達(dá)到閾值時(shí),提前規(guī)劃和申購存儲資源,可能還需要連帶擴(kuò)容不必要的計(jì)算資源。而使用GaussDB (for Cassandra)之后,便再無此煩惱。GaussDB (for Cassandra)采用存算分離架構(gòu),可單獨(dú)擴(kuò)展存儲,高效擴(kuò)容,業(yè)務(wù)無感,最高可擴(kuò)展到PB級。

此外,客戶為了做大數(shù)據(jù)分析,將數(shù)據(jù)庫中的數(shù)據(jù)再寫入一份到HDFS中,供MapReduce和Spark分析,同時(shí)需要維護(hù)兩套資源,維護(hù)和資源成本成為了痛點(diǎn)。而客戶使用GaussDB (for Cassandra)之后,可以僅采用GaussDB (for Cassandra)即可完成數(shù)據(jù)庫存儲和對接大數(shù)據(jù)分析的功能,同時(shí)GaussDB (for Cassandra)提供了更為易用的CQL接口,讓用戶更加專注功能開發(fā),而不是資源管理。

數(shù)據(jù)變更捕獲和實(shí)時(shí)分析

客戶的一個(gè)使用場景需要將爬蟲或用戶輸入的數(shù)據(jù),進(jìn)行在線分析和實(shí)時(shí)推薦業(yè)務(wù),該業(yè)務(wù)中全量數(shù)據(jù)達(dá)到了50億條,但增量數(shù)據(jù)不足5億,分析對象主要是每日新增數(shù)據(jù)。在這個(gè)場景中,GaussDB (for Cassandra)為客戶提供了streaming服務(wù)+實(shí)時(shí)分析解決方案,在損失小部分讀寫性能的前提下,客戶端無需改造即可做到數(shù)據(jù)讀寫和實(shí)時(shí)分析并行,解決方案如下圖,該解決方案主要有以下幾個(gè)階段:

1.客戶業(yè)務(wù)用過開源驅(qū)動(dòng)寫入數(shù)據(jù)到GaussDB (for Cassandra)

2.GaussDB (for Cassandra)對外提供streaming接口,該接口可獲取數(shù)據(jù)變更捕獲

3.客戶構(gòu)建的流服務(wù)組件讀取streaming接口數(shù)據(jù)寫入到指定的Kafka隊(duì)列

4.Kafka隊(duì)列將streaming數(shù)據(jù)寫入到Spark或者Flink中

5.客戶在Spark中可對增量數(shù)據(jù)做分析,也可合并之后做全量分析

pYYBAGOIraiAcczoAAKXPqDFmpM013.png

全量數(shù)據(jù)導(dǎo)出分析

客戶的另一個(gè)業(yè)務(wù)需要周期性對全量數(shù)據(jù)進(jìn)行分析和處理,但不想影響在線業(yè)務(wù),希望在閑時(shí)處理。GaussDB (for Cassandra)提供了全量數(shù)據(jù)導(dǎo)出和分析解決方案,可在業(yè)務(wù)低峰期觸發(fā)任務(wù)進(jìn)行數(shù)據(jù)導(dǎo)出和冷數(shù)據(jù)分析,數(shù)據(jù)導(dǎo)出速率是開源的10+倍,同時(shí)做到對業(yè)務(wù)讀寫基本無影響。如下為互聯(lián)網(wǎng)客戶每周定期導(dǎo)出數(shù)據(jù)分析用戶畫像的解決方案,該方案有以下幾個(gè)階段:

1.客戶根據(jù)需求配置ECS規(guī)格,并掛載obsfs并行文件系統(tǒng)

2.客戶在DLF上配置導(dǎo)出作業(yè),包括ECS信息,導(dǎo)出參數(shù)和定時(shí)任務(wù)

3.CDM下發(fā)作業(yè)任務(wù)

4.ECS上的導(dǎo)出任務(wù)將GaussDB (for Cassandra)中的指定表指定條件的數(shù)據(jù)導(dǎo)出到obsfs

5.Spark從obsfs中讀取全量數(shù)據(jù)進(jìn)行數(shù)據(jù)分析

pYYBAGOIrbCABT61AATHjGVJFJs439.png

通過這3個(gè)秘訣,華為云GaussDB (for Cassandra)完美解決了難擴(kuò)展、高成本、變更不及時(shí)等問題,實(shí)現(xiàn)了海量數(shù)據(jù)的高效存儲和實(shí)時(shí)分析,為互聯(lián)網(wǎng)公司和IOT企業(yè)的數(shù)字化發(fā)展提供了更多可能。

審核編輯黃昊宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報(bào)投訴
  • 華為云
    +關(guān)注

    關(guān)注

    3

    文章

    2387

    瀏覽量

    17204
收藏 人收藏

    評論

    相關(guān)推薦

    恒訊科技分析數(shù)據(jù)庫rds和redis區(qū)別是什么如何選擇?

    數(shù)據(jù)庫RDS(Relational Database Service)和Redis是兩種不同類型的數(shù)據(jù)庫服務(wù),它們有各自的特點(diǎn)和適用場景: 1、數(shù)據(jù)模型:RDS是一種關(guān)系型
    的頭像 發(fā)表于 08-19 15:31 ?247次閱讀

    基于分布式存儲WDS的金融信創(chuàng)承載數(shù)據(jù)庫類關(guān)鍵應(yīng)用

    基于分布式存儲WDS的金融信創(chuàng)承載數(shù)據(jù)庫類關(guān)鍵應(yīng)用
    的頭像 發(fā)表于 08-16 09:42 ?188次閱讀
    基于分布式<b class='flag-5'>存儲</b>WDS的金融信創(chuàng)<b class='flag-5'>云</b>承載<b class='flag-5'>數(shù)據(jù)庫</b>類關(guān)鍵應(yīng)用

    恒訊科技分析:sql數(shù)據(jù)庫怎么用?

    。 2、安裝數(shù)據(jù)庫軟件: 在您的服務(wù)器或本地計(jì)算機(jī)上安裝所選的數(shù)據(jù)庫軟件。 3、配置數(shù)據(jù)庫服務(wù)器: 根據(jù)需要配置數(shù)據(jù)庫服務(wù)器設(shè)置,包括內(nèi)存分
    的頭像 發(fā)表于 07-15 14:40 ?263次閱讀

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)—raid5陣列上層Sql Server數(shù)據(jù)庫數(shù)據(jù)恢復(fù)案例

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)環(huán)境: 5塊硬盤組建一組RAID5陣列,劃分LUN供windows系統(tǒng)服務(wù)器使用。windows系統(tǒng)服務(wù)器內(nèi)運(yùn)行了Sql Server數(shù)據(jù)庫存儲空間在操作系統(tǒng)層面劃分
    的頭像 發(fā)表于 05-08 11:43 ?433次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—raid5陣列上層Sql Server<b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例

    華為GaussDB數(shù)據(jù)庫基礎(chǔ)版發(fā)布:旗艦性能、價(jià)格下降超60%

    高性價(jià)比:相比企業(yè)版,華為 GaussDB 基礎(chǔ)版價(jià)格大幅下調(diào)(降幅達(dá) 60%-70%),且支持全場景數(shù)據(jù)壓縮,具有“超高壓縮比”,性能影響僅為 5%-10%,
    的頭像 發(fā)表于 05-07 14:21 ?488次閱讀

    時(shí)序數(shù)據(jù)庫是什么?時(shí)序數(shù)據(jù)庫的特點(diǎn)

    時(shí)序數(shù)據(jù)庫是一種在處理時(shí)間序列數(shù)據(jù)方面具有高效和專門化能力的數(shù)據(jù)庫。它主要用于存儲和處理時(shí)間序列數(shù)據(jù)
    的頭像 發(fā)表于 04-26 16:02 ?564次閱讀

    華為多模數(shù)據(jù)庫 GeminiDB 架構(gòu)與應(yīng)用實(shí)踐直播問答實(shí)錄

    多模數(shù)據(jù)庫作為一種新興的數(shù)據(jù)管理解決方案,正在受到越來越多的關(guān)注。而華為多模數(shù)據(jù)庫 GeminiDB 基于云原生
    的頭像 發(fā)表于 04-08 18:25 ?1097次閱讀

    華為云原生多模數(shù)據(jù)庫 GeminiDB 架構(gòu)與應(yīng)用實(shí)踐

    近日,2023 全球分布式大會·深圳站順利召開,華為 NoSQL 數(shù)據(jù)庫研發(fā)總監(jiān)余汶龍?jiān)跁习l(fā)表了題為《華為云原生多模
    的頭像 發(fā)表于 04-08 18:23 ?1111次閱讀
    <b class='flag-5'>華為</b>云原生多模<b class='flag-5'>數(shù)據(jù)庫</b> GeminiDB 架構(gòu)與應(yīng)用實(shí)踐

    選擇 KV 數(shù)據(jù)庫最重要的是什么?

    經(jīng)常有客戶提到 KV 數(shù)據(jù)庫,但卻偏偏“不要 Redis”。比如有個(gè)做安全威脅分析平臺的客戶,他們明確表示自己對可靠性要求非常高,需要的不是開源 Redis 這種內(nèi)存緩存,而是 KV
    的頭像 發(fā)表于 03-28 22:11 ?634次閱讀
    選擇 KV <b class='flag-5'>數(shù)據(jù)庫</b>最重要的是什么?

    2024年,國產(chǎn)數(shù)據(jù)庫正醞釀新變局!

    隨著互聯(lián)網(wǎng)、5G、AI技術(shù)的飛速發(fā)展,海量數(shù)據(jù)的持續(xù)激增,數(shù)據(jù)資產(chǎn)的核心價(jià)值正在凸顯,大數(shù)據(jù)時(shí)代數(shù)據(jù)庫行業(yè)也迎來了快速增長。 作為
    的頭像 發(fā)表于 01-05 13:18 ?374次閱讀
    2024年,國產(chǎn)<b class='flag-5'>數(shù)據(jù)庫</b>正醞釀新變局!

    華為存儲攜手優(yōu)炫軟件,共促中國多主數(shù)據(jù)庫加速發(fā)展

    2023年12月5日,華為數(shù)據(jù)存儲與優(yōu)炫軟件共同發(fā)布“數(shù)據(jù)庫存算分離聯(lián)合解決方案”。此次發(fā)布內(nèi)容包含滿足金融、運(yùn)營商、能源、制造、政務(wù)等多個(gè)行業(yè)不同業(yè)務(wù)場景的三大
    的頭像 發(fā)表于 12-11 09:12 ?625次閱讀

    常見的存儲Idea數(shù)據(jù)庫的地方

    Idea的數(shù)據(jù)庫存儲在許多不同的地方,取決于應(yīng)用程序和使用的技術(shù)。下面將詳細(xì)描述一些常見的存儲Idea數(shù)據(jù)庫的地方。 關(guān)系型數(shù)據(jù)庫(RDB
    的頭像 發(fā)表于 12-06 14:15 ?862次閱讀

    NoSQL 數(shù)據(jù)庫如何選型

    數(shù)據(jù)庫。不管它是“nonSQL”的縮寫,還是“notonlySQL”的縮寫,大多數(shù)人都同意,NoSQL數(shù)據(jù)庫是以關(guān)系表之外的格式存儲數(shù)據(jù)的。NoSQL
    的頭像 發(fā)表于 11-26 08:05 ?402次閱讀
    NoSQL <b class='flag-5'>數(shù)據(jù)庫</b>如何選型

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)——MongoDB數(shù)據(jù)庫介紹和數(shù)據(jù)恢復(fù)案例

    MongoDB數(shù)據(jù)庫是文檔數(shù)據(jù)存儲,將文檔存儲在集合之中,不是像MySQL一樣的關(guān)系型數(shù)據(jù)庫。
    的頭像 發(fā)表于 11-08 15:04 ?816次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)——MongoDB<b class='flag-5'>數(shù)據(jù)庫</b>介紹和<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例

    Access數(shù)據(jù)庫案例:Labview數(shù)據(jù)存儲

     在數(shù)據(jù)庫領(lǐng)域,Access是由Microsoft開發(fā)的一款基于Windows平臺的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)(RDBMS)。它提供了一個(gè)使用簡便的用戶界面,可用于創(chuàng)建、管理和查詢數(shù)據(jù)庫
    發(fā)表于 10-26 16:23 ?9次下載