99久久免费精品高清特色大片,yellow在线中文

50億海量數(shù)據(jù)如何高效存儲和分析？

華為云數(shù)據(jù)庫GaussDB (for Cassandra) 3個(gè)秘訣搞定

當(dāng)下，信息社會正在從互聯(lián)網(wǎng)時(shí)代走向物聯(lián)網(wǎng)時(shí)代，信息交互變得更加龐雜、高效和智能。對于互聯(lián)網(wǎng)公司和IOT企業(yè)來說，既是機(jī)遇，也是挑戰(zhàn)。因?yàn)?，企業(yè)不可避免的要面對數(shù)據(jù)量劇增帶來的一系列問題：如何高效存儲和擴(kuò)容，如何在對原有業(yè)務(wù)改動(dòng)最小的情況下做到智能化和實(shí)時(shí)分析。

針對挑戰(zhàn)，華為云GaussDB (for Cassandra)為客戶提供了強(qiáng)擴(kuò)展、高存儲、高效導(dǎo)入/導(dǎo)出和實(shí)時(shí)分析等一系列能力，并成功服務(wù)了眾多互聯(lián)網(wǎng)公司和IOT企業(yè)，獲得了客戶的高度認(rèn)可和支持。本文將以其中一個(gè)客戶業(yè)務(wù)的痛點(diǎn)問題舉例，聊聊高效存儲和實(shí)時(shí)分析的3個(gè)秘訣。

海量存儲，PB級無感擴(kuò)展

該用戶在線下本地化部署使用數(shù)據(jù)庫或者使用其他的存儲為云盤的數(shù)據(jù)庫時(shí)，常常需要在容量達(dá)到閾值時(shí)，提前規(guī)劃和申購存儲資源，可能還需要連帶擴(kuò)容不必要的計(jì)算資源。而使用GaussDB (for Cassandra)之后，便再無此煩惱。GaussDB (for Cassandra)采用存算分離架構(gòu)，可單獨(dú)擴(kuò)展存儲，高效擴(kuò)容，業(yè)務(wù)無感，最高可擴(kuò)展到PB級。

此外，客戶為了做大數(shù)據(jù)分析，將數(shù)據(jù)庫中的數(shù)據(jù)再寫入一份到HDFS中，供MapReduce和Spark分析，同時(shí)需要維護(hù)兩套資源，維護(hù)和資源成本成為了痛點(diǎn)。而客戶使用GaussDB (for Cassandra)之后，可以僅采用GaussDB (for Cassandra)即可完成數(shù)據(jù)庫存儲和對接大數(shù)據(jù)分析的功能，同時(shí)GaussDB (for Cassandra)提供了更為易用的CQL接口，讓用戶更加專注功能開發(fā)，而不是資源管理。

數(shù)據(jù)變更捕獲和實(shí)時(shí)分析

客戶的一個(gè)使用場景需要將爬蟲或用戶輸入的數(shù)據(jù)，進(jìn)行在線分析和實(shí)時(shí)推薦業(yè)務(wù)，該業(yè)務(wù)中全量數(shù)據(jù)達(dá)到了50億條，但增量數(shù)據(jù)不足5億，分析對象主要是每日新增數(shù)據(jù)。在這個(gè)場景中，GaussDB (for Cassandra)為客戶提供了streaming服務(wù)+實(shí)時(shí)分析解決方案，在損失小部分讀寫性能的前提下，客戶端無需改造即可做到數(shù)據(jù)讀寫和實(shí)時(shí)分析并行，解決方案如下圖，該解決方案主要有以下幾個(gè)階段：

1.客戶業(yè)務(wù)用過開源驅(qū)動(dòng)寫入數(shù)據(jù)到GaussDB (for Cassandra)

2.GaussDB (for Cassandra)對外提供streaming接口，該接口可獲取數(shù)據(jù)變更捕獲

3.客戶構(gòu)建的流服務(wù)組件讀取streaming接口數(shù)據(jù)寫入到指定的Kafka隊(duì)列

4.Kafka隊(duì)列將streaming數(shù)據(jù)寫入到Spark或者Flink中

5.客戶在Spark中可對增量數(shù)據(jù)做分析，也可合并之后做全量分析

全量數(shù)據(jù)導(dǎo)出分析

客戶的另一個(gè)業(yè)務(wù)需要周期性對全量數(shù)據(jù)進(jìn)行分析和處理，但不想影響在線業(yè)務(wù)，希望在閑時(shí)處理。GaussDB (for Cassandra)提供了全量數(shù)據(jù)導(dǎo)出和分析解決方案，可在業(yè)務(wù)低峰期觸發(fā)任務(wù)進(jìn)行數(shù)據(jù)導(dǎo)出和冷數(shù)據(jù)分析，數(shù)據(jù)導(dǎo)出速率是開源的10+倍，同時(shí)做到對業(yè)務(wù)讀寫基本無影響。如下為互聯(lián)網(wǎng)客戶每周定期導(dǎo)出數(shù)據(jù)分析用戶畫像的解決方案，該方案有以下幾個(gè)階段：

1.客戶根據(jù)需求配置ECS規(guī)格，并掛載obsfs并行文件系統(tǒng)

2.客戶在DLF上配置導(dǎo)出作業(yè)，包括ECS信息，導(dǎo)出參數(shù)和定時(shí)任務(wù)

3.CDM下發(fā)作業(yè)任務(wù)

4.ECS上的導(dǎo)出任務(wù)將GaussDB (for Cassandra)中的指定表指定條件的數(shù)據(jù)導(dǎo)出到obsfs

5.Spark從obsfs中讀取全量數(shù)據(jù)進(jìn)行數(shù)據(jù)分析

通過這3個(gè)秘訣，華為云GaussDB (for Cassandra)完美解決了難擴(kuò)展、高成本、變更不及時(shí)等問題，實(shí)現(xiàn)了海量數(shù)據(jù)的高效存儲和實(shí)時(shí)分析，為互聯(lián)網(wǎng)公司和IOT企業(yè)的數(shù)字化發(fā)展提供了更多可能。

審核編輯黃昊宇

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報(bào)投訴

華為云

華為云

+關(guān)注

關(guān)注
3

文章
2387

瀏覽量
17204

恒訊科技分析：云數(shù)據(jù)庫rds和redis區(qū)別是什么如何選擇？

云數(shù)據(jù)庫RDS（Relational Database Service）和Redis是兩種不同類型的數(shù)據(jù)庫服務(wù)，它們有各自的特點(diǎn)和適用場景： 1、數(shù)據(jù)模型：RDS是一種關(guān)系型

發(fā)表于 08-19 15:31 ?247次閱讀

基于分布式存儲WDS的金融信創(chuàng)云承載數(shù)據(jù)庫類關(guān)鍵應(yīng)用

基于分布式存儲WDS的金融信創(chuàng)云承載數(shù)據(jù)庫類關(guān)鍵應(yīng)用

發(fā)表于 08-16 09:42 ?188次閱讀

基于分布式<b class='flag-5'>存儲</b>WDS的金融信創(chuàng)<b class='flag-5'>云</b>承載<b class='flag-5'>數(shù)據(jù)庫</b>類關(guān)鍵應(yīng)用

恒訊科技分析：sql數(shù)據(jù)庫怎么用？

。 2、安裝數(shù)據(jù)庫軟件：在您的服務(wù)器或本地計(jì)算機(jī)上安裝所選的數(shù)據(jù)庫軟件。 3、配置數(shù)據(jù)庫服務(wù)器：根據(jù)需要配置數(shù)據(jù)庫服務(wù)器設(shè)置，包括內(nèi)存分

發(fā)表于 07-15 14:40 ?263次閱讀

數(shù)據(jù)庫數(shù)據(jù)恢復(fù)—raid5陣列上層Sql Server數(shù)據(jù)庫數(shù)據(jù)恢復(fù)案例

數(shù)據(jù)庫數(shù)據(jù)恢復(fù)環(huán)境： 5塊硬盤組建一組RAID5陣列，劃分LUN供windows系統(tǒng)服務(wù)器使用。windows系統(tǒng)服務(wù)器內(nèi)運(yùn)行了Sql Server數(shù)據(jù)庫，存儲空間在操作系統(tǒng)層面劃分

發(fā)表于 05-08 11:43 ?433次閱讀

<b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—raid5陣列上層Sql Server<b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例

華為云GaussDB數(shù)據(jù)庫基礎(chǔ)版發(fā)布：旗艦性能、價(jià)格下降超60%

高性價(jià)比：相比企業(yè)版，華為云 GaussDB 基礎(chǔ)版價(jià)格大幅下調(diào)（降幅達(dá) 60%-70%），且支持全場景數(shù)據(jù)壓縮，具有“超高壓縮比”，性能影響僅為 5%-10%，

發(fā)表于 05-07 14:21 ?488次閱讀

時(shí)序數(shù)據(jù)庫是什么？時(shí)序數(shù)據(jù)庫的特點(diǎn)

時(shí)序數(shù)據(jù)庫是一種在處理時(shí)間序列數(shù)據(jù)方面具有高效和專門化能力的數(shù)據(jù)庫。它主要用于存儲和處理時(shí)間序列數(shù)據(jù)

發(fā)表于 04-26 16:02 ?564次閱讀

華為云多模數(shù)據(jù)庫 GeminiDB 架構(gòu)與應(yīng)用實(shí)踐直播問答實(shí)錄

多模數(shù)據(jù)庫作為一種新興的數(shù)據(jù)管理解決方案，正在受到越來越多的關(guān)注。而華為云多模數(shù)據(jù)庫 GeminiDB 基于云原生

發(fā)表于 04-08 18:25 ?1097次閱讀

華為云原生多模數(shù)據(jù)庫 GeminiDB 架構(gòu)與應(yīng)用實(shí)踐

近日，2023 全球分布式云大會·深圳站順利召開，華為云 NoSQL 數(shù)據(jù)庫研發(fā)總監(jiān)余汶龍?jiān)跁习l(fā)表了題為《華為云原生多模

發(fā)表于 04-08 18:23 ?1111次閱讀

選擇 KV 數(shù)據(jù)庫最重要的是什么？

經(jīng)常有客戶提到 KV 數(shù)據(jù)庫，但卻偏偏“不要 Redis”。比如有個(gè)做安全威脅分析平臺的客戶，他們明確表示自己對可靠性要求非常高，需要的不是開源 Redis 這種內(nèi)存緩存庫，而是 KV

發(fā)表于 03-28 22:11 ?634次閱讀

2024年，國產(chǎn)數(shù)據(jù)庫正醞釀新變局！

隨著互聯(lián)網(wǎng)、5G、AI技術(shù)的飛速發(fā)展，海量數(shù)據(jù)的持續(xù)激增，數(shù)據(jù)資產(chǎn)的核心價(jià)值正在凸顯，大數(shù)據(jù)時(shí)代數(shù)據(jù)庫行業(yè)也迎來了快速增長。作為

發(fā)表于 01-05 13:18 ?374次閱讀

華為存儲攜手優(yōu)炫軟件，共促中國多主數(shù)據(jù)庫加速發(fā)展

2023年12月5日，華為數(shù)據(jù)存儲與優(yōu)炫軟件共同發(fā)布“數(shù)據(jù)庫存算分離聯(lián)合解決方案”。此次發(fā)布內(nèi)容包含滿足金融、運(yùn)營商、能源、制造、政務(wù)等多個(gè)行業(yè)不同業(yè)務(wù)場景的三大

發(fā)表于 12-11 09:12 ?625次閱讀

常見的存儲Idea數(shù)據(jù)庫的地方

Idea的數(shù)據(jù)庫被存儲在許多不同的地方，取決于應(yīng)用程序和使用的技術(shù)。下面將詳細(xì)描述一些常見的存儲Idea數(shù)據(jù)庫的地方。關(guān)系型數(shù)據(jù)庫（RDB

發(fā)表于 12-06 14:15 ?862次閱讀

NoSQL 數(shù)據(jù)庫如何選型

數(shù)據(jù)庫。不管它是“nonSQL”的縮寫，還是“notonlySQL”的縮寫，大多數(shù)人都同意，NoSQL數(shù)據(jù)庫是以關(guān)系表之外的格式存儲數(shù)據(jù)的。NoSQL

發(fā)表于 11-26 08:05 ?402次閱讀

數(shù)據(jù)庫數(shù)據(jù)恢復(fù)——MongoDB數(shù)據(jù)庫介紹和數(shù)據(jù)恢復(fù)案例

MongoDB數(shù)據(jù)庫是文檔數(shù)據(jù)存儲庫，將文檔存儲在集合之中，不是像MySQL一樣的關(guān)系型數(shù)據(jù)庫。

發(fā)表于 11-08 15:04 ?816次閱讀

Access數(shù)據(jù)庫案例：Labview數(shù)據(jù)存儲

　在數(shù)據(jù)庫領(lǐng)域，Access是由Microsoft開發(fā)的一款基于Windows平臺的關(guān)系型數(shù)據(jù)庫管理系統(tǒng)（RDBMS）。它提供了一個(gè)使用簡便的用戶界面，可用于創(chuàng)建、管理和查詢數(shù)據(jù)庫。

發(fā)表于 10-26 16:23 ?9次下載