12 月 16 日,AI 時代數(shù)據(jù)存儲管理新挑戰(zhàn)分論壇在無錫成功召開,會上來自螞蟻集團、SphereEx、平凱星辰、九章云極 DataCanvas、StreamNative、騰訊云和華為的技術專家,共同分享了 AI 時代下數(shù)據(jù)庫技術最新發(fā)展與實踐。
螞蟻集團開發(fā)工程師、HoraeDB 核心開發(fā)者 曹瑞秋
曹瑞秋在《時序數(shù)據(jù)庫 HoraeDB 技術揭秘》的主題分享中表示,近期已將 CeresDB 內(nèi)核捐獻到 Apache 基金會,捐獻的內(nèi)核即為 HoraeDB(CeresDB 現(xiàn)已更名為 HoraeDB)。目前主流的 InfluxDB、Prometheus、VictoriaMetrics 等時序數(shù)據(jù)庫仍存在時間線高基數(shù)問題和社區(qū)分布式方案不夠完備等問題。而 HoraeDB 采用倒排索引支持多維查詢,時間線少,適配度高的場景,倒排索引能直接全量存放在內(nèi)存中。HoraeDB 的高基數(shù)解決方案的核心是摒棄時間線概念,去除對倒排索引的強依賴,針對不同 tag 靈活選擇索引。此外,曹瑞秋還詳細介紹了 HoraeDB 分布式查詢優(yōu)化、Memtable/SST read 等優(yōu)化設計思路。
SphereEx 創(chuàng)始人 張亮
張亮發(fā)表了《數(shù)據(jù)庫增強計算引擎:數(shù)據(jù)庫架構革新新思路》主題演講。他認為在海量數(shù)據(jù)急速擴張,OLTP、OLAP、HTAP 等多種數(shù)據(jù)應用場景,數(shù)據(jù)庫技術棧碎片化等情勢下,數(shù)據(jù)系統(tǒng)應對上應用層零入侵,數(shù)據(jù)庫本身工具化,因此中間加速引擎則具有創(chuàng)新性、可插拔、平臺化。SphereEx 公司是由 Apache 頂級開源項目 ShardingSphere 核心團隊創(chuàng)立,致力于為企業(yè)提供面向新一代數(shù)據(jù)架構的數(shù)據(jù)庫增強引擎(DBPlusEngine),提供企業(yè)級、云原生的輕量級分布式數(shù)據(jù)庫解決方案、數(shù)據(jù)安全合規(guī)及信創(chuàng)平滑替換產(chǎn)品和服務,解決了企業(yè)海量數(shù)據(jù)的存儲與計算、數(shù)據(jù)安全合規(guī)等問題,幫助企業(yè)實現(xiàn)數(shù)據(jù)架構的轉型升級。
平凱星辰 TiDB Serverless 生態(tài)負責人 張翔
張翔發(fā)表了《TiDB Serverless:構建一個云原生的 Serverless 數(shù)據(jù)庫》主題演講。他首先介紹了 TiDB 是開源、兼容 MySQL、具有分布式,可保障業(yè)務連續(xù)性的真正的內(nèi)核級 HTAP 分布式混合負載數(shù)據(jù)處理平臺,在此之后的 TiDB Serverless 是在去年由 PingCAP 推出的一款云原生的 Serverless 數(shù)據(jù)服務演進而來,已經(jīng)由經(jīng)典分布式 HTAP 改造為下一代 Cloud Native 架構。因此可以實現(xiàn)如支持多租戶的統(tǒng)一接入網(wǎng)關、TiFlash 計算存儲分離、計算資源池化、TiKV Keyspace,以及 Scale to Zero、實時喚醒、自動擴縮容等按需分配,可以利用云上的海量資源、高達 11 個 9 的持久性、微服務化,更高效地使用云上資源,降低爆炸半徑等真正的原生性能,以此實現(xiàn)全量數(shù)據(jù)的彈性,以及簡單易用,降低 AI 時代的數(shù)據(jù)成本。
九章云極 DataCanvas 資深架構師 孟圣智
孟圣智發(fā)表了《DingoDB:融合 SQL 與向量,構建功能完整的 RAG 數(shù)據(jù)庫底座》主題演講,他表示 AI 時代數(shù)據(jù)需要從更多存儲變?yōu)楦讬z索,九章云極 DataCanvas 作為 AI 基礎軟件供應商,自主研發(fā)的 DingoDB 多模向量數(shù)據(jù)庫,實現(xiàn)結構化與非結構化的聯(lián)合存儲、分析和查詢。DingoDB 既是關系數(shù)據(jù)庫,支持 SQL、支持事務,符合用戶使用關系型數(shù)據(jù)庫的習慣。同時,DingoDB 也是向量數(shù)據(jù)庫,支持 Python 和 Java SDK,可以像使用大多數(shù)純向量數(shù)據(jù)庫一樣,無縫對接 LLM App,可以實現(xiàn)企業(yè)知識庫、大模型記憶體、實時決策指標計算能力、非結構化數(shù)據(jù)的檢索、Vector Ocean 數(shù)據(jù)支撐平臺、結構化與非結構化的融合分析等多種知識檢索應用場景。
StreamNative 聯(lián)合創(chuàng)始人、Apache Pulsar PMC Member 翟佳
翟佳發(fā)表了《云原生批流融合數(shù)據(jù)平臺助力 AI/LLM 的實時數(shù)據(jù)處理》主題演講,他表示 Pulsar 從捐贈給 Apache 軟件基金會后的幾年里一直在高速增長。Pulsar 采用存算分離云原生架構、支持多種語言,批和流統(tǒng)一視圖,可以與 Flink、Spark 等批流一體計算引擎有效地結合,方便管理實時和歷史數(shù)據(jù),確保數(shù)據(jù)新鮮度,將批流一體的數(shù)據(jù)與向量數(shù)據(jù)庫結合,確保大模型的數(shù)據(jù)顯現(xiàn)度和準確性,以提高模型準確性,降低模型幻覺。
騰訊開源專家 耿航
耿航發(fā)表了《騰訊云 TDSQL 平滑去 O 的機遇挑戰(zhàn)與開源實踐》主題演講,他表示核心數(shù)據(jù)庫平滑替換,需要從內(nèi)核、性能、使用習慣三個層面全面兼容,并且是一個完整的系統(tǒng)工程。騰訊云分布式數(shù)據(jù)庫 TDSQL PG 開源社區(qū)版 OpenTenBase 是完整去 O 和兼容 O 的數(shù)據(jù)庫內(nèi)核,以內(nèi)核兼容為基礎,打造從驅動、工具、內(nèi)核三個層面的甲骨文兼容能力,填補基于 Postgres 的開源分布式 HTAP 系統(tǒng)的空白。OpenTenBase 已吸引超過 10 個國家和地區(qū)的開發(fā)者關注,希望通過騰訊及上下游伙伴的技術投入,打造立足中國,面向全球的開放數(shù)字基礎設施數(shù)據(jù)底座。
華為 openGauss 內(nèi)核技術專家 胡正超
胡正超發(fā)表了《openGauss 內(nèi)核架構雙引擎,驅動大規(guī)模數(shù)據(jù)處理》主題演講,并分享了 openGauss 5.1 版本持續(xù)在高性能、高可用、高安全、高智能內(nèi)核上增強能力,同時在 DataPod 和 DataKit 持續(xù)創(chuàng)新,目標是實現(xiàn)更高效的大規(guī)模數(shù)據(jù)處理,更豐富的場景支持,更便捷的使用體驗。其中 DataPod 在 5.1 版本實現(xiàn)了一些新功能,提升了系統(tǒng)的易用性、可用性和性能。DataKit 為 openGauss 的數(shù)據(jù)全生命周期生產(chǎn)力工具,當前持續(xù)在平臺架構和功能插件上構建新功能,如增加告警中心、數(shù)據(jù)遷移、開發(fā)、運維等插件。
近幾年數(shù)據(jù)庫百花齊放,快速發(fā)展。生成式 AI 爆發(fā)之后,AI 大模型加速普及應用,模型訓練推理的準確性,對系統(tǒng)數(shù)據(jù)與信息的存儲、檢索、計算提出了新挑戰(zhàn)。從本次分論壇嘉賓分享的干貨內(nèi)容,我們可以看到,針對 AI 的數(shù)據(jù)系統(tǒng)可能正在走向殊途同歸的技術路徑,那就是分布式原生、實時、向量化(時序也可看作一種向量),另外存算分離、并行架構,以滿足 AI 對數(shù)據(jù)的性能、成本等要求。
審核編輯 黃宇
-
數(shù)據(jù)存儲
+關注
關注
5文章
950瀏覽量
50811 -
AI
+關注
關注
87文章
29383瀏覽量
267676 -
開源
+關注
關注
3文章
3185瀏覽量
42241
發(fā)布評論請先 登錄
相關推薦
評論