0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

押注向量數(shù)據(jù)庫,為時過早?

科技云報到 ? 來源:jf_60444065 ? 作者:jf_60444065 ? 2023-10-07 14:15 ? 次閱讀

科技云報道原創(chuàng)。

在大模型的高調(diào)火熱之下,向量數(shù)據(jù)庫也獲得了前所未有的關(guān)注。

近兩個月內(nèi),向量數(shù)據(jù)庫迎來融資潮,Qdrant、Chroma、Weaviate先后獲得融資,Pinecone宣布1億美元B輪融資,估值達到7.5億美元。

東北證券預(yù)測,到2030年,全球向量數(shù)據(jù)庫市場規(guī)模有望達到500億美元,國內(nèi)向量數(shù)據(jù)庫市場規(guī)模有望超600億人民幣。

但是在這蒸蒸日上的發(fā)展態(tài)勢下,向量數(shù)據(jù)庫依然面臨著不可忽視的挑戰(zhàn)。

有聲音認(rèn)為,不必專門開發(fā)一款純粹的向量數(shù)據(jù)庫,而是可以在現(xiàn)有數(shù)據(jù)庫的基礎(chǔ)上添加一些層,賦予其向量檢索的能力。更有業(yè)內(nèi)人士認(rèn)為,現(xiàn)在入局向量數(shù)據(jù)庫可能并非合適的時機。

那么,向量數(shù)據(jù)庫是否算得上AI時代的標(biāo)配?其熱度能維持到幾時,此時押注后續(xù)又要擠出多少泡沫?

向量數(shù)據(jù)庫 大模型的“海馬體”

與傳統(tǒng)數(shù)據(jù)庫不同,向量數(shù)據(jù)庫不依賴于結(jié)構(gòu)化格式,而是將數(shù)據(jù)作為數(shù)學(xué)向量存儲在高維空間中并對其進行索引。

這種方法被稱為“向量化”,可以更有效地搜索相似性并更好地處理復(fù)雜的數(shù)據(jù)類型(圖像、音視頻、自然語言)。

某種程度上,向量數(shù)據(jù)庫代表了數(shù)據(jù)存儲和檢索的范式轉(zhuǎn)變。隨著大模型的興起,向量數(shù)據(jù)庫的優(yōu)勢得以充分發(fā)揮,甚至有人將其視為AIGC成功的基石。

一種通俗的比方是,行業(yè)內(nèi)將大模型稱為“大腦”,向量數(shù)據(jù)庫則是其“海馬體”。

目前的大模型都是預(yù)訓(xùn)練模型,對于訓(xùn)練截止日之后發(fā)生的事情一無所知,第一是沒有實時的數(shù)據(jù),第二是缺乏私域數(shù)據(jù)或者企業(yè)數(shù)據(jù)。

向量數(shù)據(jù)庫可以通過存儲最新信息或者企業(yè)數(shù)據(jù)有效彌補了這些不足,讓大模型突破在時間和空間上的限制,加速大模型落地行業(yè)場景。

同時,通過向量數(shù)據(jù)的本地存儲,還能夠協(xié)助解決目前企業(yè)界最擔(dān)憂的大模型泄露隱私的問題。

不過值得一提的是,向量技術(shù)并不新鮮,早在ChatGPT橫空出世之前,向量數(shù)據(jù)庫非常小眾。前文提到的兩家初創(chuàng)公司Pinecone和Weaviate都成立于2019年,但此前無論是融資還是營收都是乏善可陳的狀態(tài)。

Pinecone聯(lián)合創(chuàng)始人兼首席執(zhí)行官Edo Liberty曾坦率地提到,如果沒有ChatGPT的出現(xiàn),我們根本不可能獲得巨額融資。

軟件服務(wù)初創(chuàng)公司Heltar的創(chuàng)始人Avyukt Aggarwal也談到,AIGC的爆火成就了向量數(shù)據(jù)庫。

“每次淘金熱都會有人賣鏟子。對于生成式AI,鏟子是什么?向量數(shù)據(jù)庫。幾乎每一個LLM支持的應(yīng)用程序都在使用它們或即將使用它們?!?/p>

向量數(shù)據(jù)庫 有必要走向?qū)I(yè)化嗎?

向量數(shù)據(jù)庫系統(tǒng)的誕生,來源于具體業(yè)務(wù)需求——想要高效處理海量的向量數(shù)據(jù),就需要更細(xì)分、更專業(yè)的數(shù)據(jù)基礎(chǔ)設(shè)施,為向量構(gòu)建專門的數(shù)據(jù)庫處理系統(tǒng)。

但這種路徑是必須的嗎?

產(chǎn)品層面講,如果傳統(tǒng)數(shù)據(jù)庫廠商不單獨研發(fā)向量數(shù)據(jù)庫,那么基本上會主張支持原生的向量詞嵌入和向量搜索引擎。

向量數(shù)據(jù)庫市場的陣營,在ChatGPT影響之前就已經(jīng)在形成分化,既包括提供開源組件的Milvus、Vald、Weaviate、Qdrant、Vaspa、Vearch、AquilaDB、Marqo,到商業(yè)化服務(wù)產(chǎn)品Pinecone,再到大廠谷歌推出的Vertex AI匹配引擎,數(shù)據(jù)庫廠商Elastic和Redis基于自身提供的向量檢索功能等等。

這其實也表明了當(dāng)前向量數(shù)據(jù)庫市場存在的兩種路線:

一個是基于分析數(shù)據(jù)庫的向量化執(zhí)行引擎,英文是Vectorization,這是學(xué)術(shù)界2013年提出的名詞,如Clickhouse、Spark引擎,是一種新型的執(zhí)行方式,用于處理傳統(tǒng)的結(jié)構(gòu)化數(shù)據(jù)如表單等,更多的是結(jié)構(gòu)化數(shù)據(jù)分析數(shù)據(jù)里面做并行執(zhí)行的一種方式,在新型的處理芯片上進行處理。

另一個則是推出向量數(shù)據(jù)庫(Vector Database),本質(zhì)上處理的是AI領(lǐng)域的一類新型數(shù)據(jù)類型,例如對多模數(shù)據(jù)的處理,相比其他的向量檢索技術(shù)在檢索速度和精準(zhǔn)性上都有了一個很高的提升。

后者的做法也基本在幾家主流云廠商如亞馬遜云、阿里云上能夠看到,而這些云平臺應(yīng)用市場也會提供給這些第三方向量數(shù)據(jù)庫企業(yè)進行托管。

例如,阿里云開發(fā)的內(nèi)存數(shù)據(jù)庫Tair,在兼容Redis生態(tài)的同時,也具備向量檢索能力,實現(xiàn)緩存+向量二合一,已經(jīng)投入在電商等場景。

有業(yè)內(nèi)人士認(rèn)為,對于簡單的用戶和場景來說,在傳統(tǒng)數(shù)據(jù)庫上添加一個向量分層來滿足技術(shù)發(fā)展需求,這種方法是可行的。

然而,考慮到 AI 場景和產(chǎn)業(yè)需求,情況可能有所不同。AI領(lǐng)域的迭代非常快,隨著數(shù)據(jù)量和應(yīng)用場景的增加,傳統(tǒng)數(shù)據(jù)庫可能不再適用于高要求的計算密集型場景,向量數(shù)據(jù)庫可能才是最終的解決方案。

押注向量數(shù)據(jù)庫 挑戰(zhàn)頗多

作為今年以來的熱門技術(shù)賽道,向量數(shù)據(jù)庫已吸引了大量廠商和創(chuàng)業(yè)團隊入場,先發(fā)者與后來者,老牌廠商與新生力量之間的競爭正在持續(xù)升溫。

但值得注意的是,向量數(shù)據(jù)庫真的值得廠商全力投入嗎?

在《為什么你不應(yīng)該投資向量數(shù)據(jù)庫?》一文中,吳英駿表示,現(xiàn)在入局向量數(shù)據(jù)庫可能并非合適的時機。其理由主要集中于以下幾點:

其一,先發(fā)優(yōu)勢明顯。目前向量化技術(shù)目前已十分成熟,并存在大量開源解決方案,在不同的領(lǐng)域也存在不同的向量化方案,潛在用戶可以很容易地在現(xiàn)有市場中找到合適的選擇。

其二,需求層次不同。如果一家公司已經(jīng)采用了Elastic,Redis,SingleStore或Rockset等商業(yè)數(shù)據(jù)庫,并且不需要高度先進的向量搜索功能,則可以充分利用這些數(shù)據(jù)庫的現(xiàn)有功能。

盡管在向量數(shù)據(jù)處理方面的表現(xiàn)不如專業(yè)的向量數(shù)據(jù)庫,但依然可以滿足多數(shù)用戶的一般要求。

其三,技術(shù)在不斷前進。隨著數(shù)據(jù)庫領(lǐng)域技術(shù)的進步,越來越多的數(shù)據(jù)庫會考慮納入向量搜索功能,以滿足當(dāng)前用戶群的需求。對于目前缺乏向量搜索功能的數(shù)據(jù)庫,實現(xiàn)這些功能或許只是時間問題。

也有聲音認(rèn)為,相較于大模型的高調(diào)火熱,向量數(shù)據(jù)庫仍然靠近底層,并沒有達到真正意義上的全民皆知,向量數(shù)據(jù)庫更多時候是需要集成到其他平臺或云上被銷售。

而從需求端看,過去向量檢索還主要聚焦于機器學(xué)習(xí)和數(shù)據(jù)挖掘領(lǐng)域,通過高效的數(shù)據(jù)存儲和查詢工具,使得相似性搜索和聚類分析成為可能。

推薦系統(tǒng)中,向量數(shù)據(jù)庫助力個性化推薦,根據(jù)用戶興趣和商品相似性,呈現(xiàn)給用戶最貼切的推薦結(jié)果。

簡言之,“與其投資新的向量數(shù)據(jù)庫項目,不如集中精力于現(xiàn)有數(shù)據(jù)庫,并探索利用向量引擎增強這些數(shù)據(jù)庫的機會,使其更加健壯和強大”。

結(jié)語

無論如何,在技術(shù)的快速迭代下,數(shù)據(jù)庫市場的持續(xù)擴張是不可避免的。當(dāng)前存在著大量的需求,將吸引越來越多的數(shù)據(jù)庫甚至向量數(shù)據(jù)庫加入競爭。

不過從長遠來看,向量數(shù)據(jù)庫的市場需求尚處于初期,中遠期規(guī)模尚難以預(yù)估。在若干輪優(yōu)勝劣汰之后,我們或許才能看清誰是真正的執(zhí)棋者。

【關(guān)于科技云報道】

專注于原創(chuàng)的企業(yè)級內(nèi)容行家——科技云報道。成立于2015年,是前沿企業(yè)級IT領(lǐng)域Top10媒體。獲工信部權(quán)威認(rèn)可,可信云、全球云計算大會官方指定傳播媒體之一。深入原創(chuàng)報道云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。

審核編輯 黃宇

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • AI
    AI
    +關(guān)注

    關(guān)注

    87

    文章

    29400

    瀏覽量

    267698
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3739

    瀏覽量

    64173
收藏 人收藏

    評論

    相關(guān)推薦

    科技云報到:大模型時代下,向量數(shù)據(jù)庫的野望

    科技云報到:大模型時代下,向量數(shù)據(jù)庫的野望
    的頭像 發(fā)表于 10-14 17:18 ?143次閱讀

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)—SQL Server數(shù)據(jù)庫出現(xiàn)823錯誤的數(shù)據(jù)恢復(fù)案例

    SQL Server數(shù)據(jù)庫故障: SQL Server附加數(shù)據(jù)庫出現(xiàn)錯誤823,附加數(shù)據(jù)庫失敗。數(shù)據(jù)庫沒有備份,無法通過備份恢復(fù)數(shù)據(jù)庫。
    的頭像 發(fā)表于 09-20 11:46 ?234次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—SQL Server<b class='flag-5'>數(shù)據(jù)庫</b>出現(xiàn)823錯誤的<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例

    大模型卷價格,向量數(shù)據(jù)庫“卷”什么?

    被大模型“帶飛”這一年,向量數(shù)據(jù)庫才剛剛寫下序言
    的頭像 發(fā)表于 05-23 09:24 ?1712次閱讀
    大模型卷價格,<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>“卷”什么?

    搭載英偉達GPU,全球領(lǐng)先的向量數(shù)據(jù)庫公司Zilliz發(fā)布Milvus2.4向量數(shù)據(jù)庫

    在美國硅谷圣何塞召開的 NVIDIA GTC 大會上,全球領(lǐng)先的向量數(shù)據(jù)庫公司 Zilliz 發(fā)布了 Milvus 2.4 版本。這是一款革命性的向量數(shù)據(jù)庫系統(tǒng),在業(yè)界首屈一指,它首次
    的頭像 發(fā)表于 04-01 14:33 ?410次閱讀
    搭載英偉達GPU,全球領(lǐng)先的<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>公司Zilliz發(fā)布Milvus2.4<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)】Oracle數(shù)據(jù)庫ASM實例無法掛載的數(shù)據(jù)恢復(fù)案例

    oracle數(shù)據(jù)庫ASM磁盤組掉線,ASM實例不能掛載。數(shù)據(jù)庫管理員嘗試修復(fù)數(shù)據(jù)庫,但是沒有成功。
    的頭像 發(fā)表于 02-01 17:39 ?421次閱讀
    【<b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)】Oracle<b class='flag-5'>數(shù)據(jù)庫</b>ASM實例無法掛載的<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例

    騰訊云把向量數(shù)據(jù)庫“卷”到哪一步了?

    被大模型“帶飛”這一年,向量數(shù)據(jù)庫才剛剛寫下序言
    的頭像 發(fā)表于 01-15 09:49 ?1531次閱讀
    騰訊云把<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>“卷”到哪一步了?

    誠邀報名 | AI 向量、云原生、開源,今年的數(shù)據(jù)庫熱點技術(shù)都在這里

    訓(xùn)練和推理的精準(zhǔn)度對數(shù)據(jù)和信息的存儲、檢索、處理提出了更高的要求。為此,存算分離、向量數(shù)據(jù)庫、圖數(shù)據(jù)庫、分布式數(shù)據(jù)庫和開源
    的頭像 發(fā)表于 12-20 20:48 ?306次閱讀
    誠邀報名 | AI <b class='flag-5'>向量</b>、云原生、開源,今年的<b class='flag-5'>數(shù)據(jù)庫</b>熱點技術(shù)都在這里

    誠邀報名 | AI 向量、云原生、開源,今年的數(shù)據(jù)庫熱點技術(shù)都在這里

    和推理的精準(zhǔn)度對數(shù)據(jù)和信息的存儲、檢索、處理提出了更高的要求。為此,存算分離、向量數(shù)據(jù)庫、圖數(shù)據(jù)庫、分布式數(shù)據(jù)庫和開源
    的頭像 發(fā)表于 12-13 16:05 ?291次閱讀

    關(guān)于JSON數(shù)據(jù)庫

    如何理解JSON數(shù)據(jù)庫?作為NoSQL數(shù)據(jù)庫的一種類型,JSON數(shù)據(jù)庫有哪些優(yōu)勢呢?JSON數(shù)據(jù)庫如何運作,它為應(yīng)用程序開發(fā)者帶來了哪些價值呢?
    的頭像 發(fā)表于 12-06 13:46 ?785次閱讀
    關(guān)于JSON<b class='flag-5'>數(shù)據(jù)庫</b>

    oracle數(shù)據(jù)庫的基本操作

    Oracle數(shù)據(jù)庫是一種關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS),廣泛應(yīng)用于企業(yè)級應(yīng)用中。它具有強大的功能和靈活的配置選項,可以滿足復(fù)雜的數(shù)據(jù)處理需求。本文將介紹Oracle數(shù)據(jù)庫的基本操作,
    的頭像 發(fā)表于 12-06 10:14 ?617次閱讀

    什么是JSON數(shù)據(jù)庫

    如何理解JSON數(shù)據(jù)庫?作為NoSQL數(shù)據(jù)庫的一種類型,JSON數(shù)據(jù)庫有哪些優(yōu)勢呢?JSON數(shù)據(jù)庫如何運作,它為應(yīng)用程序開發(fā)者帶來了哪些價值呢?文章速覽:什么是JSON什么是JSON
    的頭像 發(fā)表于 12-02 08:04 ?773次閱讀
    什么是JSON<b class='flag-5'>數(shù)據(jù)庫</b>

    NoSQL 數(shù)據(jù)庫如何選型

    什么是NoSQL數(shù)據(jù)庫?為什么要使用NoSQL數(shù)據(jù)庫?鍵值數(shù)據(jù)庫內(nèi)存鍵值數(shù)據(jù)庫文檔數(shù)據(jù)庫列式數(shù)據(jù)庫
    的頭像 發(fā)表于 11-26 08:05 ?402次閱讀
    NoSQL <b class='flag-5'>數(shù)據(jù)庫</b>如何選型

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)—SQLserver數(shù)據(jù)庫被加密如何恢復(fù)數(shù)據(jù)

    一臺服務(wù)器上的SQLserver數(shù)據(jù)庫被勒索病毒加密,無法正常使用。該服務(wù)器上部署有多個SQLserver數(shù)據(jù)庫,其中有2個數(shù)據(jù)庫及備份文件被加密,文件名被篡改,數(shù)據(jù)庫無法使用。
    的頭像 發(fā)表于 11-23 14:42 ?843次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)—SQLserver<b class='flag-5'>數(shù)據(jù)庫</b>被加密如何恢復(fù)<b class='flag-5'>數(shù)據(jù)</b>?

    一文解析向量數(shù)據(jù)庫的大模型之路

    數(shù)據(jù)在 MaaS 時代很重要,市場的火熱映射到具體的企業(yè)行為上,表現(xiàn)為大批量垂直模型的推出、數(shù)據(jù)庫企業(yè)融資數(shù)量增加、數(shù)據(jù)庫使用量陡然增長等。
    發(fā)表于 11-17 11:37 ?461次閱讀
    一文解析<b class='flag-5'>向量</b><b class='flag-5'>數(shù)據(jù)庫</b>的大模型之路

    數(shù)據(jù)庫數(shù)據(jù)恢復(fù)——MongoDB數(shù)據(jù)庫介紹和數(shù)據(jù)恢復(fù)案例

    MongoDB數(shù)據(jù)庫是文檔數(shù)據(jù)存儲,將文檔存儲在集合之中,不是像MySQL一樣的關(guān)系型數(shù)據(jù)庫。
    的頭像 發(fā)表于 11-08 15:04 ?816次閱讀
    <b class='flag-5'>數(shù)據(jù)庫</b><b class='flag-5'>數(shù)據(jù)</b>恢復(fù)——MongoDB<b class='flag-5'>數(shù)據(jù)庫</b>介紹和<b class='flag-5'>數(shù)據(jù)</b>恢復(fù)案例