0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

MySQL單表數(shù)據(jù)量限制:為何2000萬行成為瓶頸?

馬哥Linux運(yùn)維 ? 來源:cnblogs ? 2024-02-27 10:38 ? 次閱讀

最近看到一篇《我說MySQL每張表最好不要超過2000萬數(shù)據(jù),面試官讓我回去等通知》的文章,非常有趣。

文中提到,他朋友在面試的過程中說,自己的工作就是把用戶操作信息存到MySQL里,因?yàn)閿?shù)據(jù)量超大(5000萬條左右),需要每天定時(shí)生成3張表,然后將數(shù)據(jù)取模分別存到這三張表里。

下面是兩人的對(duì)話:

面試后續(xù)暫且不論,不過,互聯(lián)網(wǎng)江湖上的確流傳著一個(gè)說法:單表數(shù)據(jù)量超過500萬行時(shí)就要進(jìn)行分表分庫,已經(jīng)超過2000萬行時(shí)MySQL的性能就會(huì)急劇下降。

那么,MySQL一張表最多能存多少數(shù)據(jù)?

今天我們就從技術(shù)層面剖析一下,MySQL單表數(shù)據(jù)不能過大的根本原因是什么?

猜想一:是索引深度嗎?

很多人認(rèn)為:數(shù)據(jù)量超過500萬行或2000萬行時(shí),引起B(yǎng)+tree的高度增加,延長了索引的搜索路徑,進(jìn)而導(dǎo)致了性能下降。事實(shí)果真如此嗎?

我們先理一下關(guān)系,MySQL采用了索引組織表的形式組織數(shù)據(jù),葉子節(jié)點(diǎn)存儲(chǔ)數(shù)據(jù),非葉子節(jié)點(diǎn)存儲(chǔ)主鍵與頁面號(hào)的映射關(guān)系。若用戶的主鍵長度是8字節(jié)時(shí),MySQL中頁面偏移占4個(gè)字節(jié),在非葉子節(jié)點(diǎn)的時(shí)候?qū)嶋H上是8+4=12個(gè)字節(jié),12個(gè)字節(jié)表示一個(gè)頁面的映射關(guān)系。

MySQL默認(rèn)是16K的頁面,拋開它的配置header,大概就是15K,因此,非葉子節(jié)點(diǎn)的索引頁面可放15*1024/12=1280條數(shù)據(jù),按照每行1K計(jì)算,每個(gè)葉子節(jié)點(diǎn)可以存15條數(shù)據(jù)。同理,三層就是15*1280*1280=24576000條數(shù)據(jù)。只有數(shù)據(jù)量達(dá)到24576000條時(shí),深度才會(huì)增加為4,所以,索引深度沒有那么容易增加,詳細(xì)數(shù)據(jù)可參考下表:

a548a84e-d488-11ee-a297-92fbcf53809c.jpg

搜索路徑延長導(dǎo)致性能下降的說法,與當(dāng)時(shí)的機(jī)械硬盤和內(nèi)存條件不無關(guān)系。

之前機(jī)械硬盤的IOPS在100左右,而現(xiàn)在普遍使用的SSD的IOPS已經(jīng)過萬,之前的內(nèi)存最大幾十G,現(xiàn)在服務(wù)器內(nèi)存最大可達(dá)到TB級(jí)。

因此,即使深度增加,以目前的硬件資源,IO也不會(huì)成為限制MySQL單表數(shù)據(jù)量的根本性因素。

那么,限制MySQL單表不能過大的根本性因素是什么?

猜想二:是SMO無法并發(fā)嗎?

我們可以嘗試從MySQL所采用的存儲(chǔ)引擎InnoDB本身來探究一下。

大家知道InnoDB引擎使用的是索引組織表,它是通過索引來組織數(shù)據(jù)的,而它采用B+tree作為索引的數(shù)據(jù)結(jié)構(gòu)。

B+Tree操作非原子,所以當(dāng)一個(gè)線程做結(jié)構(gòu)調(diào)整(SMO,Struction-Modification-Operation)時(shí)一般會(huì)涉及多個(gè)節(jié)點(diǎn)的改動(dòng)。

SMO動(dòng)作過程中,此時(shí)若有另一個(gè)線程進(jìn)來可能會(huì)訪問到錯(cuò)誤的B+Tree結(jié)構(gòu),InnoDB為了解決這個(gè)問題采用了樂觀鎖和悲觀鎖的并發(fā)控制協(xié)議。

InnoDB對(duì)于葉子節(jié)點(diǎn)的修改操作如下:

方式一,先采用樂觀鎖的方式嘗試進(jìn)行修改

對(duì)根節(jié)點(diǎn)加S鎖(shared lock,叫共享鎖,也稱讀鎖),依次對(duì)非葉子節(jié)點(diǎn)加S鎖。

如果葉子節(jié)點(diǎn)的修改不會(huì)引起B(yǎng)+Tree結(jié)構(gòu)變動(dòng),如分裂、合并等操作,那么只需要對(duì)葉子節(jié)點(diǎn)進(jìn)行加X鎖(exclusive lock,叫排他鎖,也稱為寫鎖)即可完成修改。如下圖中所示 :

a56208de-d488-11ee-a297-92fbcf53809c.png

方式二,采用悲觀鎖的方式

如果對(duì)葉子結(jié)點(diǎn)的修改會(huì)觸發(fā)SMO,那么會(huì)采用悲觀鎖的方式。

采用悲觀鎖,需要重新遍歷B+Tree,對(duì)根節(jié)點(diǎn)加全局SX鎖(SX鎖是行鎖),然后從根節(jié)點(diǎn)到葉子節(jié)點(diǎn)可能修改的節(jié)點(diǎn)加X鎖。

在整個(gè)SMO過程中,根節(jié)點(diǎn)始終持有SX鎖(SX鎖表示有意向修改這個(gè)保護(hù)的范圍,SX鎖與SX鎖、X鎖沖突,與S鎖不沖突),此時(shí)其他的SMO則需要等待。

a5770ab8-d488-11ee-a297-92fbcf53809c.png

因此,InnoDB對(duì)于簡單的主鍵查詢比較快,因?yàn)閿?shù)據(jù)都存儲(chǔ)在葉子節(jié)點(diǎn)中,但對(duì)于數(shù)據(jù)量大且改操作比較多的TP型業(yè)務(wù),并發(fā)會(huì)有很嚴(yán)重的瓶頸問題。

在對(duì)葉子節(jié)點(diǎn)的修改操作中,InnoDB可以實(shí)現(xiàn)較好的1與1、1與2的并發(fā),但是無法解決2的并發(fā)。因?yàn)樵诜绞?中,根節(jié)點(diǎn)始終持有SX鎖,必須串行執(zhí)行,等待上一個(gè)SMO操作完成。這樣在具有大量的SMO操作時(shí),InnoDB的B+Tree實(shí)現(xiàn)就會(huì)出現(xiàn)很嚴(yán)重的性能瓶頸。

解決方案

目前業(yè)界有一個(gè)更好的方案B-Link Tree,與B+Tree相比,B-Link Tree優(yōu)化了B+Tree結(jié)構(gòu)調(diào)整時(shí)的鎖粒度,只需要逐層加鎖,無需對(duì)root節(jié)點(diǎn)加全局鎖。因此,可以做到在SMO過程中寫操作的并發(fā)執(zhí)行,保持高并發(fā)下性能的穩(wěn)定。

B-Link Tree主要改進(jìn)點(diǎn)有2個(gè):

1.中間節(jié)點(diǎn)增加link指針,指向右兄弟節(jié)點(diǎn);

2.每個(gè)節(jié)點(diǎn)內(nèi)增加字段high key,存儲(chǔ)該節(jié)點(diǎn)中最大的key值。

新增的link指針是為了解決SMO過程中并發(fā)寫的問題,在SMO過程中,B-Link Tree對(duì)修改節(jié)點(diǎn)逐層加鎖,修改完一層即可放鎖,然后去加上一層節(jié)點(diǎn)的鎖繼續(xù)修改。這樣在InnoDB引擎中被SMO阻塞的寫操作可以有機(jī)會(huì)在SMO操作過程中并發(fā)進(jìn)行。

如下圖所示,在節(jié)點(diǎn)2分裂為節(jié)點(diǎn)2和4的過程中,只需要在最后一步將父節(jié)點(diǎn)1指向新節(jié)點(diǎn)4時(shí),對(duì)父節(jié)點(diǎn)1加鎖,其他操作均無需對(duì)父節(jié)點(diǎn)加鎖,更無需對(duì)root節(jié)點(diǎn)加鎖,因此,大大提升了SMO過程中寫操作的并發(fā)度。

a58a7ee0-d488-11ee-a297-92fbcf53809c.png

由此可見,與B+Tree全局加鎖對(duì)比,B-Link Tree在高并發(fā)操作下的性能是顯著優(yōu)于B+Tree的。GaussDB當(dāng)前采用的就是B-Link Tree索引數(shù)據(jù)結(jié)構(gòu)。

InnoDB的索引組織表更容易觸發(fā)SMO

索引組織表的葉子節(jié)點(diǎn),存儲(chǔ)主鍵以及應(yīng)對(duì)行的數(shù)據(jù),InnoDB默認(rèn)頁面為16K,若每行數(shù)據(jù)的大小為1000字節(jié),每個(gè)葉子節(jié)點(diǎn)僅能存儲(chǔ)16行數(shù)據(jù)。

在索引組織表中,當(dāng)葉子節(jié)點(diǎn)的扇出值過低時(shí),SMO的觸發(fā)將更加頻繁,進(jìn)而放大了SMO無法并發(fā)寫的缺陷。

目前業(yè)界有一個(gè)堆組織表的數(shù)據(jù)組織方案,也是華為云數(shù)據(jù)庫GaussDB采用的方案。它的葉子節(jié)點(diǎn)存儲(chǔ)索引鍵以及對(duì)應(yīng)的行指針(所在的頁面編號(hào)及頁內(nèi)偏移),堆組織表葉子節(jié)點(diǎn)可以存更多的數(shù)據(jù),分析可得在同樣的數(shù)據(jù)量與業(yè)務(wù)并發(fā)量下,堆組織表會(huì)比索引組織表發(fā)生SMO概率低許多。

性能對(duì)比

在8U32G的兩臺(tái)服務(wù)器分別搭建了MySQL(B+Tree和索引組織表)與GaussDB(B-Link Tree和堆組織表)的環(huán)境,進(jìn)行了如下性能驗(yàn)證:

實(shí)驗(yàn)場景:在基礎(chǔ)表的場景上,測(cè)試增量隨機(jī)插入性能。

1.基礎(chǔ)表總大小10G,包含主鍵隨機(jī)分布的1000w行數(shù)據(jù),每行數(shù)據(jù)1k;

2.插入主鍵隨機(jī)分布的1000w行數(shù)據(jù),每行數(shù)據(jù)大小1k,測(cè)試并發(fā)插入性能。

結(jié)論:隨著并發(fā)數(shù)的上升,GaussDB能穩(wěn)步提升系統(tǒng)的TPS,而MySQL并發(fā)數(shù)的提高并不能帶來TPS的顯著提升。

a59785ea-d488-11ee-a297-92fbcf53809c.jpg

綜上所述,MySQL無法支持大數(shù)據(jù)量下并發(fā)修改的根本原因,是由于其索引并發(fā)控制協(xié)議的缺陷造成的,而MySQL選擇索引組織表,又放大了這一缺陷。所以,開源MySQL數(shù)據(jù)庫更適用于主鍵查詢?yōu)橹鞯暮唵螛I(yè)務(wù)場景,如互聯(lián)網(wǎng)類應(yīng)用,對(duì)于復(fù)雜的商業(yè)場景限制比較明顯。

相比之下 ,采用B-Link Tree和堆組織表的GaussDB數(shù)據(jù)庫在性能和場景應(yīng)用方面更勝一籌。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 服務(wù)器
    +關(guān)注

    關(guān)注

    12

    文章

    8843

    瀏覽量

    84946
  • 數(shù)據(jù)庫
    +關(guān)注

    關(guān)注

    7

    文章

    3734

    瀏覽量

    64170
  • 指針
    +關(guān)注

    關(guān)注

    1

    文章

    475

    瀏覽量

    70477
  • MySQL
    +關(guān)注

    關(guān)注

    1

    文章

    791

    瀏覽量

    26351

原文標(biāo)題:為什么MySQL單表不能超過2000萬行?

文章出處:【微信號(hào):magedu-Linux,微信公眾號(hào):馬哥Linux運(yùn)維】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏

    評(píng)論

    相關(guān)推薦

    誰說MySQL行數(shù)不要超過2000W?

    網(wǎng)上看了一篇文章《為什么說MySQL行數(shù)不要超過2000w》,親自實(shí)踐了一下,跟原作者有不同的結(jié)論。原文的結(jié)論是2000W左右性能會(huì)成指
    的頭像 發(fā)表于 12-15 10:02 ?886次閱讀
    誰說<b class='flag-5'>MySQL</b><b class='flag-5'>單</b><b class='flag-5'>表</b>行數(shù)不要超過<b class='flag-5'>2000</b>W?

    MySQL分區(qū)類型及介紹

    分區(qū)是將一個(gè)數(shù)據(jù)按照一定規(guī)則水平劃分成不同的邏輯塊,并分別進(jìn)行物理存儲(chǔ),這個(gè)規(guī)則就叫做分區(qū)函數(shù),可以有不同的分區(qū)規(guī)則。通過show plugins語句查看當(dāng)前MySQL是否支持
    發(fā)表于 06-29 16:31

    談分布式數(shù)據(jù)庫中間件之分庫分   

    讀寫分離策略,也可以很好的解決性能問題?!   ?b class='flag-5'>數(shù)據(jù)量在1000以上的,建議分片。將數(shù)據(jù)
    發(fā)表于 08-02 20:19

    800萬行代碼的鴻蒙系統(tǒng),在世界上處于什么水平?

    “800萬行的代碼量,讓鴻蒙一躍成為人類有史以來第4大代碼量的移動(dòng)操作系統(tǒng)。要知道當(dāng)前2.0版本僅包含大屏、手表和車機(jī)系統(tǒng),等到今年12 月手機(jī)系統(tǒng)發(fā)布后,鴻蒙系統(tǒng)的代碼量估計(jì)可超過1000萬行。而這么龐大的工作量,華為僅用2年
    發(fā)表于 09-29 16:04

    【HarmonyOS】800萬行代碼的鴻蒙系統(tǒng),在世界上處于什么水平?

    互聯(lián)網(wǎng)服務(wù)加起來,更是達(dá)到了驚人的200億!注:以上數(shù)據(jù),應(yīng)該是沒有將我國的軟件/系統(tǒng)統(tǒng)計(jì)入內(nèi)。800萬行的代碼量,讓鴻蒙系統(tǒng)2.0版本一躍成為人類有史以來第4大代碼量的移動(dòng)操作系統(tǒng)
    發(fā)表于 10-27 10:25

    RoHS金屬物質(zhì)含量限制參考

    RoHS金屬物質(zhì)含量限制參考:RoHS 六大類有害物質(zhì)含量標(biāo)準(zhǔn)物質(zhì)名稱 用途與適用條件 零件允許 PPM 值 零件禁 止含有 期限試用法規(guī) 測(cè)試方法包裝材料(紙箱,緩衝材,PE 袋,膠
    發(fā)表于 08-12 10:05 ?56次下載

    量限制

    量限制器 IC1連接成倒相
    發(fā)表于 09-08 16:51 ?842次閱讀
    音<b class='flag-5'>量限制</b>器

    基于Power圖求解容量限制P種植問題建模

    針對(duì)稠密需求下連續(xù)域上的容量P一中值問題,提出基于質(zhì)心的容量限制Power圖(CCCPD)理論,對(duì)連續(xù)P一中值問題進(jìn)行近似建模,并加快計(jì)算過程。擴(kuò)展Balzer試位法構(gòu)造Power圖,施加質(zhì)心限制
    發(fā)表于 01-09 19:22 ?0次下載

    阿里巴巴推出每秒撰寫2萬行廣告文案的AI新工具

    北京時(shí)間7月5日下午消息,中國電子商務(wù)巨頭阿里巴巴發(fā)布一項(xiàng)人工智能工具,可以每秒寫入2萬行廣告文案。
    的頭像 發(fā)表于 07-07 10:48 ?3002次閱讀

    B+樹索引如何對(duì)Mysql數(shù)據(jù)量造成影響

    我們說 Mysql 適合存儲(chǔ)的最大數(shù)據(jù)量,自然不是說能夠存儲(chǔ)的最大數(shù)據(jù)量,如果是說能夠存儲(chǔ)的最大量,那么,如果你使用自增 ID,最大就可
    的頭像 發(fā)表于 04-16 08:08 ?1556次閱讀
    B+樹索引如何對(duì)<b class='flag-5'>Mysql</b><b class='flag-5'>單</b><b class='flag-5'>表</b><b class='flag-5'>數(shù)據(jù)量</b>造成影響

    濤思數(shù)據(jù)開源TDengine,10多萬行C代碼,登頂GitHub!

    7月12日,濤思數(shù)據(jù)宣布將TDengine開源,10多萬行C代碼,包括最核心的存儲(chǔ)引擎和計(jì)算引擎都上傳到了GitHub上。
    的頭像 發(fā)表于 07-31 16:07 ?1.3w次閱讀

    MySQL數(shù)據(jù)最大不要超過多少

    ? 1、背景 2、實(shí)驗(yàn) 3、數(shù)量限制 4、空間 5、頁的數(shù)據(jù)結(jié)構(gòu) 6、索引的數(shù)據(jù)結(jié)構(gòu) 7、
    的頭像 發(fā)表于 06-02 15:30 ?568次閱讀
    <b class='flag-5'>MySQL</b><b class='flag-5'>單</b><b class='flag-5'>表</b><b class='flag-5'>數(shù)據(jù)</b>最大不要超過多少<b class='flag-5'>行</b>

    為什么 MySQL 不能超過 2000 萬行

    ,因?yàn)?b class='flag-5'>數(shù)據(jù)量超大(5000 條左右),需要每天定時(shí)生成 3 張,然后將數(shù)據(jù)取模分別存到這三張表里。 接下來是兩人的對(duì)話: 面試后續(xù)暫且不論,不過,互聯(lián)網(wǎng)江湖上的確流傳著一個(gè)說法:
    的頭像 發(fā)表于 06-29 16:48 ?638次閱讀
    為什么 <b class='flag-5'>MySQL</b> <b class='flag-5'>單</b><b class='flag-5'>表</b>不能超過 <b class='flag-5'>2000</b> <b class='flag-5'>萬行</b>?

    mysql一個(gè)能存多少數(shù)據(jù)

    、數(shù)據(jù)備份和還原、處理海量數(shù)據(jù)等功能,因此成為廣泛應(yīng)用的數(shù)據(jù)庫管理系統(tǒng)。 當(dāng)我們使用MySQL進(jìn)行數(shù)據(jù)
    的頭像 發(fā)表于 08-28 17:15 ?941次閱讀

    如何提高Mysql數(shù)據(jù)庫的訪問瓶頸

    為了提高Mysql數(shù)據(jù)庫的訪問瓶頸,常用的方法有如下兩個(gè): 在服務(wù)器端增加緩存服務(wù)器緩存常用的數(shù)據(jù)(例如redis) 增加連接池,來提高MYsql
    的頭像 發(fā)表于 11-08 16:22 ?976次閱讀
    如何提高<b class='flag-5'>Mysql</b><b class='flag-5'>數(shù)據(jù)</b>庫的訪問<b class='flag-5'>瓶頸</b>