当前位置:网站首页>Causes of Mysql Disk Holes and Several Ways to Rebuild Tables
Causes of Mysql Disk Holes and Several Ways to Rebuild Tables
2022-08-03 22:03:00 【Liu Java】
携手创作,共同成长!这是我参与「掘金日新计划 · 8 月更文挑战」的第5天,点击查看活动详情
详细介绍了MysqlThere's no reason to delete data but disk usage doesn't decrease——disk hole,And the difference between the solution to the disk hole and several ways to rebuild the table.
Sometimes we directly physically delete some data of the variant,in order to reduce disk usage,But we will find that even part of the data is physically deleted,但是MysqlThe disk usage has not decreased,Now let's take a look at the reasons for this phenomenon and the solutions.
1 The formation of disk voids
Mysql使用InnoDB作为存储引擎时,InnoDB里的数据都是用B+树的结构组织的:
假设我们要删除ID=11of this record,InnoDBThe engine will only mark this record for deletion.如果之后要再插入一个ID在10和12之间的记录时,This location will be reused.但是,磁盘文件的大小并不会缩小.
InnoDB的数据是按页存储的,那么如果我们删掉了一个数据页上的所有记录,会怎么样?答案是,整个数据页就可以被复用了.但是,数据页的复用跟记录的复用是不同的.
记录的复用,只限于符合范围条件的数据.比如上面的这个例子,ID=11这条记录被删除后,如果插入一个ID是11的行,可以直接复用这个空间.但如果插入的是一个ID是13的行,就不能复用这个位置了.
当整个页从B+树里面摘掉以后,可以复用到任何位置,Any newly added data can be stored.如果相邻的两个数据页利用率都很小,系统就会把这两个页上的数据合到其中一个页上,另外一个数据页就被标记为可复用.
如果我们用delete命令把整个表的数据删除呢?结果就是,所有的数据页都会被标记为可复用.但是磁盘上,文件不会变小.
实际上,delete命令其实只是把记录的位置,或者数据页标记为了“可复用”,但磁盘文件的大小是不会变的.也就是说,通过delete命令是不能回收表空间的.这些可以复用,而没有被使用的空间,看起来就像是“空洞”.
另外,插入、更新数据时,Due to page splits、数据移动,It is also possible to cause disks“空洞”.
经过大量增删改的表,都是可能是存在空洞的.所以,如果能够把这些空洞去掉,就能达到收缩表空间的目的.而重建表,就可以达到这样的目的.
2 重建表
In order to remove the disk cavity,We can rebuild the table,新建一个与表A结构相同的表B,然后按照主键ID递增的顺序,把数据一行一行地从表A里读出来再插入到表B中.由于表B是新建的表,所以表A主键索引上的空洞,在表B中就都不存在了.显然地,表B的主键索引更紧凑,数据页的利用率也更高.如果我们把表B作为临时表,数据从表A导入表B的操作完成后,用表B替换A,从效果上看,就起到了收缩表A空间的作用.
也可以直接使用 alter table A engine=InnoDB命令来重建表.在MySQL 5.5版本之前,这个命令的执行流程跟我们前面描述的差不多,区别只是这个临时表B不需要你自己创建,MySQL会自动完成转存数据、交换表名、删除旧表的操作.
上图中,花时间最多的步骤是往临时表插入数据的过程,如果在这个过程中,有新的数据要写入到表A的话,就会造成数据丢失.因此,在整个DDL过程中,表A中不能有更新.也就是说,这个DDL不是Online的.
2.1 Online DDL
在MySQL 5.6版本开始引入的Online DDL,对这个操作流程做了优化:
- 建立一个临时文件,扫描表A主键的所有数据页;
- 用数据页中表A的记录生成B+树,存储到临时文件中;
- 生成临时文件的过程中,将所有对A的操作记录在一个日志文件(row log)中,对应的是图中state2的状态;
- 临时文件生成后,将日志文件中的操作应用到临时文件,得到一个逻辑数据上与表A相同的数据文件,对应的就是图中state3的状态;
- 用临时文件替换表A的数据文件.
可以看到,The difference from the first picture is that,由于日志文件记录和重放操作这个功能的存在,这个方案在重建表的过程中,允许对表A做增删改操作.这也就是Online DDL名字的来源.
该过程中,alter语句在启动的时候需要获取MDL写锁,但是这个写锁在真正拷贝数据之前就退化成读锁了.为什么要退化呢?为了实现Online,MDL读锁不会阻塞增删改操作,Why not just unlock it?为了保护自己,禁止其他线程对这个表同时做DDL.
2.2 inplace DDL
与Online DDLIt is the other that is easily confusedMysql中的概念:inplace DDL,inplace——顾名思义,It does not create a temporary table of the original table when it modifies the table.
第一张图中,表A中的数据导出来的存放位置叫作tmp_table.这是一个临时表,是在server层创建的,并且inplace的.第二张图中,根据表A重建出来的数据是放在“tmp_file”里的,这个临时文件是InnoDB在内部创建出来的.整个DDL过程都在InnoDB内部完成.对于server层来说,没有把数据挪动到临时表,也算是一个inplace(原地)操作.
alter table t engine=InnoDB,其实隐含的意思是:alter table t engine=innodb,ALGORITHM=inplace,That is to say, it is itselfinplace的.跟inplace对应的就是拷贝表的方式了,用法是:alter table t engine=innodb,ALGORITHM=copy,That is the process of the first picture,copy方式下ALTER TABLEOperations can be prevented from being concurrentDML操作,仍然允许并发查询.
Online和inplace的区别如下:
- DDL过程如果是Online的,就一定是inplace的;
- 反过来未必,也就是说inplace的DDL,有可能不是Online的.截止到MySQL 8.0,添加全文索引(FULLTEXT index)和空间索引(SPATIAL index)就属于这种情况,该过程是inplace的,但会阻塞增删改操作,是非Online的.
3 总结
The difference between several ways to rebuild the table:
- alter table t engine = InnoDB,也被称为recreate,从MySQL 5.6The default version is the process of the second picture above;
- analyze table t 其实不是重建表,只是对tThe index distribution information of the table is re-statistical,不影响tThe space occupied by the table,没有修改数据,这个过程中加了MDL读锁,并且会记录binlog;
- optimize table t 等于recreate+analyze.
- Truncate table tcommand can be understood asdrop+create.
参考资料:
- 《 MySQL 技术内幕: InnoDB 存储引擎》
- 《高性能 MySQL》
- 《MySQL实战45讲 | 极客时间 | 丁奇》
如有需要交流,或者文章有误,请直接留言.另外希望点赞、收藏、关注,我将不间断更新各种Java学习博客!
边栏推荐
猜你喜欢
STP生成树
什么密码,永远无法被黑客攻破?
超级实用网站+公众号合集
CAS:1620523-64-9_Azide-SS-biotin_biotin-disulfide-azide
[3D检测系列-PV-RCNN] PV-RCNN论文详解、PV-RCNN代码复现、包含官网PV-RCNN预训练权重及报错问题
2022的七夕,奉上7个精美的表白代码,同时教大家快速改源码自用
Go开发工具GoLand V2022.2 来了——Go 工作区重大升级
StoneDB 助力 2022 开放原子全球开源峰会
ValidationError: Progress Plugin Invalid Options
编译器工程师眼中的好代码(1):Loop Interchange
随机推荐
2022的七夕,奉上7个精美的表白代码,同时教大家快速改源码自用
XSS online shooting range---prompt
E-commerce data warehouse ODS layer-----log data loading
CAS:153162-70-0_N-BOC-6-Biotinamidohexylamine
如何设计 DAO 的 PoW 评判标准 并平衡不可能三角
【Unity3D】Tank对战
pikachu Over permission 越权
382. Linked List Random Node
嵌入式系统:GPIO
IO thread process -> thread synchronization mutual exclusion mechanism -> day6
Diazo Biotin-PEG3-DBCO|重氮化合物修饰生物素-三聚乙二醇-二苯并环辛炔
[b01lers2020]Life on Mars
CAS: 773888-45-2_BIOTIN ALKYNE_Biotin-alkynyl
CAS:908007-17-0_Biotin-azide _生物素叠氮化物
线程池的高级应用技巧核心解读
386. Lexicographical Numbers
C. awoo‘s Favorite Problem--Educational Codeforces Round 130 (Rated for Div. 2)
【刷题篇】二叉树的右视图
[kali-vulnerability scanning] (2.1) Nessus lifts IP restrictions, scans quickly without results, and plugins are deleted (middle)
线上服务器老是卡,该如何优化?