2022-08-01 01:10:00 【The immortality of the march】
1. 索引介绍
1.1 什么是索引:
1.2 为什么使用索引:
数据是存储在磁盘上的,如果没有索引,When querying data, all the data needs to be added to the memory,依次检索.且CPUThe amount of data loaded at one time is limited,This requires multiple timesIO,开销比较大.使用索引后,Data is sorted by index,When sorting by index field or range search speed is faster.And the index will be organized according to a certain data structure,比如innodb使用B+树存储索引,一般2~3层的B+树就可以存储8-10亿的数据,This is generally only required2-3次的IO,较少了IO开销,Press to query data at the same timeB+Binary search of trees to quickly retrieve data.
1.3 索引优缺点:
2)通过索引列对数据进行排序,Speed up data sorting and grouping,降低了CPU消耗
2)Indexes need to be maintained when adding, deleting, and modifying data,影响效率
a.主键索引: After the primary key is set, the database automatically creates an index for it,innodb为聚簇索引
如果不指定主键的话,It will check to see if there is a non-null unique column in the table,Use this column as the primary key if it exists.如果不存在,创建row_id作为主键
b.单值索引(单列索引 | 普通索引): Except for the primary key,Indexes created on other fields in the table
c.唯一索引: 索引列的值必须唯一,但允许有空值(主键索引和唯一索引的区别:主键索引不能为空,唯一索引可以存在多个null)
*NULL 的定义 ,refers to an unknown value. 所以多个NULL ,都是未知的,不能说它们是相等的,也不能说是不等,就是未知的.所以多个NULL的存在是不违反唯一约束的.*
d.复合索引: An index created together on multiple columns in a table
上述都是innodb支持的索引,MYISAMThe storage engine also supports full-text indexing
Full Text 全文索引:全文索引类型为FULLTEXT,在定义索引的列上支持值的全文查找,允许在这些索引列中插入重复值和空值.全文索引可以在CHAR、VARCHAR、TEXT类型列上创建.
1.5 索引的创建:
1.主键索引 自动创建
--建表 主键自动创建主键索引
create table t_user(id varchar(20) primary key,name varchar(20));
show index from t_user;
create table t_user(id varchar(20) primary key,name varchar(20),key(name));
'注意:随表一起建立的索引索引名同列名一致,No aliases available,You can create an alias after the table is created'
create index name_index on t_user(name);
drop index 索引名 on 表名
create table t_user(id varchar(20) primary key,name varchar(20),unique(name));
create unique index nameindex on t_user(name);
create table t_user(id varchar(20) primary key,name varchar(20),age int,key(name,age));
create index nameageindex on t_user(name,age);
操作 | 命令 |
创建 | CREATE [UNIQUE ] INDEX [indexName] ON table_name(column)) |
删除 | DROP INDEX [indexName] ON mytable; |
查看 | SHOW INDEX FROM table_name\G |
使用Alter命令 | ALTER TABLE tbl_name ADD PRIMARY KEY (column_list) : 该语句添加一个主键,这意味着索引值必须是唯一 的,且不能为 NULL |
ALTER TABLE tbl_name ADD PRIMARY KEY (column_list) | |
ALTER TABLE tbl_name ADD INDEX index_name (column_list): 添加普通索引,索引值可出现多次. | |
ALTER TABLE tbl_name ADD FULLTEXT index_name (column_list):该语句指定了索引为 FULLTEXT ,用于全文索 引. |
1.6 什么情况适合 | 不适合创建索引
- 主键自动建立唯一索引
- 经常查询的字段
- Fields that are frequently used for joins in queries,Indexed by foreign key relationships,加快连接速度
- 经常需要排序的字段建立索引,因为索引已经排好序,可以加快排序查询速度
- 查询中统计或者分组字段
- 表记录太少
- 经常增删改的表或者字段
- ·Where 条件里用不到的字段
- 区分度不高的字段不适合建立索引,如性别等
- 参与列计算的列不适合建索引
2.1 Indexed number structure
- 哈希索引不支持排序,因为哈希表是无序的.
- 哈希索引不支持范围查找.
- 哈希索引不支持模糊查询及多列索引的最左前缀匹配.
- 因为哈希表中会存在哈希冲突,所以哈希索引的性能是不稳定的,而B+树索引的性能是相对稳定的,每次查询都是从根节点到叶子节点.
2.1 思考
create table t_emp(id int primary key,name varchar(20),age int);
insert into t_emp values(5,'d',22);
insert into t_emp values(6,'d',22);
insert into t_emp values(7,'e',21);
insert into t_emp values(1,'a',23);
insert into t_emp values(2,'b',26);
insert into t_emp values(3,'c',27);
insert into t_emp values(4,'a',32);
insert into t_emp values(8,'f',53);
insert into t_emp values(9,'v',13);
select * from t_emp;
- 原因是:mysql底层为主键自动创建索引,Data is sorted when inserted,in order to use binary search
- 也就是mysql底层真正存储是这样的
- 为什么要排序呢?因为排序之后在查询就相对比较快了 如查询 id=3的我只需要按照顺序找到3就行啦(If there is no sorting, one by one comparison is required!)
2.2 B树 | B+树
MySQL使用B+Tree实现索引结构,So let's get to know it firstB树 | B+tree data structures
All stored per nodekey和data,所有节点组成这棵树,并且叶子节点指针为null.
2.3 为什么使用B+树:
From the query point of view,B+Tree因为数据都在叶子节点,When looking for an element, all the way from the root node to the leaf node is retrieved,而BTree每个节点都存储key和data,It is possible to find data halfway through,But look at it this wayB+Tree高,But why use it anywayB+Tree呢?
1)首先CPUData is loaded into memory in pages,每一个页的存储空间是有限的,如果data数据较大时将会导致每个节点(即一个页)能存储的key的数量很小,Caused when the amount of stored data is largeB-Tree的深度较大,增大查询时的磁盘I/O次数,进而影响查询效率.B+Tree是在B-Tree基础上的一种优化,在B+Tree中,所有数据记录节点都是按照键值大小顺序存放在同一层的叶子节点上,而非叶子节点上只存储key值信息,这样可以大大加大每个节点存储的key值数量,降低B+Tree的高度.
InnoDB存储引擎中页的大小为16KB,一般表的主键类型为INT(占用4个字节)或BIGINT(占用8个字节),指针类型也一般为4或8个字节,也就是说一个页(B+Tree中的一个节点)中大概存储16KB/(8B+8B)=1K个键值(因为是估值,为方便计算,这里的K取值为〖10〗3).也就是说一个深度为3的B+Tree索引可以维护103 * 10^3 * 10^3 = 10亿 条记录.
2)BTreeNodes are distributed across layers,Inconvenient to find the range.在B+Tree中,每个叶子节点增加一个指向相邻叶子节点的指针,就形成了带有顺序访问指针的B+Tree.做这个优化的目的是为了提高区间访问的性能,例如图4中如果要查询key为从9到19的所有数据记录,当找到9后,只需顺着节点和指针顺序遍历就可以一次性访问到所有数据节点,极大提到了区间查询效率.
The page directory stores the keys and pointers of the verbal nodes of each page,比如查找节点4数据,Which page is now found in the page directory,发现在第1页,Just go to the first page to traverse
一般B+The number is already hundreds of millions of data
如int id,varchar(20),int age;
4+ 20+4 + 8=36 (A pointer is generally accounted for4-8个字节)
16KB*1024/36 = 455(条数据)
页目录 16 * 1024/12=1365.33333(页)
So the total amount of data=621226.66667
2.4 MySQL索引实现
在MySQL中,最常用的两个存储引擎是MyISAM和InnoDB,They implement indexes differently.
MyISAM引擎使用B+Tree作为索引结构,叶节点的data域存放的是数据地址,MyISAM索引文件和数据文件是分离的,索引文件仅保存数据记录的地址.索引放在XX.MYI文件中,数据放在XX.MYD文件中,So it is also called a non-clustered index
A primary index is an index in which data is clustered by the primary key,A secondary index is an index in which data is clustered by fields other than the primary key
上图中,以Col1为主键,Col2for the auxiliary key.在MyISAM中,主索引和辅助索引(Secondary key)在结构上没有任何区别,都是B+Tree,Just the main indexB+树的节点存储了主键,要求key是唯一的,而辅助索引B+树存储了辅助键,key可以重复,dataThe domain holds the address of the real data.
MyISAM中索引检索的算法为首先按照B+TreeThe search algorithm searches the index in the corresponding index table,如果指定的Key存在,则取出其data域的值,然后以data域的值为地址,Read the corresponding data record into memory.
InnoDB也使用B+Tree作为索引结构,Leaf nodes include indexes and complete data records,Data and index exist oneXX.IDB文件中,所以也叫聚集索引.
将主键组织到一棵B+树中,而行数据就储存在叶子节点上,所以InnoDB的数据文件本身就是索引文件,这个索引的key是数据表的主键,Data is clustered by primary key,所以InnoDB要求表必须有主键(MyISAM可以没有),如果没有显式指定,则MySQL系统会自动选择一个可以唯一标识数据记录的列作为主键,如果不存在这种列,则MySQL自动为InnoDB表生成一个隐含字段作为主键,这个字段长度为6个字节,类型为长整形.
与MyISAM索引的不同是InnoDB的辅助索引data域存储相应记录主键的值而不是地址.换句话说,InnoDB的All secondary indexes refer to the primary key asdata域.如下图中在Col3上的一个辅助索引.
若使用"where id = 15"这样的条件查找主键,则按照B+树的检索算法即可查找到对应的叶节点,之后获得行数据.
所以InnoDBWhen retrieving through a secondary index:首先检索辅助索引获得主键,然后用主键到主索引中检索获得记录.而MyISAM由于索引树是独立的,通过辅助键检索无需访问主键的索引树.
3. MySIAM | InnoDB
了解不同存储引擎的索引实现方式对于正确使用和优化索引都非常有帮助,All is not puzzling,Just follow the logic.
MySQLPrimary key basicint型,而不推荐用UUID作为主键原因?
聚簇索引的数据的物理存放顺序与索引顺序是一致的,即:只要索引是相邻的,那么对应的数据一定也是相邻地存放在磁盘上的.UUIDThe data is very discrete,非单调的主键会造成在插入新记录时数据文件为了维持B+Tree的特性而频繁的分裂调整(插入删除新的数据记录会破坏B-Tree的性质,因此在插入删除时,需要对树进行一个分裂、合并、转移等操作以保持B-Tree性质),十分低效,如果是int自增的,Not only is it convenient for sorting, but by default, the primary key value will be incremented at the end of the index tree,对索引树的结构影响最小.
What is not recommended to use an overly long field as a primary key?
- When performing leftmost prefix matching,There is an index column in the middle that uses a range query,It will cause the subsequent index columns to fail
- Fuzzy query if%开头,使用 !=,is null,is not null,orwill become a full-text index
- 对索引列计算–失效
- Strings without single quotes will require type conversion when querying–失效
- 查询语句只有OR关键字时,如果OR前后的两个条件的列都是索引,那么查询中将使用索引.如果OR前后有一个条件的列不是索引,那么查询中将不使用索引.
Summary of the underlying implementation of the database(索引底层实现):
数据库使用B+tree to organize the index,将主键组织到一棵B+树中,All data is stored on the leaf nodes in sorted order based on the primary key,叶子节点之间使用双向指针连接,Convenient for range queries and sorting by primary key.非叶子节点只存储键值,All data is stored in pages,The default size of a page of data is 16KB,就B+tree data structure,一个3层的B+The data stored by the tree is8亿-10亿左右,And the top-level resident memory,一般2~3次IOThe data you want to retrieve can then be loaded into memory.
Different storage engines implement slightly different indexes,MySIAM和InnoDB都是用B+树实现索引,但MySIAM使用非聚簇索引,Both the primary index and the secondary index leaf nodes store the real address of the data,而InnoDBThe primary key index leaf node stores data,All secondary indexes refer to the primary key asdata域.
所以InnoDBWhen retrieving through a secondary index:首先检索辅助索引获得主键,然后用主键到主索引中检索获得记录.而MyISAM由于索引树是独立的,通过辅助键检索无需访问主键的索引树.
什么是B+树,How to add or delete nodes?- 参考资料: https://www.cnblogs.com/lianzhilei/p/11250589.html
