点击上方“Java基基”,选择“设为星标”
做积极的人,而不是积极废人!
源码精品专栏
因为现在使用的mysql默认存储引擎是Innodb,所以本篇文章重点讲述Innodb下的索引, 顺带简单讲述其他引擎。希望小伙伴们能通过这片文章对mysql的索引有更加清晰的认识,废话不多说,我们开始吧。
首先,我们先带着一些问题来看接下来的内容。
上面的问题我们大家可能都存在或者部分存在疑惑,接下来就是解惑的时间。
在关系数据库中,索引是一种单独的、物理的对数据库表中一列或多列的值进行排序的一种存储结构 ,它是某个表中一列或若干列值的集合和相应的指向表中物理标识这些值的数据页的逻辑指针清单。索引的作用相当于图书的目录,可以根据目录中的页码快速找到所需的内容。
通索引是mysql里最基本的索引,没有什么特殊性,在任何一列上都能进行创建。
-- 创建索引的基本语法
CREATE INDEX indexName ON table(column(length));
-- 例子 length默认我们可以忽略
CREATE INDEX idx_name ON user(name);
唯一索引是不允许其中任何两行具有相同索引值的索引。例如我们在性别这一列上创建索引,因为性别目前只有男女,所以我们会直接创建失败,提示我们存在重复。我们可以在身份证号、手机号等字段上进行创建。
-- 创建索引的基本语法
CREATE UNIQUE INDEX indexName ON table(column(length));
-- 例子
CREATE UNIQUE INDEX un_idx_phone ON user(phone);
我们知道每张表一般都会有自己的主键,mysql会在主键上建立一个索引,这就是主键索引。主键是具有唯一性并且不允许为NULL,所以他是一种特殊的唯一索引。一般在建立表的时候选定。
复合索引也叫组合索引,指的是我们在建立索引的时候使用多个字段,例如同时使用身份证和手机号建立索引,同样的可以建立为普通索引或者是唯一索引。复合索引的使用复合最左原则。举个例子 我们使用 phone和name创建索引。
-- 创建索引的基本语法
CREATE INDEX indexName ON table(column1(length),column2(length));
-- 例子
CREATE INDEX idx_phone_name ON user(phone,name);
我们看下面的查询语句,
SELECT * FROM user_innodb where name = '程冯冯';
SELECT * FROM user_innodb where phone = '15100046637';
SELECT * FROM user_innodb where phone = '15100046637' and name = '程冯冯';
SELECT * FROM user_innodb where name = '程冯冯' and phone = '15100046637';
三条sql只有 2 、 3、4能使用的到索引idx_phone_name,因为条件里面必须包含索引前面的字段才能够进行匹配。而3和4相比where条件的顺序不一样,为什么4可以用到索引呢?是因为mysql本身就有一层sql优化,他会根据sql来识别出来该用哪个索引,我们可以理解为3和4在mysql眼中是等价的。
全文索引主要用来查找文本中的关键字,而不是直接与索引中的值相比较。fulltext索引跟其它索引大不相同,它更像是一个搜索引擎,而不是简单的where语句的参数匹配。fulltext索引配合match against操作使用,而不是一般的where语句加like。它可以在create table,alter table ,create index使用,不过目前只有char、varchar,text 列上可以创建全文索引。正常情况下我们也不会使用到全文索引,因为这不是mysql的专长。
空间索引是对空间数据类型的字段建立的索引,MYSQL中的空间数据类型有4种,分别是GEOMETRY、POINT、LINESTRING、POLYGON。MYSQL使用SPATIAL关键字进行扩展,使得能够用于创建正规索引类型的语法创建空间索引。创建空间索引的列,必须将其声明为NOT NULL,空间索引只能在存储引擎为MYISAM的表中创建。 空间索引一般是用不到了,了解即可。
innodb默认索引数据结构是B+Tree,什么是B+Tree呢,它的全名叫做平衡多路查找树PLUS。他是由平衡二叉树查找树(AVL树)演化而来。我们来介绍一下他的演化史(敲黑板,必考题)。我们上面讲到,索引是一种有序的数据结构,因为有序才能快速的进行查找,所以我们一步步看一下索引的定型演化,首先我们讲一下什么是二叉查找树。
二叉树查找树具有以下性质:左子树的键值小于根的键值,右子树的键值大于根的键值。节点的顺序就是11、25、36、80、110、120、300。他的问题是不够稳定,上图我们看到了这是最好的一种情况mysql添加索引,插入顺序是80、25、11、36、120、110、300,但是如果我们的插入顺序变成11、25、36、80、110、120、300,那么他的树结构会变成下图这样。上图好好的一个二叉树变成了一个链表。之前我们查找到300需要3次查询,后者则需要7次效率是直线下降。这里大家可以去这个网址Data StructureVisualizations自己去操作下这个流程。那么如何解决掉这种不平衡的问题呢?
这个时候平衡二叉查找树出现了。什么是AVL树,在计算机科学中,AVL树是最先发明的自平衡二叉查找树。在AVL树中任何节点的两个子树的高度最大差别为1,所以它也被称为高度平衡树。增加和删除可能需要通过一次或多次树旋转来重新平衡这个树。AVL树得名于它的发明者G. M. Adelson-Velsky和E. M. Landis,名字已拼接AVL树的大名就出来了。我们下面看下avl按照11、25、36、80、110、120、300顺序进行插入的效果图。当子树的高度超过1时他会通过自旋的方式重新平衡树,所以这样我们查询数据的时间复杂度就稳定了。有关avl树是怎样进行旋转平衡的这里就不概述了,大家可以看这篇博文BTree和B+Tree详解。那么,我们使用AVL树作为索引是不是就可以了呢,答案是否定的。我们的索引是存储到磁盘上的,每次进行数据查询会将磁盘里的数据读取到内存中,对磁盘io是非常耗时的,而内存操作非常快。计算机的最小存储单元是块(block)默认4k大小,读取数据是一块一块读取的,而不是随意的读取1/2块数据,对应的我们mysql存储数据也是已页(page)为单位进行存储,默认为16K(16384B),mysql在读取的时候也是一页一页读取的。
--下面的这个命令就是查询page大小
MYSQL> show variables like 'innodb_page_size';
如果使用AVL树mysql添加索引,我们的一个节点就是一页,但是一个节点是16k啊兄弟们,一页就放一个节点肯定是太浪费空间了,而且如果有1000w的数据,那么二叉树深度是55,我们要查找一个数据io的次数就有点太多了,显然这样是不合理的,我们可以怎么做呢?
为了解决AVL浪费磁盘空间以及IO次数过多的问题,我们在一个节点中多存储一些数据,之前我们放一个,现在我们放多个。如果放int值(4B)我们近乎可以放4096个值,当然索引里面还包含其他的数据,不能够放这么多,但是这也是足够的多了。这样一个节点的值多了那么树的分叉肯定就多了,假如一个节点可以存储1000的值,那么1000 * 1000 * 1000 = 10亿节点,3层的结构就能存储10亿的数据,这样是不是最多IO3次就足够了呢。所以AVL的进化体B-Tree出现了,B-Tree的全名是多路平衡查找树,B-tree中,每个结点包含:1、本结点所含关键字的个数;2、指向父结点的指针;3、关键字;4、指向子结点的指针;对于一棵m阶B-tree,每个结点至多可以拥有m个子结点。各结点的关键字和可以拥有的子结点数都有限制,规定m阶B-tree中,根结点至少有2个子结点,除非根结点为叶子节点,相应的,根结点中关键字的个数为1~m-1 ;非根结点至少有[m/2]([],向上取整)个子结点,相应的,关键字个数为[m/2]-1 ~ m-1。B-Tree的度是可以设置的,上面截图我设置的度为3(达到3即进行分裂),真正索引度就比较大了,一般度的大小会根据索引列的类型进行变更。大家利用好这个网站Data StructureVisualizations,自己多做一些模拟会理解的更加深刻。说到这里我们越来越接近真相了,我们mysql索引的数据结构到底是不是B-Tree呢?这就需要说道mysql设计的另外一个概念了——聚集索引和辅助索引。
什么是聚集索引(clustered index organize table ),聚集索引中键值的逻辑顺序和表中相应行的物理顺序相同。聚集索引类似于电话簿,后者按姓氏排列数据。由于聚集索引规定数据在表中的物理存储顺序,因此一个表只能包含一个聚集索引。但该索引可以包含多个列(联合索引),就像电话簿按姓氏和名字进行组织一样,但是在innodb的设计中聚集索引包含整行的数据,所以innodb中索引就是数据本身,这就是大家常说的索引即数据。官方解释聚集索引:
Every InnoDB table has a special index called the clustered index where the data for the rows is stored. Typically, the clustered index is synonymous with the primary key.每个InnoDB表都有一个特殊的索引,称为聚簇索引 ,用于存储行数据。通常,聚簇索引与主键同义 。
非聚集索引的话其实就是一个普通索引,但是非聚集索引不存储全部数据,只存储聚集索引的值(一般为主键id)。所以我们如果使用B-Tree来作为索引结构的话,如果数据行过大,那么一个页存储的数据就会大大减少,这就违背了我们B-Tree的初衷了——在一个页中尽可能的存储多的数据。像前面说的如果我们存储int类型可以存储几千个,那么如果我们存储整行数据呢,可能只能存储三四个,那么树的深度就会大大增加,而且我们的内存空间是有限的,每次mysql预读进来的索引数量有限,这进一步导致搜索效率变差。所以我们想要的索引就是只包含索引字段,不应该包含全部的数据 ,看下面的对比图。好了,该主角出场了。
为了解决只存储索引的问题,B-Tree的plus版本横空出世,那就是B+树。B+ 树是一种树数据结构,是一个n叉树,每个节点通常有多个孩子,一颗B+树包含根节点、内部节点和叶子节点,和B-Tree几乎一样,只不过B+Tree不再包含整行的数据了。B+ 树通常用于数据库和操作系统的文件系统中。 B+ 树的特点是能够保持数据稳定有序,其插入与修改拥有较稳定的对数时间复杂度。 B+ 树元素自底向上插入。一个m阶的B树具有如下几个特征:1.根结点至少有两个子女。2.每个中间节点都至少包含ceil(m / 2)个孩子,最多有m个孩子。3.每一个叶子节点都包含k-1个元素,其中 m/2