Mysql索引原理及索引优化

sql语句的实质行为就是从磁盘上的文件中读取数据，数据在磁盘上存储是随机IO，效率较低，所以我们需要“索引”B+tree

数据存储时是以页为单位存储的

为什么不用HashTable、二叉树？

HashTable的存储原理是：HashTable的底层也是数组，根据一定算法将key转化成下标，存储至数组中，查询是直接根据key算出下标从数据中拿到数据，K-V的结果不适合存储复杂数据结构的数据，比如一条数据中有多个字段需要存储，另外HashTable的存储顺序是随机的，不能查询大于、小于，只适合精确查找。

完全对称二叉树为什么不合适？

因为二叉树存储是有序的，完全对称二叉树可以做大于、小于的运算，但是在查找过程中要回去查找父节点中储存的元素，不利于检索

B+tree

B+tree也是有序的，在存储过程中是将所有非叶子节点的数据冗余一份到叶子节点中，在查找过程中只关注同级节点就可以了，所以B+tree的有点就在于区间查询，另外B+tree中一个节点存储了多个元素，有助于节省磁盘IO次数。

聚合索引：新建表是默认分配1页资源，索引与数据存在一起，插入数据达到本页最大限制时（默认16k），将第一页复制一份，并开辟一页新的资源，原第一页修改为目录页，以此类推，B+tree形成，建表时的第一页目录通常会被缓存，数据量越大，缓存越多。所以建表时务必指定主键索引，如果没有指定，也没有建其他唯一索引，mysql会自动补全自增隐藏列row_id为主键索引，但此列不可见，不支持查询，作用很小。

那可能有人有这样的疑问，如果我的数据量很大，是不是树就会层级很高，检索起来会不会很慢，那我们简单算一下：

叶子节点：数据 16k/1k（单条数据1k举例）

非叶子节点：主键id+指针

一个主键id我们认为它占用8b空间，指针源码上写的占6b空间，根节点缓存到内存里，我们可以理解为树高为2级可以存储的索引数据量为：

16k/14b*16=18724左右

树高为3级时

1170*1170*16=21907740左右

所以建议mysql分表存储的参考数据就是2000w左右，因为树高在临近这个临界点会增加，检索效率会直线下降，单条数据容量可能有区别，数值为近似量。

主键索引建议采用小内存、自增形式：

数据是累积到一定数值后分页的，但是如果非自增，随着数据增长，各数据页、目录页中数据会有补全、变动，那么会增加IO、降低效率

Mysql索引原理及索引优化

辅助索引：

辅助索引（非聚合索引）存储中存储了索引列和主键的对应关系，根据索引列查到主键后再去根据主键查询数据，由此可见主键索引的重要性，辅助索引其实就是针对该列单独进行排序，便于查找。

那么联合索引是怎么工作的呢？其实同理，就是两列内容进行一个排序，便于查询，最左后缀原则，如果单独查询组合索引的第二、三列索引效果近乎没有，因为没有优先按照右侧列排序，同理 like XX%是可以走索引的，%XX则不行。

InnoDB支持事务

Mysql索引原理及索引优化

相关推荐