SQL查询优化器初探

项目中期,特意借了一本SQL优化的书,现将优化器的知识点总结如下:
查询优化器是关系型数据库管理系统的核心之一,决定对特定的查询使用哪些索引、哪些关联算法,从而使其高效运行。查询优化器是SQL Server针对用户的请求进行内部优化,生成执行计划并传输给存储引擎来操作数据,最终返回结果给用户的组件。

查询过程

T-SQL->语法分析->绑定->查询优化->执行查询->返回结果
(1)分析绑定:这个过程需要检测是否sql 语句有语法错误,绑定是检测有些别名是否合法,最终产生逻辑树。
(2)查询优化:针对产生的逻辑树,优化器会给出多个执行方案,这些方案是一系列的物理操作,比如索引查找,哈希连接等。然后系统会评估每个方案的开销,并选择开销最少的方案。
(3)执行查询,缓存执行计划:执行计划被传输到存储引擎中执行,并把计划缓存到内存中。

查询优化器

优化器执行的就是一个把逻辑查询操作映射为物理操作,并把产生的执行计划传递给执行引擎并返回结果给用户的过程。

产生执行计划

查询优化器的过程概括为:
1.穷举备选方案,计算开销;
2.查询执行及计划缓存:一旦查询被优化,最终计划就会用于执行引擎并操作数据。产生的这个计划会存放在内存中一个叫计划缓存的地方。以便能被相同的查询重用。如果一个可用的计划已经存放在计划缓存中,优化器会跳过优化,直接执行,减少优化时间、CPU资源等开销。
但是随着SQL语言发生变化,相应的计划缓存中的计划也需要发生变化。

连接

1.连接顺序
连接顺序经常会影响查询优化,因为不同的连接顺序所产生的优化方式会不同。优化器在决定相关关联的时候,主要是关联顺序和关联算法的选择。同时需要注意的是:编写的sql语言并不一定就是最终物理实现的顺序。优化器会根据实际情况调整顺序。
2.连接种类
主要包括3种物理连接:嵌套循环、合并连接、哈希连接。在这个过程中,没有所谓绝对好的连接,只有最合适的连接。
(1)嵌套循环
SQL查询优化器初探
嵌套循环的算法:它将一个连接输入当做外部输入,将另一个连接输入当做内部输入表,外部循环逐行处理外部输入表。内部循环会针对每个外部行在内部输入表中进行搜索,以找出匹配行。
也就是说,在嵌套循环中,外部输入的操作符会被执行一次,内部输入中的每一行都会和外部输入进行匹配,这种算法的开销是基于外部输入的行数乘以内部输入的行数来确定的。当外部连接很小,并且内部在连接列上有索引时,优化器会倾向使用这种算法。
(2)合并连接
SQL查询优化器初探
合并连接算法:合并连接外部输入和内部输入都只会执行一次。合并连接要求两个输入都在合并列上排序,而合并列由(on)子句来定义。所以我们可以看到执行计划中对外部输入和内部输入都有排序操作。
(3)哈希连接
SQL查询优化器初探
哈希连接有两种输入:生成输入和探测输入。查询优化器使用两个输入中较小的那个作为生成输入。
最终,优化器根据输入的规模、统计信息、是否排序、需要查找的列等信息,最中选出最低开销的算法。