# 索引

什么是索引?
索引在数据库表的字段上添加的,是为了提高检索(查询)效率存在的一种机制

一张表的一个字段可以添加一个索引,多个字段可以联合起来添加索引

索引相当于一本书的目录,是为了缩小扫描范围而存在的一种机制

举例:
查字典:
1. 一页一页查找,直到找到为止。这种查找属于全表扫描,效率低

    3. 通过目录(索引),去定位一个大概的位置,然后直接定位到该位置,做局域性扫描,缩小扫描的范围,快速的查找。这种方式属于索引检索,效率高

Mysql中查询的两种方式:
    1. 全表扫描
    2. 根据索引检索

注意:
在 Mysql 数据库当中索引也是需要排序的,并且这个索引的排序和 TreeSet 数据结构相同。TreeSet(TreeMap)底层是一个自平衡的二叉树!
在 Mysq 中索引是一个 B-Tree 数据结构。

遵循左小右大原则存放,采用中序遍历方式遍历取数据

在任何数据库当中,主键都会自动添加索引对象

在任何数据库当中,任何一张表的任何一条记录在硬盘存储上都有一个硬盘的物理存储编号

在 Mysql 中,一个字段上如果右 unique 约束的话,也会自动创建索引对象

在 Mysql 当中,索引是一个单独的对象,不同的存储引擎以不同形式存在。
1. 在 MyISAM 存储引擎中,索引存储在一个.MYI 文件中
2. 在 InnoDB 存储引擎当中,索引存储在一个叫 tablespace 当中。
3. 在 Memory 存储引擎当中,被存储在内存当中
不管索引存储在哪里,索引在 Mysql 中都是一个树的形式存在。(自平衡二叉树:B-Tree)

# 在 Mysql 中,主键以及 unique 字段上都会自动添加索引

什么条件下,需要考虑给字段添加索引?
1. 数据量庞大(需要测试)
2. 该字段经常出现在 where 查询条件中
3. 该字段很少的 DML 操作(因为 DML 之后,索引经常需要重新排序)
注意:
建议不要随意添加索引,因为索引也是需要维护的,太多反而会降低系统性能
建议通过主键查询,建议通过 unique 约束字段进行查询,效率是比较高的

# 创建和删除索引

# 创建索引

create index 索引名 on 表名(要添加索引的字段名);

create index emp_ename_index on emp(ename);

# 删除索引

drop index 索引名 on 表名;

drop index emp_ename_index on emp;


在Mysql中查看一个SQL语句是否使用了索引进行检索
explain select * from t_user where name = 'zhangsan6';

举例:
## 查看 sql 语句执行详情
mysql> explain select * from t_user where name = ‘zhangsan6’;
±—±------------±-------±-----------±-----±--------------±-----±--------±-----±-----±---------±------------+
| id | select_type | table | partitions | type | possible_keys | key | key_len | ref | rows | filtered | Extra |
±—±------------±-------±-----------±-----±--------------±-----±--------±-----±-----±---------±------------+
| 1 | SIMPLE | t_user | NULL | ALL | NULL | NULL | NULL | NULL | 12 | 10.00 | Using where |
±—±------------±-------±-----------±-----±--------------±-----±--------±-----±-----±---------±------------+
1 row in set, 1 warning (0.00 sec)

## 为name字段创建索引
create index user_name_index on t_user(name);

## 在索引创建后,重新执行sql语句,查看sql执行情况
mysql> explain select * from t_user where name = 'zhangsan6';
+----+-------------+--------+------------+------+-----------------+-----------------+---------+-------+------+----------+-------------+
| id | select_type | table  | partitions | type | possible_keys   | key             | key_len | ref   | rows | filtered | Extra       |
+----+-------------+--------+------------+------+-----------------+-----------------+---------+-------+------+----------+-------------+
|  1 | SIMPLE      | t_user | NULL       | ref  | user_name_index | user_name_index | 1023    | const |    1 |   100.00 | Using index |
+----+-------------+--------+------------+------+-----------------+-----------------+---------+-------+------+----------+-------------+
1 row in set, 1 warning (0.00 sec)

性能分析:

1)、id 列数字越大越先执行,如果说数字一样大,那么就从上往下依次执行,id 列为 null 的就表是这是一个结果集,不需要使用它来进行查询。

2)、select_type 列常见的有:
A:simple:表示不需要 union 操作或者不包含子查询的简单 select 查询。有连接查询时,外层的查询为 simple,且只有一个
B:primary:一个需要 union 操作或者含有子查询的 select,位于最外层的单位查询的 select_type 即为 primary。且只有一个
C:union:union 连接的两个 select 查询,第一个查询是 dervied 派生表,除了第一个表外,第二个以后的表 select_type 都是 union
D:dependent union:与 union 一样,出现在 union 或 union all 语句中,但是这个查询要受到外部查询的影响
E:union result:包含 union 的结果集,在 union 和 union all 语句中,因为它不需要参与查询,所以 id 字段为 null
F:subquery:除了 from 字句中包含的子查询外,其他地方出现的子查询都可能是 subquery
G:dependent subquery:与 dependent union 类似,表示这个 subquery 的查询要受到外部表查询的影响
H:derived:from 字句中出现的子查询,也叫做派生表,其他数据库中可能叫做内联视图或嵌套 select

3)、table
显示的查询表名,如果查询使用了别名,那么这里显示的是别名,如果不涉及对数据表的操作,那么这显示为 null,如果显示为尖括号括起来的就表示这个是临时表,> 后边的 N 就是执行计划中的 id,表示结果来自于这个查询产生。如果是尖括号括起来的 <union M,N>,与类似,也是一个临时表,表示这个结果来自于 union 查询的 id 为 M,> N 的结果集。

4)、type
依次从好到差:system,const,eq_ref,ref,fulltext,ref_or_null,unique_subquery,index_subquery,range,index_merge,index,ALL,除了 all 之外,其他的 type 都 > 可以使用到索引,除了 index_merge 之外,其他的 type 只可以用到一个索引
A:system:表中只有一行数据或者是空表,且只能用于 myisam 和 memory 表。如果是 Innodb 引擎表,type 列在这个情况通常都是 all 或者 index
B:const:使用唯一索引或者主键,返回记录一定是 1 行记录的等值 where 条件时,通常 type 是 const。其他数据库也叫做唯一索引扫描
C:eq_ref:出现在要连接过个表的查询计划中,驱动表只返回一行数据,且这行数据是第二个表的主键或者唯一索引,且必须为 not null,唯一索引和主键是多列时,只有所有的 > 列都用作比较时才会出现 eq_ref
D:ref:不像 eq_ref 那样要求连接顺序,也没有主键和唯一索引的要求,只要使用相等条件检索时就可能出现,常见与辅助索引的等值查找。或者多列主键、唯一索引中,使用第一 > 个列之外的列作为等值查找也会出现,总之,返回数据不唯一的等值查找就可能出现。
E:fulltext:全文索引检索,要注意,全文索引的优先级很高,若全文索引和普通索引同时存在时,mysql 不管代价,优先选择使用全文索引
F:ref_or_null:与 ref 方法类似,只是增加了 null 值的比较。实际用的不多。
G:unique_subquery:用于 where 中的 in 形式子查询,子查询返回不重复值唯一值
H:index_subquery:用于 in 形式子查询使用到了辅助索引或者 in 常数列表,子查询可能返回重复值,可以使用索引将子查询去重。
I:range:索引范围扫描,常见于使用 >,<,is null,between ,in ,like 等运算符的查询中。
J:index_merge:表示查询使用了两个以上的索引,最后取交集或者并集,常见 and ,or 的条件使用了不同的索引,官方排序这个在 ref_or_null 之后,但是实际上由于要读取所个 > 索引,性能可能大部分时间都不如 range
K:index:索引全表扫描,把索引从头到尾扫一遍,常见于使用索引列就可以处理不需要读取数据文件的查询、可以使用索引排序或者分组的查询。
L:all:这个就是全表扫描数据文件,然后再在 server 层进行过滤返回符合要求的记录。

5)、possible_keys
查询可能使用到的索引都会在这里列出来

6)、key
查询真正使用到的索引,select_type 为 index_merge 时,这里可能出现两个以上的索引,其他的 select_type 这里只会出现一个。

7)、key_len
用于处理查询的索引长度,如果是单列索引,那就整个索引长度算进去,如果是多列索引,那么查询不一定都能使用到所有的列,具体使用到了多少个列的索引,这里就会计算进 > 去,没有使用到的列,这里不会计算进去。留意下这个列的值,算一下你的多列索引总长度就知道有没有使用到所有的列了。要注意,mysql 的 ICP 特性使用到的索引不会计入其中。> 另外,key_len 只计算 where 条件用到的索引长度,而排序和分组就算用到了索引,也不会计算到 key_len 中。

8)、ref
如果是使用的常数等值查询,这里会显示 const,如果是连接查询,被驱动表的执行计划这里会显示驱动表的关联字段,如果是条件使用了表达式或者函数,或者条件列发生了内部 > 隐式转换,这里可能显示为 func

9)、rows
这里是执行计划中估算的扫描行数,不是精确值

10)、extra
这个列可以显示的信息非常多,有几十种,常用的有
A:distinct:在 select 部分使用了 distinc 关键字
B:no tables used:不带 from 字句的查询或者 From dual 查询
C:使用 not in () 形式子查询或 not exists 运算符的连接查询,这种叫做反连接。即,一般连接查询是先查询内表,再查询外表,反连接就是先查询外表,再查询内表。
D:using filesort:排序时无法使用到索引时,就会出现这个。常见于 order by 和 group by 语句中
E:using index:查询时不需要回表查询,直接通过索引就可以获取查询的数据。
F:using join buffer(block nested loop),using join buffer(batched key accss):5.6.x 之后的版本优化关联查询的 BNL,BKA 特性。主要是减少内表的循环数量以及比 > 较顺序地扫描查询。
G:using sort_union,using_union,using intersect,using sort_intersection:
using intersect:表示使用 and 的各个索引的条件时,该信息表示是从处理结果获取交集
using union:表示使用 or 连接各个使用索引的条件时,该信息表示从处理结果获取并集
using sort_union 和 using sort_intersection:与前面两个对应的类似,只是他们是出现在用 and 和 or 查询信息量大时,先查询主键,然后进行排序合并后,才能读取记录并返 > 回。
H:using temporary:表示使用了临时表存储中间结果。临时表可以是内存临时表和磁盘临时表,执行计划中看不出来,需要查看 status 变量,used_tmp_table,> used_tmp_disk_table 才能看出来。
I:using where:表示存储引擎返回的记录并不是所有的都满足查询条件,需要在 server 层进行过滤。查询条件中分为限制条件和检查条件,5.6 之前,存储引擎只能根据限制条件 > 扫描数据并返回,然后 server 层根据检查条件进行过滤再返回真正符合查询的数据。5.6.x 之后支持 ICP 特性,可以把检查条件也下推到存储引擎层,不符合检查条件和限制条件的数 > 据,直接不读取,这样就大大减少了存储引擎扫描的记录数量。extra 列显示 using index condition
J:firstmatch (tb_name):5.6.x 开始引入的优化子查询的新特性之一,常见于 where 字句含有 in () 类型的子查询。如果内表的数据量比较大,就可能出现这个
K:loosescan (m…n):5.6.x 之后引入的优化子查询的新特性之一,在 in () 类型的子查询中,子查询返回的可能有重复记录时,就可能出现这个

除了这些之外,还有很多查询数据字典库,执行计划过程中就发现不可能存在结果的一些提示信息

11)、filtered
使用 explain extended 时会出现这个列,5.7 之后的版本默认就有这个字段,不需要使用 explain extended 了。这个字段表示存储引擎返回的数据在 server 层过滤后,剩下多少满足 > 查询的记录数量的比例,注意是百分比,不是具体记录数。

# 性能分析 2 Explain Analyze


-- auto-generated definition
create table eps_working_rec
(
    RecNo      int auto_increment comment '记录编号'
        primary key,
    ShiftNo    varchar(20)    null,
    WorkDate   datetime       null comment '生产日期',
    LineFK     varchar(50)    null comment '包装线编号',
    EqutFK     varchar(20)    not null comment '设备编号',
    Rec_Type   int            not null comment '记录类型',
    StopReason varchar(50)    null comment '停机类型:A—交接班,B—工艺清洗,C—更换品种,D—外部原因,E—故障停机',
    BeginTime  datetime       null comment '开始时间',
    EndTime    datetime       null comment '结束时间',
    Time_Cum   int            null comment '时长',
    BBQty      decimal(18, 4) null comment '清酒量(单位:KL)',
    FinalBot   int            null comment '成品瓶数(单位:瓶)',
    IsValid    tinyint        null comment '数据是否有效',
    DataSrouce varchar(10)    null comment '数据来源:数据采集Automatic,人工维护Manual',
    CreateBy   varchar(20)    null comment '创建者(默认值:数据采集)',
    CreateOn   datetime       null comment '创建时间(记录插入时的系统时间)',
    UpdateBy   varchar(20)    null comment '修改人',
    UpdateOn   datetime       null comment '修改时间',
    StopClass  varchar(50)    null,
    Qty_Bottle int            null,
    Qty_Box    int            null,
    Qty_Stack  int            null,
    IsFillStop tinyint        null,
    Classes    varchar(20)    null,
    StopNature varchar(50)    null
)
    charset = utf8mb3;

create index PK_EPS_VBT
    on eps_working_rec (IsValid, BeginTime, Time_Cum);

create index PK_LineFK_EqutFk
    on eps_working_rec (LineFK, EqutFK);

create index dta_index_EPS_Working_Rec
    on eps_working_rec (EqutFK, StopReason, BeginTime, EndTime, Time_Cum, Rec_Type, RecNo);


# 执行的sql语句
explain analyze
select sum(Time_Cum)
from eps_working_rec
where Rec_Type = 1
  and EqutFK = 'EQPK21004'

# 执行sql返回的结果
-> Aggregate: sum(eps_working_rec.Time_Cum)  (cost=3496.35 rows=1) (actual time=15.869..15.869 rows=1 loops=1)
    -> Filter: (eps_working_rec.Rec_Type = 1)  (cost=2762.65 rows=7337) (actual time=0.054..14.458 rows=20016 loops=1)
        -> Covering index lookup on eps_working_rec using dta_index_EPS_Working_Rec (EqutFK='EQPK21004')  (cost=2762.65 rows=73370) (actual time=0.053..12.303 rows=40293 loops=1)

(cost=3496.35 rows=1) cost 预计执行时间、rows 预计返回记录条数

(cost=2762.65 rows=7337) (actual time=0.054…14.458 rows=20016 loops=1)
实际执行结果情况:
time 分为两部分: 0.054 返回第一条记录的时间 14.458 返回所有记录耗时
row 返回准确的记录数
loops 是当前过滤迭代器所执行的循环的数量。