深入探究MySQL内部实现原理（图）

terry 3年前 (2023-09-26) 阅读数 157 #数据库

初学者眼中的MySQL

对于我们很多初学者来说，MySQL就是这么简单：E,y但是 MySQL 如何在后台处理 SQL 查询？换句话说，工程师和数据科学家编写的SQL查询通常是简单的文本字符串内容，并发送到MySQL。那么MySQL如何解析这个字符串并知道要查找哪个数据表以及获取哪些记录呢？

连接池

正如我们当前正在查看此页面一样，Web浏览器 (chromechrome❀❀, ) 仍连接到中网站连接；同样，我们的应用服务器必须通过网络连接到MySQL服务器，然后发送SQL请求文本内容。连接池通常用于管理网络连接。。

连接池允许重用现有的网络连接，避免创建新连接时的初始化成本和断开连接时释放资源的成本。用户身份验证也可以合并到这一层中，以拒绝未经授权的数据库连接。

通常，每个连接都映射到一个线程。当处理 SQL 查询请求时，应用服务器线程从连接池中取出一个连接并发送给 MySQL 服务器发送请求，服务器中的线程接收以SQL字符串格式查询，执行以下步骤。

那么接下来的步骤是什么？

SQL 解析

MySQL 服务器必须了解请求试图执行的操作。它是否试图读取一些数据、更新数据或删除数据？

收到查询请求后，首先要解析SQL的内容。主要任务是将其本质上是文本格式的内容转换成MySQL内部二进制结构的组合，方便优化器程序进行优化操作。

查询优化器

在MySQL执行查询之前，它决定如何完成查询，即选择最佳的查询方法。

比如，你一家人出去旅游，大家都坐在车里准备出发，你突然发现自己忘记带20瓶水了。你很快就想起所有的瓶装水都在储藏室里，但你必须尽快把它们拿到你的车上，因为其他人都在等你；你开始想，你可以一次带着4瓶来回跑5次，或者你可以随身携带一个行李箱，把20瓶都放在箱子里，把它们带到车上，而不用来回。这就是优化器所做的，它分析满足请求的所有不同方法并选择最好的一种。

我们看一个简单的SQL查询：

SELECT name FROM employee_table WHERE employee_id = 1;

想象一下，employee_table1员工记录，至少有两个方法（或者正式的两个执行计划和术语）：

执行计划一：扫描name列中的所有名称，对于每个名称，检查其是否对应 ❙❙❙❙，如果emp loyee_id = 1 然后返回名字；
执行计划二：使用主键索引查找出employee_id = 1记录，并返回记录名称内容。

方法2几乎总是会执行得更快，优化器将使用方法2，下一步是实际的执行计划。

`执行引擎`

执行引擎调用存储引擎API来执行查询优化器选择的执行计划。

`存储引擎`

很多软件系统可以分为计算层和存储层。计算层的效率通常很大程度上取决于数据在存储层中的组织方式。在本节中，我们将深入了解MySQL的存储引擎以及为加快存储引擎的读写速度而精心设计的诸多优化。

MySQL可以集成多种不同类型的存储引擎。每个存储引擎针对不同的使用场景都有自己的优缺点。也就是说，存储引擎可以看成一个接口，有各种底层实现，比如InnoDB、MyISAM、❀、❀、CSV 、存档、合并、黑洞❀。

InnoDB无疑是使用最多的存储引擎。这是根据版本 MySQL 5.5 的默认设置。

就像我们使用的笔记本电脑一样，InnoDB 将数据存储在内存和磁盘上。从高层的角度来看，当写入InnoDB时，数据总是先写入内存缓存空间，然后持久化到磁盘。

InnoDB将内存分为两部分：

缓冲池；
日志缓冲区。

缓冲池对于InnoDB非常重要。 MySQL在处理查询时通常非常快，因为数据实际上存储在内存中并对外提供服务（大多数情况下数据不是从磁盘读取的，这与很多人的想法完全相反），这个内存组件就是缓冲池。

`Bufferpool`

一般情况下，主机的 80% 会分配给缓冲池。更大的内存可以在内存中缓存更多的数据，从而可以使读取速度更快。快速地。

缓冲池除了简单地将数据放置在内存中之外，还针对内存中数据的组织进行了精心设计，以加快数据库的读写速度。让我们进一步了解这个详细设计。

`页面`

与图书馆组织图书的方式类似，使用 ID 来识别图书，并按类似的字母或数字顺序将它们组织在图书馆书架上。

InnoDB将缓冲池划分为许多数据页，还包含一个changebuffer（稍后解释）。所有数据页都以双向链表的形式链接，这意味着我们可以轻松地从当前页转到下一页，或者从当前页转到上一页。

那么页面上的数据是如何存储的呢？

`用户记录`

在一个数据页中包含以下内容：

指向上一个数据页的指针；
指向下一个数据页的指针；
用户记录；
其他属性信息。

指向上一个数据页和下一个数据页的指针只是一个指针。用户记录是存储所有row数据的位置。每行都有一个指向下一行的。 next 形成单向链表的指针。

那么问题来了。

我们知道，关系数据库中的一行记录通常由一个主键字段和许多其他字段组成。这些记录通常按主键排序，因此在查找具有特定主键的记录时，可以使用二分查找等算法来快速检索数据。减少延迟；但如果每次向用户记录添加新数据时，InnoDB 都必须重新排列所有记录（行），这将是一个非常耗时的操作。

实际上，用户记录中的行是按插入顺序排列的，添加一条新记录只是添加到用户记录的末尾，所需的主键顺序是通过next指针实现的，对于每行 next 指针指向主键顺序之后的下一个逻辑行，而不是内存中的物理下一行。

现在有一个新问题。前面我们提到，我们不需要遍历所有记录来查找具有特定主键的目标数据，但如果所有行本质上都是一个单向链表，那么单向链表的特性决定了我们只有遍历整个链表才能找到特定的行。我们知道，将链表连接起来是一个时间复杂度为O(n)的操作。这是非常耗时的。那么InnoDB我该怎么做才能更快呢？还记得我们之前提到的其他领域吗？它们正是用于此目的。