数据结构基础java版 - 编程好6文档

一、数据结构和算法

1.数据结构

数据结构是、的方式。数据结构是指相互之间存在一种或多种特定关系的的集合。通常情况下，精心选择的数据结构可以带来更高的运行或者存储效率。数据结构往往同高效的检索算法和索引技术有关。接下来分别介绍下常见的数据结构类型。

1.1 线性结构

1.1.1 数组

数组（Array）是一种线性表数据结构。它用于存储具有固定大小的相同类型的数据元素。在数组中，数据元素按照有序的方式进行排列，可以通过索引访问数组中的任意位置的元素。

数组的特点如下：

顺序存储：数组中的元素按照顺序存储在连续的内存空间中，每个元素都有一个唯一的索引，可以通过索引快速访问。
大小固定：一旦定义了数组的大小，就不能改变。如果需要更大的存储空间，需要重新定义一个新的数组。
元素类型相同：数组中的所有元素必须是相同的数据类型。
无界数组：数组的长度可以是任意的整数，只要内存空间足够。

在这里插入图片描述

数组的优点：

访问速度快：由于数组是顺序存储的，可以通过索引直接访问数组中的元素，时间复杂度为O(1)。
易于实现：数组是一种简单的数据结构，容易实现和操作。

数组的缺点：

大小固定：数组的大小是固定的，不能动态扩展。如果需要更多的存储空间，需要重新定义一个新的数组，这会增加额外的开销。
空间利用率低：由于数组是连续的内存空间，即使某些位置没有被使用，也不能被其他数据结构使用，导致空间利用率较低。

1.1.2 队列

队列是一种特殊的数据结构，其特点是遵循先进先出（FIFO）的原则。队列中的元素只能从一端（称为队尾）添加，而从另一端（称为队头）删除。

队列的特点如下：

先进先出：队列中的元素遵循先进先出的原则，即最早进入队列的元素最先被删除。
插入和删除操作发生在同端：队列中的插入操作发生在队尾，删除操作发生在队头。
无界队列：队列的长度可以是任意的整数，只要内存空间足够。

在这里插入图片描述

数据结构演示地址：https://www.cs.usfca.edu/~galles/visualization/Algorithms.html

Java代码的具体实现

1.1.3 链表

链表是一种常见的数据结构，它通过指针将一组零散的内存块串联在一起。链表中的每个内存块被称为节点，每个节点除了存储数据之外，还需要记录链上的下一个节点的地址。

链表的特点是：

不需要连续的内存空间。
有指针引用。
插入、删除数据效率高，时间复杂度为O(1)级别（只需更改指针指向即可）；但是，随机访问效率低，时间复杂度O(n)级别（需要从链头至链尾进行遍历）。
和数组相比，内存空间消耗更大，因为每个存储数据的节点都需要额外的空间存储后继指针。

链表包括、和等类型。其中，单向链表的节点只有一个后继指针next指向后面的节点；双向链表的节点除了有一个后继指针next指向后面的节点外，还有一个前驱指针prev指向前面的节点；循环链表与单向链表的唯一区别是尾节点的指针指向头节点，形成一个环。

在这里插入图片描述

1.1.4 栈

栈（Stack）是一种后进先出（LIFO）的数据结构，它只能在一端进行插入和删除操作，这一端被称为栈顶，另一端被称为栈底。栈的元素之间存在一种顺序关系，这种顺序关系由元素的插入和删除操作决定。

栈的主要操作有：

入栈（push）：在栈顶添加一个元素。
出栈（pop）：删除栈顶的元素并返回其值。
判断栈空（is_empty）：检查栈是否为空。
获取栈顶元素（top）：返回栈顶的元素值，但不删除它。

在这里插入图片描述

1.2 非线性结构

非线性表:与线性表对立，在非线性表之中，数据之间并不是简单的前后关系。非线性结构是一种相对复杂的数据结构，它不满足线性结构的数据元素之间的一对一关系。非线性结构包括图结构、树结构、二维数组、广义表、多维数组等。

在非线性结构中，数据元素之间存在多对多的关系，这种关系可以通过指针、引用等来实现。非线性结构可以用来表示复杂的数据关系，例如网络关系、图形关系等。

本课程中我们介绍下和Java关联性比较强的非线性结构-树

1.2.1 树

[Tree]是n（n>=0)个结点的有限集。n=0时称为空树。在任意一颗非空树中：

有且仅有一个特定的称为根[Root]的结点；
当n>1时，其余结点可分为m(m>0)个互不相交的有限集T1、T2、…、Tn，其中每一个集合本身又是一棵树，并且称为根的子树。
根结点是唯一的，不可能存在多个根结点，数据结构中的树只能有一个根结点。
子树的个数没有限制，但它们一定是互不相交的。

如图，是一棵普通树

在这里插入图片描述

度数：结点拥有的子树数目称为结点的度。

在这里插入图片描述

节点关系：

孩子结点
双亲结点
兄弟结点

节点层次：

从根开始定义起，根为第一层，根的孩子为第二层，以此类推。

在这里插入图片描述

树的深度：树中结点的最大层次，如上图深度为4

根据不同的分类方式，树可以分为不同的类型：

根据树分支的数量限制：可以分为二叉树和多叉树。二叉树最多只有两个子节点，而多叉树一个节点可以有多于两个的子节点。
根据树节点的有序性：可以分为查找树和无序树。查找树的基本特征为任意一个节点所包含的键值，大于等于左孩子的键值，小于等于右孩子的键值。无序树则没有特定的键值大小关系。
根据具体用途和特征：例如、、、等。是一种自平衡二叉查找树，也是一种自平衡二叉查找树，它要求任何节点的两个子树的高度差最大为1。平衡二叉树和平衡二叉搜索树则是为了平衡树的左右子树的高度差。
根据树的完整性和是否包含空值：可以分为完全二叉树、满二叉树、完全二叉搜索树、满二叉搜索树等。完全二叉树和满二叉树是包含所有节点的二叉树，而完全二叉搜索树和满二叉搜索树则是所有节点都按照一定顺序排列的二叉搜索树。

1.2.2 二叉树

每个子节点只有两个节点的树，每个结点至多拥有两棵子树(即二叉树中不存在度大于2的结点)，并且，二叉树的子树有左右之分，其次序不能任意颠倒。

在这里插入图片描述

二叉查找树也称为有序二叉查找树,满足二叉查找树的一般性质,是指一棵树具有如下性质：

任意节点左子树不为空,则左子树的值均小于根节点的值
任意节点右子树不为空,则右子树的值均大于于根节点的值
任意节点的左右子树也分别是二叉查找树
没有键值相等的节点

二叉树又分为：

完美二叉树
完全二叉树
完满二叉树

完美二叉树：又称为 满二叉树 ，除了叶子节点之外的每一个节点都有两个孩子节点，每层都被完全填充

在这里插入图片描述

完全二叉树:除了最后一层之外的其他每一层都被完全填充，并且所有的节点都保持向左对齐

在这里插入图片描述

完满二叉树：除了叶子节点之外的每一个节点都有两个孩子节点。

在这里插入图片描述

二叉树的遍历操作：

二叉树中的遍历规则有如下三种：

中序遍历：所谓的中序遍历就是先访问左节点，再访问根节点，最后访问右节点，即左-根-右遍历

先序遍历：所谓的前序遍历就是先访问根节点，再访问左节点，最后访问右节点，即根-左-右遍历(前序)

后序遍历：所谓的后序遍历就是先访问左节点，再访问右节点，最后访问根节点。即左-右-根遍历

在这里插入图片描述

查找最小值：沿着根节点的左子树一路查找，直到最后一个不为空的节点，该节点就是当前这个树的最小节点

查找最大值：沿着根节点的右子树一路查找，直到最后一个不为空的节点，该节点就是当前这个树的最大节点

查找前驱节点 ：小于当前节点的最大值

查找后继节点 ：大于当前节点的最小值

在这里插入图片描述

二叉树的删除操作：

二叉树中的删除节点：本质上是找前驱节点或者后继节点来替代

叶子节点直接删除
只有一个子节点的用子节点替代(本质上就是找的前驱节点或者后继节点，左节点就是前驱节点，右节点就是后继节点)
有两个子节点的，需要找到替代节点(替代节点就是前驱节点或者后继节点)

二叉树的查找的局限性：

一个二叉查找树是由n个节点随机构成,所以，对于某些情况,二叉查找树会退化成一个有n个节点的线性链.如下图:

在这里插入图片描述

1.2.3 AVL树

BST存在的问题是，树在插入的时候会导致倾斜，不同的插入顺序会导致数的高度不一样，而树的高度直接影响了树的查找效率。最坏的情况所有的节点都在一条斜线上，这样树的高度为N。基于BST存在的问题，平衡查找二叉树（Balanced BST）产生了。平衡树的插入和删除的时候，会通过旋转操作将高度保持在LogN。其中两款具有代表性的平衡术分别为AVL树（高度平衡树，具备二叉搜索树的全部特性，而且左右子树高度差不超过1）和红黑树。

AVL树是如何实现平衡的呢？，具体是通过左旋或者右旋来实现的。具体如下图：

在这里插入图片描述

虽然AVL可以解决二叉树所存在的问题，但是AVL树要求太过严格，左旋和右旋的开销会比较大，这时出现了红黑树，只要求黑色节点平衡即可.

1.2.4 2-3-4树

是四阶的 B树(Balance Tree)，他属于一种多路查找树，它的结构有以下限制：所有叶子节点都拥有相同的深度。节点只能是 2-节点、3-节点、4-节点之一。

2-节点：包含 1 个元素的节点，有 2 个子节点；
3-节点：包含 2 个元素的节点，有 3 个子节点；
4-节点：包含 3 个元素的节点，有 4 个子节点；

所有节点必须至少包含1个元素,元素始终保持排序顺序，整体上保持二叉查找树的性质，即父结点大于左子结点,小于右子结点；而且结点有多个元素时，每个元素必须大于它左边的和它的左子树中元素。

下图是一个典型的 2-3-4树:
在这里插入图片描述

生成的过程
接下来我们通过演示来看看2-3-4树生成的过程
第一次插入—2节点

在这里插入图片描述

插入第二个节点–3节点合并

在这里插入图片描述

插入第三个节点—4节点合并

在这里插入图片描述

插入第4个节点—需要分裂

在这里插入图片描述

插入6

在这里插入图片描述

插入7

在这里插入图片描述

插入8

在这里插入图片描述

插入9

在这里插入图片描述

插入10

在这里插入图片描述

插入11

在这里插入图片描述

插入12

在这里插入图片描述

最后我们插入1来看看效果

在这里插入图片描述

到这儿相信大家对于2-3-4树应该有了个直观的认知了。然后来看看和的对应关系。这个能帮助我们更好的理解红黑树.

红黑树起源于2-3-4树，它的本质就是2-3-4树。

：一个2节点对应的红黑树节点就是一个黑色节点

在这里插入图片描述

:一个三节点可以有两种情况的红黑树节点，一种是右倾，一种是左倾，所以一个2-3-4树可以有多个红黑树

在这里插入图片描述

原则：上黑下红

：一个四节点转换的情况只有一种，中间节点黑色，左右节点红色

在这里插入图片描述

：还有就是在2-3-4树中存在的裂变状态。转换为红黑树后会先变色(不能有两个相邻的红色节点)。

在这里插入图片描述

：接下来具体看看一个2-3-4树是如何转换为对应的红黑树的，

原始的2-3-4树：

在这里插入图片描述

按照右倾规则来转换为：

在这里插入图片描述

通过对2-3-4树和红黑树的等价关系，对于我们后面分析红黑树的内容会非常有帮助!!!

1.2.5 红黑树

红黑树，Red-Black Tree 「RBT」是一个自平衡(不是绝对的平衡)的二叉查找树(BST)，树上的每个节点都遵循下面的规则:

每个节点要么是黑色，要么是红色。
根节点是黑色。
每个叶子节点（NIL）是黑色。
每个红色结点的两个子结点一定都是黑色。
任意一结点到每个叶子结点的路径都包含数量相同的黑结点。

红黑树能自平衡，它靠的是什么？三种操作：左旋、右旋和变色

操作描述左旋以某个结点作为支点(旋转结点)，其右子结点变为旋转结点的父结点，
右子结点的左子结点变为旋转结点的右子结点，左子结点保持不变。右旋以某个结点作为支点(旋转结点)，其左子结点变为旋转结点的父结点，
左子结点的右子结点变为旋转结点的左子结点，右子结点保持不变。变色结点的颜色由红变黑或由黑变红。

左旋：以某个节点作为旋转点，其右子节点变为旋转节点的父节点，右子节点的左子节点变为旋转节点的右子节点，左子节点保持不变。

在这里插入图片描述

右旋：以某!个节点作为旋转点，其左子节点变为旋转节点的父节点，左子节点的右子节点变为旋转节点的左子节点，右子节点保持不变。

在这里插入图片描述

Java代码实现旋转：

先进行类结构定义

左旋代码实现

右旋实现：

:https://www.processon.com/view/link/60c21e25e401fd34a1514d25

2-3-4树中结点添加需要遵守以下规则：

插入都是向最下面一层插入
升元：将插入结点由 2-结点升级成 3-结点，或由 3-结点升级成 4-结点；
向 4-结点插入元素后，需要将中间元素提到父结点升元，原结点变成两个 2-结点，再把元素插入2-结点中，如果父结点也是 4-结点，则递归向上层升元，至到根结点后将树高加1；

而将这些规则对应到红黑树里，就是：

新插入的结点颜色为红色，这样才可能不会对红黑树的高度产生影响。
2-结点对应红黑树中的单个黑色结点，插入时直接成功（对应 2-结点升元）。
3-结点对应红黑树中的黑+红子树，插入后将其修复成红+黑+红子树（对应 3-结点升元）；
4-结点对应红黑树中的红+黑+红子树，插入后将其修复成红色祖父+黑色父叔+红色孩子子树，然后再把祖父结点当成新插入的红色结点递归向上层修复，直至修复成功或遇到 root 结点；

公式：红黑树+新增一个节点（红色）=对等的2-3-4树+新增一个节点

新增节点案例

我们通过新增2-3-4树的过程来映射对应的红黑树的节点新增

在这里插入图片描述

1.新增一个节点，2 节点

在这里插入图片描述

2.新增一个节点，与2节点合并，直接合并

在这里插入图片描述

3.新增一个节点，与3节点合并，直接合并

插入的值的位置会有3种情况

在这里插入图片描述

对应的红黑树为：

在这里插入图片描述

4.新增一个节点，与4节点合并，此时需要分裂

在这里插入图片描述

插入值的位置可能是

在这里插入图片描述

对应的红黑树的结构为：

在这里插入图片描述

新增代码实现

红黑树的新增规则我们理清楚了，接下来就可以通过Java代码来具体的实现了。

先实现插入节点，这就是一个普通的二叉树的插入

然后再根据红黑树的特点来实现调整(旋转，变色)

红黑树的删除操作：

红黑树的节点的删除其实也分为两步：

先删除节点(这步和普通的二叉树删除是一样的)
然后再调整

要删除这个节点先需要找到这个节点，找到节点就是普通的二分查找，具体代码如下

在这里插入图片描述

情况一

在这里插入图片描述

情况2：删除的是非情况1的节点，根据我们前面介绍的删除的规则，会找到对应的前驱和后继节点，那么最终删除的还是叶子节点

在这里插入图片描述

首先删除节点的代码为：

然后就是需要调整红黑树的平衡了。

删除后的平衡调整

1.情况一：自己能搞定的，对应叶子节点是3节点和4节点

在这里插入图片描述

2.情况二：自己搞不定，需要兄弟借，但是兄弟不借，找父亲借，父亲下来，然后兄弟找一个人去代替父亲当家

这种情况就是兄弟节点是3节点或者4节点

找兄弟节点

在这里插入图片描述

如果找到的兄弟节点是红色其实还要调整

在这里插入图片描述

执行如下调整先,先变色，然后左旋

在这里插入图片描述

找兄弟节点借

在这里插入图片描述

然后沿着7节点左旋

在这里插入图片描述

3.情况三：跟兄弟借，兄弟也没有（情同手足，同时自损）

兄弟节点是2节点，同时当前节点的父节点是红色节点的情况

在这里插入图片描述

删除后直接变色就可以了

兄弟节点是2节点，同时当前节点的父节点是黑色节点

在这里插入图片描述

变更操作为如下，如果继续有父节点那么还要递归处理

在这里插入图片描述

分析清楚了删除的3中情况，我们就可以撸处删除的调整的代码了

好了。红黑树的内容大家应该搞清楚了。同时TreeMap的代码大家也搞清楚了。你可以看看TreeMap的代码其实和我们上面写的代码是一样的

1.2.6 B树

在这里插入图片描述

B Tree的查找规则是什么样的呢？
比如我们要在这张表里面查找30。
因为30小于36，走左边。
因为30大于23，走右边。
在磁盘块7里面就找到了30，只用了3次IO。

这个效率会比AVL树的效率更高

1.2.7 B+树

加强版多路平衡查找树
因为B Tree的这种特性非常适合用于做索引的数据结构，所以很多文件系统和数据库的索引都是基于B Tree的。
但是实际上，MySQL里面使用的是B Tree的改良版本，叫做B+Tree（加强版多路平衡查找树）。

B+树的存储结构：

在这里插入图片描述

MySQL中的B+Tree有几个特点：

它的关键字的数量是跟路数相等的；
B+Tree的根节点和枝节点中都不会存储数据，只有叶子节点才存储数据。InnoDB 中 B+ 树深度一般为 1-3 层，它就能满足千万级的数据存储。搜索到关键字不会直接返回，会到最后一层的叶子节点。比如我们搜索id=28，虽然在第一层直接命中了，但是全部的数据在叶子节点上面，所以我还要继续往下搜索，一直到叶子节点。
B+Tree的每个叶子节点增加了一个指向相邻叶子节点的指针，它的最后一个数据会指向下一个叶子节点的第一个数据，形成了一个有序链表的结构。

在这里插入图片描述

总结一下， B+Tree的特点带来的优势：

它是B Tree的变种，B Tree能解决的问题，它都能解决。B Tree解决的两大问题是什么？（每个节点存储更多关键字；路数更多）
扫库、扫表能力更强（如果我们要对表进行全表扫描，只需要遍历叶子节点就可以了，不需要遍历整棵B+Tree拿到所有的数据）
B+Tree的磁盘读写能力相对于B Tree来说更强（根节点和枝节点不保存数据区，所以一个节点可以保存更多的关键字，一次磁盘加载的关键字更多）
排序能力更强（因为叶子节点上有下一个数据区的指针，数据形成了链表）
效率更加稳定（B+Tree永远是在叶子节点拿到数据，所以IO次数是稳定的）

2.算法

看完了基本的数据结构后我们还需要看看常用的一些算法。数据结构加算法就等于程序。

2.1 排序

用于将一组数据按照特定的规则进行排序。排序算法可以分为内部排序和外部排序两种。

内部排序算法：
- 冒泡排序（Bubble Sort）：重复比较相邻的两个元素，如果顺序错误就交换位置，直到整个序列有序。
- 插入排序（Insertion Sort）：将待排序的元素插入已经排好序的序列中的正确位置，直到整个序列有序。
- 选择排序（Selection Sort）：每次从待排序序列中选择最小（或最大）的元素放到已排序序列的末尾，直到整个序列有序。
- 快速排序（Quick Sort）：选择一个基准元素，将比基准元素小的元素放在基准元素的左边，比基准元素大的元素放在基准元素的右边，然后递归地对左右两个子序列进行快速排序。
- 归并排序（Merge Sort）：将待排序序列划分为两个子序列，分别对两个子序列进行归并排序，然后将排序好的两个子序列合并成一个有序序列。
- 堆排序（Heap Sort）：将待排序序列构建成一个最大堆（或最小堆），然后依次取出堆顶元素，再对剩余元素进行堆调整，直到整个序列有序。
外部排序算法：
- 多路归并排序：将待排序的数据分为多个有序的子序列，然后通过多次归并操作将这些子序列合并为一个有序序列。
- 基于置换的排序：通过多次置换操作将待排序的数据重新排列成有序的序列。
- 多层归并排序：将待排序的数据分成多个层次，每个层次都进行归并排序操作，最终得到一个有序序列。

不同的排序算法在时间复杂度、空间复杂度和稳定性等方面有所差异，选择合适的排序算法取决于具体的应用场景和数据规模。

2.2 查找

查找算法，也称为搜索算法，是一种用于在数据集中查找特定元素的算法。查找算法可以应用于各种数据结构，如数组、链表、树等。

常用的查找算法包括：

线性查找：顺序遍历数据集，逐个比较元素，直到找到目标元素或遍历完整个数据集。时间复杂度为O(n)，其中n为数据集的大小。
二分查找：仅适用于已经排序的数据集。从数据集的中间元素开始比较，如果目标元素小于中间元素，则在左半部分继续查找；如果目标元素大于中间元素，则在右半部分继续查找；如果目标元素等于中间元素，则找到目标元素。时间复杂度为O(log n)。
哈希查找：通过哈希函数将目标元素映射到一个位置，然后在该位置进行查找。哈希查找的平均时间复杂度为O(1)，但是在处理哈希冲突时可能需要线性查找。
二叉查找树：将数据集构建成二叉查找树，其中每个节点的左子树的值小于节点的值，右子树的值大于节点的值。通过比较目标元素和节点的值，可以在二叉查找树中进行快速查找。
平衡二叉查找树：在二叉查找树的基础上，通过旋转操作保持树的平衡，以提高查找效率。常用的平衡二叉查找树有红黑树、AVL树等。
B树和B+树：适用于大规模数据的查找，将数据集分散存储在多个节点中，通过多级索引进行查找。B树和B+树的高度较小，能够减少磁盘I/O操作，提高查找效率。
字符串匹配算法：用于在文本中查找特定的字符串。常用的字符串匹配算法有暴力匹配算法、KMP算法、Boyer-Moore算法等。