学习笔记 — 《极客时间》数据结构与算法之美丨数组

如何实现随机访问？

数组： 是一种线性表数据结构。它用一组连续的内存空间，来存储一组具有相同类型的数据。

关键词：

线性表： 顾名思义，线性表就是数据排成像一条线一样的结构。每个线性表上的数据最多只有前和后两个方向。其实除了数组，链表、队列、栈等也是线性表结构。
而与它相对立的概念是非线性表，比如二叉树、堆、图等。之所以叫非线性，是因为，在非线性表中，数据之间并不是简单的前后关系。
连续的内存空间和相同类型的数据：正是因为这两个限制，数组才具有了随机访问特性。也正是因为这两个限制，使得数组的删除、插入操作变得低效。为了保证数据的连续性，比如，容量为 20，数组中的数据 1 - 15，若是删除第 1 个数据，那么后面的 14 个数据下标全部向前移动一位，若是在第 1 位插入数据，那么后面的 15 个数据下标全部向后移动一位。

举例：一个长度为 10 的 int 类型的数组 int[] a = new int[10] 来举例。在我画的这个图中，计算机给数组 a[10]，分配了一块连续内存空间 1000～1039，其中，内存块的首地址为 base_address = 1000。学习笔记 — 《极客时间》数据结构与算法之美丨数组
data_type_size 表示数组中每个元素的大小。数组中存储的是 int 类型数据，所以 data_type_size 就为 4 个字节。

一维数组寻址公式：
a[i]_address = base_address + i * data_type_size

但是，如果数组从 1 开始计数，那我们计算数组元素 a[k]的内存地址就会变为：

a[i]_address = base_address + ( i - 1 ) data_type_size

问题：为什么数组要从 0 开始编号，而不是从 1 开始呢？

回答：从 1 开始编号，每次随机访问数组元素都多了一次减法运算，对于 CPU 来说，就是多了一次减法指令。

低效的“插入”和“删除”

插入

既然知道插入时候有这样的弊端，那么有办法改进？

假设数组 a[10] 中存储了如下 5 个元素：a，b，c，d，e。现在需要将 x 插入到下标为 2 的地方，我们只需将下标为 2 的元素放到插入到 a[5] 处，然后将元素 x 插入到 a[2] 处，这就避免了 d、e 元素的变化。

删除

实际上，在某些特殊场景下，我们并不一定非得追求数组中数据的连续性。如果我们将多次删除操作集中在一起执行，删除的效率是不是会提高很多呢？

我们继续来看例子。数组 a[10] 中存储了 8 个元素：a，b，c，d，e，f，g，h。现在，我们要依次删除 a，b，c 三个元素。

为了避免 d，e，f，g，h 这几个数据会被搬移三次，我们可以先记录下已经删除的数据。每次的删除操作并不是真正地搬移数据，只是记录数据已经被删除。当数组没有更多空间存储数据时，我们再触发执行一次真正的删除操作，这样就大大减少了删除操作导致的数据搬移。

如果你了解 JVM，你会发现，这不就是 JVM 标记清除垃圾回收算法的核心思想吗？没错，数据结构和算法的魅力就在于此，很多时候我们并不是要去死记硬背某个数据结构或者算法，而是要学习它背后的思想和处理技巧，这些东西才是最有价值的。如果你细心留意，不管是在软件开发还是架构设计中，总能找到某些算法和数据结构的影子。

容器能否完全替代数组？

ArrayList 与数组相比，到底有哪些优势呢？

可以将很多数组操作的细节封装起来
支持动态扩容
需要注意一点，因为扩容操作涉及内存申请和数据搬移，是比较耗时的。所以，如果事先能确定需要存储的数据大小，最好在创建 ArrayList 的时候事先指定数据大小。

有些时候，用数组会更合适些：

Java ArrayList 无法存储基本类型，比如 int、long，需要封装为 Integer、Long 类，而 Autoboxing、Unboxing 则有一定的性能消耗，所以如果特别关注性能，或者希望使用基本类型，就可以选用数组。
若数据大小事先已知，并且涉及的数据操作非常简单，可以使用数组
表示多维数组时，数组往往更加直观。
业务开发容器即可，底层开发，如网络框架，性能优化。选择数组。

学习笔记 — 《极客时间》数据结构与算法之美丨数组

相关推荐