学习笔记 — 《极客时间》数据结构与算法之美丨数组

如何实现随机访问?

数组: 是一种线性表数据结构。它用一组连续的内存空间,来存储一组具有相同类型的数据。

关键词:

  • 线性表: 顾名思义,线性表就是数据排成像一条线一样的结构。每个线性表上的数据最多只有前和后两个方向。其实除了数组,链表、队列、栈等也是线性表结构。
    学习笔记 — 《极客时间》数据结构与算法之美丨数组而与它相对立的概念是非线性表,比如二叉树、堆、图等。之所以叫非线性,是因为,在非线性表中,数据之间并不是简单的前后关系。学习笔记 — 《极客时间》数据结构与算法之美丨数组
  • 连续的内存空间和相同类型的数据:正是因为这两个限制,数组才具有了随机访问特性。也正是因为这两个限制,使得数组的删除、插入操作变得低效。为了保证数据的连续性,比如,容量为 20,数组中的数据 1 - 15,若是删除第 1 个数据,那么后面的 14 个数据下标全部向前移动一位,若是在第 1 位插入数据,那么后面的 15 个数据下标全部向后移动一位。

举例:一个长度为 10 的 int 类型的数组 int[] a = new int[10] 来举例。在我画的这个图中,计算机给数组 a[10],分配了一块连续内存空间 1000~1039,其中,内存块的首地址为 base_address = 1000。学习笔记 — 《极客时间》数据结构与算法之美丨数组
data_type_size 表示数组中每个元素的大小。数组中存储的是 int 类型数据,所以 data_type_size 就为 4 个字节。

一维数组寻址公式:
a[i]_address = base_address + i * data_type_size

但是,如果数组从 1 开始计数,那我们计算数组元素 a[k]的内存地址就会变为:

a[i]_address = base_address + ( i - 1 ) data_type_size

问题:为什么数组要从 0 开始编号,而不是从 1 开始呢?

回答:从 1 开始编号,每次随机访问数组元素都多了一次减法运算,对于 CPU 来说,就是多了一次减法指令。

低效的“插入”和“删除”

插入

既然知道插入时候有这样的弊端,那么有办法改进?

假设数组 a[10] 中存储了如下 5 个元素:a,b,c,d,e。现在需要将 x 插入到下标为 2 的地方,我们只需将下标为 2 的元素放到插入到 a[5] 处,然后将元素 x 插入到 a[2] 处,这就避免了 d、e 元素的变化。

删除

实际上,在某些特殊场景下,我们并不一定非得追求数组中数据的连续性。如果我们将多次删除操作集中在一起执行,删除的效率是不是会提高很多呢?

我们继续来看例子。数组 a[10] 中存储了 8 个元素:a,b,c,d,e,f,g,h。现在,我们要依次删除 a,b,c 三个元素。

为了避免 d,e,f,g,h 这几个数据会被搬移三次,我们可以先记录下已经删除的数据。每次的删除操作并不是真正地搬移数据,只是记录数据已经被删除。当数组没有更多空间存储数据时,我们再触发执行一次真正的删除操作,这样就大大减少了删除操作导致的数据搬移。

如果你了解 JVM,你会发现,这不就是 JVM 标记清除垃圾回收算法的核心思想吗?没错,数据结构和算法的魅力就在于此,很多时候我们并不是要去死记硬背某个数据结构或者算法,而是要学习它背后的思想和处理技巧,这些东西才是最有价值的。如果你细心留意,不管是在软件开发还是架构设计中,总能找到某些算法和数据结构的影子。

容器能否完全替代数组?

ArrayList 与数组相比,到底有哪些优势呢?

  • 可以将很多数组操作的细节封装起来
  • 支持动态扩容
  • 需要注意一点,因为扩容操作涉及内存申请和数据搬移,是比较耗时的。所以,如果事先能确定需要存储的数据大小,最好在创建 ArrayList 的时候事先指定数据大小。

有些时候,用数组会更合适些:

  • Java ArrayList 无法存储基本类型,比如 int、long,需要封装为 Integer、Long 类,而 Autoboxing、Unboxing 则有一定的性能消耗,所以如果特别关注性能,或者希望使用基本类型,就可以选用数组。
  • 若数据大小事先已知,并且涉及的数据操作非常简单,可以使用数组
  • 表示多维数组时,数组往往更加直观。
  • 业务开发容器即可,底层开发,如网络框架,性能优化。选择数组。