GC垃圾回收(1)- 回收算法与分代模型

1. 什么是garbage垃圾?

没有任何引用指向的一个对象或者多个对象(循环引用),就是垃圾

1.1 Java与C++对于垃圾处理的区别

  • Java
    GC处理垃圾
    开发效率高,执行效率低
  • C++
    手动处理垃圾
    忘记回收 -> 会导致内存泄漏
    回收多次 -> 会造成非法访问
    开发效率低,执行效率高

2. 怎么定位垃圾

Java堆中存放着几乎所有的对象实例,垃圾回收器在堆进行垃圾回收前,首先要判断这些对象那些还存活,哪些成为了”垃圾“。定位“垃圾”有如下算法:
(1)引用计数法(ReferenceCount)
(2)根可达算法(RootSearching)

2.1 引用计数法(ReferenceCount)

引用计数法描述的算法为:给对象增加一个引用计数器,每当有一个地方引用它时,计数器就+1;当引用失效时,计数器就-1;任何时刻计数器为0的对象就是不能再被使用的,成为“垃圾”。

引用计数法实现简单,判定效率也比较高,在大部分情况下都是一个比较好的算法。比如Python语言就是采用的引用计数法来进行内存管理的。

但是,在主流的JVM中没有选用引用计数法来管理内存,最主要的原因是 引用计数法无法解决对象的循环引用问题

2.2 根可达算法(RootSearching)

Java并不采用引用计数法来判断对象是否已成为“垃圾”,而采用“根可达算法”来判断对象是否存活(同样采用此法的还有C#、Lisp-最早的一门采用动态内存分配的语言)。

此算法的核心思想:通过一系列称为“GC roots”的对象作为起始点,从这些节点开始向下搜索,搜索走过的路径称为“引用链”,当一个对象到 GC roots 没有任何的引用链相连时(从 GC roots 到这个对象不可达)时,证明此对象不可用,是垃圾。

哪些实例可以作为GC roots?

  • JVM stack Java 虚拟机栈(栈帧中的本地变量表)引用的对象
  • native method stack 本地方法栈中引用的对象
  • run-time constant 运行时常量池
  • static references in method area 方法区中静态变量引用的对象

如图:
GC垃圾回收(1)- 回收算法与分代模型

3. GC Algorithms 垃圾回收算法

对存活对象和垃圾对象进行区分之后就需要进行回收了,垃圾回收算法有以下3种:

  • Mark-Sweep (标记清除)
  • Copying(复制)
  • Mark-Compact(标记压缩 或 标记整理)

3.1 Mark-Sweep (标记清除)

“标记清除”算法是最基础的回收算法。算法分为标记和清除两个阶段:首先标记出所有需要回收的对象,在标记完成后统一回收所有被标记的对象(标记过程使用根可达算法)。后续的回收算法都是基于这种思路并对其不足加以改进而已。

“标记清除”算法的不足主要有两个:

  • 效率问题:标记和清除这两个过程的效率都不高
  • 空间问题:标记清除后会产生大量不连续的内存碎片,空间碎片太多可能会导致以后在程序运行中需要分配较大对象时,无法找到足够连续内存而不得不提前触发另一次垃圾回收。

GC垃圾回收(1)- 回收算法与分代模型

3.2 Copying(复制)

“复制”算法是为了解决“标记清除”的效率问题。它将可用内存按容量划分为大小相等的两块,每次只使用其中一块。当这块内存需要进行垃圾回收时,会将此区域还存活着的对象复制到另一块上面,然后再把已经使用过的内存区域一次清理掉。这样做的好处是每次都是对整个半区进行内存回收,内存分配时也就不需要考虑内存碎片等的复杂情况,只需要移动堆顶指针,按顺序分配即可。

此算法实现简单,运行高效;不足之处是占用内存多。
GC垃圾回收(1)- 回收算法与分代模型

3.3 Mark-Compact(标记压缩)

复制回收算法在对象存活率较高时会进行比较多的复制操作,效率会变低。因此在老年代一般不能使用复制算法。

针对老年代的特点,提出了一种“标记整理算法”。标记过程仍与“标记清除”过程一致,但后续步骤不是直接对可回收对象进行清理,而是让所有存活对象向一端移动,然后直接清理掉边界以外的内存。

好处是能整理出连续的内存,不会产生碎片,方便对象分配,也不会将可用内存减半;
不足:要扫描两次,还要移动对象,效率偏低。

GC垃圾回收(1)- 回收算法与分代模型

4. JVM逻辑分代模型(用于分代垃圾回收算法)

这是部分垃圾回收器使用的模型

除Epsilon ZGC Shenandoah之外的GC都是使用逻辑分代模型
G1是逻辑分代,物理不分代
除此之外不仅逻辑分代,而且物理分代

分代垃圾回收算法,并没有新思想,只是根据对象存活周期的不同将内存划分为几块。
一般是把Java堆分为新生代和老年代。在新生代中,每次垃圾回收都有大批对象被回收,只有少量存活,因此采用复制算法;而老年代中对象存活率高、没有额外空间对它进行分配担保,就必须采用"标记清理"或者"标记压缩"算法。

现在的商用虚拟机(包括HotSpot)都是采用这种收集算法来回收新生代
新生代中98%的对象都是"朝生夕死"的,所以并不需要按照1 : 1的比例来划分内存空间,而是将内存(新生代内存)分为一块较大的Eden(伊甸园)空间和两块较小的Survivor(幸存者)空间,每次使用Eden和其中一块Survivor(两个Survivor区域一个称为From区,另一个称为To区域)。当回收时,将Eden和Survivor中还存活的对象一次性复制到另一块Survivor空间上,最后清理掉Eden和刚才用过的Survivor空间。
当Survivor空间不够用时,需要依赖其他内存(老年代)进行分配担保。
HotSpot默认Eden与Survivor的大小比例是8 : 1,也就是说Eden:Survivor From : Survivor To = 8:1:1。所以每次新生代可用内存空间为整个新生代容量的90%,而剩下的10%用来存放回收后存活的对象。
GC垃圾回收(1)- 回收算法与分代模型

4.1 对象从出生到消亡

对象会首先分配到stack栈中,如果栈中分配不下了,会分配到Eden区中。Eden区进行垃圾回收后,存活对象被复制到s1区,清空Eden区。当触发第二次垃圾回收时,将Eden区、s1区存活对象复制到s2区,清空eden和s1…

如此循环进行,对象被复制一次年龄加1,当Survivor区对象的复制年龄超过限制时,进入Old区。

通过参数:-XX:MaxTenuringThreshold配置对象被复制的最大次数。

对象什么时候进入老年代?
对象头mark word有4位是记录对象年龄的,4位二进制最大是15,也就是说年龄最大为15

  • 超过XX:MaxTenuringThreshold指定次数(YGC)
    • Parallel Scavenge回收器 15
    • CMS回收器 6
    • G1回收器 15
  • 动态年龄
    • s1 --> s2 超过50%
    • 把年龄最大的放入old

4.1.1 对象的分配

  • 栈上分配

    • 线程私有小对象
    • 无逃逸(只在某代码段中使用)
    • 支持标量替换(用普通类型属性代替对象)
    • 优化时无需调整
  • 线程本地分配TLAB(Thread Local Allocation Buffer)

    • 占用eden,默认1%(为避免对象分配时进行空间争用线程同步影响效率,每个线程独占eden区1%的空间)
    • 多线程时不用竞争eden就可以申请空间,提高效率
    • 小对象
    • 优化时无需调整
  • 老年代

    • 大对象

对象分配过程总结
GC垃圾回收(1)- 回收算法与分代模型

  • eden

4.2 GC概念

GC垃圾回收(1)- 回收算法与分代模型