引用计数算法

在对象中添加一个引用计数器,每当有一个地方引用它时,计数器值就加一;当引用失效时,计数器值就减一;任何时刻计数器为零的对象就是不可能再被使用的,引用计数算法(Reference Counting)虽然占用了一些额外的内存空间来进行计数,但它的原理简单,判定效率也很高。可是Java并没有选择引用计数算法来管理内存,因为这个算法有很多的问题,比如对象的循环引用问题:
A与B互相引用,但是没有其他对象在调用A与B,理论上他们应该要被垃圾回收但是因为内部互相引用导致基数器不为0所以两个都不会被回收。

强引用但会产生垃圾回收示例
强引用但会产生垃圾回收示例

可达性分析算法

Java通过可达性分析(Reachability Analysis)算法来判定对象是否存活。这个算法的基本思路就是通过 一系列称为“GC Roots”的根对象作为起始节点集,从这些节点开始,根据引用关系向下搜索,搜索过 程所走过的路径称为“引用链”(Reference Chain),如果某个对象到GC Roots间没有任何引用链相连, 或者用图论的话来说就是从GC Roots到这个对象不可达时,则证明此对象是不可能再被使用的。

哪些是GC Roots

可以通过MAT可视化工具查看GC Roots

  • 在虚拟机栈(栈帧中的本地变量表)中引用的对象,譬如各个线程被调用的方法堆栈中使用到的参数、局部变量、临时变量等。
  • 在方法区中类静态属性引用的对象,譬如Java类的引用类型静态变量。
  • 在方法区中常量引用的对象,譬如字符串常量池(String Table)里的引用。
  • 在本地方法栈中JNI(即通常所说的Native方法)引用的对象。
  • Java虚拟机内部的引用,如基本数据类型对应的Class对象,一些常驻的异常对象(比如 NullPointExcepiton、OutOfMemoryError)等,还有系统类加载器。
  • 所有被同步锁(synchronized关键字)持有的对象。
  • 反映Java虚拟机内部情况的JMXBean、JVMTI中注册的回调、本地代码缓存等。

四种引用

Java对引用的概念进行了扩充,将引用分为强引用(Strongly Re-ference)、软 引用(Soft Reference)、弱引用(Weak Reference)和虚引用(Phantom Reference)4种,这4种引用强度依次逐渐减弱。

强引用:是指在程序代码之中普遍存在的引用赋值,即类似“Object obj=new Object()”这种引用关系。无论任何情况下,只要强引用关系还存在,垃圾收集器就永远不会回收掉被引用的对象。

软引用:在系统将要发生内存溢出异常前且没有强引用引用他,会把这些对象列进回收范围之中进行第二次回收,如果这次回收还没有足够的内存, 才会抛出内存溢出异常。在JDK 1.2版之后提供了SoftReference类来实现软引用。

弱引用:只能生存到下一次垃圾收集发生为止。当垃圾收集器开始工作,无论当前内存是否足够,都会回收掉只被弱引用关联的对象。在JDK 1.2版之后提供了WeakReference类来实现弱引用。

虚引用:一个对象是否有虚引用的存在,完全不会对其生存时间构成影响,也无法通过虚引用来取得一个对象实例。为一个对象设置虚引用关联的唯一目的只是为了能在这个对象被收集器回收时收到一个系统通知。在JDK 1.2版之后提供 了PhantomReference类来实现虚引用。

引用队列

Reference queues, to which registered reference objects are appended by the garbage collector after the appropriate reachability changes are detected.

引用队列,垃圾收集器在检测到适当的可达性更改后将已注册的引用对象追加到该队列。

软弱引用本身也会占用一定的内存,可以配合引用队列,用于保存被回收后对象的软弱引用,当内存不足时可以在引用队列里找到这些引用回收内存。虚引用必须要和引用队列(ReferenceQueue )一起使用。当垃圾回收器准备回收一个对象时,若发现该对象具有虚引用,则会在回收该对象的内存前,将该虚引用加入到与之关联的引用队列中。

示例:

private static final int _4MB = 4 * 1024 * 1024;

public static void main(String[] args) {
    List<SoftReference<byte[]>> list = new ArrayList<>();

    // 引用队列
    ReferenceQueue<byte[]> queue = new ReferenceQueue<>();

    for (int i = 0; i < 5; i++) {
        // 关联了引用队列, 当软引用所关联的 byte[]被回收时,软引用自己会加入到 queue 中去
        SoftReference<byte[]> ref = new SoftReference<>(new byte[_4MB], queue);
        System.out.println(ref.get());
        list.add(ref);
        System.out.println(list.size());
    }

    // 从队列中获取无用的 软引用对象,并移除
    Reference<? extends byte[]> poll = queue.poll();
    while( poll != null) {
        list.remove(poll);
        poll = queue.poll();
    }

    System.out.println("===========================");
    for (SoftReference<byte[]> reference : list) {
        System.out.println(reference.get());
    }

}
//copy from 解密JVM虚拟机底层原理 视频代码示例

生存还是死亡

对象在被垃圾回收前还有一次且仅有一次拯救自己的机会,对象被回收至少要经历两次标记过程:如果对象在进行可达性分析后发现没有与GC Roots相连接的引用链,那它将会被第一次标记,随后进行一次筛选,筛选的条件是此对象是否有必要执行finalize()方法。假如对象没有覆盖finalize()方法,或者finalize()方法已经被虚拟机调用过,那么虚拟机将这两种情况都视为“没有必要执行”。

只要重新与引用链上的任何一个对象建立关联即可,譬如把自己(this关键字)赋值给某个类变量或者对象的成员变量,那在第二次标记时它将被移出“即将回收”的集
合;如果对象这时候还没有逃脱,那基本上它就真的要被回收了。

回收方法区

方法区垃圾收集的“性价比”通常比较低的,在新生代中,对常规应用进行一次垃圾收集通常可以回收70%至99%的内存空间,相比之下,方法区有着苛刻的判定条件,且效果也并不理想。

方法区的垃圾收集主要回收两部分内容:废弃的常量和不再使用的类型。回收废弃常量与回收Java堆中的对象非常类似,当没有任何对象引用这个常量在垃圾收集器判定有必要的话即可被回收。

  • 判定一个类型是否属于“不再被使用的类”需要同时满足下面三个条件:
    该类所有的实例都已经被回收,也就是Java堆中不存在该类及其任何派生子类的实例。
  • 加载该类的类加载器已经被回收,这个条件除非是经过精心设计的可替换类加载器的场景,如OSGi、JSP的重加载等,否则通常是很难达成的。
  • 该类对应的java.lang.Class对象没有在任何地方被引用,无法在任何地方通过反射访问该类的方法。

但是满足了以上的条件并不代表一定会被回收而是仅仅“被允许”回收。

垃圾收集算法

分代假说

  • 弱分代假说(Weak Generational Hypothesis):绝大多数对象都是朝生夕灭的。
  • 强分代假说(Strong Generational Hypothesis):熬过越多次垃圾收集过程的对象就越难以消亡。
  • 跨代引用假说(Intergenerational Reference Hypothesis):跨代引用相对于同代引用来说仅占极
    少数。

专业名词解释

名词解释
部分收集(Partial GC)指目标不是完整收集整个Java堆的垃圾收集
新生代收集(Minor GC/Young GC)指目标只是新生代的垃圾收集
老年代收集(Major GC/Old GC)指目标只是老年代的垃圾收集。仅CMS收集器会单独收集老年代。
混合收集(Mixed GC)指目标是收集整个新生代以及部分老年代的垃圾收集。G1收集器独有
整堆收集(Full GC)收集整个Java堆和方法区的垃圾收集

标记-清除算法

首先标记出所有需要回收的对象,在标记完成后,统一回收掉所有被标记的对象,也可以反过来,标记存活的对象,统一回收所有未被标记的对象。标记过程就是对象是否属于垃圾的判定过程。

优点:

速度较快

缺点:

(1)是执行效率不稳定。回收对象数据量大时效率变低。

(2)内存空间碎片化。空间碎片太多会导致大对象无法找到足够的连续内存而触发另一次垃圾回收。

标记-清除
标记-清除

标记-复制算法

简称为复制算法。目的是为了解决标记-清除算法面对大量可回收对象时执行效率低
的问题。

它将可用内存按容量划分为大小相等的两块,每次只使用其中的一块。当这一块的内存用完了,就将还存活着的对象复制到另外一块上面,然后再把已使用过的内存空间一次清理掉。如果内存中多数对象都是存活的,这种算法将会产生大量的内存间复制的开销,但对于多数对象都是可回收的情况,算法需要复制的就是占少数的存活对象,而且每次都是针对整个半区进行内存回收,分配内存时也就不用考虑有
空间碎片的复杂情况,只要移动堆顶指针,按顺序分配即可。

优点:实现简单,运行高效,不会有内存碎片。

缺点:可用内存缩小一半,空间浪费过多。

标记-复制
标记-复制

复制算法优化

Appel式回收的具体做法是把新生代分为一块较大的Eden空间和两块较小的
Survivor空间,每次分配内存只使用Eden和其中一块Survivor。

发生垃圾搜集时,将Eden和Survivor中仍然存活的对象一次性复制到另外一块Survivor空间上,然后直接清理掉Eden和已用过的那块Survivor空间。HotSpot虚拟机默认Eden和Survivor的大小比例是8∶1,也即每次新生代中可用内存空间为整个新生代容量的90%(Eden的80%加上一个Survivor的10%),只有一个Survivor空间,即10%的新生代是会被“浪费”的。

当Survivor空间不足以容纳一次Minor GC之后存活的对象时,就需要依赖其他内存区域(实际上大多就是老年代)进行分配担保(Handle Promotion)即直接把对象的内存分配至老年代中。

标记-整理算法

标记过程与“标记-清除”算法一样,但后续步骤不是直接对可回收对象进行清理,而是让所有存活的对象都向内存空间一端移动,然后直接清理掉边界以外的内存。

标记-清除算法与标记-整理算法的本质差异在于前者是一种非移动式的回收算法,而后者是移动式的。是否移动回收后的存活对象是一项优缺点并存的风险决策:

如果移动存活对象,尤其是在老年代这种每次回收都有大量对象存活区域,移动存活对象并更新所有引用这些对象的地方将会是一种极为负重的操作,而且这种对象移动操作必须全程暂停用户应用程序才能进行,这样的停顿被称为“Stop The World”。

标记-整理
标记-整理

分代回收

这是《解密JVM虚拟机底层原理》 视频的一个小节,有必要记录下来。

首先对象分配的所在堆划分为新生代和老年代,新生代中又有伊甸园(eden),2块Survivor(幸存区)

对象的分配会优先在新生代的伊甸园区域进行分配,如下图

步骤一
步骤一

当伊甸园的区域无法容纳新的对象分配时会触发一次minor GC,具体流程是将伊甸园中需要保留的对象复制到幸存区To中,并增加代数,之后会交换幸存区from和幸存区To的位置,也就是有对象的幸存区变成from,空的变成to。

minor GC 会引发 stop the world,暂停其它用户的线程,等垃圾回收结束,用户线程才恢复运行。

步骤二
步骤二

当发生第二次出现伊甸园内存不足时,触发第二次垃圾回收,这时候垃圾回收也会扫描幸存区from中的内容看看是不是也有对象要回收,如果有也会被一并回收如果没有则代数增加1挪到幸存区To中,把伊甸园的存活对象也放到幸存区To中,并将交换两个幸存区位置。

步骤三
步骤三

当幸存区的对象经历了很多次数的垃圾回收次数,代数达到了一定的阈值(不仅仅只有达到阈值这种才会晋升,像内存空间紧张,这些对象也会提前进入老年代,或者对象过大也可能直接进入老年代甚至不会进过幸存区),默认阈值是15(4bit),那么幸存区的对象会晋升到老年代,因为老年代的垃圾回收次数没有那么频繁。

当老年代空间不足,会先尝试触发 minor GC,如果之后空间仍不足,那么触发 full gc,STW的时间更长。

JVM参数

含义参数
堆初始大小-Xms
堆最大大小-Xmx 或 -XX:MaxHeapSize=size
新生代大小-Xmn 或 (-XX:NewSize=size + -XX:MaxNewSize=size )
幸存区比例(动态)-XX:InitialSurvivorRatio=ratio 和 -XX:+UseAdaptiveSizePolicy
幸存区比例-XX:SurvivorRatio=ratio
晋升阈值-XX:MaxTenuringThreshold=threshold
晋升详情-XX:+PrintTenuringDistribution
GC详情-XX:+PrintGCDetails -verbose:gc
FullGC 前 MinorGCXX:+ScavengeBeforeFullGC