0%

Java Virtual Machine


Source

我们都知道,不管是Java还是Android都绕不开JVM(Java虚拟机)。虽然Android有dalvik和art,但是Android的编程语言还是Java,了解JVM机对于我们掌握Java知识有莫大的帮助。下面我将从以下部分来聊聊JVM:
1) JVM运行时数据区域
2) HotSpot 虚拟机对象的创建,内存布局以及访问定位
3) 垃圾收集算法
4) 垃圾收集器

你不得不了解的JVM(一)

我们都知道,不管是Java还是Android都绕不开JVM(Java虚拟机)。虽然Android有dalvik和art,但是Android的编程语言还是Java,了解JVM机对于我们掌握Java知识有莫大的帮助。下面我将从以下部分来聊聊JVM:
1) JVM运行时数据区域
2) HotSpot 虚拟机对象的创建,内存布局以及访问定位
3) 垃圾收集算法
4) 垃圾收集器
本文涉及内容比较多,所以本内容采用2篇文章来讲述,这篇文章主要讲讲1)和2),3)和4)在(二)中再具体讲讲。那么接下来我们以问题为驱动来聊聊上面的每一个问题吧。
1)关于JVM运行时数据区域,我们会想到什么呢?JVM在执行Java程序代码的过程中会将它所管理的内存划分为若干不同的数据区,而这些区域各自的作用是什么呢?。
2)HotSpot虚拟机是什么?先不管他是什么,至少来讲他是虚拟机,虚拟机是用来执行程序代码的。我们知道Java是面向对象的程序语言之一,那么虚拟机在执行程序的过程中肯定会遇到对象的创建和销毁,所以我们就需要了解虚拟机对对象的创建,内存分配以及内存访问定位。
3)JVM是如何对垃圾进行收集的?具体的算法是什么? 我们知道,Java有内存动态分配和垃圾收集技术,我们程序员并不需要管理内存。由于垃圾收集技术算法实现涉及了大量的代码细节(主要是本人技术水平有限,哈哈),而且各种虚拟机操纵内存方式各不相同,所以在这节并不会详细讲虚拟机实现垃圾收集算法的具体实现,而是让大家了解一些垃圾收集算法。
4)在我们了解了基本的垃圾收集算法的之后,我们就需要结合具体的虚拟机来了解一下。
上面讲了我们需要了解的相关内容,接下来就是具体讲讲每一点的具体知识吧。大家坐稳了…….

1)JVM运行时数据区域,讲这块内容之前,我们先来看一张关于JVM内存区的图

这张图中,我们清楚的知道:被编译过的.class文件通过类加载器加载到内存中,我们的重点是在内存划分的区域。从图中,我们看到了5大区域:线程共享的方法区和堆,线程私有的java虚拟机栈,本地方法栈以及程序计数器。我们具体来了解一下这5个内存划分:

程序计数器:(Program Counter Register)这个区域是唯一一个不会抛出OutOfMemoryError异常的区域。它是一块比较小的内存,是当前线程所执行的字节码的行号指示器。

java虚拟机栈:它描述的是java方法执行的内存模型,每个方法在执行的时候会创建一个栈帧用来存储局部变量,操作数,动态链接等。

本地方法栈:和java虚拟机栈功能类似,只不过java虚拟机栈执行的是java字节码而本地方法栈执行的是Native方法。

java堆:几乎所有的对象实例都在这里分配内存。java堆可以细分出新生代和老年代,再细致一点可以分为:Eden,From Survivor,To Survivor等空间。

方法区:该区域用来存储已经被虚拟机加载过来的类信息,常量,静态变量等。

以上讲完了JVM运行时内存区域的5大块,同时需要补充的一点是还有一个运行时常量池,它也是方法区的一部分。Class文件中除了有类的版本,字段,接口,方法等描述信息外,还有一项信息就是常量池,用来存放编译时期生成的各种字面量和符号引用。但是需要注意的是:Java语言并不要求常量一定是在编译期间产生,也就是并非与装入class文件中的常量池的内容才能进入到方法区运行时常量池,运行期间也可能将新的常量放入常量池中,如String.intern()方法。

现在相信大家对于JVM运行时内存区域有了相应的了解(如有不了解的地方请留言),接下来我们了解一下第二个问题。

2) HotSpot 虚拟机对象的创建,内存布局以及访问定位:在讲这个问题之前我们需要讲讲HotSpot虚拟机。HotSpot的正式发布名称为”Java HotSpot Performance Engine”,是Java虚拟机的一个实现,包含了服务器版和桌面应用程序版,现时由Oracle维护并发布。它利用JIT及自适应优化技术(自动查找性能热点并进行动态优化,这也是HotSpot名字的由来)来提高性能。从上面的介绍中我们知道HotSpot虚拟机是Oracle公司发布的一个java虚拟机的实现。既然是java虚拟机的实现,那么也是绕不开JVM的。那么接下来就讲讲HotSpot虚拟机对于对象的创建,内存分配以及定位等相关知识吧。

2.1)对象的创建
既然是讲对象的创建,那就是要从Object obj = new Object()开始讲起:
a:虚拟机在遇到new指令时,首先会去检查这个指令的参数是否能在常量池中定位到一个类的符号引用并且检查该符号引用代表的类是否已经被加载,解析和初始化过。如果没有,那就必须先执行相应的类加载。
b:在类经过加载检查后,虚拟机就需要为新生对象分配内存了。对象所需要的内存大小在类加载完成之后就可以确定。
c:在分配完内存之后,虚拟机需要将分配到的内存空间初始化为零值。
d:接下来,虚拟机会对对象进行必要的设置,如对象的hash码,对象的GC分代信息等。
e:最后执行对象的init方法对对象进行初始化。
到此,对象的创建过程已经完毕。其中,在b中我们可以继续了解对象内存分配的相关知识,虚拟机是通过何种方式为对象分配内存的呢?对象创建在虚拟机中是很频繁的,那么如何保证分配内存的时候线程安全呢?这些问题都是值得我们去思考的。讲完了对象的创建,我们继续讲讲对象的内存布局吧。

2.2)对象的内存布局
在HotSpot虚拟机中,对象在内存中存储的布局分为对象头,实例数据和对齐填充3个部分。
对象头(Header):主要存储了2部分信息,第1部分是对象自身运行的数据,如hashcode,GC分代等信息;
第2部分是类型指针,就是对象对它的类元数据指针,其实就是一个引用。虚拟机通过这个指针(引用)来确定对象是哪个类的实例。
实例数据(Instance Data):对象真正存储的有效信息,也就是程序代码中所写的各种类型的字段内容。
对齐填充(Padding):这个不是必然存在的。

2.3)对象的访问定位
我们知道了对象的创建,内存布局等相关内容之后,需要知道存储的对象如何找到呢?这就涉及到对象的定位问题了。我们java程序需要通过栈上的引用数据来操作具体的对象。对对象的访问方式取决于虚拟机的实现,目前比较主流的有句柄和直接指针两种方式。下面让我们看看这两种方式吧,直接上图:

见图知意了吧。第1张图是通过句柄的方式对对象进行访问,在java堆中划分出来一块内存作为句柄池,而reference中存储的是对象的句柄地址,句柄中存储了对象实例等信息。第2张图是通过直接指针的方式,reference中存储的是实例对象的地址。

这两种对象引用的方式各有千秋,通过句柄的好处是reference中存储的是稳定的句柄地址,在对象被移动的时候只会改变句柄的实例指针而reference本身不需要修改;使用直接指针的好处是速度开,不需要在java堆中在划分出一块内存区域同时节省了指针定位的开销。但是就HotSpot而言,采用的是直接指针方式。

写到这里,我们应该对JVM的运行时的内存区域和对象创建过程有了一个初步的认识,在下一篇文章中,我会讲讲垃圾收集算法和垃圾搜集器,期待更新吧~~~

你不得不了解的JVM(二)

前言

在上一篇文章 你不得不了解的JVM(一)中,我们了解了
1) JVM运行时数据区域;
2) HotSpot 虚拟机对象的创建,内存布局以及访问定位;
那么这篇文章我们就需要了解一下
3) 垃圾收集算法
4) 垃圾收集器。

首先我们了解一下垃圾收集算法这块内容。因为垃圾算法的实现设计大量程序细节,各个平台的虚拟机操作内存的方法各不相同,因此在本节中我们主要讲讲垃圾收集算法,并不涉及具体实现。 下面让我们来一一了解一下各种收集算法吧。

3) 垃圾收集算法

1)标记-清除算法

上图为标记-清除算法的示意图。首先需要标记可回收的内存,然后再对可回收的内存进行回收。这样做是不是很简单粗暴呢?当然,这样做的2个不足分别是:1)标记-清除效率不高;2)标记-清除之后产生大量不连续的空间碎片。基于这样的不足,有了标记-整理算法。

2)标记-整理算法

如图是标记-整理算法示意图。相比标记-清除算法,不同的是整理过程。将存活对象移到一端,然后清除可回收对象。这样做的明显好处就是产生了连续的空间。

3)复制算法

上图是复制算法实现图。它将内存分为大小相等的2块,每次只是使用其中一块。当一块内存用完之后,就将存活的对象复制到另外一块内存区域并将本块内存清理。这样做的大大降低了内存空间使用率。我们的HotSpot的年轻代就是使用复制算法,只不过它的比例不是1:1,而是8:1。这个稍后我们会讲到。

4)分代收集算法

基于上面的几种收集算法,当前商业虚拟机基本采用的都是分代收集。结合了复制和标记-整理的优势。一般做法是将Java堆分为新生代和老年代。由于新生代会不断产生新生对象,因此采用了复制算法;而年老代的对象存活率较高,因此采用了标记-整理算法。
在新生代中,我们可以看到新生代=Eden+S0+S1;他们设计的默认比例是8:1:1;这个参数是可以通过虚拟机参数进行调整的。

以上,我们了解了基本的垃圾收集算法,只是了解哦!

4) 垃圾收集器。

如果说垃圾收集算法是内存回收的方法论,那么垃圾收集器就是内存回收的具体实现。上面说过,各个平台虚拟机对内存的操作各不相同,因此本章所讲的收集器是基于JDK1.7Update14之后的HotSpot虚拟机。

上图是基于java虚拟机的HotSpot虚拟机垃圾收集器。一共是7种收集器,接下来让我们一一做个了解吧。

1)Serial/Serial Old
Serial最基本,发展历史最悠久的收集器。具体原理让我们看一张图最明了

上图是Serial和Serial Old 两种垃圾收集器的运行示意图。其中Serial 和Serial Old的区别就是一个是运行在年轻代一个是运行在年老代。从图中我们可以看到,他是一个单线程模式的垃圾收集器。这里不仅仅是说该收集器是使用单线程或者一个CPU去完成垃圾收集,更重要的是它在进行垃圾收集的时候必须暂停用户线程,直到收集完成,也就是Stop the World。

2)ParNew
ParNew收集器其实是Serial收集器的多线程版本。它也是运行在年轻代中,如图:

如图,在新生代中采用的是多线程模式进行垃圾收集同时也需要暂停用户线程直到垃圾收集完毕。这种模式和Serial相比,CPU数量越多的情况下优势更加明显。如果CPU数量很少,比如2个,那么这种收集效率可能比Serial更低,因为它存在线程交互的开销。

3)Parallel Scavenge/Parallel Old

Parallel Scavenge也是一个新生代,多线程收集器。那么这种收集器和之前的ParNew有什么区别呢?区别还是有的,不然怎么会出来这种收集器呢?其实Parallel Scavenge收集器的特点是它关注一个可控的吞吐量。那么什么是吞吐量,我这边也不做任何讲述,直接上一个公式大家就知道了。
吞吐量=运行用户代码时间/(运行用户代码时间+垃圾收集时间);
是不是很明白?垃圾收集时间越短,吞吐量就是越大。这里就有一个问题:垃圾收集时间越短,一般来讲收集的垃圾量就是越少,也就是回收的内存量越小,那么总内存一定的情况下,我们在一定时间内回收的次数就是越多。这就需要我们控制好回收时间来制约回收次数了。
同时,这里也有一个Parallel Old收集器,顾名思义是Parallel Scavenge收集器的年老代版本。
如下图:

4)CMS
CMS(Concurrent Mark Sweep),从名字我们知道这是一款基于并发使用标记清除算法的垃圾收集器。他是一款以获得最短回收停顿时间为目标的收集器。让我们赶紧来看看他的实现吧。上图

如上图,它分为以下步骤:
1 初始标记:仅仅标记GC Roots能直接关联到的对象,时间很短,阻塞用户线程
2 并发标记:标记可回收对象,和用户线程并行。
3 重新标记:标记在并发阶段因用户线程继续运行产生的可回收对象,修正并发标记,此时是阻塞用户线程。
4 并发清理:使用标记-清除算法将垃圾进行清理。

这种收集算法存在3个缺点:
1 对CPU资源敏感。一般并发执行的程序对CPU数量都是比较敏感的
2 无法处理浮动垃圾。在并发清理阶段用户线程还在执行,这时产生的垃圾无法清理。
3 由于标记-清除算法产生大量的空间碎片。

下面,我们讲讲最后一个垃圾手机器G1

5)G1
G1,Garbage-First是当今收集器技术发展的最前沿成果之一,它是一款面向服务端的垃圾收集器。

实现思路:将整个java堆划分为多个大小相等的独立区域(Region),G1跟踪各个Region里面的垃圾堆积和价值大小,在后台维护一个优先列表,每次进行优先回收。那么Region不是孤立的。那么如何避免全堆扫描呢?
G1使用Remembered Set。每一个Region对应一个Remembered Set,在虚拟机对Reference类型的数据进行写操作的时候,会检查Reference引用的对象是否处于不同的Region中,如是则记录到Remembered Set中。

初始标记:标记GC Roots能直接关联到的对象,耗时短
并发标记:找出存活的对象,耗时长
最终标记:修正并发标记
筛选回收:根据用户所期望的GC停顿时间来制定回收计划
可以发现它和CMS的前半部分步骤是一样的。当然,其实G1收集器的实现是非常复杂的,这里只是蜻蜓点水般的讲到一点,如果有兴趣可以继续深入学习。欢迎多多进行技术交流……

欢迎关注我的其它发布渠道