第十章 早期(编译期)优化
10.1 概述
Java 语言的“编译期”其实是一段“不确定”的操作过程:
- 它可能是指一个前端编译器(其实叫“编译器的前端”更准确一些)把* .java 文件转变成* .class 文件的过程;(代表编译器:Sun 的 Javac 、Eclipse IDT 中的增量式编译器(ECJ ))
- 可能是指虚拟机的后端运行期编译器(AOT 编译器, Just In Time Compiler)把字节码转变成机器码的过程(代表编译器:HotSpotVM 的Cl 、C2 编译器。)
- 可能是指使用静态提前编译器CAOT 编译器, Ahead Of Time Compiler )直接把* .java文件编译成本地机器代码的过程。(代表编译器:GNU Compiler for the Java ( GCJ) 、Excelsior JET 。)
10.2 Javac 编译器
-
Javac 的源码与调试
编译过程
- 解析与填充符号表过程。
- 插入式注解处理器的注解处理过程。
- 分析与字节码生成过程。
Javac 的编译过程如下:
Javac 编译动作的人口是com.sun.tools.javac.main.JavaCompiler 类,下述3 个过程的代码逻辑集中在这个类的 compile() 和 compile2() 方法,如下:
-
解析与填充符量表
解析步骤由上一节图中的 parseFiles() 方法 完成,解析步骤包括了经典程序编译原理中的词法分析和语法分析两个过程。
1)词法、语法分析
词法分析是将源代码的字符流转变为标记( Token )集合,单个字符是程序编写过程的最小元素,而标记则是编译过程的最小元素,关键字、变量名、字面量、运算符都可以成为标记。在Javac 的源码中,词法分析过程由
com.sun.tools.javac.parser.Scanner
类来实现。 语法分析是根据Token 序列构造抽象语法树的过程,抽象语法树( Abstract Syntax Tree, AST )是一种用来描述程序代码语法结构的树形表示方式,语法树的每一个节点都代表着程序代码中的一个语法结构( Construct ),例如包、类型、修饰符、运算符、接口、返回值甚至代码注释等都可以是一个语法结构。在Javac 的源码中,语法分析过程由
com.sun.tools.javac.parser.Parser
类实现,这个阶段产出的抽象语法树由com.sun.tools.javac.tree.JCTree
类表示,经过这个步骤之后,编译器就基本不会再对源码文件进行操作了,后续的操作都建立在抽象语法树之上。2)填充符号表
完成了语法分析和词法分析之后,下一步就是填充符号表的过程,由上一节图中的 enterTree() 方法 完成。
符号表( Symbol Table )是由一组符号地址和符号信息构成的表格,读者可以把它想象成哈希表中K - V 值对的形式(实际上符号表不一定是哈希表实现,可以是有序符号表、树状符号表、技结构符号表等) 。符号表中所登记的信息在编译的不同阶段都要用到。在语义分析中,符号表所登记的内容将用于语义检查( 如检查一个名字的使用和原先的说明是否一致)和产生中间代码。在目标代码生成阶段,当对符号名进行地址分配时,符号表是地址分配的依据。
在Javac 源代码中,填充符号表的过程由
com.sun.tools.javac.comp.Enter
类实现,此过程
的出口是一个待处理列表( To Do List ),包含了每一个编译单元的抽象语法树的顶级节点,以及package-info.java
(如果存在的话)的顶级节点。 -
注解处理器
在JDK 1 . 5 之后, Java 语言提供了对注解( A nnotation )的支持,这些注解与普通的 Java 代码一样,是在运行期间发挥作用的。
在JDK 1 .6 中实现了JSR-269 规范,提供了一组插入式注解处理器的标准 API 在编译期间对注解进行处理,我们可以把它看做是一组编译器的插件,在这些插件里面,可以读取、修改、添加抽象语法树中的任意元素。如果这些插件在处理注解期间对语法树进行了修改,编译器将回到解析及填充符号表的过程重新处理,直到所有插入式注解处理器都没有再对语法树进行修改为止,每一次循环称为一个Round ,也就是下图中的回环过程。
在Javac 源码中,插入式注解处理器的初始化过程是在
initPorcessAnnotations()
方法中完成的,而它的执行过程则是在processAnnotations()
方法中完成的,这个方法判断是否还有新的注解处理器需要执行,如果有的话,通过com.sun.tools.javac.processing.JavacProcessingEnvironment
类的doProcessing()
方法生成一个新的Java Comp iler 对象对编译的后续步骤进行处理。-
语义分析与字节码生成
语法分析之后,编译器获得了程序代码的抽象语法树表示,语法树能表示一个结构正确的源程序的抽象,但无法保证源程序是符合逻辑的。而语义分析的主要任务是对结构上正确的源程序进行上下文有关性质的审查。
1)词法、语法分析
Javac 的编译过程中,语义分析过程分为标注检查以及数据及控制流分析两个步骤,分别由(图10-5)attribute() 和 flow() 方法完成。标注检查步骤检查的内容包括诸如变量使用前是否已被声明、变量与赋值之间的数据类型是否能够匹配等,在标注检查步骤中,还有一个重要的动作称为常量折叠。
标注检查步骤在Javac 源码中的实现类是
com.sun.tools.javac.comp.Attr
类和com.sun.tools.javac.comp.Check
类。2)数据及控制流分析
数据及控制流分析是对程序上下文逻辑更进一步的验证,它可以检查出诸如程序局部变量在使用前是否有赋值、方法的每条路径是否都有返回值、是否所有的受查异常都被正确处理了等问题。编译时期的数据及控制流分析与类加载时的数据及控制流分析的目的基本上是一致的,但校验范围有所区别,有一些校验项只有在编译期或运行期才能进行。
将局部变量声明为 final ,对运行期是没有影响的,变量的不变性仅仅由编译器在编译期间保障。在 Javac 的源码中,数据及控制流分析的入口是图 10-5 中的自 flow() 方法,具体操作由
com.sun.tools.javac.comp.Flow
类来完成。3)解语法糖
语法糖(Syntactic Sugar),也称糖衣语法,指在计算机语言中添加的某种语法,这种语法对语言的功能并没有影响,但是更方便程序员使用。通常来说,使用语法糖能够增加程序的可读性,从而减少程序代码出错的机会。
Java 属于“低糖语言”,Java 中最常用的语法糖主要是前面提到过的泛型、变长参数、自动装箱/拆箱等,虚拟机运行时不支持这些语法,它们在编译阶段还原回简单的基础语法结构,这个过程称为解语法糖。在 Javac 的源码中,解语法糖的过程由 desugar() 方法触发,在
com.sun.tools.javac.comp.TransTypes
类和com.sun.tools.vac.comp.Lower
类中完成。4)字节码生成
字节码生成是Javac 编译过程的最后一个阶段,在Javac 源码里面由
com.sun.tools.javac.jvm.Gen
类来完成。字节码生成阶段不仅仅是把前面各个步骤所生成的信息(语法树、符号表)转化成字节码写到磁盘中,编译器还进行了少量的代码添加和转换工作。 实例构造器<init>() 方法和类构造器<clinit>() 方法在这个阶段添加到语法树中(这里的实例构造器并不是指默认构造函数,如果用户代码中没有提供任何构造函数,那编译器将会添加一个没有参数的、访问性( public 、protected 或 private )与当前类一致的默认构造函数,这个工作在填充符号表阶段就已经完成)),这两个构造器的产生过程实际上是一个代码收敛的过编译器会把语句块、变量初始化(实例变量和类变量)、调用父类的实例构造器等操作收敛到这两个方法中,并保证一定的执行顺序,上面所述的动作由
Gen.normalizeDefs()
方法来实现。 完成了对语法树的遍历和调整之后,就会把填充了所有所需信息的符号表交给
com.sun.tools.javac.jvm.ClassWriter
类,由这个类的 writeClass() 方法输出字节码,生成最终 Class。
-
10.3 Java 语法糖的味道
几乎各种语言或多或少都提供过一些语法糖来方便程序员的代码开发,这些语法糖虽然不会提供实质性的功能改进,但是它们或能提高效率,或能提升语法的严谨性,或能减少编码出错的机会。
-
泛型与类型擦除
泛型是 JDK 1.5 的一项新增特性,它的本质是参数化类型(Parametersized Type)的应用,也就是说所操作的数据类型被指定为一个参数。这种参数类型可以用在类、接口和方法的创建中,分别称为泛型类、泛型接口和泛型方法。
Java 语言中的泛型,它只在程序源码中存在,在编译后的宇节码文件中,就已经替换为原来的原生类型( Raw Type,也称为裸类型)了,并且在相应的地方插入了强制转型代码,因此,对于运行期的Java 语言来说, ArrayList
与ArrayList 就是同一个类,所以泛型技术实际上是Java 语言的一颗语法糖, Java 语言中的泛型实现方法称为类型擦除,基于这种方法实现的泛型称为伪泛型。 两个方法如果有相同的名称和特征签名,但返回值不同,那它们也是可以合法地共存于一个Class文件中的。但是方法重载要求方法具备不同的特征签名,返回值并不包含在方法的特征签名之中,即返回值不参与重载选择。
由于Java 泛型的引人,各种场景(虚拟机解析、反射等) 下的方法调用都可能对原有的基础产生影响和新的需求,如在泛型类中如何获取传入的参数化类型等。因此虚拟机引入了诸如 Signature 、LocalVariableTypeTable 等新的属性用于解决伴随泛型而来的参数类型的识别问题, Signature 的作用就是存储一个方法在字节码层面的特征签名。这个属性中保存的参数类型并不是原生类型,而是包括了参数化类型的信息。
擦除法所谓的擦除,仅仅是对方法的Code 属性中的字节码进行擦除,实际上元数据中还是保留了泛型信息,这也是我们能通过反射手段取得参数化类型的根本依据。
-
自动装箱、拆箱与遍历循环
从纯技术的角度来讲,自动装箱、自动拆箱与遍历循环( Foreach 循环)这些语法糖,元论是实现上还是思想上都不能和上文介绍的泛型相比,两者的难度和深度都有很大差距,它们是Java 语言里使用得最多的语法糖。
{collapse}
{collapse-item label=“自动装箱的陷阱”}public static void main(String[] args) { Integer a = 1; Integer b = 2; Integer c = 3; Integer d = 3; Integer e = 321; Integer f = 321; Long g = 3L; System.out.println(c == d); // true System.out.println(e == f); // false // Integer是不可变对象,因为里面的 value是 final的 private final int value; // -128到 127之间的数据放到了 IntegerCache 中,IntegerCache 是 static的,因此将会放到常量池中作为缓存使用 System.out.println(c == (a + b)); // true System.out.println(c.equals(a + b)); // true System.out.println(g == (a + b)); // true System.out.println(g.equals(a + b)); // false }
-
条件编译
Java 语言当然也可以进行条件编译,方法就是使用条件为常量的证语句。只能使用条件为常量的if 语句才能达到上述效果,如果使用常量与其他带有条件判断能力的语句搭配,则可能在控制流分析中提示错误,被拒绝编译。它必须遵循最基本的Java 语法,只能写在方法体内部,因此它只能实现语句基本块(Block)级别的条件编译,而没有办法实现根据条件调整整个Java 类的结构。
Java 语言语法糖:
-
泛型、自动装箱、自动拆箱、遍历循环、变长参数和条件编译
-
内部类、枚举类、断言语句、对枚举和字符串的switch 支持
-
try 语句中定义和关闭资源
10.4 实战:插入式注解处理器
-
-
实战目标
实现在编译程序时检查程序名是否符合Java 程序命名规范对类(或接口)、方法、字段的命名要求:
-
类(或接口):符合驼式命名法,首字母大写。
-
方法:符合驼式命名法,首字母小写。
-
字段:
类或实例变量:符合驼式命名法,首字母小写。
常量:要求全部由大写字母或下划线构成,并且第一个字符不能是下划线。
-
-
代码实现
P320
10.5 本章小结
在本章中,我们从编译器源码实现的层次上了解了Java 源代码编译为字节码的过程,分析了Ja va 语言中泛型、主动装箱/拆箱、条件编译等多种语法糖的前因后果,并实战练习了如何使用插入式注解处理器来完成一个检查程序命名规范的编译器插件。如本章概述中所说的那样, 在前端编译器中,"优化”手段主要用于提升程序的编码效率,之所以把Javac 这类将Java 代码转变为字节码的编译器称做“前端编译器”,是因为它只完成了从程序到抽象语法树或中间字节码的生成,而在此之后,还有一组内置于虚拟机内部的“后端编译器”完成了从字节码生成本地机器码的过程,即前面多次提到的即时编译器或JIT 编译器,这个编译器的编译速度及编译结果的优劣,是衡量虚拟机性能一个很重要的指标。
评论区