预编译:负责这一步工作的叫“预编译器”。它主要负责处理所有的#define
宏定义;所有的预编译指令,比如#if、#endif
等。接下来会递归处理#include
指令,用被包含的文件替换这个预编译指令。.c
文件经过预编译,变为.i
文件。
编译:这一步由编译器负责,主要又由词法分析、语法分析、语义分析、优化和生成汇编代码五个部分:
词法分析:识别源代码中的各种括号、数字、标点等。比如有(但没有),这一步就能发现错误
语法分析:这一步会生成语法树,比如2+4
就是一颗根节点为+,左右叶子节点分别为2和4的语法树。如果你只是写2+,在这一步就会报错。
语义分析:这一步主要考虑类型声明、匹配和转换。比如你写2 * "3"
在这一步就会报错
中间语言生成:这一步会生成平台无关的三地址码,比如2 + 3
会写成t1 = 2 + 3
,同时也会把这样在编译期就可以确定的表达式进行优化
目标代码生成:编译器根据三地址码生成依赖于目标机器的目标机器代码,也就是汇编语言。
.i
文件经过编译,得到汇编文件,后缀是.s
汇编:这一步由汇编器负责,将汇编语言转换成机器可以执行的语言(完全由0和1组成).汇编文件经过汇编,变成目标文件,后缀为.o
。
链接:这一步是这本书的重点。之前的几个步骤,都是以.c
文件为基本单位,一个.c
源代码文件最终被汇编,生成目标文件。这一步就是处理如何把多个目标文件链接起来。
考虑一个.c
文件中,用到了另一个.c
文件中的变量或函数。在编译这个文件时,我们无法在编译期确定这个变量或函数的地址。只有在把所有目标文件链接起来以后,才能确定。链接器主要负责地址重分配、符号名称绑定和重定位。
从源代码到程序的运行要做的远远不止编译,很多时候我们说“把程序编译一下”,是不准确的。不过编译确实是整个流程中最复杂的部分。