陈斌彬的技术博客

Stay foolish,stay hungry

从源码到程序

预编译:负责这一步工作的叫“预编译器”。它主要负责处理所有的#define宏定义;所有的预编译指令,比如#if、#endif等。接下来会递归处理#include指令,用被包含的文件替换这个预编译指令。.c文件经过预编译,变为.i文件。

编译:这一步由编译器负责,主要又由词法分析、语法分析、语义分析、优化和生成汇编代码五个部分:

词法分析:识别源代码中的各种括号、数字、标点等。比如有(但没有),这一步就能发现错误 语法分析:这一步会生成语法树,比如2+4就是一颗根节点为+,左右叶子节点分别为2和4的语法树。如果你只是写2+,在这一步就会报错。 语义分析:这一步主要考虑类型声明、匹配和转换。比如你写2 * "3"在这一步就会报错 中间语言生成:这一步会生成平台无关的三地址码,比如2 + 3会写成t1 = 2 + 3,同时也会把这样在编译期就可以确定的表达式进行优化 目标代码生成:编译器根据三地址码生成依赖于目标机器的目标机器代码,也就是汇编语言。

.i文件经过编译,得到汇编文件,后缀是.s

汇编:这一步由汇编器负责,将汇编语言转换成机器可以执行的语言(完全由0和1组成).汇编文件经过汇编,变成目标文件,后缀为.o

链接:这一步是这本书的重点。之前的几个步骤,都是以.c文件为基本单位,一个.c源代码文件最终被汇编,生成目标文件。这一步就是处理如何把多个目标文件链接起来。

考虑一个.c文件中,用到了另一个.c文件中的变量或函数。在编译这个文件时,我们无法在编译期确定这个变量或函数的地址。只有在把所有目标文件链接起来以后,才能确定。链接器主要负责地址重分配、符号名称绑定和重定位。

从源代码到程序的运行要做的远远不止编译,很多时候我们说“把程序编译一下”,是不准确的。不过编译确实是整个流程中最复杂的部分。