新書推薦:
《
你的认知正在阻碍你
》
售價:NT$
296.0
《
我们身边的小鸟朋友:手绘观鸟笔记
》
售價:NT$
356.0
《
拯救免疫失衡
》
售價:NT$
254.0
《
收尸人
》
售價:NT$
332.0
《
大模型应用开发:RAG入门与实战
》
售價:NT$
407.0
《
不挨饿快速瘦的减脂餐
》
售價:NT$
305.0
《
形而上学与存在论之间:费希特知识学研究(守望者)(德国古典哲学研究译丛)
》
售價:NT$
504.0
《
卫宫家今天的饭9 附画集特装版(含漫画1本+画集1本+卫宫士郎购物清单2张+特制相卡1张)
》
售價:NT$
602.0
|
編輯推薦: |
贯穿编译、汇编、链接、加载的全过程!
比“龙书”更具实践性!
1.实战
通过实际动手制作一个精简版C语言编译器,让读者深入了解C语言程序编译、运行背后的细节。
2.全面
不仅限于编译器,对以编译器为中心的编程语言的运行环境,即编译器、汇编器、链接器、硬件以及运行时环境等,均有所涉及。
3.杰出
日本知名技术书作家青木峰郎耗时3年精心打造,通过具体的例子讲解概念,通俗易懂,更适合入门。
|
內容簡介: |
本书将带领读者从头开始制作一门语言的编译器。笔者特意为本书设计了C?语言,C?可以说是C语言的子集,实现了包括指针运算等在内的C语言的主要部分。本书所实现的编译器就是C?语言的编译器, 是实实在在的编译器,而非有诸多限制的玩具。另外,除编译器之外,本书对以编译器为中心的编程语言的运行环境,即编译器、汇编器、链接器、硬件、运行时环境等都有所提及,介绍了程序运行的所有环节。
|
關於作者: |
青木峰郎(作者)
程序员,著有《Ruby程序设计268技(第2版)》《Ruby源代码完全解说》《Linux程序设计》等多部编程相关著作,并积极参与标准库维护、文档维护等各种各样的活动。
严圣逸(译者)
毕业于上海交通大学。8年软件开发经验,期间赴日本工作。现就职于想能信息科技(上海)有限公司,从事基于云平台的客户关系管理及各类营销自动化系统的开发工作。译有《高效团队开发:工具与方法》。
绝云(译者)
毕业于清华大学软件学院。曾在日本创意公司KAYAC从事即时通信软件及社交游戏的开发工作,现任蚂蚁金服前端架构专家。译有《写给大家看的算法书》等图书,曾参与《像外行一样思考,像专家一样实践(修订版)》的审校。
|
目錄:
|
第1章
开始制作编译器 1
1.1 本书的概要 2
本书的主题 2
本书制作的编译器 2
编译示例 2
可执行文件 3
编译 4
程序运行环境 6
1.2 编译过程 8
编译的4个阶段 8
语法分析 8
语义分析 9
生成中间代码 9
代码生成 10
优化 10
总结 10
1.3 使用C?编译器进行编译 11
C?编译器的必要环境 11
安装C?编译器 11
C?的Hello, World! 12
第2章
C?和cbc 13
2.1 C?语言的概要 14
C?的Hello, World! 14
C?中删减的功能 14
import关键字 15
导入文件的规范 16
2.2 C?编译器cbc的构成 17
cbc的代码树 17
cbc的包 18
compiler包中的类群 18
main函数的实现 19
commandMain函数的实现 19
Java5泛型 20
build函数的实现 20
Java 5的foreach语句 21
compile函数的实现 21
第1部分 代码分析
第3章
语法分析的概要 24
3.1 语法分析的方法 25
代码分析中的问题点 25
代码分析的一般规律 25
词法分析、语法分析、语义分析 25
扫描器的动作 26
单词的种类和语义值 27
token 28
抽象语法树和节点 29
3.2 解析器生成器 30
什么是解析器生成器 30
解析器生成器的种类 30
解析器生成器的选择 31
3.3 JavaCC的概要 33
什么是JavaCC 33
语法描述文件 33
语法描述文件的例子 34
运行JavaCC 35
启动JavaCC所生成的解析器 36
中文的处理 37
第4章
词法分析 39
4.1 基于JavaCC的扫描器的描述 40
本章的目的 40
JavaCC的正则表达式 40
固定字符串 41
连接 41
字符组 41
排除型字符组 41
重复1次或多次 42
重复0次或多次 42
重复n次到m次 42
正好重复n次 43
可以省略 43
选择 43
4.2 扫描没有结构的单词 44
TOKEN命令 44
扫描标识符和保留字 44
选择匹配规则 45
扫描数值 46
4.3 扫描不生成token的单词 48
SKIP命令和SPECIAL_TOKEN命令 48
跳过空白符 48
跳过行注释 49
4.4 扫描具有结构的单词 50
最长匹配原则和它的问题 50
基于状态迁移的扫描 50
MORE命令 51
跳过块注释 52
扫描字符串字面量 53
扫描字符字面量 53
第5章
基于JavaCC的解析器的描述 55
5.1 基于EBNF语法的描述 56
本章的目的 56
基于JavaCC的语法描述 56
终端符和非终端符 57
JavaCC的EBNF表示法 58
连接 58
重复0次或多次 59
重复1次或多次 59
选择 60
可以省略 60
5.2 语法的二义性和token的超前扫描 61
语法的二义性 61
JavaCC的局限性 62
提取左侧共通部分 63
token的超前扫描 63
可以省略的规则和冲突 64
重复和冲突 65
更灵活的超前扫描 66
超前扫描的相关注意事项 66
第6章
语法分析 68
6.1 定义的分析 69
表示程序整体的符号 69
语法的单位 69
import声明的语法 70
各类定义的语法 71
变量定义的语法 72
函数定义的语法 73
结构体定义和联合体定义的语法 74
结构体成员和联合体成员的语法 75
typedef语句的语法 76
类型的语法 76
C语言和C?在变量定义上的区别 77
基本类型的语法 77
6.2 语句的分析 79
语句的语法 79
if语句的语法 80
省略if语句和大括号 80
while语句的语法 81
for语句的语法 81
各类跳转语句的语法 82
6.3 表达式的分析 83
表达式的整体结构 83
expr的规则 83
条件表达式 84
二元运算符 85
6.4 项的分析 88
项的规则 88
前置运算符的规则 88
后置运算符的规则 89
字面量的规则 89
第2部分 抽象语法树和中间代码
第7章
JavaCC的action和抽象语法树 92
7.1 JavaCC的action 93
本章的目的 93
简单的action 93
执行action的时间点 93
返回语义值的action 95
获取终端符号的语义值 95
Token类的属性 96
获取非终端符号的语义值 98
语法树的结构 99
选择和action 99
重复和action 100
本节总结 102
7.2 抽象语法树和节点 103
Node类群 103
Node类的定义 105
抽象语法树的表示 105
基于节点表示表达式的例子 107
第8章
抽象语法树的生成 110
8.1 表达式的抽象语法树 111
字面量的抽象语法树 111
类型的表示 112
为什么需要TypeRef类 113
一元运算的抽象语法树 114
二元运算的抽象语法树 116
条件表达式的抽象语法树 117
赋值表达式的抽象语法树 118
8.2 语句的抽象语法树 121
if语句的抽象语法树 121
while语句的抽象语法树 122
程序块的抽象语法树 123
8.3 声明的抽象语法树 125
变量声明列表的抽象语法树 125
函数定义的抽象语法树 126
表示声明列表的抽象语法树 127
表示程序整体的抽象语法树 128
外部符号的import 128
总结 129
8.4 cbc 的解析器的启动 132
Parser对象的生成 132
文件的解析 133
解析器的启动 134
第9章
语义分析(1)引用的消解 135
9.1 语义分析的概要 136
本章目的 136
抽象语法树的遍历 137
不使用Visitor模式的抽象语法树的处理 137
基于Visitor模式的抽象语法树的处理 138
Vistor模式的一般化 140
cbc中Visitor模式的实现 141
语义分析相关的cbc的类 142
9.2 变量引用的消解 144
问题概要 144
实现的概要 144
Scope树的结构 145
LocalResolver类的属性 146
LocalResolver类的启动 146
变量定义的添加 147
函数定义的处理 148
pushScope方法 149
currentScope方法 149
popScope方法 150
添加临时作用域 150
建立VariableNode和变量定义的关联 151
从作用域树取得变量定义 151
9.3 类型名称的消解 153
问题概要 153
实现的概要 153
TypeResolver类的属性 153
TypeResolver类的启动 154
类型的声明 154
类型和抽象语法树的遍历 155
变量定义的类型消解 156
函数定义的类型消解 157
第10章
语义分析(2)静态类型检查 159
10.1 类型定义的检查 160
问题概要 160
实现的概要 161
检测有向图中的闭环的算法 162
结构体、联合体的循环定义检查 163
10.2 表达式的有效性检查 165
问题概要 165
实现的概要 165
DereferenceChecker类的启动 166
SemanticError异常的捕获 167
非指针类型取值操作的检查 167
获取非左值表达式地址的检查 168
隐式的指针生成 169
10.3 静态类型检查 170
问题概要 170
实现的概要 170
C?中操作数的类型 171
隐式类型转换 172
TyperChecker类的启动 173
二元运算符的类型检查 174
隐式类型转换的实现 175
第11章
中间代码的转换 178
11.1 cbc的中间代码 179
组成中间代码的类 180
中间代码节点类的属性 181
中间代码的运算符和类型 182
各类中间代码 183
中间代码的意义 184
11.2 IRGenerator类的概要 185
抽象语法树的遍历和返回值 185
IRGenerator类的启动 185
函数本体的转换 186
作为语句的表达式的判别 187
11.3 流程控制语句的转换 189
if语句的转换(1)概要 189
if语句的转换(2)没有else部分的情况 190
if语句的转换(3)存在else部分的情况 191
while语句的转换 191
break语句的转换(1)问题的定义 192
break语句的转换(2)实现的方针 193
break语句的转换(3)实现 194
11.4 没有副作用的表达式的转换 196
UnaryOpNode对象的转换 196
BinaryOpNode对象的转换 197
指针加减运算的转换 198
11.5 左值的转换 200
左边和右边 200
左值和右值 200
cbc中左值的表现 201
结构体成员的偏移 202
成员引用(expr.memb)的转换 203
左值转换的例外:数组和函数 204
成员引用的表达式(ptr->memb)的转换 205
11.6 存在副作用的表达式的转换 206
表达式的副作用 206
有副作用的表达式的转换方针 206
简单赋值表达式的转换(1)语句 207
临时变量的引入 208
简单赋值表达式的转换(2)表达式 209
后置自增的转换 210
第3部分 汇编代码
第12章
x86架构的概要 214
12.1 计算机的系统结构 215
CPU和存储器 215
寄存器 215
地址 216
物理地址和虚拟地址 216
各类设备 217
缓存 218
12.2 x86系列CPU的历史 220
x86系列CPU 220
32位CPU 220
指令集 221
IA-32的变迁 222
IA-32的64位扩展——AMD64 222
12.3 IA-32的概要 224
IA-32的寄存器 224
通用寄存器 225
机器栈 226
机器栈的操作 227
机器栈的用途 227
栈帧 228
指令指针 229
标志寄存器 229
12.4 数据的表现形式和格式 231
无符号整数的表现形式 231
有符号整数的表现形式 231
负整数的表现形式和二进制补码 232
字节序 233
对齐 233
结构体的表现形式 234
第13章
x86汇编器编程 236
13.1 基于GNU汇编器的编程 237
GNU汇编器 237
汇编语言的Hello, World! 237
基于GNU汇编器的汇编代码 238
13.2 GNU汇编器的语法 240
汇编版的Hello, World! 240
指令 241
汇编伪操作 241
标签 241
注释 242
助记符后缀 242
各种各样的操作数 243
间接内存引用 244
x86指令集的概要 245
13.3 传输指令 246
mov指令 246
push指令和pop指令 247
lea指令 248
movsx指令和movzx指令 249
符号扩展和零扩展 250
13.4 算术运算指令 251
add指令 251
进位标志 252
sub指令 252
imul指令 252
idiv指令和div指令 253
inc指令 254
dec指令 255
neg指令 255
13.5 位运算指令 256
and指令 256
or指令 257
xor指令 257
not指令 257
sal指令 258
sar指令 258
shr指令 259
13.6 流程的控制 260
jmp指令 260
条件跳转指令(jz、jnz、je、jne、……) 261
cmp指令 262
test指令 263
标志位获取指令(SETcc) 263
call指令 264
ret指令 265
第14章
函数和变量 266
14.1 程序调用约定 267
什么是程序调用约定 267
Linux/x86下的程序调用约定 267
14.2 Linux/x86下的函数调用 269
到函数调用完成为止 269
到函数开始执行为止 270
到返回原处理流程为止 271
到清理操作完成为止 271
函数调用总结 272
14.3 Linux/x86下函数调用的细节 274
寄存器的保存和复原 274
caller-save寄存器和callee-save寄存器 274
caller-save寄存器和callee-save寄存器的灵活应用 275
大数值和浮点数的返回方法 276
其他平台的程序调用约定 277
第15章
编译表达式和语句 278
15.1 确认编译结果 279
利用cbc进行确认的方法 279
利用gcc进行确认的方法 280
15.2 x86汇编的对象与DSL 282
表示汇编的类 282
表示汇编对象 283
15.3 cbc的x86汇编DSL 285
利用DSL生成汇编对象 285
表示寄存器 286
表示立即数和内存引用 287
表示指令 287
表示汇编伪操作、标签和注释 288
15.4 CodeGenerator类的概要 290
CodeGenerator类的字段 290
CodeGenerator类的处理概述 290
实现compileStmts方法 291
cbc的编译策略 292
15.5 编译单纯的表达式 294
编译Int节点 294
编译Str节点 294
编译Uni节点(1)按位取反 295
编译Uni节点(2)逻辑非 297
15.6 编译二元运算 298
编译Bin节点 298
实现compileBinaryOp方法 299
实现除法和余数 300
实现比较运算 300
15.7 引用变量和赋值 301
编译Var节点 301
编译Addr节点 302
编译Mem节点 303
编译Assign节点 303
15.8 编译jump语句 305
编译LabelStmt节点 305
编译Jump节点 305
编译CJump节点 305
编译Call节点 306
编译Return节点 307
第16章
分配栈帧 308
16.1 操作栈 309
cbc中的栈帧 309
栈指针操作原则 310
函数体编译顺序 310
16.2 参数和局部变量的内存分配 312
本节概述 312
参数的内存分配 312
局部变量的内存分配:原则 313
局部变量的内存分配 314
处理作用域内的局部变量 315
对齐的计算 316
子作用域变量的内存分配 316
16.3 利用虚拟栈分配临时变量 318
虚拟栈的作用 318
虚拟栈的接口 319
虚拟栈的结构 319
virtualPush方法的实现 320
VirtualStack#extend方法的实现 320
VirtualStack#top方法的实现 321
virtualPop方法的实现 321
VirtualStack#rewind方法的实现 321
虚拟栈的运作 322
16.4 调整栈访问的偏移量 323
本节概要 323
StackFrameInfo类 323
计算正在使用的callee-save寄存器 324
计算临时变量区域的大小 325
调整局部变量的偏移量 325
调整临时变量的偏移量 326
16.5 生成函数序言和尾声 327
本节概要 327
生成函数序言 327
生成函数尾声 328
16.6 alloca函数的实现 330
什么是alloca函数 330
实现原则 330
alloca函数的影响 331
alloca函数的实现 331
第17章
优化的方法 333
17.1 什么是优化 334
各种各样的优化 334
优化的案例 334
常量折叠 334
代数简化 335
降低运算强度 335
削除共同子表达式 335
消除无效语句 336
函数内联 336
17.2 优化的分类 337
基于方法的优化分类 337
基于作用范围的优化分类 337
基于作用阶段的优化分类 338
17.3 cbc中的优化 339
cbc中的优化原则 339
cbc中实现的优化 339
cbc中优化的实现 339
17.4 更深层的优化 341
基于模式匹配选择指令 341
分配寄存器 342
控制流分析 342
大规模的数据流分析和SSA形式 342
总结 343
第4部分 链接和加载
第18章
生成目标文件 346
18.1 ELF文件的结构 347
ELF的目的 347
ELF的节和段 348
目标文件的主要ELF节 348
使用readelf命令输出节头 349
使用readelf命令输出程序头 350
使用readelf命令输出符号表 351
readelf命令的选项 351
什么是DWARF格式 352
18.2 全局变量及其在ELF文件中的表示 354
分配给任意ELF节 354
分配给通用ELF节 354
分配.bss节 355
通用符号 355
记录全局变量对应的符号 357
记录符号的附加信息 357
记录通用符号的附加信息 358
总结 358
18.3 编译全局变量 360
generate方法的实现 360
generateAssemblyCode方法的实现 360
编译全局变量 361
编译立即数 362
编译通用符号 363
编译字符串字面量 364
生成函数头 365
计算函数的代码大小 366
总结 366
18.4 生成目标文件 367
as命令调用的概要 367
引用GNUAssembler类 367
调用as命令 367
第19章
链接和库 369
19.1 链接的概要 370
链接的执行示例 370
gcc和GNU ld 371
链接器处理的文件 372
常用库 374
链接器的输入和输出 374
19.2 什么是链接 375
链接时进行的处理 375
合并节 375
重定位 376
符号消解 377
19.3 动态链接和静态链接 379
两种链接方法 379
动态链接的优点 379
动态链接的缺点 380
动态链接示例 380
静态链接示例 381
库的检索规则 381
19.4 生成库 383
生成静态库 383
Linux中共享库的管理 383
生成共享库 384
链接生成的共享库 385
第20章
加载程序 387
20.1 加载ELF段 388
利用mmap系统调用进行文件映射 388
进程的内存镜像 389
内存空间的属性 390
ELF段对应的内存空间 390
和ELF文件不对应的内存空间 392
ELF文件加载的实现 393
20.2 动态链接过程 395
动态链接加载器 395
程序从启动到终止的过程 395
启动ld.so 396
系统内核传递的信息 397
AUX矢量 397
读入共享库 398
符号消解和重定位 399
运行初始化代码 400
执行主程序 401
执行终止处理 402
ld.so解析的环境变量 402
20.3 动态加载 404
所谓动态加载 404
Linux下的动态加载 404
动态加载的架构 405
20.4 GNU ld的链接 406
用于cbc的ld选项的结构 406
C运行时 407
生成可执行文件 408
生成共享库 408
第21章
生成地址无关代码 410
21.1 地址无关代码 411
什么是地址无关代码 411
全局偏移表(GOT) 412
获取GOT地址 412
使用GOT地址访问全局变量 413
访问使用GOT地址的文件内部的全局变量 414
过程链接表(PLT) 414
调用PLT入口 416
地址无关的可执行文件:PIE 416
21.2 全局变量引用的实现 418
获取GOT地址 418
PICThunk函数的实现 418
删除重复函数并设置不可见属性 419
加载GOT地址 420
locateSymbols函数的实现 421
全局变量的引用 421
访问全局变量:地址无关代码的情况下 422
函数的符号 423
字符串常量的引用 424
21.3 链接器调用的实现 425
生成可执行文件 425
generateSharedLibrary方法 426
21.4 从程序解析到执行 428
build和加载的过程 428
词法分析 429
语法分析 429
生成中间代码 430
生成代码 431
汇编 432
生成共享库 432
生成可执行文件 433
加载 433
第22章
扩展阅读 434
22.1 参考书推荐 435
编译器相关 435
语法分析相关 435
汇编语言相关 436
22.2 链接、加载相关 437
22.3 各种编程语言的功能 438
异常封装相关的图书 438
垃圾回收 438
垃圾回收相关的图书 439
面向对象编程语言的实现 439
函数式语言 440
附 录 441
A.1 参考文献 442
A.2 在线资料 444
A.3 源代码 445
|
|