从‘Hello World’到编译器：用Python手写一个简单的语法树生成器（附源码）

张

张建站

2026/6/5 15:30:51

10分钟阅读

从‘Hello World’到编译器用Python手写一个简单的语法树生成器附源码当你第一次在屏幕上打印出Hello World时可能不会想到这简单的字符串背后隐藏着复杂的编译过程。本文将带你用Python实现一个极简的语法树生成器通过200行左右的代码直观感受从源代码到抽象语法树的完整转换流程。1. 为什么需要理解语法树在传统教学中编译原理常被各种数学符号和理论公式包裹。但当我们用代码实现一个微型编译器前端时那些抽象的推导、文法概念会突然变得具体可触。语法树作为代码的中间表示具有以下核心价值可视化代码结构将线性文本转换为树状层次剥离表面细节聚焦程序逻辑而非具体语法统一处理接口不同语言可转换为相同树结构# 示例简单算术表达式对应的语法树 expr { type: BinaryOp, op: , left: {type: Number, value: 2}, right: { type: BinaryOp, op: *, left: {type: Number, value: 3}, right: {type: Number, value: 4} } }2. 设计微型语法规则我们为类C语言设计一个极简子集仅包含基础算术运算-*/整数和变量赋值语句函数调用对应的BNF文法规则program : statement statement : assign | expr assign : ID expr expr : term (( | -) term)* term : factor ((* | /) factor)* factor : INT | ID | ( expr ) | call call : ID ( (expr (, expr)*)? )提示实际项目中建议使用EBNF格式支持可选、重复等更简洁的表示3. 实现词法分析器词法分析器Lexer负责将字符流转换为标记Token序列。以下是核心实现要点import re class Lexer: def __init__(self, source): self.tokens [] token_specs [ (NUMBER, r\d), (ID, r[a-zA-Z_]\w*), (ASSIGN, r), (LPAREN, r\(), (RPAREN, r\)), (COMMA, r,), (PLUS, r\), (MINUS, r-), (TIMES, r\*), (DIVIDE, r/), (SKIP, r[ \t\n]), ] tok_regex |.join((?P%s%s) % pair for pair in token_specs) for mo in re.finditer(tok_regex, source): kind mo.lastgroup value mo.group() if kind NUMBER: value int(value) elif kind SKIP: continue self.tokens.append((kind, value))常见问题处理策略问题类型解决方案示例非法字符抛出异常符号数字溢出自动截断9999...保留字冲突特殊标记if作为变量名4. 构建递归下降语法分析器递归下降分析法直接映射文法规则到函数调用是最直观的解析方法class Parser: def __init__(self, tokens): self.tokens tokens self.pos 0 def parse_program(self): statements [] while self.current_token(): statements.append(self.parse_statement()) return {type: Program, body: statements} def parse_statement(self): token self.current_token() if token[0] ID and self.peek_token()[0] ASSIGN: return self.parse_assign() return self.parse_expr() def parse_assign(self): id_token self.consume(ID) self.consume(ASSIGN) expr self.parse_expr() return {type: Assign, target: id_token[1], value: expr} def parse_expr(self): node self.parse_term() while self.current_token() and self.current_token()[0] in (PLUS, MINUS): op self.consume(self.current_token()[0])[1] right self.parse_term() node {type: BinaryOp, op: op, left: node, right: right} return node # 其他解析方法类似...典型错误处理模式对比Panic模式跳过错误直到同步点恢复模式尝试修复继续解析严格模式立即终止并报错5. 可视化语法树结构通过缩进打印展示树形结构def print_ast(node, indent0): prefix * indent if node[type] in (Number, ID): print(f{prefix}{node[type]}({node[value]})) elif node[type] BinaryOp: print(f{prefix}BinaryOp({node[op]})) print_ast(node[left], indent 2) print_ast(node[right], indent 2) elif node[type] Assign: print(f{prefix}Assign(to{node[target]})) print_ast(node[value], indent 2)示例输出Program Assign(tox) BinaryOp() Number(1) BinaryOp(*) Number(2) Number(3)6. 进阶优化方向当基础版本运行后可以考虑以下增强错误恢复机制添加错误token同步逻辑语法糖支持实现一元运算符、复合赋值等类型检查在解析阶段验证操作数类型性能优化使用生成器惰性处理token流# 错误恢复示例 def synchronize(self): while self.current_token(): if self.current_token()[0] in {SEMI, RPAREN}: self.advance() return self.advance()调试技巧在关键解析步骤打印当前token为每个非终结符添加边界检查使用断言验证中间状态7. 完整项目结构建议标准编译器前端应包含以下模块compiler/ ├── __init__.py ├── lexer.py # 词法分析 ├── parser.py # 语法分析 ├── ast.py # 语法树定义 ├── errors.py # 错误处理 └── main.py # 入口文件关键开发工具链测试框架pytest代码检查pylint性能分析cProfile文档生成Sphinx在实现过程中最常遇到的坑是运算符优先级处理不当比如将12*3错误解析为(12)*3。这需要通过严格遵循文法规则中的优先级定义来解决。

WhisperLive：实时语音识别技术范式的架构革命与实践验证

WhisperLive：实时语音识别技术范式的架构革命与实践验证【免费下载链接】WhisperLive A nearly-live implementation of OpenAIs Whisper. 项目地址: https://gitcode.com/gh_mirrors/wh/WhisperLive 在人工智能与实时交互技术深度融合的时代，语…...

2026/6/5 15:25:54 阅读更多 →

掌握低查重技巧，用AI写教材轻松生成高质量教学资料！

传统教材编写难题与AI的解决方案编写教材的过程离不开丰富的资料，但传统的资料整合方式早已无法满足当前的需求。在过去，随着课标、研究论文和教学案例的获取，信息的来源分散于知网、教研平台等多处，要从中筛选出有价值的信息通…...

2026/6/5 15:24:04 阅读更多 →

从零搭一个AI写作平台，30天用户破千，我是怎么选工具的？

这两年AI工具爆发式增长，选哪个、怎么选成了很多开发者头疼的问题。我自己的经验是：没有最好的工具，只有最合适的方案。今天就用一个真实的项目经历，聊聊我如何通过BuildingAI快速落地了一个AI写作平台，以及项目目前运…...

2026/6/5 15:23:56 阅读更多 →

AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现）

更多请点击： https://intelliparadigm.com 第一章：AI辅助创作的临界点已至（2024全球创意工作者生产力白皮书核心发现） 2024年，全球创意产业迎来关键拐点：AI不再作为边缘工具，而是深度嵌入创意工…...

2026/6/4 2:47:58 阅读更多 →

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式

双稳态核心记忆架构：解决人工智能长期上下文断裂的极简底层范式开源声明本文完全开源、无版权限制、公开通用，允许所有开发者、科研机构、技术团队无偿引用、落地、迭代、二次开发，助力人工智能长期记忆体系技术革新。作者：杨建…...

2026/6/4 4:33:24 阅读更多 →

单片机IIC实验

单片机 ：STM32F407 开发板：DMF407电机开发板平台：keil V5.31HSE 为8MHZ HSI为16MHZ原理图：主函数：int main(void) {uint8_t key;uint16_t i 0;uint8_t datatemp[TEXT_SIZE];HAL_Init(); …...

2026/6/3 16:15:35 阅读更多 →