Microsoft PowerPoint - ch2 [Compatibility Mode]

源程序本章内容第章词法分析词法分析器记号 (token 取下一个记号符号表语法分析器词法分析器 : 把构成源程序的字符流翻译成记号流, 还完成和用户接口的一些任务围绕词法分析器的自动生成展开介绍正规式转换图和有限自动机概念. 词法记号及属性.. 词法记号模式词法单元记号名词法单元例举模式的非形式描述 if if 字符 i, f for for 字符 f, o, r reltion <,<=,=, < 或 <= 或 = 或 id sum, count, D 由字母开头的字母数字串 numer.,,.8 E 任何数值常数 literl seg. error 引号和之间的任意字符串, 但引号本身除外. 词法记号及属性历史上词法定义中的一些问题忽略空格带来的困难 ( 如 Fortrn 语言 DO 8 I. 7 DO8I. 7 DO 8 I, 7 关键字不保留 ( 如 Fortrn 语言 IF THEN THEN THEN=ELSE;ELSE 关键字保留字和标准标识符的区别保留字是语言预先确定了含义的词法单元标准标识符也是预先确定了含义的标识符, 但程序可以重新声明它的含义. 词法记号及属性.. 词法记号的属性 position = initil + rte 6 的记号和属性值 : id, 指向符号表中 position 条目的指针 ssign _ op id, 指向符号表中 initil 条目的指针 dd_op id, 指向符号表中 rte 条目的指针 mul_ op numer, 整数值 6. 词法记号及属性.. 词法错误词法分析器对源程序采取非常局部的观点例 : 难以发现下面的错误 fi ( == f (x 在实数是. 格式下, 可以发现下面的错误.x 紧急方式的错误恢复删掉当前若干个字符, 直至能读出正确的记号错误修补进行增删替换和交换字符的尝试. 词法记号的描述与识别.. 串和语言字母表 : 符号的有限集合, 例 : = {, } 串 : 符号的有穷序列, 例 :, 语言 : 字母表上的一个串集 {,,,, }, {}, 句子 : 属于语言的串串的运算连接 ( 积 xy,s = s = s 幂 s 为,s i 为 s i - s(i >

. 词法记号的描述与识别语言的运算并 : L M = {s s L 或 s M } 连接 : LM = {st s L 且 t M} 幂 : L 是 {},L i 是 L i - L 闭包 : L = L L L 正闭包 : L + = L L 例 L: {,,, Z,,,, z }, D: {,,, } L D, LD, L 6, L, L(L D, D +. 词法记号的描述与识别.. 正规式正规式用来表示简单的语言, 叫做正规集正规式定义的语言备注 {} {} (r (s L(r L(s r 和 s 是正规式 (r(s L(rL(s r 和 s 是正规式 (r (L(r r 是正规式 (r L(r r 是正规式 (( ( (c 可以写成 c. 词法记号的描述与识别正规式的例子 = {, } {, } ( ( {,,, } {,,, } 由字母构成的所有串集, 含 ( 由和构成的所有串集, 含复杂的例子 ( ( ( ( ( 句子 :. 词法记号的描述与识别.. 正规定义对正规式命名, 使表示简洁 d r d r... d n r n 各个 d i 的名字都不同每个 r i 都是 {d, d,,d i- } 上的正规式. 词法记号的描述与识别正规定义的例子语言的标识符是字母数字和下划线组成的串 letter_ Z z_ digit id letter_(letter_ digit. 词法记号的描述与识别正规定义的例子无符号数集合, 例 6,.8,6E8,.E6 digit digits digit digit optionl_frction.digits optionl_exponent (E(+ digits numerdigits optionl_frction optionl_exponent 简化表示 numer digit + (.digit +? (E(+? digit +?

. 词法记号的描述与识别正规定义的例子 ( 进行下一步讨论的例子 while while do do relop < < = = < > > > = letter Z z id letter (letter digit numer digit + (.digit +? (E (+? digit +? delim lnktnewline ws delim +. 词法记号的描述与识别.. 转换图关系算符的转换图 < = > 6 other = > return(relop, EQ = other return(relop, LT 7 return(relop, LE return(relop, NE return(relop, GE 8 return(relop, GT. 词法记号的描述与识别标识符和保留字的转换图 letter 或 digit letter other return(instllid(. 词法记号的描述与识别无符号数的转换图 numer digit + (.digit +? (E (+? digit +? digit E digit digit digit digit. digit E +/ digit other other other return( instllnum(. 词法记号的描述与识别空白的转换图 delim lnk t newline ws delim+ delim delim other.. 不确定的有限自动机 ( 简称 NF 一个数学模型, 它包括 : 有限的集合 S 集合转换函数 move : S ( {} P(S s 是唯一的 F S 是接受集合识别语言 ( 的 NF

NF 的转换表例识别的 NF 识别语言 ( 的 NF {, } {} {}.. 确定的有限自动机 ( 简称 DF 一个数学模型, 包括 : 有限的集合 S 集合转换函数 move : S S, 且可以是部分函数唯一的 s 接受集合 F S 例 DF, 识别 {,} 上能被整除的二进制数已读过尚未读已读部分的值某时刻读进 = 读进 + = 识别语言 ( 的 DF 个即可, 分别代表已读部分的值除以的余数例 DF, 识别 {,} 上能被整除的二进制数 = = 7.. NF 到 DF 的变换子集构造法 DF 的一个是 NF 的一个集合读了输入 n 后, NF 能到达的所有 :s, s,, s k, 则 DF 到达 {s, s,, s k } {} {, } 未画完 {, }

例 (,NF 如下, 把它变换为 DF = {,,,, 7} = {,,,, 7} = {,,,, 6, 7, 8} = {,,,, 7} = {,,,, 6, 7, 8} = {,,,, 7} = {,,,, 6, 7, 8} = {,,,, 6, 7}

= {,,,, 7} = {,,,, 6, 7, 8} = {,,,, 6, 7} = {,,,, 7} = {,,,, 6, 7, 8} = {,,,, 6, 7} = {,,,, 7} = {,,,, 6, 7, 8} = {,,,, 6, 7} D = {,,,, 6, 7, } D = {,,,, 7} = {,,,, 6, 7, 8} = {,,,, 6, 7} D = {,,,, 6, 7, } D D = {,,,, 7} = {,,,, 6, 7, 8} = {,,,, 6, 7} D = {,,,, 6, 7, } D D = {,,,, 7} = {,,,, 6, 7, 8} = {,,,, 6, 7} D = {,,,, 6, 7, } D D 6

D D D 识别语言 ( 的自动机 D 识别语言 ( 的自动机子集构造法不一定得到最简 DF D.. DF 的化简死在转换函数由部分函数改成全函数表示时引入左图需要引入死 E ; 右图无须引入死, E D D 可区别的和是可区别的从出发, 读过串, 到达非接受, 而从出发, 读过串, 到达接受 D 和是不可区别的无任何串可用来像上面这样区别它们 D 方法. {,, }, {D} move({,, }, = {} move({,, }, = {, D}. {, }, {}, {D} move({, }, = {} move({, }, = {} D 7

. 从正规式到有限自动机从正规式建立识别器的步骤从正规式构造 NF( 本节介绍用语法制导的算法, 它用正规式语法结构来指导构造过程把 NF 变成 DF ( 子集构造法, 已介绍将 DF 化简 ( 合并不可区别的, 也已介绍首先构造识别和字母表中一个符号的 NF 重要特点 : 仅一个接受, 它没有向外的转换. 从正规式到有限自动机 i 识别正规式的 NF f i 识别正规式的 NF f. 从正规式到有限自动机构造识别主算符为选择的正规式的 NF 重要特点 : 仅一个接受, 它没有向外的转换. 从正规式到有限自动机构造识别主算符为连接的正规式的 NF 重要特点 : 仅一个接受, 它没有向外的转换 i N (s N (t f i N (s N (t 识别正规式 st 的 NF f 识别正规式 s t 的 NF. 从正规式到有限自动机构造识别主算符为闭包的正规式的 NF 重要特点 : 仅一个接受, 它没有向外的转换. 从正规式到有限自动机对于加括号的正规式 (s, 使用 N(s 本身作为它的 NF i N (s f 识别正规式 s 的 NF 8

. 从正规式到有限自动机本方法产生的 NF 有下列性质 N(r 的数最多是 r 中符号和算符总数的两倍 N(r 只有一个接受, 接受没有向外的转换. 从正规式到有限自动机本方法产生的 NF 有下列性质 N(r 的每个有一个用的符号标记的指向其他的转换, 或者最多两个指向其他的转换 (. 从正规式到有限自动机 ( 的分解 r r r r (. 从正规式到有限自动机 ( 的分解 r r r r r r r r (. 从正规式到有限自动机 ( 的分解 r r r r. 从正规式到有限自动机 ( 的分解 ( r r r r r r r r

(. 从正规式到有限自动机 ( 的分解 r r r r (. 从正规式到有限自动机 ( 的分解 r r r r r r r r (. 从正规式到有限自动机 ( 的分解 r r r r r r. 从正规式到有限自动机 ( 的两个 NF 的比较手工构造 : 算法构造 :. 从正规式到有限自动机例 DF, 接受和的个数都是偶数的字符串. 从正规式到有限自动机小结 : 从正规式建立识别器的步骤偶偶奇偶偶奇奇奇从正规式构造 NF 把 NF 变成 DF 将 DF 化简存在其他办法

. 词法分析器的生成器. 词法分析器的生成器用 Lex 建立词法分析器的步骤 Lex 源程序 lex.l lex.yy.c 输入流 Lex 编译器编译器.out lex.yy.c.out 记号序列 Lex 程序包括三个部分声明 %% 翻译规则 %% 辅助过程 Lex 程序的翻译规则 p { 动作 } p { 动作 } p n { 动作 n}. 词法分析器的生成器例声明部分 %{ / 常量 LT, LE, EQ, NE, GT, GE, WHILE, DO, ID, NUMER, RELOP 的定义 / %} / 正规定义 / delim [ \t \n ] ws {delim}+ letter [ Z z] digit [] id {letter}({letter}{digit} numer {digit}+(\.{digit}+?(e[+\]?{digit}+?. 词法分析器的生成器例翻译规则部分 {ws} {/ 没有动作, 也不返回 /} while {return (WHILE;} do {return (DO;} {id} {yylvl = instllid ( ; return (ID;} {numer} {yylvl = instllnum( ; return (NUMER;} < {yylvl = LT; return (RELOP;} <= {yylvl = LE; return (RELOP;} = {yylvl = EQ; return (RELOP;} <> {yylvl = NE; return (RELOP;} > {yylvl = GT; return (RELOP;} >= {yylvl = GE; return (RELOP;}. 词法分析器的生成器例辅助过程部分 instllid( { / 把词法单元装入符号表并返回指向它的指针 yytext 指向该词法单元的第一个字符, yyleng 给出它的长度 / } instllnum ( { / 类似上面的过程, 但词法单元不是标识符而是数 / } 本章要点词法分析器的作用和接口, 用高级语言编写词法分析器等内容掌握下面涉及的一些概念, 它们之间转换的技巧方法或算法非形式描述的语言正规式正规式 NF 非形式描述的语言 NF NF DF DF 最简 DF 非形式描述的语言 DF( 或最简 DF

例题例题叙述下面的正规式描述的语言, 并画出接受该语言的最简 DF 的转换图 ( 描述的语言是 : 所有不含子串的和的串. strt 刚读过的不是连续读过一个连续读过不少于两个用转换图表示接受 ( (( 的 DF strt 例题例题写出语言所有相邻数字都不相同的非空数字串的正规定义 76787 nswer ( no_ (no_ (no_ no_ no_ ( no_- (no_- (no_- no_-... no_-8 将这些正规定义逆序排列就是答案下面语言编译器编译下面的函数时, 报告 prse error efore else long gcd(p,q long p,q; { if (p%q == / then prt / return q 此处遗漏分号 else / else prt / return gcd(q, p%q; } 例题现在少了第一个注释的结束符号后, 反而不报错了 long gcd(p,q long p,q; { if (p%q == / then prt return q else / else prt / return gcd(q, p%q; }