编译原理(九) LR(0)文法分析法(算法描述和C++代码实现)

最后更新于:2022-04-01 14:15:29

**后期DEBUG发现make_set函数和make_go存在问题,于2015年12月4日更新了代码,见谅** ## 概念梳理 最左推导:每一步替换最左边的非终结符 最右推导:每一步替换最右边的非终结符,最右推导称为规范推导 短语:令G是一个文法,S是文法的开始符号,假定αβδ是文法G的一个句型,如果有 S⇒∗αAδ且A⇒+β 则称 β是相对于非终结符A的, 句型αβδ的***短语***。 直接短语:令G是一个文法,S是文法的开始符号,假定αβδ是文法G的一个句型,如果有 S⇒∗αAδ且A⇒β 则称 β是相对于非终结符A的, 句型αβδ的***直接短语***。 ***注意:短语和直接短语的区别在于第二个条件, 直接短语中的第二个条件表示有文法规则 A⇒β ,因此,每个直接短语都是某规则右部。*** 句柄:一个句型的最左直接短语称为该句型的***句柄***。 - 句柄特征: - (1) 它是直接短语,即某规则右部。 - (2) 它具有最左性。 规范归约:文法的最右推导为规范推导,自底向上分析是自顶向下最右推导的逆过程,叫**规范归约** 活前缀:指规范句型的一个前缀,这种前缀不含句柄之后任何符号。之所以称为活前缀,是因为在右边添加一些符号之首,就可以使它称为一个规范句型。 项目:对于一个文法G,我们首先要构造一个NFA,它能识别G的所有活前缀。这个NFA的每一个状态是下面定义的一个“项目”。 项目分类: - **归约项目** 凡圆点在最右的项目,如A→α•称为一个“归约项目” - **接受项目** 对文法的开始符号S’的归约项目,如S’→α•称为“接受”项目。 - **移进项目** 形如A→α•aβ的项目,其中a为终结符,称为“移进”项目。 - **待约项目** 形如A→α•Bβ的项目,其中B为非终结符,称为“待约”项目。 项目规范族:假定I是文法G’的任一项目集,定义和构造I的闭包CLOSURE(I)的办法是: - I的任何项目都属于CLOSURE(I); - 若A→α•Bβ属于CLOSURE(I),那么,对任何关于B的产生式B→γ,项目B→•γ也属于CLOSURE(I); LR(0)文法:假如一个文法G的拓广文法G’的活前缀识别自动机的每个状态(项目集)不存在下述情况: - 既含移进项目又含归约项目。 - 含多个归约项目。 则称G是一个LR(0)文法。换言之,LR(0)文法规范族的每个项目集**不包含任何冲突项目**。 拓广文法:假定文法G是一个以S为开始符号的文法,我们构造一个文法G’,它包含整个G,但它引进了一个不出现在G中的非终结符S’,并加进一个新产生式S’→S,而这个S’是G’的开始符号。那么我们称G’是G的拓广文法。 函数GO(I,X):函数GO(I,X)是一个状态转换函数。 - 第一个变元I是一个项目集, - 第二个变元X是一个文法符号。 - 函数值GO(I,X)定义为GO(I,X)=CLOSURE(J),其中J={任何形如A→αX•β的项目 | A→α•Xβ属于I} ## 算法描述 ### 项目集构造算法 枚举每个规范句型,然后枚举”⋅”的位置,获得所有的项目 ### 项目集规范族构造算法 假定I是文法G’的任一项目集,定义和构造I的闭包CLOSURE(I)的办法是: I的任何项目都属于CLOSURE(I); 若A→α•Bβ属于CLOSURE(I),那么,对任何关于B的产生式B→γ,项目B→•γ也属于CLOSURE(I); 重复执行上述两步骤直至CLOSURE(I)不再增大为止。 ### Go(I,a)函数构造算法 遍历所有的项目,如果任意两个项目之间存在边(有向),那么这两个项目所在的项目规范族之间连上对应的有向边。 ### LR(0)分析表构造算法 假定项目集规范族C={I0,I1,…,In}。令每一个项目集Ik的下标k作为分析器的状态。分析表的ACTION子表和GOTO子表可按如下方法构造 - 令那个包含项目S’→•S的集合Ik的下标k为分析器的初态。 - 若项目A→α•aβ属于Ik且GO(Ik , a)= Ij,a为终结符,置ACTION[k,a]为“把(j,a)移进栈”,简记为“sj”。 - 若项目A→α•属于Ik,对任何终结符a(或结束符#),置ACTION[k,a]为“用产生式A→α进行归约”,简记为“rj”(假定产生式A→α是文法G’的第j个产生式)。 - 若项目S’→S•属于Ik,则置ACTION[k,#]为“接受”,简记为“acc”。 - 若GO(Ik , A)= Ij,A为非终结符,则置GOTO[k,A]=j。 - 分析表中凡不能用规则1至4填入信息的空白格均填上“报错标志”。 ### LR(0)分析法的分析过程 - 遍历输入字符串,对于每一个字符,获取当前状态栈的顶部的状态值,通过查询action表获取的当前的操作是移进、规约还是接受 - 如果当前操作是移进,将新的状态放入状态栈当中,当移入的字符放入符号栈中。 - 如果当前操作是规约,那么将需要规约的部分的状态从状态栈中弹出,将规约后的状态放入状态栈,将规约后的左部放入符号栈,当前的字符不向下推进 - 如果接收,则结束 ## 代码实现 ~~~ #include <iostream> #include <cstdio> #include <algorithm> #include <cstring> #include <cctype> #include <vector> #include <string> #include <queue> #include <map> #include <sstream> #define MAX 507 #define DEBUG using namespace std; class WF { public: string left,right; int back; int id; WF ( char s1[] , char s2[] , int x , int y ) { left = s1; right = s2; back = x; id = y; } WF ( const string& s1 , const string& s2 , int x , int y ) { left = s1; right = s2; back = x; id = y; } bool operator < ( const WF& a ) const { if ( left == a.left ) return right < a.right; return left < a.left; } bool operator == ( const WF& a ) const { return ( left == a.left )&& ( right == a.right ); } void print ( ) { printf ( "%s->%s\n" , left.c_str() , right.c_str() ); } }; class Closure { public: vector<WF> element; void print ( string str ) { printf ( "%-15s%-15s\n" , "" , str.c_str()); for ( int i = 0 ; i < element.size() ; i++ ) element[i].print(); } bool operator == ( const Closure& a ) const { if ( a.element.size() != element.size() ) return false; for ( int i = 0 ; i < a.element.size() ; i++ ) if ( element[i] == a.element[i] ) continue; else return false; return true; } }; struct Content { int type; int num; string out; Content(){ type = -1; } Content ( int a , int b ) :type(a),num(b){} }; vector<WF> wf; map<string,vector<int> > dic; string start = "S"; vector<Closure> collection; vector<WF> items; char CH = '$'; int go[MAX][MAX]; int to[MAX]; vector<char> V; bool used[MAX]; Content action[MAX][MAX]; int Goto[MAX][MAX]; void make_item ( ) { memset ( to , -1 , sizeof ( -1 ) ); for ( int i = 0 ; i < wf.size() ; i++ ) for ( int j = 0 ; j <= wf[i].right.length() ; j++ ) { string temp = wf[i].right; temp.insert ( temp.begin()+j , CH ); dic[wf[i].left].push_back ( items.size() ); if ( j ) to[items.size()-1] = items.size(); items.push_back ( WF ( wf[i].left , temp , i , items.size()) ); } #ifdef DEBUG puts("-------------------------项目表-------------------------"); for ( int i = 0 ; i < items.size() ; i++ ) printf ( "%s->%s\n" , items[i].left.c_str() , items[i].right.c_str() ); puts("--------------------------------------------------------"); #endif } void make_set ( ) { bool has[MAX]; for ( int i = 0 ; i < items.size() ; i++ ) if ( items[i].left[0] == 'S' && items[i].right[0] == CH ) { Closure temp; string& str = items[i].right; vector<WF>& element = temp.element; element.push_back ( items[i] ); int x = 0; for ( x = 0 ; x < str.length() ; x++ ) if ( str[x] == CH ) break; /*if ( x != str.length()-1 ) { string tt = str.substr(x+1,1); vector<int>& id = dic[tt]; for ( int j = 0 ; j < id.size() ; j++ ) { int tx = id[j]; //items[tx].print(); if ( items[tx].right[0] == CH ) element.push_back ( items[tx] ); } }*/ memset ( has , 0 , sizeof ( has ) ); has[i] = 1; if ( x != str.length()-1 ) { queue<string> q; q.push( str.substr(x+1,1) ); while ( !q.empty() ) { string u = q.front(); q.pop(); vector<int>& id = dic[u]; for( int j = 0 ; j < id.size() ; j++ ) { int tx = id[j]; if ( items[tx].right[0] == CH ) { if ( has[tx] ) continue; has[tx] = 1; if ( isupper(items[tx].right[1] ) ) q.push ( items[tx].right.substr(1,1)); element.push_back ( items[tx] ); } } } } collection.push_back ( temp ); } for ( int i = 0 ; i < collection.size() ; i++ ) { map<int,Closure> temp; for ( int j = 0 ; j < collection[i].element.size() ; j++ ) { string str = collection[i].element[j].right; int x = 0; for ( ; x < str.length() ; x++ ) if ( str[x] == CH ) break; if ( x == str.length()-1 ) continue; int y = str[x+1]; int ii; //cout << i << "previous: " << str << endl; str.erase ( str.begin()+x); str.insert ( str.begin()+x+1 , CH ); //cout << i <<"after: " << str << endl; WF cmp = WF ( collection[i].element[j].left , str , -1 , -1 ); for ( int k = 0 ; k< items.size() ; k++ ) if ( items[k] == cmp ) { ii = k; break; } //string& str1 = items[ii].right; memset ( has , 0 , sizeof ( has ) ); vector<WF>& element = temp[y].element; element.push_back ( items[ii] ); has[ii] = 1; x++; /*if ( x != str.length()-1 ) { string tt = str.substr(x+1,1); vector<int>& id = dic[tt]; for ( int j = 0 ; j < id.size() ; j++ ) { int tx = id[j]; //items[tx].print(); if ( items[tx].right[0] == CH ) element.push_back ( items[tx] ); } }*/ if ( x != str.length()-1 ) { queue<string> q; q.push( str.substr(x+1,1) ); while ( !q.empty() ) { string u = q.front(); q.pop(); vector<int>& id = dic[u]; for( int j = 0 ; j < id.size() ; j++ ) { int tx = id[j]; if ( items[tx].right[0] == CH ) { if ( has[tx] ) continue; has[tx] = 1; if ( isupper(items[tx].right[1] ) ) q.push ( items[tx].right.substr(1,1)); element.push_back ( items[tx] ); } } } } } map<int,Closure>::iterator it = temp.begin(); for ( ; it != temp.end() ; it++ ) collection.push_back ( it->second ); for ( int i = 0 ; i < collection.size() ; i++ ) sort ( collection[i].element.begin() , collection[i].element.end() ); for ( int i = 0 ; i < collection.size() ; i++ ) for ( int j = i+1 ; j < collection.size() ; j++ ) if ( collection[i] == collection[j] ) collection.erase ( collection.begin()+j ); } #ifdef DEBUG puts ("-------------CLOSURE---------------------"); stringstream sin; for ( int i = 0 ; i < collection.size() ; i++ ) { sin.clear(); string out; sin <<"closure-I" << i; sin >> out; collection[i].print ( out ); } puts(""); #endif } void make_V ( ) { memset ( used , 0 , sizeof ( used ) ); for ( int i = 0 ; i < wf.size() ; i++ ) { string& str = wf[i].left; for ( int j = 0 ; j < str.length() ; j++ ) { if ( used[str[j]] ) continue; used[str[j]] = 1; V.push_back ( str[j] ); } string& str1 = wf[i].right; for ( int j = 0 ; j < str1.length() ; j++ ) { if ( used[str1[j]] ) continue; used[str1[j]] = 1; V.push_back ( str1[j] ); } } sort ( V.begin() , V.end() ); V.push_back ( '#' ); } void make_cmp ( vector<WF>& cmp1 , int i , char ch ) { for ( int j = 0 ; j < collection[i].element.size() ; j++ ) { string str = collection[i].element[j].right; int k; for ( k = 0 ; k < str.length() ; k++ ) if ( str[k] == CH ) break; if ( k != str.length() - 1 && str[k+1] == ch ) { str.erase ( str.begin()+k); str.insert ( str.begin()+k+1 , CH ); cmp1.push_back ( WF ( collection[i].element[j].left , str , -1 , -1 ) ); } } sort ( cmp1.begin() , cmp1.end() ); } void make_go ( ) { memset ( go , -1 , sizeof ( go ) ); int m = collection.size(); /*for ( int i = 0 ; i < m ; i++ ) for ( int j = 0 ; j < collection[i].element.size() ; j++ ) { string left = collection[i].element[j].left; string str = collection[i].element[j].right; int x = 0; for ( ; x < str.length() ; x++ ) if ( str[x] == CH ) break; if ( x == str.length()-1 ) continue; int y = str[x+1]; //cout << "before : " << str << endl; str.erase ( str.begin()+x); str.insert ( str.begin()+x+1 , CH ); //cout << "after : " << str << endl; WF cmp = WF ( collection[i].element[j].left , str , -1 , -1 ); for ( int k = 0 ; k < m ; k++ ) { bool flag = false; for ( int t = 0 ; t < collection[k].element.size() ; t++ ) { if ( cmp == collection[k].element[t] ) { flag = true; break; } } if ( flag ) { go[i][y] = k; } } }*/ for ( int t = 0 ; t < V.size() ; t++ ) { char ch = V[t]; for ( int i = 0 ; i < m ; i++ ) { vector<WF> cmp1; make_cmp ( cmp1 , i , ch ); cout << cmp1.size() << endl; if ( cmp1.size() == 0 ) continue; for ( int j = 0 ; j < m ; j++ ) { vector<WF> cmp2; for ( int k = 0 ; k < collection[j].element.size() ; k++ ) { string& str = collection[j].element[k].right; int x; for ( x = 0 ; x < str.length() ; x++ ) if ( str[x] == CH ) break; if ( x && str[x-1] == ch ) cmp2.push_back ( WF( collection[j].element[k].left , str , -1 , -1 ) ); } sort ( cmp2.begin() , cmp2.end() ); cout << cmp2.size() << endl; bool flag = true; if ( cmp2.size() != cmp1.size() ) continue; cout << cmp1.size() << endl; for ( int k = 0 ; k < cmp1.size() ; k++ ) if ( cmp1[k] == cmp2[k] ) continue; else flag = false; cout << "out " << endl; if ( flag ) go[i][ch] = j; } //cout << "YES" << endl; } } #ifdef DEBUG puts ("---------------EDGE----------------------"); stringstream sin; string out; for ( int i = 0 ; i < m ; i++ ) for ( int j = 0 ; j < m ; j++ ) for ( int k = 0 ; k < MAX ; k++ ) if ( go[i][k] == j ) { sin.clear(); sin << "I" << i << "--" <<(char)(k)<<"--I"<<j; sin >> out; printf ( "%s\n" , out.c_str() ); } #endif } void make_table ( ) { memset ( Goto , -1 , sizeof ( Goto ) ); /*memset ( used , 0 , sizeof ( used ) ); for ( int i = 0 ; i < wf.size() ; i++ ) { string& str = wf[i].left; for ( int j = 0 ; j < str.length() ; j++ ) { if ( used[str[j]] ) continue; used[str[j]] = 1; V.push_back ( str[j] ); } string& str1 = wf[i].right; for ( int j = 0 ; j < str1.length() ; j++ ) { if ( used[str1[j]] ) continue; used[str1[j]] = 1; V.push_back ( str1[j] ); } } sort ( V.begin() , V.end() ); V.push_back ( '#' );*/ //write s to the table for( int i = 0 ; i < collection.size() ; i++ ) for ( int j = 0 ; j < V.size() ; j++ ) { char ch = V[j]; int x = go[i][ch]; if ( x == -1 ) continue; if ( !isupper(ch) ) action[i][ch] = Content ( 0 , x ); else Goto[i][ch] = x; } //write r and acc to the table for ( int i = 0 ; i < collection.size() ; i++ ) for ( int j = 0 ; j < collection[i].element.size() ; j++ ) { WF& tt = collection[i].element[j]; if ( tt.right[tt.right.length()-1] == CH ) { if ( tt.left[0] == 'S' ) action[i]['#'] = Content ( 2 , -1 ); else for ( int k = 0 ; k < V.size() ; k++ ) { int y = V[k]; //cout << "YES " << endl; action[i][y] = Content ( 1, tt.back ); } } } #ifdef DEBUG puts ( "------------------------------------------LR(0)分析表--------------------------------------------------------" ); printf ( "%10s%5c%5s" , "|" , V[0] , "|"); for ( int i = 1 ; i < V.size() ; i++ ) printf ( "%5c%5s" , V[i] , "|" ); puts (""); for ( int i = 0 ; i < (V.size()+1)*10 ; i++ ) printf ( "-" ); puts(""); stringstream sin; for ( int i = 0 ; i < collection.size() ; i++ ) { printf ( "%5d%5s" , i , "|" ); for ( int j = 0 ; j < V.size() ; j++ ) { char ch = V[j]; if ( isupper(ch) ) { if ( Goto[i][ch] == -1 ) printf ( "%10s" , "|" ); else printf ( "%5d%5s" , Goto[i][ch] , "|" ); } else { sin.clear(); if ( action[i][ch].type == -1 ) printf ( "%10s" , "|" ); else { Content& temp = action[i][ch]; if ( temp.type == 0 ) sin << "S"; if ( temp.type == 1 ) sin << "R"; if ( temp.type == 2 ) sin << "acc"; if ( temp.num != -1 ) sin << temp.num; sin >> temp.out; printf ( "%7s%3s" , temp.out.c_str() , "|" ); } } } puts (""); } for ( int i = 0 ; i < (V.size()+1)*10 ; i++ ) printf ( "-" ); puts(""); #endif } void print ( string s1 , string s2 , string s3 , string s4 , string s5 , string s6 , string s7 ) { printf ( "%-15s|%-15s%-15s%-20s|%-15s%-15s%-15s\n" , s1.c_str() , s2.c_str() , s3.c_str() ,s4.c_str(),s5.c_str(), s6.c_str() , s7.c_str() ); } string get_steps ( int x ) { stringstream sin; sin << x; string ret; sin >> ret; return ret; } template<class T> string get_stk ( vector<T> stk ) { stringstream sin; for ( int i = 0 ; i < stk.size() ; i++ ) sin << stk[i]; string ret; sin >> ret; return ret; } string get_shift ( WF& temp ) { stringstream sin; sin << "reduce(" << temp.left << "->" << temp.right <<")"; string out; sin >> out; return out; } void analyse ( string src ) { print ( "steps","op-stack" ,"input","operation","state-stack" , "ACTION" , "GOTO" ); vector<char> op_stack; vector<int> st_stack; src+= "#"; op_stack.push_back ( '#' ); st_stack.push_back ( 0 ); int steps= 1; for ( int i = 0 ; i < src.length() ; i++ ) { char u = src[i]; int top = st_stack[st_stack.size()-1]; Content& act = action[top][u]; //cout << "YES : " << i << " " << u << " " << top << " " << act.type << endl; if ( act.type == 0 ) { print ( get_steps ( steps++ ) , get_stk ( op_stack ) , src.substr(i), "shift", get_stk( st_stack ) , act.out , "" ); op_stack.push_back ( u ); st_stack.push_back ( act.num ); } else if ( act.type == 1 ) { WF& tt = wf[act.num]; int y = st_stack[st_stack.size()-tt.right.length()-1]; int x = Goto[y][tt.left[0]]; //cout << y << " " << tt.left[0] << " " << x << endl; print ( get_steps ( steps++ ) , get_stk ( op_stack ) , src.substr(i) , get_shift(tt) ,get_stk( st_stack),act.out,get_steps(x)); for ( int j = 0 ; j < tt.right.length() ; j++ ) { st_stack.pop_back(); op_stack.pop_back(); } op_stack.push_back ( tt.left[0] ); st_stack.push_back ( x ); i--; } else if ( act.type == 2 ) { print ( get_steps( steps++ ), get_stk( op_stack ) , src.substr(i) , "Accept" , get_stk(st_stack) , act.out , "" ); //i--; } else continue; } } int main ( ) { int n; char s[MAX]; while ( ~scanf ( "%d" , &n ) ) { for ( int i = 0 ; i < n ; i++ ) { scanf ( "%s" , s ); int len = strlen(s),j; for ( j = 0 ; j < len ; j++ ) if ( s[j] == '-' ) break; s[j] = 0; wf.push_back ( WF ( s , s+j+2 ,-1 , -1 ) ); #ifdef DEBUG wf[wf.size()-1].print(); #endif } make_item(); make_set(); make_V(); make_go(); make_table(); analyse ( "abbcde" ); } } ~~~ ### Input: ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-04-20_57171fabc6517.jpg "") ### Output: ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-04-20_57171fabd95f9.jpg "") ![这里写图片描述](https://docs.gechiui.com/gc-content/uploads/sites/kancloud/2016-04-20_57171fac07fd9.jpg "") ## 后期调试 关于12月4日对于make_set函数和make_go函数的更正: - 错误主要源自于自己对于概念的模糊,make_set过程中如果加入的新的产生式的右侧”⋅”之后依旧是没有出现过的非终结符,那么也要把以它为左部的”$cdot”在首位的项目加入当前的项目规范族 - make_go是在对规范族之间建边时,一定是通过一个字符的移进,所有与其相关的式子都符合才能建边,而不是只要有两个规范族中有符合要求的规范式就能建边
';