Преобразование грамматик — это преобразование, которое связано с исключением из грамматики избыточных правил и символов
Введение
Приведенными грамматиками являются контекстно-свободные грамматики (КС-грамматики), в которых не содержатся недостижимые и бесплодные символы, циклы и \lambda-правила, то есть «пустые» правила. Приведенные грамматики именуют также как КС-грамматики в канонической форме.
Для преобразования произвольной КС-грамматики к приведенному виду, требуется осуществить следующий набор действий:
- Выполнить удаление всех бесплодных символов.
- Выполнить удаление всех недостижимых символов.
- Выполнить удаление \lambda - правил.
- Выполнить удаление цепных правил.
Необходимо отметить, что операции по преобразованию следует выполнять именно в представленном выше порядке, и никак иначе.
Преобразование грамматик
В отдельных случаях КС-грамматика содержит недостижимые и бесплодные символы, не участвующие в образовании цепочек языка, и по этой причине их можно удалить из грамматики. Символ A ∈ VN именуется бесплодным в грамматике G = (VT, VN, P, S), когда множество { α | α ∈ VT*, A ⇒ α} является пустым.
Алгоритм, который удаляет бесплодные символы, может быть представлен следующим образом:
- На вход поступает КС-грамматика G = (VT, VN, P, S).
- На выходе получается КС-грамматика G’ = (VT, VN’, P’, S), которая не содержит бесплодных символов и для которой L(G) = L(G’).
Метод реализации данного алгоритма может быть представлен так. В рекурсивном режиме необходимо построить множества $N_0, N_1, ... N_ί $:
- $N_0 = ∅, \ ί = 1$.
- $N_ί$ = ${$A | (A → α) ∈ P \ и \ α ∈ (N{ί-1} ⋃ VT)*$} $⋃ N{ί-1}$..
- Если $N_ί ≠ N_{ί-1}$, то ί = ί+1 и далее следует перейти к шагу два, иначе $VN’ = N_ί$. P’ должно состоять из правил множества P, которые содержат лишь символы из VN’ ⋃ VT; G’ = (VT, VN’, P’, S)
Символ $x \in (VT \cup VN)$ именуется недостижимым в грамматике G = (VT, VN, P, S), если его нет ни в одной из сентенциальных форм данной грамматики. Алгоритм, предназначенный для удаления недостижимых символов, имеет следующий вид:
- На вход поступает КС-грамматика G = (VT, VN, P, S).
- На выходе получается КС-грамматика G’ = (VT’, VN’, P’, S), которая не содержит недостижимых символов и для которой L(G) = L(G’).
Метод, реализующий данный алгоритм, может быть представлен следующим образом:
- $V_0$ = {S}; ί = 1.
- $V_ί$ = {x | x ∈ (VT ⋃ VN), (A → αxβ) ∈ P и A ∈ $V_{ί-1}$} $⋃ V_{ί-1}$.
- Если $V_ί ≠ V_{ί-1}$, то ί = ί+1 и далее следует перейти к шагу два, в противном случае VN’ = Vί ⋂ VN; VT’ = Vί ⋂ VT. P’ должен состоять из правил множества P, которые содержат лишь символы из Vί; G’ = (VT’, VN’, P’, S).
КС-грамматика G именуется приведенной, когда не содержит недостижимых и бесплодных символов.
Алгоритм, который выполняет приведение грамматики, может быть представлен следующим образом:
- Необходимо обнаружить и удалить все бесплодные не терминалы.
- Необходимо обнаружить и удалить все недостижимые символы.
Удаление символов должно сопровождаться удалением правил вывода, которые содержат данные символы. Следует помнить, что если в данном алгоритме поменять местами первый и второй шаги, то необязательно в итоге будет достигнута приведенная грамматика. Для того чтобы описать синтаксис языков программирования, рекомендуется применять однозначные приведенные КС-грамматики.
Правило грамматики типа $A \rightarrow B$, где $A,B \in VN$, именуется цепным правилом. Для КС-грамматики G, которая содержит цепные правила, возможно выстроить эквивалентную ей грамматику G', не обладающую цепными правилами. Данное утверждение может быть доказано на основании следующего предположения. Если грамматика G обладает правилами:
$A \rightarrow B$, $B \rightarrow C$, $C \rightarrow aX$,
то такие правила можно заменить одним правилом $А \rightarrow aX$, так как вывод $A \Rightarrow B \Rightarrow C \Rightarrow aX$ цепочки aX в грамматике G можно получить в грамматике G' при помощи правила $A \rightarrow aX$.
В общем случае доказать последнее утверждение можно следующим образом. Необходимо разбить множество правил P грамматики G на два подмножества $P_1 \ и \ P_2$, включив в $P_1$ все правила типа $A \rightarrow B$. Для всех правил из $P_1$ следует найти множество правил $S(A_ί)$, которые сформированы следующим образом:
- Когда $A_ί$ ⇒ $* A_j$ и в $P_2$ есть правило $A_j$ → α, в котором α является цепочкой словаря (VN ⋃ VT)*.
- Тогда в $S(A_ί)$ следует включить правило $A_ί$ → α.
- Далее следует построить новое множество правил P’, объединив правила $P_2$ и все построенные множества $S(A_ί)$.
- В результате будет получена грамматика G' = {VN ,VT , P’, S}, которая является эквивалентной заданной и в ней не содержатся правила типа A → B.
Преобразование не укорачивающих грамматик связано с удалением из грамматики правил, имеющих пустую правую часть. Правило типа $A \rightarrow \lambda$ именуется как «пустое», то есть аннулирующее, правило. Грамматика именуется не укорачивающей или грамматикой, не имеющей «пустые» правила, в следующих случаях:
- Когда в схеме грамматики не содержатся аннулирующие правила
- Когда в схеме грамматики содержится лишь одно правило типа $S \rightarrow \lambda$, в котором S является начальным символом грамматики, и символ S не должен встречаться в правой части оставшихся грамматических правил.
Для грамматик, которые содержат совокупность аннулирующих правила, справедливым является такое утверждение. А именно, для любой КС-грамматики G', которая содержит набор аннулирующих правил, может быть построена эквивалентная ей не укорачивающая грамматика G, такая что L(G')=L(G).
Формирование не укорачивающей грамматики может привести к возрастанию количества правил заданной грамматики из-за того, что будут построены дополнительные правила, получаемые в результате исключения не терминалов аннулирующих правил. Для того чтобы сформировать дополнительные правила, следует осуществить все допустимые подстановки пустой цепочки, заменив ими аннулирующие не терминалы во всех правилах грамматики.
А в случае, когда в грамматике имеется правило типа $S \rightarrow \lambda$, в котором S является начальным символом грамматики, и символ S есть в правых частях других правил грамматики, то необходимо выполнить задание нового начального символа S’ и замену правила $S \rightarrow \lambda$ на два новых правила:
- $S' \rightarrow \lambda$.
- $S'\rightarrow S$.