Преобразование грамматик — это преобразование, которое связано с исключением из грамматики избыточных правил и символов
Введение
Приведенными грамматиками являются контекстно-свободные грамматики (КС-грамматики), в которых не содержатся недостижимые и бесплодные символы, циклы и \lambda-правила, то есть «пустые» правила. Приведенные грамматики именуют также как КС-грамматики в канонической форме.
Для преобразования произвольной КС-грамматики к приведенному виду, требуется осуществить следующий набор действий:
- Выполнить удаление всех бесплодных символов.
- Выполнить удаление всех недостижимых символов.
- Выполнить удаление \lambda - правил.
- Выполнить удаление цепных правил.
Необходимо отметить, что операции по преобразованию следует выполнять именно в представленном выше порядке, и никак иначе.
Преобразование грамматик
В отдельных случаях КС-грамматика содержит недостижимые и бесплодные символы, не участвующие в образовании цепочек языка, и по этой причине их можно удалить из грамматики. Символ A ∈ VN именуется бесплодным в грамматике G = (VT, VN, P, S), когда множество { α | α ∈ VT*, A ⇒ α} является пустым.
Алгоритм, который удаляет бесплодные символы, может быть представлен следующим образом:
- На вход поступает КС-грамматика G = (VT, VN, P, S).
- На выходе получается КС-грамматика G’ = (VT, VN’, P’, S), которая не содержит бесплодных символов и для которой L(G) = L(G’).
Метод реализации данного алгоритма может быть представлен так. В рекурсивном режиме необходимо построить множества N0,N1,...Nί:
- N0=∅, ί=1.
- Nί = ${$A | (A → α) ∈ P \ и \ α ∈ (N{ί-1} ⋃ VT)*}}⋃ N{ί-1}$..
- Если Nί≠Nί−1, то ί = ί+1 и далее следует перейти к шагу два, иначе VN′=Nί. P’ должно состоять из правил множества P, которые содержат лишь символы из VN’ ⋃ VT; G’ = (VT, VN’, P’, S)
Символ x∈(VT∪VN) именуется недостижимым в грамматике G = (VT, VN, P, S), если его нет ни в одной из сентенциальных форм данной грамматики. Алгоритм, предназначенный для удаления недостижимых символов, имеет следующий вид:
- На вход поступает КС-грамматика G = (VT, VN, P, S).
- На выходе получается КС-грамматика G’ = (VT’, VN’, P’, S), которая не содержит недостижимых символов и для которой L(G) = L(G’).
Метод, реализующий данный алгоритм, может быть представлен следующим образом:
- V0 = {S}; ί = 1.
- Vί = {x | x ∈ (VT ⋃ VN), (A → αxβ) ∈ P и A ∈ Vί−1} ⋃Vί−1.
- Если Vί≠Vί−1, то ί = ί+1 и далее следует перейти к шагу два, в противном случае VN’ = Vί ⋂ VN; VT’ = Vί ⋂ VT. P’ должен состоять из правил множества P, которые содержат лишь символы из Vί; G’ = (VT’, VN’, P’, S).
КС-грамматика G именуется приведенной, когда не содержит недостижимых и бесплодных символов.
Алгоритм, который выполняет приведение грамматики, может быть представлен следующим образом:
- Необходимо обнаружить и удалить все бесплодные не терминалы.
- Необходимо обнаружить и удалить все недостижимые символы.
Удаление символов должно сопровождаться удалением правил вывода, которые содержат данные символы. Следует помнить, что если в данном алгоритме поменять местами первый и второй шаги, то необязательно в итоге будет достигнута приведенная грамматика. Для того чтобы описать синтаксис языков программирования, рекомендуется применять однозначные приведенные КС-грамматики.
Правило грамматики типа A→B, где A,B∈VN, именуется цепным правилом. Для КС-грамматики G, которая содержит цепные правила, возможно выстроить эквивалентную ей грамматику G', не обладающую цепными правилами. Данное утверждение может быть доказано на основании следующего предположения. Если грамматика G обладает правилами:
A→B, B→C, C→aX,
то такие правила можно заменить одним правилом А→aX, так как вывод A⇒B⇒C⇒aX цепочки aX в грамматике G можно получить в грамматике G' при помощи правила A→aX.
В общем случае доказать последнее утверждение можно следующим образом. Необходимо разбить множество правил P грамматики G на два подмножества P1 и P2, включив в P1 все правила типа A→B. Для всех правил из P1 следует найти множество правил S(Aί), которые сформированы следующим образом:
- Когда Aί ⇒ ∗Aj и в P2 есть правило Aj → α, в котором α является цепочкой словаря (VN ⋃ VT)*.
- Тогда в S(Aί) следует включить правило Aί → α.
- Далее следует построить новое множество правил P’, объединив правила P2 и все построенные множества S(Aί).
- В результате будет получена грамматика G' = {VN ,VT , P’, S}, которая является эквивалентной заданной и в ней не содержатся правила типа A → B.
Преобразование не укорачивающих грамматик связано с удалением из грамматики правил, имеющих пустую правую часть. Правило типа A→λ именуется как «пустое», то есть аннулирующее, правило. Грамматика именуется не укорачивающей или грамматикой, не имеющей «пустые» правила, в следующих случаях:
- Когда в схеме грамматики не содержатся аннулирующие правила
- Когда в схеме грамматики содержится лишь одно правило типа S→λ, в котором S является начальным символом грамматики, и символ S не должен встречаться в правой части оставшихся грамматических правил.
Для грамматик, которые содержат совокупность аннулирующих правила, справедливым является такое утверждение. А именно, для любой КС-грамматики G', которая содержит набор аннулирующих правил, может быть построена эквивалентная ей не укорачивающая грамматика G, такая что L(G')=L(G).
Формирование не укорачивающей грамматики может привести к возрастанию количества правил заданной грамматики из-за того, что будут построены дополнительные правила, получаемые в результате исключения не терминалов аннулирующих правил. Для того чтобы сформировать дополнительные правила, следует осуществить все допустимые подстановки пустой цепочки, заменив ими аннулирующие не терминалы во всех правилах грамматики.
А в случае, когда в грамматике имеется правило типа S→λ, в котором S является начальным символом грамматики, и символ S есть в правых частях других правил грамматики, то необходимо выполнить задание нового начального символа S’ и замену правила S→λ на два новых правила:
- S′→λ.
- S′→S.