Конспект лекций москва 2004 удк 519. 713(075)+519. 76(075) ббк 22. 18я7

Вид материалаКонспект

Содержание


4. Формальные порождающие грамматики
Подобный материал:
1   2   3   4   5   6   7   8   9   ...   21

4. Формальные порождающие грамматики


Порождающей грамматикой называется упорядоченная четверка G=< VN, VT, S, R>, где VT алфавит терминальных или основных символов; VNалфавит нетерминальных или вспомогательных символов (VTVN =  ); S – начальный символ или аксиома, S VN, R – конечное множество правил или продукций вида   , где  (VTVN )* VN (VTVN )*,  (VTVN )* – различные цепочки, а специальный символ, не принадлежащий VTVN и служащий для отделения левой части правила от правой . Такие символы, которые служат для описания языка, но не принадлежат самому языку, будем называть метасимволами. Определим, что цепочка 1 непосредственно выводима из цепочки 0 (обозначается 01 ), если существуют такие 1, 2, , , что 01  2, 11  2 и существует правило  ( R). Иными словами 01, если в 0 найдется вхождение левой части какого-либо правила грамматики, а цепочка 1 получена заменой этого вхождения на правую часть правила.

Существенно, что при определении отношения непосредственной выводимости обозначаемого (, разумеется, также метасимвол) не указывается, какое правило нужно применять и к какому именно вхождению (если их несколько). Здесь проявляются характерные черты исчислений, к классу которых относятся и порождающие грамматики. Исчисления представляют собой "разрешения" в отличие от алгоритмов, являющихся "предписаниями".

Определим, что цепочка n выводима из цепочки 0 за один или несколько шагов или просто выводима (обозначается 0+n ), если существует последовательность цепочек 0, 1, 2,…, n (n>0), такая, что ii+1, i{0, …, n-1}. Эта последовательность называется выводом n из 0, а n – длиной вывода. Выводимость за n шагов иногда обозначается 0n n. Наконец, если 0+n или 0=n , то пишут 0*n.

Нетрудно видеть, что + есть транзитивное, а * транзитивно-рефлексивное замыкание отношения .

Цепочка называется сентенциальной формой, если она совпадает или выводима из начального символа грамматики, т.е. если S * .

Множество цепочек в основном алфавите грамматики, выводимых из начального символа, иначе множество сентенциальных форм, состоящих из терминальных символов (иначе, сентенций), называется языком, порождаемым грамматикой G, и обозначается L(G).

L(G) = {x / S * x & xVT* }.

Справедливо, что для любого перечислимого множества слов М существует грамматика G, такая, что М = L(G).

Определим, что грамматики G1 и G2 эквивалентны, если L(G1 )=L(G2).

Например,

G1 = < {S}, {a}, S, { Sa, S a a S}>, L(G1)= {a 2n+1, n 0}.

G2 = < {S, A}, {0, 1}, S, R>, R = {S  1 A, A  1 A, A  0 A, A  0 }, L(G2) – множество четных двоичных чисел, больших нуля.

G3 = < {S, A}, {0, 1}, S, R>, R = {S  1 A 0, A  1 A, A  0 A, A  }, L(G2) = L(G3), грамматики G2 и G3 эквивалентны.

Для сокращения записи грамматик и выводов будем изображать нетерминальные символы прописными буквами латинского алфавита А , В , С , … , S с индексами или без них, терминальные – строчными буквами a, b, c,… и цифрами. Прописными буквами U, V, Z будем обозначать символы, которые могут быть как терминальными, так и нетерминальными; строчными буквами u, v, x, y, z c индексами или без них – цепочки, составленные из терминальных символов, а буквами    … – из любых символов. Кроме того, для обозначения правил 1, 2,…, n будем пользоваться записью 12…n .

Правила вида   , где   VT*, называются заключительными.