Синтаксические структуры

Хомский Ноам

4. МОДЕЛЬ НЕПОСРЕДСТВЕННО СОСТАВЛЯЮЩИХ [12]

 

 

4.1.

Обычно лингвистическое описание на синтаксическом уровне формулируется в терминах анализа по непосредственно составляющим. Спросим себя, какова та форма грамматики, из которой исходят при описании такого рода? Мы увидим, что эта новая форма грамматики является существенно более сильной, чем отброшенная выше модель с конечным числом состояний, и что отвечающая ей концепция «лингвистического уровня» коренным образом отлична от предыдущей концепции.

В качестве простого примера того вида грамматик, который связан с анализом по непосредственно составляющим, рассмотрим следующую систему:

(13) (1) Sentence—>NP+VP

(II) NP—>T+N

(III) VP—>Verb+NP

(IV) T—>the

(V) N—>man, ball и т. д.

(VI) Verb—>hit, took и т. д.

Пусть каждое правило вида X—>Y системы (13) означает предписание: «вместо X подставить К». Систему (14) мы можем назвать деривацией предложения The man hit the ball «Человек ударил мяч». Номер справа от Каждой строки деривации показывает, какое правило «грамматики» (13) используется для получения данной строки из предыдущей.

(14) Sentence

NP+VP (I)

T+N+VP (II)

T+N+Verb+NP (III)

the+N+Verb+NP (IV)

the+man+Verb+NP (V)

the+man+hit+NP (VI)

the+man+hit+T+N (II)

the+man+hit+the+N (IV)

the+man+hit+the+ball (V)

Таким образом, вторая строка (14) получается из первой подстановкой NP+VP вместо Sentence по правилу (1) системы (13); третья строка получается из второй подстановкой T+N вместо NP по правилу (II) и т. д. Мы можем наглядным образом представить деривацию (14) с помощью следующей схемы:

(15)

Схема (15) несет меньше информации, чем деривация

(14) , поскольку она не показывает, в каком порядке применяются правила. Имея (14), мы можем построить (15) только одним способом, но не обратно, так как можно построить деривацию, сводящуюся к (15), но имеющую иной порядок применения правил. Схема (15) содержит именно то, что есть существенного в (14) для определения структуры непосредственно составляющих предложения- деривата The man hit the ball «Человек ударил мяч». Некоторая последовательность слов в этом предложении есть составляющая типа Z, если на схеме (15) мы можем возвести эту последовательность к некоторой одной точке, и эта точка обозначена Z. Так, hit the ball «ударил мяч» можно возвести к VP в (15); следовательно, в предложении-деривате hit the ball есть VP. Но man hit нельзя возвести ни к какой одной точке на схеме (15); значит, man hit — вообще не составляющая.

Мы называем две деривации эквивалентными, если они сводятся к одной и той же схеме типа (15). В некоторых случаях грамматика позволяет построить неэквивалентные деривации заданного предложения. В таких условиях можно говорить о «конструкционной омонимии». Если наша грамматика правильна, данное предложение должно быть двусмысленным. Ниже мы вернемся к этому важному понятию конструкционной омонимии.

Очевидна необходимость следующего обобщения системы (13). Мы должны иметь возможность ограничивать применение некоторого правила определенным контекстом. Так, вместо Т можно подставить а, если следующее существительное стоит в единственном числе, но не во множественном; точно так же вместо Verb можно подставить hits, если ему предшествует существительное man, но нельзя — если ему предшествует men. Вообще, если мы хотим ограничить подстановку Y вместо X контекстом Z—>W, мы можем задать в грамматике правило

(16) Z+X+W—>Z+Y+W

Например, в том случае, когда рассматривается единственное и множественное число глаголов, мы должны вместо того, чтобы добавлять к (13) правило Verb—>hits, добавить правило

(17) NPsing +Verb — > Np sing +hits.

показывающее, что hits подставляется на место Verb только в контексте NPsing —. Соответственно, правило (13 II) должно быть сформулировано так, чтобы можно было учесть NPsing и NPpl. Это прямое обобщение правила (13). Одна черта системы (13) должна быть сохранена, однако, как это имеет место в (17): при применении одного правила только один элемент может подвергаться подстановке; другими словами, в (16) X должен представлять собой один символ, например Т или Verb, а не последовательность символов, как, скажем, T+N. Если это условие не соблюдено, мы не можем надлежащим образом восстановить структуру непосредственно составляющих предложений-дериватов по соответствующим схемам вида (15) , как мы делали выше.

Теперь мы в состоянии дать более общее описание того типа грамматики, который связан с теорией лингвистической структуры, основанной на анализе по непосредственно составляющим. Всякая такая грамматика определяется конечным множеством Σ начальных цепочек и конечным множеством F «формул-команд» вида X—>Y, означающих: «подставить Y вместо X». Хотя X не обязательно должно быть одним символом, только один символ из состава X может быть заменен при образовании Y. В грамматике (13) множество Σ начальных цепочек состоит из единственного символа Sentence, a F состоит из правил (I) —(VI); но мы можем потребовать расширения множества Σ, с тем чтобы оно включало, например, Declarative Sentence, Interrogative Sentence в качестве дополнительных символов. Обладая грамматикой [Σ,F], мы определяем деривацию как конечную последовательность цепочек, начинающуюся с одной из начальных цепочек Σ, такую, что каждая цепочка в ней получается из предыдущей цепочки в результате применения одной из формул-команд множества F. Так, (14) есть деривация; пятичленная последовательность цепочек, состоящая из первых пяти строк (14),также есть деривация. Некоторые деривации являются завершенными в том смысле, что нет такого правила в F, с помощью которого можно было бы преобразовать их последнюю цепочку. Так, (14) — завершенная деривация, а последовательность первых пяти строк (14) — незавершенная. Если какая-то цепочка является последней цепочкой завершенной деривации, мы называем ее терминальной.Так, the+man+hit+the+ball есть терминальная цепочка грамматики (13). Некоторые грамматики типа [Σ,F] могут не иметь терминальных цепочек, но мы интересуемся только теми грамматиками, которые их имеют, то есть описывающими некоторые языки. Множество цепочек называется терминальным языком, если это множество является множеством терминальных цепочек некоторой грамматики [Σ,F]. Таким образом, каждая такая грамматика определяет некоторый терминальный язык (в частности, «пустой» язык, не содержащий ни одного предложения), и каждый терминальный язык порождается некоторой грамматикой типа [Σ,F], Имея терминальный язык и его грамматику, мы можем реконструировать структуру непосредственно составляющих каждого предложения этого языка (каждой терминальной цепочки грамматики), рассматривая соответствующие схемы типа (15), как мы делали это выше. Мы можем также определить грамматические отношения в этих языках формальным образом в терминах соответствующих схем.

 

4.2.

В § 3 мы рассмотрели языки, названные «языками с конечным числом состояний», которые порождаются посредством марковских процессов с конечным числом состояний. В настоящей главе мы рассматриваем терминальные языки, порождаемые системами вида [Σ,F]. Эти два типа языков связаны друг с другом следующим образом.

Теорема: Каждый язык с конечным числом состояний есть терминальный язык, но существуют терминальные языки, не являющиеся языками с конечным числом состояний. Важно в этой теореме то, что описание в терминах модели непосредственно составляющих оказывается существенно более сильным, чем описание в терминах элементарной теории, рассмотренной выше в § 3. Примерами терминальных языков, не являющихся языками с конечным числом состояний, могут служить языки (10 I) и (10 II), рассмотренные в § 3. Так, язык (10 I), состоящий из всех цепочек вида ab, aabb, aaabbb,.. и только этого вида, может порождаться [Σ,F]-грамма- тикой (18):

(18) Σ: Z

F: Z—>ab

Z—>aZb

Эта грамматика имеет начальную цепочку Z [как,(13) имеет в качестве начальной цепочки символ Sentence] и два правила. Нетрудно заметить, что каждая завершенная деривация, построенная согласно (18), оканчивается цепочкой языка (10 I) и что этим способом порождаются все такие цепочки. Подобным образом языки вида (10 II) также могут порождаться [Σ,F]-грамматиками. Язык (10 III), однако, не может порождаться грамматикой этого типа.

В § 3 мы указали, что языки (10 I) и (10 II) соответствуют определенным частям английского языка и что поэтому модель марковского процесса с конечным числом состояний не адекватна английскому языку. Мы убедились теперь, что модель непосредственно составляющих не оказывается несостоятельной в таких случаях. Мы не доказали адекватности этой модели, но нам удалось показать, что значительные части английского языка, которые в буквальном смысле не могут быть описаны в терминах модели с конечным числом состояний, описываются в терминах модели непосредственно составляющих.

Можно сказать, что в случае (18) в цепочке aaabbb языка (10 I) ab, например, есть Z, aabb есть Z и aaabbb само есть Z. Таким образом, эта конкретная цепочка содержит три группы, каждая из которых есть Z. Это, разумеется, весьма тривиальный язык. Важно отметить, что при описании данного языка мы ввели символ Z, который не содержится в предложениях указанного языка. Это существенная черта модели непосредственно составляющих, обусловливающая ее «абстрактный» характер.

Заметим также, что в случае (13) и (18) (как вообще в случае любой системы непосредственно составляющих) всякая терминальная цепочка имеет несколько представлений. Так, например, в случае (13) терминальная цепочка The man hit the ball «Человек ударил мяч» представляется цепочками Sentence, NP+VP, T+N+VP и вообще любой из строк системы (14), равно как и цепочками типа NP+Verb+NP, T+N+hit+NP, которые могут выступать в деривациях, эквивалентных (14) в определенном выше смысле. На уровне непосредственно составляющих, следовательно, каждое предложение определенного языка представляется множеством цепочек, а не одной цепочкой, как это имеет место на уровнях фонем, морфем или слов. Таким образом, структура непосредственно составляющих, рассматриваемая как лингвистический уровень, имеет радикально иной и нетривиальный характер, что, как мы видели в § 3.3, необходимо для некоторых лингвистических уровней. Мы не можем установить иерархию среди различных представлений предложения The man hit the ball «Человек ударил мяч»; мы не можем разбить систему непосредственно составляющих на конечное множество уровней, упорядоченных от верхнего до нижнего так, чтобы каждое предложение имело одно представление на каждом из этих подуровней. Например, нет способа установить очередность по вертикали для элементов NP и VP. В английском языке именная группа может содержаться в глагольной, а глагольная — в именной. Структура непосредственно составляющих должна рассматриваться как единый уровень с множеством представлений для каждого предложения языка. Существует взаимно однозначное соответствие между правильно выбранными множествами представлений и схемами типа (15).

 

4.3.

Допустим, что с помощью [Σ,F]-грамматики мы можем порождать все грамматически правильные последовательности морфем какого-то языка. Для завершения грамматики мы должны установить фонемную структуру этих морфем, с тем чтобы грамматика производила грамматически правильные последовательности фонем данного языка. Но и эта часть грамматики (которую мы назовем морфофонемикой языка) также может быть задана в виде набора правил типа «подставить Y вместо X», то есть, для английского языка, в виде системы

(19) (I) walk—>/wok/

(И) take+past—>/tuk/

(III) hit+past—>/hit/

(IV) /...D/+past—>/...D/+/id/ (где D=/t/ или /d/)

(V) /...Cunv /+past—>/...Cunv /+/t/ (где Cunv — глухая согласная)

(VI) past—>/d/

(VII) take—>/teyk/ и т. д.

или чего-либо в этом роде. Заметим, в частности, что между этими правилами должна быть установлена очередность. Так, правило (II) должно предшествовать правилу (V) или правилу (VII), иначе мы получим такие формы, как /teykt/ для прошедшего времени от глагола take «брать». Для этих морфофонемных правил уже не является обязательным требование, чтобы в результате применения каждого правила заменялся только один символ.

Теперь мы можем прибавить к деривациям модели непосредственно составляющих систему (19); в результате мы получим единый процесс порождения последовательностей фонем из начальной цепочки Sentence. Это может создать впечатление, что граница между уровнем непосредственно составляющих и более низкими уровнями произвольна. В действительности это не так. Во-первых, как мы видели, формальные свойства правил X—>Y, относящихся к модели непосредственно составляющих, отличаются от свойств правил морфофонемики, поскольку в первом случае мы должны требовать, чтобы заменялся только один символ. Во-вторых, элементы, фигурирующие в правилах (19), могут быть разбиты на конечное число уровней (например, фонемы и морфемы; или, может быть, фонемы, морфофонемы и морфемы), каждый из которых является элементарным в том смысле, что лишь единственная цепочка элементов этого уровня служит представлением для каждого предложения на данном уровне (если исключить случаи омонимии) и что каждая такая цепочка представляет лишь одно предложение. Элементы же, появляющиеся в правилах, относящихся к модели непосредственно составляющих, не могут быть разбиты на более высокие и более низкие уровни указанным способом.

Ниже мы увидим, что существует более глубокое основание для того, чтобы различать правила модели непосредственно составляющих, носящие характер более высокого уровня, и правила, носящие характер более низкого уровня, превращающие цепочки морфем в цепочки фонем.

Формальные свойства модели непосредственно составляющих представляют предмет интересного исследования, и легко доказать, что дальнейшая разработка этого типа грамматики необходима и возможна. Нетрудно обнаружить, что весьма выгодно расположить правила множества F так, чтобы некоторые из правил могли применяться только после того, как другие правила уже были применены. Например, определенно необходимо, чтобы правила типа (17) применялись раньше любого правила, позволяющего нам подставить NP+Preposition+NP вместо NP и т. п.; в противном случае грамматика будет порождать такие непредложения, как The men near the truck begins work at eight. Однако такая разработка связана с проблемами, уводящими нас за рамки этого исследования.