Е. В. Кайдаповой Общая редакция
Вид материала | Книга |
- Общая редакция В. В. Козловского В. И. Ильин драматургия качественного полевого исследования, 4631.85kb.
- В. Э. Мейерхольд статьи письма речи беседы часть первая 1891-1917 Издательство "Искусство", 4810.66kb.
- В. Э. Мейерхольд статьи письма речи беседы часть первая 1891-1917 Издательство «Искусство», 5254.96kb.
- Альберт Швейцер. Культура и этика, 5368.02kb.
- Б. Рассел логический атомизм, 442.78kb.
- В. Б. Боброва Общая редакция и вступительная статья, 667.53kb.
- Составитель: Ю. П. Зарецкий Общая редакция: А. А. Сванидзе, 3278.51kb.
- В. К. Лавренов – Природные лекарства против рака, 716.7kb.
- Н. И. Пирогов г. Королёв 2011г, 465.4kb.
- Психология сознания, 5938.04kb.
^ Как мы понимаем язык и используем его в речи
На протяжении столетий людей ужасала возможность того, что созданные ими вычислительные машины могут перехитрить их, в чем-то превзойти или лишить рабочих мест. Этот страх часто обыгрывался в литературе, начиная со средневековой еврейской легенды о Големе, глиняном истукане, ожившем, когда ему в рот вложили надпись с именем Бога, до HAL — взбунтовавшегося компьютера из «Космической одиссеи 2001». Но когда в 1950-х гг. возникла такая отрасль прикладной науки, как «искусственный интеллект» («Artificial intelligence» — AI), создалось впечатление, что научная фантастика грозит обернуться пугающей реальностью. Когда компьютер высчитывает число «пи» до миллионного знака после запятой или начисляет зарплату сотрудникам фирмы, то нетрудно признать его право на существование, но вдруг обнаружилось, что компьютеры еще и доказывают логические теоремы и играют в шахматы на высоком уровне. В последующие годы появились компьютеры, которые могли обыграть любого, за исключением гроссмейстера, и программы, превосходившие многих экспертов, когда речь шла о рекомендациях — какие подобрать лекарства при бактериальных инфекциях или куда инвестировать пенсионные фонды. А раз компьютеры решали такие требующие умственного напряжения задачи, казалось, дело лишь во времени — и СЗРО2' или Терминатора можно будет заказать по каталогу. Единственное, что оставалось, это запрограммировать компьютеры на выполнение простых заданий. Согласно легенде, в 1970-х гг. Марвин Минский, один из создателей AI, дал своему аспиранту такое задание на лето — написать «зрительную программу».
Но домашние роботы все еще оставались в области фантастики. Главный урок, извлеченный разработчиками AI после тридцати пяти лет работы состоял в том, что сложные проблемы просты, а простые сложны. То, что доступно разуму четырехлетнего ребенка и для нас является само собой разумеющимся — узнать знакомое лицо, поднять карандаш, пересечь комнату, ответить на вопрос — в действительности является
' Название главы совпадает с названием американской вокально-инструментальной группы «Talking Heads», особенно популярной в 1970-1980-х гг. — Прим. ред. ' СЪРО — робот из кинофильма «Звездные войны». — Прим. перев.
^ Как мы понимаем язык и используем его в речи 183
решением одних из самых сложных технологических проблем. Пусть вас не вводят в заблуждение роботы на конвейере в рекламных роликах автомобилей: все, чем они занимаются — это сварка и распыление краски — а такие задачи не требуют обязательного присутствия неуклюжего мистера Магу3', который бы за чем-то наблюдал, что-то держал или что-то куда-то клал. Если вы хотите поставить в тупик систему искусственного интеллекта, задайте ей следующие вопросы: «Что больше — Чикаго или хлебница?», «Носят ли зебры нижнее белье?», «Может ли пол подняться и покусать вас?», «Если Сьюзен идет в магазин, идет ли ее голова вместе с ней?». Большинство страхов перед автоматическими системами основано не на том, что действительно должно вызывать опасения. Это аналитикам финансового рынка, инженерам нефтехимической отрасли и членам судейской коллегии стоит опасаться, что с появлением нового поколения разумных машин они потеряют работу и будут вытеснены последними. Садовники, портье и повара могут в ближайшие десятилетия быть уверены, что останутся на своих местах.
Понимание предложения — это одна из вышеупомянутых тяжелых легких проблем. Чтобы общаться с компьютерами нам все еще приходится учить их языки, сами они недостаточно умны, чтобы выучить наши. Вообще, это слишком легко — думать, что компьютеры понимают больше, чем они на самом деле способны понять.
Недавно был учрежден ежегодный конкурс, какая компьютерная программа лучше всего введет в заблуждение пользователя, заставив думать, что он общается с человеком. Целью этого конкурса на премию Лобнера (Loebner Prize) было воплотить предположение, сделанное Аланом Тьюрингом в знаменитой работе 1950 г. Он предложил использовать для ответа на философский вопрос «Может ли машина мыслить?» имитационную игру, где арбитр разговаривает с человеком через один терминал и с компьютером, запрограммированным на имитацию человека — через другой. Если арбитр не может отличить, кто где, то, по мысли Тьюринга, нет оснований отрицать, что компьютер может думать. Если отбросить философию, то для конкурсной комиссии было очевидно, что ни одна программа не сможет и близко подойти к выигрыванию премии в 100 000 долларов, поэтому ее размер был уменьшен до 1 500 долларов, что было честнее по отношению к машине. Каждый из арбитров должен был придерживаться одной темы беседы, выбранной программистом или конкурирующим с компьютером человеком, кем бы он ни был, и арбитру не позволялось использовать никаких «хитростей или уловок», например, повторять вопрос десять раз или спрашивать, носят ли зебры нижнее белье; беседа должна была быть «естественной». После примерно семи минут общения с каждой из нескольких программ и их соперников-людей, арбитры указали на то, что все люди более «человекоподобны», чем
' ^ Мистер Магу, или Куинси Магу — неловкий и вспыльчивый персонаж серии мультфильмов. — Прим. ред.
184
Глава 7. Говорящие головы
любой из компьютеров. Тем не менее, около половины арбитров спутали выигравшую программу с человеком.
Это достижение является менее впечатляющим, чем кажется. Правила связали арбитрам руки: «неестественные хитрости и уловки» — это иное название любой попытки установить, разговариваешь ты с человеком или с машиной, что и является смыслом конкурса! Кроме того, программист-победитель тонко использовал возможность выбирать тему беседы для своей программы. Он выбрал «эксцентричную беседу», которая является сомнительным примером «темы» и сама по себе может быть полна непоследовательностей:
Арбитр: Как долго тянется этот день! Но теперь, мне кажется, я готов немного поразвлечься. Погода сегодня не очень хорошая. Знаешь ли ты какие-нибудь шутки, которые могли бы разогнать облака?
Компьютер: Все говорят о погоде, но, похоже, никто ничего с ней не делает. Почему тебе обязательно нужно было мне сказать, что теперь ты готов немного поразвлечься? О-о-о-ох...
Арбитр: Ты хочешь запутать меня, да? Я просто объяснил, что готов поразвлечься!
Компьютер: Не лучше ли сказать, если бы это была неправда, что я пытаемся4' запутать тебя, да? Я просто объяснил, что готов поразвлечься! Я, следовательно, я вычисляю... Почему ты думаешь, что я пытаюсь запутать тебя, не правда ли?
Арбитр: Не могу сказать, что понимаю вопрос... Но эксцентричность поэта — это одно, а эксцентричность большинства из нас — другое.
Компьютер: Откуда ты знаешь, что не можешь сказать, что понял вопрос... Но эксцентричность поэта — это одно, а эксцентричность большинства из нас — другое.
По сути программист просто усовершенствовал технологию, изобретенную в 1965 г. ученым-компьютерщиком Джозефом Вейценбаумом. Вейценбаум написал туповатую программу, названную ELIZA в честь героини Бернарда Шоу; эта программа искала несколько ключевых слов во вводимой строке, извлекала фиксированный ответ из списка и вставляла фрагменты вводимой строки в ответ (с некоторыми небольшими изменениями, например «ты» вместо «я»). Таким образом в примитивной форме имитировалась беседа. Один вариант программы под названием Doctor копировал поведение психотерапевта — приверженца философии Карла Роджерса, считавшего, что терапевт должен повторять пациенту его же собственные утверждения для их осмысливания. Эта версия программы позже продавалась как компьютерная игра в магазинах «Рейдио Шэк»5', а другая версия поступает в комплекте с моим текстовым редактором GNU Emacs. (В документации сказано: «Если при использовании
' Грамматические и синтаксические ошибки в речи компьютера присутствуют и в оригинальном тексте. — ^ Прим. перев.
'Сеть магазинов, специализирующихся на продаже бытовых товаров радиоэлектроники и компьютеров. — Прим. ред.
Как мы понимаем язык и используем его в речи 185
Emacs что-то не получается, и ни один из указанных выше приемов не решает проблему, Emacs все же может вам помочь. Наберите: „М-х doctor RET"».) Вот типичный диалог:
Пользователь: В последнее время я чувствую себя порядком подавленным.
Компьютер: Вы часто чувствуете себя подавленным?
Пользователь: Да, почти все время.
Компьютер: Почему вы говорите «да, почти все время»?
Пользователь: Вот сейчас я чувствую, что готов заплакать.
Компьютер: Вы пришли ко мне потому, что сейчас чувствуете, что готовы заплакать?
К ужасу Вейценбаума, однажды он увидел, как его секретарша припала к терминалу и изливает душу программе.
У большинства ученых-компьютерщиков конкурс на премию Лобне-ра вызывает раздражение. Они считают его не имеющим научной ценности рекламным трюком, задача которого — обвести вокруг пальца непрофессионала, а не научить компьютер речи. (Разработчикам искусственного интеллекта и другим профессионалам, разбирающимся в проблемах языка, не разрешили быть арбитрами, но ни один из них и не рвался участвовать в конкурсе, заявки поступали от любителей.) Этот конкурс примерно так же продуктивен, как будет продуктивна реклама биологических исследований, если на премию выдвинуть создателя искусственного цветка из шелка, самого похожего на естественный; или как будет продуктивна работа над космической программой, где высадка на Луну осуществится на съемочной площадке Голливуда. Была проведена интенсивная работа по созданию компьютерных систем, понимающих язык, но ни у одного серьезного инженера не хватит дерзости утверждать, что система, дублирующая языковые способности человека, появится в недалеком будущем.
В действительности, с точки зрения ученого, люди не имеют права так хорошо понимать предложения, как они это делают. Они не просто решают до абсурда сложную задачу, но еще и делают это быстро. Понимание, как правило, происходит в режиме «реального времени». Слушающий действует синхронно с говорящим, а не ждет конца отрезка речи, чтобы истолковать его через соразмерный промежуток времени, подобно критику, пишущему рецензию на книгу. А временной промежуток между тем, что произнес говорящий, и тем, что воспринял слушающий, чрезвычайно короток: один или два слога за половину секунды. Некоторые люди могут понимать и повторять предложения, следуя за речью говорящего с отставанием на четверть секунды!
Понимание процесса понимания имеет и иное практическое применение, помимо создания машин-собеседников. Понимание предложений людьми происходит быстро и эффективно, но не идеально. Оно работает, когда воспринимаемый поток речи или текст определенным образом структурирован. В противном случае процесс может забуксовать, пойти
186
Глава 7. ^ Говорящие головы
в обратном направлении, и возникнет неправильное понимание. Исследуя понимание языка в этой главе, мы выясним, какие виды предложений могут путаться в сознании человека, воспринимающего речь. Один из практических источников информации — это набор рекомендаций для написания ясной прозы, научное руководство по стилистике, например то, что написано Джозефом Уильямсом в 1990 г., — «Стиль: как добиться ясности и изящества», в нем содержатся многие лингвистические находки, которые мы будем рассматривать.
Другое практическое применение связано с областью права. Судьи часто сталкиваются с тем, что им приходится гадать, как среднестатистический человек воспримет двусмысленный отрывок текста, например, при изучении клиентом контракта, заслушивании инструкций присяжными и чтении представителем общественности потенциально клеветнической характеристики. Многие из человеческих привычек толкования текста были определены благодаря лабораторным исследованиям, а лингвист и юрист Лоренс Солэн объяснил связь между языком и правом в своей интересной книге 1993 г. «Язык судей», к которой мы еще обратимся.
* * *
Как происходит понимание предложения? Первый этап — это синтаксический разбор. Он не имеет отношения к тем упражнениям, которые вы, стиснув зубы, делали в начальной школе, и о которых у Дейва Барри, ведущего газетной рубрики «Спроси у Господина Языка», осталось такое воспоминание:
Вопрос: Пожалуйста, объясните, как составить схему предложения.
Ответ: Прежде всего расположите предложение на чистой ровной поверхности, например, на гладильной доске. Затем, используя остро отточенный карандаш или скальпель, вычлените «сказуемое», которое показывает, где произошло действие, и обычно расположено прямо за жабрами. Например, в предложении «ЛаМонт никогда не привести в порядок лесникам» действие, очевидно, происходит в лесу. Таким образом, ваша схема будет напоминать по форме деревце, с ветвями, выпирающими из него, чтобы указать на расположение различных частиц речи, таких как ваши герундии, провербы, второстепенности и т.д.
Но понимание действительно включает сходный с этим процесс нахождения подлежащего, сказуемого, дополнения и т.д., который происходит бессознательно. Если только вы не Вуди Аллен, в ускоренном темпе читающий «Войну и Мир», вам нужно сгруппировать слова в синтаксические группы, определить, что является группой подлежащего при каком сказуемом, и так далее. Например, чтобы понять предложение The cat in the hat came back 'Кошка в шляпе вернулась' нужно объединить в одну группу слова the cat in the hat 'кошка в шляпе', чтобы понять, что это кошка вернулась, а не шляпа. Чтобы отличить предложение Dog bites man 'Собака кусает человека' от Man bites dog 'Человек кусает собаку' нужно найти подлежащее и объект. А чтобы различить предложения Man bites dog 'Человек кусает собаку', Man is bitten by dog 'Человек искусан
^ Как мы понимаем язык и используем его в речи 187
собакой' и Man suffers dog bite 'Человек перенес укус собаки', нужно обратиться к словарным статьям упомянутых глаголов в ментальном словаре, чтобы определить, что происходит с подлежащим человек.
Сама грамматика является просто кодом или протоколом, статичной базой данных, определяющей, какие виды звуков соответствуют каким видам значения в определенном языке. Это не рецепт и не программа для говорения и понимания. Говорение и понимание основаны на одной и той же базе данных (язык, на котором мы говорим, это тот же язык, который мы понимаем), но им также необходимы процедуры, которые бы четко, шаг за шагом, обозначили, что необходимо делать сознанию, когда становятся слышимыми слова, или когда сам собираешься начать говорить. Ментальная программа, анализирующая структуру предложения во время восприятия речи, называется «синтаксическим анализатором» («parser»).
Наилучший способ понять, как работает процесс понимания, это проследить за синтаксическим разбором простого предложения, порожденного какой-нибудь простенькой грамматикой, например той, что упоминалась в главе 4, и которую я повторяю здесь:
S -» NP VP
«Предложение может состоять из именной группы и глагольной группы».
NP -* (det) N (РР)
«Именная группа может состоять из присутствующего факультативно де-
терминатора, имени существительного и присутствующей факультативно
предложной группы».
VP-> VNP(PP)
«Глагольная группа может состоять из глагола, именной группы и факультативно присутствующей предложной группы».
РР-> PNP
«Предложная группа может состоять из предлога и именной группы».
N -> boy 'мальчик', girl 'девочка', dog 'собака', cat 'кошка', ice-cream 'мороженое', candy 'конфета', hot dogs 'сосиски'
«К именам существительным в ментальном словаре относятся слова: мальчик, девочка, ...»
V -> eats 'ест', likes 'любит', bites 'кусает'
«К глаголам в ментальном словаре относятся слова: eats 'ест', likes 'любит', bites 'кусает'».
Р -> with 'с', in 'в', near 'около'
«К предлогам относятся слова: with 'с', in 'в', near 'около'».
det -> а 'какой-то', the 'этот', one 'один какой-то'
«К детерминаторам относятся слова: а 'какой-то', the 'этот', one 'один какой-то'».
188
Глава 7. Говорящие головы
Возьмем предложение The dog likes ice-cream 'Эта собака любит мороженое'. Первое слово, с которым сталкивается ментальный синтаксический анализатор — это the. Синтаксический анализатор наводит о нем справки в ментальном словаре; это то же самое, что обнаружить данное слово в правой части правила и выяснить его категорию, указанную в левой части. Это детерминатор (determiner, det). Следовательно синтаксический анализатор может вырастить первую веточку предложения на дереве. (Правда, дерево, растущее сверху вниз от листьев к корням невозможно в ботанике.)
det
the...
Детерминаторы, как и все слова, должны быть частью какой-либо большей синтаксической группы. Синтаксический анализатор может вычислить, какая именно синтаксическая группа имеется в виду, проверив, в правой части какого правила имеется «det». Это будет правило, определяющее именную группу, NP. Дерево может быть продолжено:
Эта обособленная структура должна быть удержана в некой определенной памяти. Синтаксический анализатор запоминает, что находящееся в нашем распоряжении слово the является частью именной группы, которая скоро должна быть укомплектована словами, которые заполнили бы остальные слоты, в данном случае — по меньшей мере одним существительным.
Тем временем дерево продолжает расти, поскольку именные группы не могут оставаться ни к чему не присоединенными. Проверив, правая сторона каких правил содержит символ NP, синтаксический анализатор имеет несколько вариантов на выбор. Только что построенная именная группа может быть частью предложения, частью глагольной группы или частью предложной группы. Эту задачу выбора можно решить, исходя из главного: все синтаксические группы должны быть в итоге включены в предложение (S), а предложение должно начинаться с именной группы, поэтому, чтобы продолжить дерево, логично использовать правило построения предложения:
^ Как мы поншшем язык и используем его в речи 189
Обратите внимание, что теперь синтаксический анализатор удерживает в памяти две неукомплектованных ветви: именная группа, для укомплектования которой требуется имя существительное, и предложение, для укомплектования которого требуется глагольная группа.
Обособленная именная ветвь аналогична предсказанию того, что следующее слово должно быть именем существительным. И когда дело доходит до следующего слова dog 'собака', просмотр правил подтверждает такое предсказание: слово dog — это часть правила для имени существительного. Это позволяет слову dog быть включенным в дерево, укомплектовывая именную конструкцию:
Синтаксическому анализатору больше не нужно помнить, что следует укомплектовать NP, все, что нужно держать в памяти, — это неукомплектованное S.
На данном этапе можно в какой-то степени предположить значение предложения. Вспомните о том, что одно существительное в именной группе является ядром — вершиной (то, о чем говорит вся группа), а остальные синтаксические группы в составе именной могут определять это существительное. Найдя определения слов dod и the в их словарных статьях, синтаксический анализатор может отметить, что именная группа говорит о какой-то ранее упоминавшейся собаке.
Следующее слово likes 'любит' оказывается глаголом. Глаголу не откуда было взяться, кроме как из глагольной группы, VP, существование которой, к счастью, уже было предсказано, поэтому два этих элемента можно соединить друг с другом. Глагольная группа содержит больше, чем один глагол, она содержит также и именную группу (свое допол-
190
Глава 7. ^ Рэворящие гоиговы
нение). Таким образом, синтаксический анализатор предсказывает, что следующее, с чем мы будем иметь дело — это именная группа:
the dog likes...
Следующее на очереди — ice-cream 'мороженое' — существительное, которое может быть частью именной группы — в точности как предсказывает обособленная ветвь NP. Последние кусочки головоломки идеально укладываются на свое место:
ice-cream
Слово ice-cream 'мороженое' укомплектовало именную группу, поэтому ее нет необходимости больше держать в памяти; NP укомплектовала глагольную группу, поэтому и о ней тоже можно забыть, a VP укомплектовала предложение. Когда память освобождается от всех неукомплектованных обособленных ветвей, мы чувствуем в сознании «щелчок», который свидетельствует о том, что мы только что услышали полностью укомплектованное грамматически правильное предложение.
Одновременно с выращиванием ветвей дерева синтаксический анализатор также выстраивал значение предложения, используя определения в ментальном словаре и принципы их сочетаемости. Глагол является вершиной своей глагольной группы, поэтому VP говорит о любви к чему-либо. NP ice-cream 'мороженое' в составе VP является дополнением глагола. Словарная статья для слова likes 'любит' говорит о том, что дополнением к этому глаголу будет нечто, вызывающее любовь; отсюда следует, что VP сообщает о любви к мороженому. NP слева от спрягаемого глагола — это
^ Как мы понимаем язык и исполмуем его в речи 191
подлежащее; словарная статья для likes говорит о том, что подлежащим при этом глаголе будет то, что может испытывать любовь. Совмещая семантику подлежащего с семантикой VP, синтаксический анализатор определил, что в предложении утверждается факт любви вышеупомянутого представителя семейства псовых к замороженным сладостям.