Лингвистика

Билет 1

1. Сущность прикладной лингвистики как особого подхода к языковым явлениям. Характерные черты прикладных методик.

В языкознании всегда присутствовали три глобальных исследовательских направления:

SYMBOL 183

В рамках последнего направления сформировалась научная дисциплина, которая получила название прикладной лингвистики. Ее отличает подход к языку как к деятельности, не мертвому продукту.

Прикладная лингвистика

SYMBOL 183

Термин прикладная лингвистика появился в конце 20 гг. 20 в., когда была осознана необходимость строгого научного решения прикладных задач с использованием методов формального лингвистического анализа письменных и акустико-лингвистического анализа стных сообщений.

За рубежом под ПЛ часто понимают совершенствование методов преподавания языка (дидактическая лингвистика). В нашей стране ПЛ понимают как компьютерную лингвистику, которая становится сейчас все более широкой дисциплиной почти синонимом ПЛ.

Синонимы ПЛ: компьютерная Л, структурная Л, машинная Л, статистическая Л, математическая Л, искусственный интеллект (ИИ),...

ПЛ требует строгого структурного подхода к языку и отводит важную роль математике.

Основные задачи ПЛ:

SYMBOL 183

Прикладные модели отличаются определенным прощением, огрублением языковой реальности, но это не значит, что они игнорируют реальную сложность моделируемого объекта. Методология прикладного исследования должна учитывать многоспектность, многоуровневость, открытость языкового механизма.

Методология - совокупность общих принципов, определяющая способ исследования какого-либо явления; определяет взгляд на объект, как к нему подойти; философские принципы исследования явлений.

Метод - определенный тип способа исследования, определяемый инструментами, которые используются при изучении объекта исследования (метод компьютерного моделирования, статистический метод)

Собственно лингвистические методы:

SYMBOL 183

Методика - конкретный способ исследования, определяемый целью исследования; может объединять несколько методов (методика построения ассоциативных тезаурусов).

Характерные черты прикладных методик

SYMBOL 183

SYMBOL 183 f "Symbol" s 10 hа использование искусственного метаязыка описания

SYMBOL 183 f "Symbol" s 10 hа комплексное сочетание разных наук

Билет 2

1. Понятие репрезентации в науках о языке и мышлении человека.

Понятие репрезентации знаний является одним из центральных в когнитивной науке вообще, и в когнитивной лингвистике в частности.

1. Репрезентация - (общефилософский смысл) сущность произвольной природы, выступающая в познавательной деятельности человека в качестве заместителя некоторой другой сущности.

Человек творит мир артефактов:

материальные (орудия)

когнитивные (орудия мысли)

Репрезентация - когнитивный артефакт.

2. Репрезентация - символьное выражение на специальном репрезентационном языке, выступающие в познавательной деятельности человека в качестве заместителя некоторой сущности иной природы. Например мат. модели, любые теории.

3. Репрезентация - (в лингвистике) символьное выражение на специальном репрезентационном языке, рассматриваемое как отличное от непосредственно данной формы осуществления некоторого другого символьного же выражения, также сама эта непосредственно данная форма, рассматриваемая в ряде других форм.

4. Репрезентация - некоторая гипотетическая ментальная структура, замещающая ту или иную сущность из внешнего мира.

Предполагается, что существует некоторый уровень анализа, на котором можно отвлечься от физической природы вещей, некоторый уровень изучения психических функций человека, отличный от нейро-хирургического, - уровень концептуальных репрезентаций. На этом уровне моделируются когнитивные процессы (символьно/на ЭВМ).

Типология репрезентаций:

1. представление знаний (концептуальные репрезентации)

Репрезентация языковых структур - представление высказывания, предложения, текста (требование лингвистической релевантности). Понимание-> анализ -> сем. репрезентация. Компоненты языковой структуры - компоненты языка, концептуальные репрезентации ими не являются.

2. ñåíòåíöèîíàëüíûå

èäåîãðàììàòè÷åñêèåа

(логические)

построены по законам ЕЯ:

ÿçûê èñ÷èñëåíèÿ ïðåäèêàòîâ

(аналоговые репрезентации,)

хранятся в виде образа в человеческом мозге

Иногда сюда включают еще и списочные представления (таблицы, БД)

3. äåêëàðàòèâíûå (çíàíèÿ "÷òî")

ïðîöåäóðíûå (çíàíèÿ "êàê")

экономный способ (указание на факты)

(ñòðóêòóðèðîâàíèå ïðåäìåòíîé îáëàñòè)

точный способ (указание на действие)

4. формализованные

5. внешние

6. ëîãè÷åñêèå

ýâðèñòè÷åñêèå

ïðåäñòàâëåíèÿ çíàíèé

èñ÷èñëåíèå ïðåäèêàòîâ

ñåòåâûå. ôðåéìîâûå, ïðîäóêöèîííûå

Понятие репрезентации также активно используется в порождающей семантике. Так, например, семантическая репрезентация речевого отрезка интерпретируется как его запись на каком-либо семантическом метаязыке.

2. Операционные системы как основной вид программного обеспечения для ПЭВМ. Операционная система MS<-DOS, основные группы команд.

Операционная система - это программа, которая загружается при включении компьютера. Она производит диалог с пользователем, осуществляет правление компьютером, его ресурсами (оперативной памятью, местом на диске и т.д.), запускает другие (прикладные) программы на выполнение. ОС обеспечивает пользователю и прикладным программам удобный способ общения (интерфейс с стройствами компьютера.

Функции ОС:

SYMBOL 183

MS<-DOS (Microsoft):

SYMBOL 183

SYMBOL 183 f "Symbol" s 10 h OS-2 (äëÿ ìàøèí IBM PS-2 series), UNIX, Macintosh OS, MAINFRAMES (?).

Âåðñèè 1.0 (1981) - 6.0 (1992: ïàìÿòü cache, disk defragmentation utility for speed disk data access, optional dynamic file compression, that can double disk storage space, automatically loads itself into upper and high memory leaving more conventional memory free).

Ìîäóëüíàÿ ñòðóêòóðà MS-DOS:

1. BIOS

2. Boot Record

3. IBMBIO.com

4. IBMDOS.

5. Command.

6. Utilities

Список внутренних команд ( недоступны для просмотра, выполняются COMMAND.COM):

break

cls

copy

CTTY

date

del

dir

erase

mkdir

path

prompt

rename

rmdir

set

time

type

erify

exit

Остальные команды - внешние. Они располагаются в каталоге DOS и являются самостоятельными программами (

Îñíîâíûå ãðóïïû êîìàíä MS-DOS:

1. Команды работы с каталогами (10):

dir

append

join

subst

path

tree

xcopy

2. Команды работы с файлами (21):

2.1 исходные:

copy

type

del

rename

erase

comp

2.2 êîìàíäû-ôèëüòðû:

find

sort

2.3

attrib

append

path

join

subst

restore

backup

fastopen

FC (àíàëîã compare)

recover

3. Команды работы с дисками (14):

3.1 основные

format

label

chkdsk

diskcopy

diskcomp

sys

3.2 команды начальной работы с диском

fdisk

select

assing

backup

restore

fastopen

recover

4. Команды правления ресурсами ПЭВМ:

(настройка компьютера на пользователя):

date

time

assign

cls

graphics

prompt

break

set

keyb

nlsfunc

fastopen

chcp

command

CTTY

mode

erify

graphtable

СЕМАНТИЧЕСКИЕ СЕТИ.

Семантическая сеть - структура для представления знаний в виде злов, соединенных дугами. Самые первые семантические сети были разработаны в качестве языка-посредника для систем машинного перевода, многие современные версии до сих пор сходны по своим характеристикам с естественным языком. Однако последние версии семантических сетей стали более мощными и гибкими и составляют конкуренцию фреймовым системам, логическому программированию и другим языкам представления.

Начиная с конца 50-ых годов были создано и применены на практике десятки вариантов семантических сетей. Несмотря на то, что терминология и их структура различаются, существуют сходства, присущие практически всем семантическим сетям:

1. злы семантических сетей представляют собой концепты предметов, событий, состояний;

2. различные злы одного концепта относятся к различным значениям, если они не помечено, что они относятся к одному концепту;

3. дуги семантических сетей создают отношения между злами-концептами (пометки над дугами казывают на тип отношения);

4. некоторые отношения между концептами представляют собой лингвистические падежи, такие как агент, объект, реципиент и инструмент (другие означают временные, пространственные, логические отношения и отношения между отдельными предложениями;

5. концепты организованы по уровням в соответствии со степенью обобщенности так как, например, сущность, живое существо, животное, плотоядное,;

Однако существуют и различия: понятие значения с точки зрения философии; методы представления кванторов общности и существования и логических операторов; способы манипулирования сетями и правила вывода, терминология. Все это варьируется от автора к автору. Несмотря не некоторые различия, сети добны для чтения и обработки компьютером, также достаточно мощны, чтобы представить семантику естественного языка.

ИСТОРИЧЕСКАЯ СПРАВКА.

Фрег представил логические формулы в виде деревьев, которые однако мало напоминают современные семантические сети. Еще одним пионером стал Чарльз Сандерз Прис, который использовал графические записи в органической химии.

Он сформулировал правила выводы с использованием экзистенциональных графов.

В психологии Зельц использовал графы для представления наследственности некоторых характеристик в иерархии концептов. Научные изыскания Зельца имели огромное влияние на изучение тактики в шахматах, который в свою очередь повлиял на таких теоретиков, как Саймон и Ньюэлл.

Что касается лингвистики, то первым ченым, занимавшимся разработкой графических описаний, стал Теньер. Он использовал графическую запись для своей грамматики зависимостей. Теньер оказал огромное влияние на развитие лингвистики в Европе.

Впервые семантические сети были использованы в системах машинного перевода в конце 50-х - начале 60-х годов. Первая такая система, которую создала Мастерман, включала в себя 100 примитивных концептов таких, как, например, НАРОД, ВЕЩЬ, ДЕЛАТЬ, БЫТЬ. С помощью этих концептов она описала словарь объемом 15 единиц, в котором также имелся механизм переноса характеристик с гипертипа на подтип. Некоторые системы машинного перевода базировались на корреляционных сетях Цеккато, которые представляли собой набор 56 различных отношений, некоторые из которых - падежные отношения, отношения подтипа, члена, части и целого. Он использовал сети, состоящие из концептов и отношений для руководства действиями парсера и разрешения неоднозначностей.

В системах искусственного интеллекта семантические сети используются для ответа на различные вопросы, изучение процессов обучения, запоминания и рассуждений. В конце 70-х сети получили широкое распространение. В 80-х годах границы между сетями, фреймовыми структурами и линейными формами записи постепенно стирались. Выразительная сила больше не является решающим аргументом в пользу выбора сетей или линейных форм записи, поскольку идеи записанные с помощью одной формы записи могут быть легко переведены в другую. И наоборот, особо важное значение получили второстепенные факторы, как читаемость, эффективность, неискусственность и теоретическая элегантность, также учитываются легкость введения в компьютер, редактирование и распечатка.

РЕЛЯЦИОННЫЕ ГРАФЫ.

Самые простые сети, которые используются в системах искусственного интеллекта, - реляционные графы. Они состоят из злов, соединенных дугами. Каждый зел представляет собой понятие, каждая дуга - отношения между различными понятиями. На рисунке 1 представлено предложение Собака жадно гложет кость. Четыре прямоугольника представляют понятия собаки, процесса гложения, кости и такой характеристики, как жадность. Надписи над дугами означают, что собака является агентов гложения, кость является объектом гложения, жадность - это манера гложения.

Терминология, использующаяся в этой области различна. Чтобы добиться некоторой однородности, злы, соединенные дугами, принято называть графами, структуру, где имеется целое гнездо из злов или где существуют отношения различного порядка между графами, называется сетью. Помимо терминологии, использующейся для пояснения, также различаются способы изображения. Некоторые используют кружки вместо прямоугольников; некоторые пишут типы отношений прямо над дугами, не заключая их в овалы; некоторые используют аббревиатуры, например О или А для обозначения агента или объекта; некоторые используют различные типы стрелок. На рисунке 2 изображен граф концептуальных зависимостей Шенка. <=> означает агента. INGEST (поглощать) - один из примитивов Шенка: ЕСТЬ - ПОГЛОЩАТЬ твердый объект; ПИТЬ - ПОГЛОЩАТЬ жидкий объект; ДЫШАТЬ - ПОГЛОЩАТЬ газообразный объект. Дополнительная стекла слева показывает, что кость переход из неуказанного места к собаке.

Поскольку довольно сложно ввести в компьютер некоторые диаграммы и при этом они занимают много места при печати, многие ченые записывают свои графы в более компактном варианте. Например, то же предложение Сова предложил записать в линейном виде с использованием некоторых элементов из рисунка 1:

[ЕСТЬ](AGNT) -> [СОБАКА]

(OBJ) -> [КОСТЬ]

(MANR) -> [ЖАДНОСТЬ]

В этом варианте записи квадратные скобки обозначают понятия, круглые скобки содержат в себе названия отношений. Все линейные формы записи очень похожи на фреймовые структуры.

ГРАФЫ С ЦЕНТРОМ В ГЛАГОЛЕ.

Глаголы соединяются с группой существительного с использованием падежных отношений. Например, с предложении УMary

Союзы. Самый простой способ соединить предложения - это поставить между ними союз. Некоторые союзы, как например Уи, Уили, Уесли обозначают логическую связь; некоторые, такие кака Упосле того, как, когда, пока, с тех пор, как и потому что, выражают временные отношения и причину.

Глаголы, требующие подчиненное предложение. Падежные фреймы многих глаголов требуют подчиненного предложения, являющегося обычно прямым дополнением. К такому типу относятся глаголы говорить, считать, думать, знать, быть убежденным, Уугрожать, пытаться и др.

Определители, относящиеся к целому предложению. Многие наречия и пропозиционные фразы относятся только к глаголу, но некоторые определяют целое предложение. Такие наречия, как Уобычно, вероятно, в большинстве случаев ставятся в начале предложения. А например, слово Уоднажды определяет весь рассказ, следующий после него.

Модальные глаголы и времена. Такие глаголы, как У

Связанный дискурс. Помимо отношений, выраженных в одном предложении, существуют также отношения более высокого порядка между отдельными предложениями рассказа или какого-либо другого повествования. Многие из них не выражены эксплицитно: временные отношения и следование аргументов может быть, например, имплицитно выражено порядком следования предложения друг за другом в тексте.

Именно потому, что глагол отводится такая важная роль в предложении, многие теория делают его своим центральным связующим звеном. Этот подход берет свое начало из Индо-Европейской языковой семьи, где модальность и временные отношения выражаются изменением глагольной формы. Рассмотрим следующий пример: УWhile a dog was eating a bone, a cat passed by unnoticedФ. В этом предложении сообщено, что, когда предложение УWhile

Графы с центром в глаголе - это реляционные графы, где глагол считается центральным звеном любого предложения. Маркеры времени и отношения пишутся прямо рядома с концептами, которые представляют глаголы. Графы концептуальных зависимостей Роджера Шенка также используют этот подход.

Несмотря на то, что графы с центром в глаголе довольно гибкие по своей структуре, они обладают рядом ограничений. Одно из них заключается в том, что они не проводят разграничение между определителями, которые относятся только к глаголу, и определителями, относящимися к предложению целиком. Рассмотрима следующие примеры:

The dog greedily ate the bone.

Greedily, the dog ate the bone.

Эти графы также плохо справляются с предложениями, находящимися внутри других предложений.

При работе с реляционными графами возникают проблемы с передачей всего многообразия временных отношений и отношений модальности. Несмотря на то, что многие чение используют эти графы для решения сложных проблем, они так до сих пор и не разработали общего метода для их разрешения. В выше приведенном примере пометка

ПРОПОЗИЦИОННЫЕ СЕТИ.

В пропозиционных сетях злы представляют целые предложения. Эти злы являются точками соприкосновения для отношений между отдельными предложениями связанного текста. С другой стороны они определяют время и модальность для всего контекста. Представленные ниже примеры иллюстрируют отношения, для записи которых необходимы пропозиционные злы:

Sue thinks that Bob believes that a dog is eating a bone.

If a dog is eating a bone, it is unwise to try to take it away from him.

В первом предложении для глаголов У

Во втором примере представлены два предложения, находящиеся в отношении условия. Антецедентом является предложение у dog is eating a boneФ, консеквентом предложение УIt is unwise to try to take it away from himФ. Инфинитивы У

Все реляционные графы и графы с центром в глаголе имеют много общего. Однако среди них существуют также и отличия:

1. Включение контекста или всего лишь его словное обозначение с отсылкой на схеме.

2. Строгое гнездование: один и тот же концепт может или не может встречаться в двух разных контекстах, ни один из которых не гнездиться в другом.

3. казание связей соответствия. При перекрещивающемся контексте, то есть когд они один и тот же концепт встречается в двух разных контекстах, эти связи не казываются.

Однако это всего лишь стилистические расхождения, которые не влияют существенно на логику построения.

ИЕРАРХИЯ ТИПОВ.

Иерархия типов и подтипов является стандартной характеристикой семантических сетей. Иерархия может включать сущности: ТАКСА<СОБАКА<ПЛОТОЯДНОЕ<ЖИВОТНОЕ<ЖИВОЕ СУЩЕСТВО<ФИЗИЧЕСКИЙ ОБЪЕКТ<СУЩНОСТЬ. Они также могут включать в себя события: ЖЕРТВОВАТЬ<ДАВАТЬ<ДЕЙСТВИЕ<СОБЫТИЕ или состояния: ЭКСТАЗ<СЧАСТЬЕ<ЭМОЦИОНАЛЬНОЕ СОТОЯНИЕ<СОСТОЯНИЕ. Иерархия Аристотеля включала в себя 10 основных категорий: субстанция, количество, качество, отношение, место, время, состояние, активность и пассивность. Некоторые чение дополнили его своими категориями.

Символ < между более общим и более частным символом читается как: УХ-тип/подтип Ф.

Термин Уиерархия обычно обозначает частичное порядочение, где одни типы являются более общими, чем другие. порядочение является частичным, потому, что многие типы просто не подлежат сравнению между собой. Сравним HOUSE<DOG и DOG<HOUSE бессмысленны, если их сравнивать, однако слово DOGHOUSE является подтипом HOUSE, но не DOG. Рассмотрим некоторые виды графов:

цикличный граф. Любое частичное порядочение может быть изображено, как граф без циклов. Такой граф имеет ветви, которые расходятся и сходятся вместе опять, что позволяет некоторым злам иметь несколько злов-родителей. Иногда такой тип графа называют путанным.

Деревья. Самым распространенным видом иерархии является граф с одной вершиной. В такого рода графах налагаются ограничения на ацикличные графы: вершина графа представляет собой один общий тип, и каждый другой тип Х имеет лишь одного родителя У.

Решетка. В отличие от деревьев злы в решетке могут иметь несколько злов родителей. Однако здесь налагаются другие ограничения: любая пара типов Х и У как минимум должна иметь общий гипертипа ХиУ и подтип ХилиУ. Вследствие этого ограничения решетка выглядит, как дерево, имеющее по главной вершине с каждого конца. Вместо всего одной вершины решетка имеет одну вершину, которая является гипертипом всех категорий, и другую вершину, которая является подтипом всех типов.

НАСЛЕДОВАНИЕ.

Основным свойством иерархии является возможность наследования подтипами качеств гипертипов: все характеристики, которые присущи ЖИВОТНОМУ, также присущи МЛЕКОПИТАЮЩЕМУСЯ, РЫБЕ и ПТИЦЕ. В основе теории наследования лежит теория силлогизмов Аристотеля: Если А - характеристика В, В - х-ка С, то А хар-ка всех С.

Преимущества иерархии и наследования:

Иерархия типов является отличной структурой для индексирования базы знаний и ее эффективной организации.

Следование по какой-либо ветви с помощью иерархии осуществляется гораздо быстрее.

СИНТАКСИЧЕСКИЙ АНАЛИЗ ЯЗЫКА И ЕГО ПОРОЖДЕНИЕ.

Семантические сети могут помочь парсеру разрешить семантическую неоднозначность. Без такого рода представления вся тяжесть анализ языка падает на синтаксические правила и семантические тесты. Структура же семантической сети ясно показывает, как отдельные концепты соединены между собой. Когда парсер встречает какую-либо неоднозначность, он может использовать семантическую сеть для того, чтобы выбрать тот или иной вариант. При работе с семантическими сетями используется несколько техник парсинга.

Парсинг, в основе которого лежит синтаксис. Работа парсера контролируется грамматикой непосредственных составляющих и операторами построения структур и их тестирования. В то время, как данные на входе анализируются, операторы построения структур создают семантическую сеть, операторы тестирования проверяют ограничения на частично построенной сети. Если никакие ограничения не найдены, то используемое при этом грамматическое правило отвергается и парсер проверяет другую возможность. Это самый распространенный подход.

Синтаксический анализатора с использованием семантики. Синтаксический анализатор с использованием семантики оперирует также как и парсер, в основе которого лежит синтаксис. Однако он оперирует не с синтаксическими категориями типа группа подлежащего и группа сказуемого, с концептами высокого уровня типа КОРАБЛЬ и ПЕРЕВОЗИТЬ.

Концептуальный парсинг. Семантическая сеть предсказывает возможные ограничения, которые могут встретится в отношениях между словами, также прогнозировать слова, которые позже могут встретиться в предложении. Например, глагол давать требует одушевленного агента и также прогнозирует возможность реципиента и объекта, который будет дан. Шенк был одним из самых активных сторонников концептуального парсинга.

Парсинг, основанный на экспертизе слов. Вследствие существования большого количества неправильных образований в естественном языке, многие люди вместо того, чтобы обращаться к каким-либо ниверсальным обобщениям, используют специальные словари, представляющих собой совокупность некоторых независимых процедур, которые называются экспертами слов. Анализ предложения рассматривается как процесс, осуществляемый совместно различными словарными экспертами. Главным сторонником этого подхода был Смол.

ргументы за и против различных техник парсинга часто основывался не на конкретные данные, больше на же стоявшемся мнении. И лишь один проекта на практике сравнил несколько видов парсинга - это Язык Семантических Репрезентаций, проект разработанный в ниверситете Берлина. В течение нескольких лет они создали четыре разных вида парсерова для анализа немецкого языка и его записи на Языка Семантических Репрезентаций, который представляет собой сеть.

Первым парсерома был парсер, созданный по подобию концептуального парсера Шенка. Было отмечено, что хотя добавление в его лексикон новых слов было довольно легко, анализ однако мог проводиться только на простых предложениях и только относительных придаточных. Расширить область синтаксической обработки этого парсера оказалось сложной задачей.

Второй парсер была семантически ориентированные расширенные сети перехода. В нем было легче обобщить синтаксис, однако аппарат синтаксиса работал медленнее, чем у первого рассмотренного парсера.

Затем работа велась с парсером словарных экспертов. Здесь легко велась обработка особых случаев, однако разбросанность грамматики между отдельными составляющими делала практически невозможным ее общее понимание, поддержку и модифицирование.

Парсер, который был создан относительно недавно, - это синтаксически ориентированный парсер, основанный на общей грамматике фразовой структуры. Он наиболее систематичен и обобщен и относительно быстр.

Эти результаты в принципе соответствуют мнению других лингвистов: синтаксически ориентированные парсеры наиболее целостны, однако для них необходим определенный набор сетевых операторов для плавного взаимодействия между грамматикой и семантическими сетями.

Порождение языка по семантической сети представляет собой обратный парсинг. Вместо синтаксического анализа некоторй цепочки с целью порождения сети генератор языка производит парсинг сети для получения некоторой цепочки. Существует два варианта порождения языка из семантической сети.

1. Генератор языка просто следует по сети, превращая концепты в слова, а отношения, казанные рядом с дугами, в отношения естественного языка. Этот метод имеет много ограничений.

2. Подходы, ориентированные на синтаксис контролируют порождение языка с помощью грамматических правил, которые используют сеть для того, чтобы определить, какое следующее правило нужно применить.

Однако на практике оба метода имеют много сходств: например, первый способ представляет собой последовательность злов, которые обрабатываются генератором языка, ориентированным на синтаксис.

ОБУЧЕНИЕ МАШИН.

Графы и сети представляют собой простые понятия для программ, которые изучают новые структуры. Их преимущество при обучении заключается в легкости добавления и даления, также сравнения дуг и злов. Ниже представлены программы, которые для обучения использовали семантические сети.

Винстон использовал реляционные графы для описания таких структур, как арки и башни. Машине предлагались примеры верного и неверного описания этих структур, программа создавала графы, которые казывали все необходимые условия для того, чтобы эта структура была именно аркой или башней.

Салветер использовал графы с центром в глаголе для представления падежных отношений, которые требуют различные глаголы. Его программа MORAN для каждого глагола выведет падежный фрейм, сравнивая одни и те же ситуации до и после их описания с использованием этого глагола.

Шенк разработала теорию Memory<-Organization

ПРИМЕНИЕ НА ПРАКТИКЕ.

Семантические сети могут быть записаны практически на любом языке программирования на любой машине. Самые популярные в этом отношении языки LISP и

Один из самых распространенных языков, разработанных для записи естественного языка в виде сетей, - это

1. с помощью правил декодирования производится синтаксический анализ линейной языковой цепочки и строится сеть.

2. с помощью правила кодирования сканируется сеть порождается языковая цепочка или другая трансформированная сеть.

Помимо специальных языков для семантических сетей было также разработано специальное аппаратное обеспечение. На обычных компьютерах могут быть спешно выполнены операции с языками синтаксического анализа и операции сканирования сетей. Однако для больших баз знаний нахождение нужных правил или доступ к предзнаниям может потребоваться очень много времени. Чтобы позволить различным процессам поисках проходить одновременно Фальман разработал систему NETL, которая представляет собой семантическую сеть, которая может использоваться с параллельным аппаратным обеспечением. Таким образом он хотел создать модель человеческого мозга, в котором сигналы могут двигаться по различным каналам одновременно. Другие ченые разработали параллельное программное обеспечение для поиска наиболее вероятной интерпретации двусмысленных фраз естественного языка.

Теория фреймов

- это апарадигма для представления знаний с целью использования этих знаний компьютером. Впервые была представлена Минским кака попытка построить фреймовую сеть, или парадигму с целью достижения большего эффекта понимания. С одной стороны Минский пытался сконструировать базу данных, содержащую энциклопедические знания , но с другой стороны, он хотел создать наиболее описывающую базу, содержащую информацию в структурированной и упорядоченной форме. Эта структура позволила бы компьютеру вводить информацию в более гибкой форме, имея доступ к тому разделу, который требуется в данный момент. Минский разработал такую схему , в которой информация содержится в специальных ячейках, называемых фреймами, объединенными в сеть, называемую системой фреймов. Новый фрейм активизируется с наступлением новой ситуации. Отличительной его чертой является то, что он одновременно содержит большой объем знаний и в то же время является достаточно гибким для того, чтобы быть использованным как отдельный элемент БД. Термин лфрейм был наиболее популярен в середине семидесятых годов, когда существовало много его толкований, отличных от интерпретации Минского.

Чтобы лучше понять эту теорию, рассмотрим один из примеров Минского, основанный н связи между ожиданием, ощущениема и чувством человека, когда он открывает дверь и входит в комнату. Предположим, что вы собираетесь открыть дверь и зайти в комнату незнакомого вам дома. Находясь в доме, перед тем как открыть дверь, у вас имеются определенные представления о том, что вы видите, войдя в комнату. Например, если вы видите к-л пейзаж или морской берег, поначалу вы с трудом знаете их. Затем вы будете дивлены, и в конце концов дезориентированы, так как вы не сможете объяснить поступившую информацию и связать ее с теми представлениями, которые у вас имелись до того. Также у вас возникнут затруднения с тем, чтобы предсказать дальнейший ход событий. С аналитической точки зрения это можно объяснить как активизацию фрейма комнаты в момент открывания двери и его ведущую роль в интерпретации поступающей информации. Если бы вы видели за дверью кровать, то фрейм комнаты приобрел бы более зкую форму и превратился бы во фрей кровати. Другими словами, вы бы имели доступ к наиболее специфичному фрейму из всех доступных.Возможно,б что вы используете информацию, содержащуюся в вашем фрейме комнаты для того чтобы распознать мебель, что называется процессом сверху-вниз, или в контексте теории фреймов фреймодвижущим распознаванием. Если бы вы видели пожарный гидрант, то ваши ощущения были бы аналогичны первому случаю. Психологи подметили, что распознавание объектов легче проходит в обычном контексте, чем в нестандартной обстановке. Из этого примера мы видим , что фрейм - это модель знаний, которая активизируется в определенной ситуации и служит для ее объяснения и предсказания. У Минского имелись достаточно расплывчатые идеи о самой структуре такой БД, которая могла бы выполнять подобные вещи. Он предложил систему, состоящую из связанных между собой фреймов, многие из которых состоят из одинаковых подкомпонентов, объединенных в сеть. Таким образом, в случае , когда к-л входит в дом, его ожидания контролируются операциями, входящими в сеть системы фреймов . В рассмотренном выше случае мы имеем дело с фреймовой системой для дома, и с подсистемами для двери и комнаты. Активизированные фреймы с дополнительной информацией в БД о том, что вы открываете дверь , будут служить переходом от активизированного фрейма двери к фрейму комнаты. При этом фреймы двери и комнаты будут иметь одинаковую подструктуру. Минский назвал это явление разделом терминалов и считал его важнойа частью теории фреймов.

Минский также ввел терминологию , которая могла бы использоваться при изучении этой теории ( фреймы, слоты, терминалы и т. д.). Хотя примеры этой теории были разделены на языковые и перцептуальные, и Минский рассматривал их как имеющих общую природу, в языке имеется более широкая сфера ее применения. В основном большинство исследований было сделано в контексте общеупотребительной лексики и литературного языка.

Как наиболее доступную иллюстрацию распознаванию, интерпретации и предположению можно рассмотреть две последовательности предложений, взятых из Шранка и Абельсона. На глобальном уровне последовательность А явно отличается от В.

A John

He asked the waitress for a hamburger

He paid the tip & left

B John went to a park

He asked the midget for a mouse

He picked up the box & left

Хотя все эти предложения имеют одинаковую синтаксическую структуру и тип семантической информации , понимание их кардинально различается. Последовательность А имеет доступ к некоторому виду структуры знаний высшего уровня, В не имеет. Если бы А не имело такой доступ, то ее понимание сводилось бы к уровню В и характеризовалось бы кака дезориентированное. Этот контраст является наглядным примером мгновенной работы высшего уровня структуры знаний.

Была предложена программа под названием SAM, которая отвечает на вопросы и выдает содержание таких рассказов. Например, SAM может ответить на следующие вопросы, ответы на которые не даны в тексте, с помощью доступа к записи предполагаемых событийа , предшествующих обеду в ресторане.

Did John sit down in the restaurant ?

Did John eat the hamburger ?

Таким образом, SAM может распознать описанную ситуацию как обед в ресторане и затем предсказать оптимальное развитие событий. В нашем случае распознавание не представляло трудностей, но в большинствеа случаев оно довольно непростое и является самой важной частью теории.

Рассмотрим другой пример :

C He plunked down $5 at the window.

She tried to give him $ 2.50, but he wouldnТt take it.

So when they got inside, she bought him a large bag of

Он интересен тема , что у большинства людей он вызывает цикл повторяющихся неправильных или незаконченныха распознаваний и реинтерпретаций.

В случаях с многозначными словами многозначность разрешается с помощью активизированного ранее фрейма. Для этих целей необходимо создать лексикон к каждому фрейму. Когда фрейм активизируется, соответствующему лексикону отдается предпочтение при поиске соответствующего значения слова. В контексте ТФ это распознавание процессов, контролируемых фреймами, которые, в свою очередь, контролируют распознавание входящей информации. Иногда это называется процессом сверху - вниз фреймодвижущего распознавания.

Применение этих процессов нашло свое отражение в программе FRAMP, которая может суммировать газетные сводки и классифицировать их в соответствие с классом событий, например терроризм или землетрясения. Эта программа хранит набор объектов, которые должны быть описаны в каждой разновидности текстов, и этот набор помогает процессу распознавания описываемых событий.

Манипуляция фреймами

Детали спецификации Ф и их репрезентации могут быть опущены, така же как и алгоритмы их манипуляции, потому что они не играют большой роли в ТФ.

Такие вопросы , как размер Ф или доступ к нему , связаны с организацией памяти и не требуют специального рассмотрения.

Распознавание

В литературе имеется много рассуждений по поводу процессов, касающихся распознавания фреймов и доступа к структуре знаний высшего уровня. Несмотря на то, что люди могут распознать фрейм без особых силийа , для компьютера в большинстве случаев это довольно сложная задача. Поэтому вопросы распознавания фреймов остаются открытыми и трудными для решения с помощью ИИ.

Размер фрейма

Размер фрейма гораздо более тесно связан с организацией памяти , чем это кажется на первый взгляд. Это происходит потому, что в понимании человека размер фрейма определяется не столько семантическим контекстом, но и многими другими факторами. Рассмотрим фрейм визита к доктору , который складывается из подфреймов, одним из которых является комната ожидания. Таким образома мы можем сказать, что размер фрейма не зависит от семантического содержания представленного фрейм

Вышеперечисленные операции также остаются открытыми вопросами в ТФ.

Инициализационные категории

Рош предложил три уровня категорий представления знанийа : базовую , субординатную и суперординационнуюа. Например в сфере меблировки концепция кресла является примером категории основного уровня, концепция мебели - это пример суперординационнойа категории. Язык представления знаний подвержен влиянию этой таксономии и включает их как различные типы данных. В сфере человеческого общения категории основного уровня являются первейшими категориями, которые знают человек, другие же категории вытекают из них. То есть суперординационная категория - это обобщение базовой , субординатная <- это подраздел базовой категории.

апример

суперординатная идеи события

базовая события действия

субординатная действия прогулка

Каждый фрейм имеет свой определенный так называемый слот. Так, для фрейма действие слот может быть заполнен только к-л исполнителем этого действия, соседние фреймы могут наследовать этот слот.

Некоторые исследователи предположили, что случаи грамматики падежей совпадают со слотами в ТФ, и эта теория была названа теорией идентичности слота и падежа. Было предложено число таких падежей, от 8 до 20, но точное число не определено. Но если агентив полностью совпадаета со своим слотом, то остальные падежи вызвали споры. И до сих пор точно не становлено, сколько всего существует падежей.

Также вызвал трудность тот факт , что слоты не всегда могут быть переходными. Например, в соответствие с ТФ можно сказать, что фрейм одушевленный предмет может иметь слот аживой , фрейм ачеловек может иметь слот честныйа , фрейма блоха не может иметь такой слот, и он к нему никогда не перейдет.

Другими словами, связи между слотами в ТФ не являются исследованными до конца. Слоты могут передаваться, могут быть многофункциональны, но в то же время не рассматриваются как функции . Гибридные системы

СФ иногда адаптируются для построения описаний или определенийа. Был создан смешанный язык, названный KRYPTON, состоящий из фреймовых компонентова и компонентов предикатных исчислений, помогающиха делать к-л выводы с помощью терминов и предикатова. Когда активизируется фрейм, факты становятся доступными пользователю. Также существует язык Loops, который объединяет объекты, логическое программирование и процедуры.

Существуют также фреймоподобные языки, которые за исходную позицию принимают один тип данных в памяти, к-л концепцию, не две / напр фрейм и слот /, и представление этой концепции в памяти должно быть цельным.

Объектно - ориентированные языки

Параллельно с языками фреймов существуют объектно - ориентированные программные языки, которые используются для составления программ, но имеют некоторые св-ва языков фреймов, такие, как использование слотов для детальной , доскональной классификации объектов. Отличие их от языков фреймов в том, что фреймовые языки направлены на более обобщенное представление информации об объекте.

Одной из трудностей представления знаний и языка фреймов является отсутствие формальной семантики. Это затрудняет сравнение свойств представления знаний различных языков фреймов , также полное логическое объяснение языка фреймов.

Теория фреймов

Чтобы лучше понять эту теорию, рассмотрим один из примеров Минского, основанный н связи между ожиданием, ощущениема и чувством человека, когда он открывает дверь и входит в комнату. Предположим, что вы собираетесь открыть дверь и зайти в комнату незнакомого вам дома. Находясь в доме, перед тем как открыть дверь, у вас имеются определенные представления о том, что вы видите, войдя в комнату. Например, если вы видите к-л пейзаж или морской берег, поначалу вы с трудом знаете их. Затем вы будете дивлены, и в конце концов дезориентированы, так как вы не сможете объяснить поступившую информацию и связать ее с теми представлениями, которые у вас имелись до того. Также у вас возникнут затруднения с тем, чтобы предсказать дальнейший ход событий. С аналитической точки зрения это можно объяснить как активизацию фрейма комнаты в момент открывания двери и его ведущую роль в интерпретации поступающей информации. Если бы вы видели за дверью кровать, то фрейм комнаты приобрел бы более зкую форму и превратился бы во фрей кровати. Другими словами, вы бы имели доступ к наиболее специфичному фрейму из всех доступных.Возможно,б что вы используете информацию, содержащуюся в вашем фрейме комнаты для того чтобы распознать мебель, что называется процессом сверху-вниз, или в контексте теории фреймов фреймодвижущим распознаванием. Если бы вы видели пожарный гидрант, то ваши ощущения были бы аналогичны первому случаю. Психологи подметили, что распознавание объектов легче проходит в обычном контексте, чем в нестандартной обстановке. Из этого примера мы видим , что фрейм - это модель знаний, которая активизируется в определенной ситуации и служит для ее объяснения и предсказания. У Минского имелись достаточно расплывчатые идеи о самой структуре такой БД, которая могла бы выполнять подобные вещи. Он предложил систему, состоящую из связанных между собой фреймов, многие из которых состоят из одинаковых подкомпонентов, объединенных в сеть. Таким образом, в случае , когда к-л входит в дом, его ожидания контролируются операциями, входящими в сеть системы фреймов. В рассмотренном выше случае мы имеем дело с фреймовой системой для дома, и с подсистемами для двери и комнаты. Активизированные фреймы с дополнительной информацией в БД о том, что вы открываете дверь , будут служить переходом от активизированного фрейма двери к фрейму комнаты. При этом фреймы двери и комнаты будут иметь одинаковую подструктуру. Минский назвал это явление разделом терминалов и считал его важнойа частью теории фреймов.

A John

He asked the waitress for a hamburger

He paid the tip & left

B John went to a park

He asked the midget for a mouse

He picked up the box & left

Did John sit down in the restaurant ?

Did John eat the hamburger ?

Ðàññìîòðèì äðóãîé ïðèìåð :

C He plunked down $5 at the window.

She tried to give him $ 2.50, but he wouldnТt take it.

So when they got inside, she bought him a large bag of

Манипуляция фреймами

Распознавание

Размер фрейма

Вышеперечисленные операции также остаются открытыми вопросами в ТФ.

Èíèöèàëèçàöèîííûå êàòåãîðèè

апример

суперординатная идеи события

базовая события действия

асубординатная действия прогулка

Объектно - ориентированные языки

Билет 4

1. Различные наименования области прикладной лингвистики и их смысловые различия. ниверсальные прикладные проблемы.

Прикладная лингвистика - это комплексная научная дисциплина, изучающая язык в различных ситуациях его применения и разрабатывающая методы совершенствования языковых систем и языковых процессов.

Лингвистика входит в ядро складывающегося в настоящее время комплекса когнитивных наук, объединяемых по их интересу к проблемам организации, представления, обработки и использования знаний.

Синонимы ПЛ:

SYMBOL 183

Термин компьютерная лингвистика шире термина вычислительная лингвистика, так как задает общую ориентацию на использование компьютеров для решения разнообразных научных и практических задач, никак не ограничивая способы решения этих задач. Термин же вычислительная лингвистика может пониматься более зко, так как даже при широкой трактовке понятия вычисление за его пределами остаются такие стороны решения линг. задач, как, например, представление знаний, организация банков языковых данных, психолингвистические аспекты взаимодействия человека и компьютера и др. Т. о. можно считать, что термин компьютерная лингвистика (по своей внутренней форме) шире, чем вычислительная лингвистика. Английский эквивалент

SYMBOL 183

Универсальные прикладные проблемы:

SYMBOL 183

SYMBOL 183 f "Symbol" s 10 h ïðîáëåìû ÿçûêà è ïîëà (politically correct non-sexist language)

SYMBOL 183

Билет 5

1. Понятие уровня в теоретической и прикладной лингвистике

Идея уровневой организации языка получила широкое распространение в сер. 20 гг. сначала в в американской дескриптивистской лингвистике, позднее и в других направлениях, в том числе в отечественной лингвистике.

(ЛЭС) Уровни языка - некоторые части языка; подсистемы общей языковой системы, каждая из которых характеризуется совокупностью относительно однородных единиц и набором правил, регулирующих их использование и группировку в различные классы и подклассы.

Членение на уровни в рамках теоретической лингвистики:

SYMBOL 183

Уровнеобразующими свойствами обладают только те единицы языка, которые подчиняются правилам уровневой сочетаемости, т.е. обладают способностью вступать в парадигматические и синтагматические отношения только с единицами того же уровня. С единицами другого уровня единицы какого-либо уровня вступают только в иерархические отношения типа "состоит из...", "входит в...". Так фонемы могут образовать классы и сочетаться в речевой цепи только с фонемами, морфемы - с морфемами, слова - только со словами. В тоже время фонемы входят в звуковые оболочки морфем, морфемы - в слова, слова - в предложения. Группировки единиц языка внутри уровней, например. фонем (гласные и согласные), морфем (корневые, аффиксальные), слов (знаменательные. служебные и т.д.) не являются уровнеобразующими.

Уровень языка следует отличать от уровня анализа языка - фаз или этапов рассмотрения языка. В лингвистической практике онтологический уровень языка и процедурный уровень анализа (операционный) нередко смешиваются, хотя между ними нет прямого соответствия. Уровни анализа зависят от целей и задач исследования, т.е. во многом определяются точкой зрения исследователя на изучаемый объект.

(Городецкий, К проблеме семантической типологии): Уровень языка - это совокупность сходно функционирующих единиц вместе со связывающих их отношениями.

Структура языка делится на два относительно замкнутых (самостоятельных и независимых) плана: план выражения и план содержания, внутри каждого из которых различают индивидуальный набор уровней, т.е. уровни плана содержания не изоморфны уровням плана выражения (полисемия, омонимия, синонимия; русским гласным не соответствуют никакие единицы ПС).

Как и языковая структура в целом уровни правляют обеими сторонами речевой деятельности анализом и синтезом, являясь их структурной основой, однако не следует привязывать языковой уровень к конкретной процедуре анализа/синтеза. Языковой уровень - лингвистическая универсалия.

Состав уровней ПВ:

1) уровень фонемы

2) уровень морфемы

3) уровень слова

4) уровень словосочетания

5) уровень предложения

Состав уровней ПС:

1) морфо-семантический уровень (единицы - значения морфем)

2) лексико-семантический уровень (единицы - лексемы (значения слов)

Различаются в размере соответствующих формальных единиц.

Морфема - наименьший двуплановый речевой отрезок с ПС состоит

2. Автоматизированные переводные словари. Принципы построения.

С - это словарь, который при переводе некоторые операции делает за человека. Компьютерный словарь - аналог бумажного на магнитных носителях. С = ТБД с общеупотребительной лексикой. EURODICAUTOM (11, 1.200. ЛЕ), LEXIS (8, 1.500. ЛЕ).

Отличительные свойства АС:

многоязычие

SYMBOL 183

макроструктура - структура словаря:

микроструктура - структура словарной статьи

основная единица словаря

SYMBOL 183

3 главных компонента АС:

SYMBOL 183

(SYMBOL 183

SYMBOL 183

Желательно также, чтобы АС обладал:

SYMBOL 183

С не СМП, он берет на себя только работу с лексемой, оставляя человеку проблему выбора ПЭ и синтеза текста. На вход АПС поступают отдельные слова и СС, с помощью анализа которых можно получить сведения о грамм. классе слова и его грамм. форме. решить на основании этой информации проблемы омонимии и многозначность, определить синтас. функцию ПЭ в тексте невозможно, поэтому разработчики АПС таких задач перед собой и не ставят. Тем не менее индекс тематической принадлежности в какой-то мере разрешает многозначность лексики.

Словарная статья:

Ее структура и наполнение определяется назначением словаря.

Структура словарной статьи (13 зон):

1. Заголовок - основа, СС (больше всех по количеству), морфема, фрагменты текста

2. Зона лексического грамматического класса - ЛЕ по частям речи, далее - категоризация.

3. Зона морфологической информации

4. Рубрик подрубрик стиль (вся информация - в виде цифровых кодов)

5. Зона индекса надежности отражает степень общепринятости данного ПЭ:

- официальный стандарт

Б - важаемые словари

В - тетради новых терминов

Г - плавающие

6. Зона ПЭ (при нескольких ПЭ - у каждого свой номер)

7. Зона пояснительных помет - точнение значения данной ЛЕ

SYMBOL 183

8. Зона толкований (для многозначных слов и новых терминов)

9. Зона примеров потребления выполняет две функции:

SYMBOL 183

10. Зона фразеологии.

11. Составитель словарной статьи

12. Источник составления словарной статьи <-> необязательные

13. Дата составления словарной статьи

Билет 7

1. Лексикография как прикладная дисциплина. Внутренняя и внешняя типология словарей.

Лексикография - прикладная лингвистическая дисциплина, занимающаяся практикой и теорией составления словарей.

Словарь - способ организации и представления знаний. Чем полнее и адекватнее в словаре представлены знания, тем лучше словарь выполняет свою функцию.

Лексикография как научная дисциплина носит комплексный характер, но определяющей чертой лексикографии является ее прикладная направленность. Все многообразие различных типов словарей (нормативные, учебные, переводные, терминологические, идеологические, этимологические... ) получает практическую ориентацию исходя из целевой становки словаря.

Лексикография разрабатывает оптимальные средства выявления и фиксации семантических фактов определенных практических целях. Главная проблем в разработке оптимальной стратегии новых словарей - проблема обоснованности словарей как с точки зрения их состава, так и в плане адекватности подаваемой в них информации. Лексикография в широком смысле охватывает все множество инвентарей языковых единиц с приписанной им информацией того или иного рода. Наиболее богата и сложна для отражения семантическая информация.

Лексикографическая деятельность распадается на ряд этапов:

1. разработка системы требований, касающихся внешних параметров словаря (назначения, круга пользователей, инф. области...)

2. разработка системы требований, касающихся внутренней параметров словаря (единиц описания, основных свойств метаязыка. объема, структуры, видов словарной информации...)

3. формальная инвентаризация выбранных подъязыков (отбор текстов, расписывание контекстов, характеристика грамм. форм, составление предварительных словников...)

4. экспериментальные исследования семантики описываемых единиц (дистрибутивный анализ текстов, тесты с носителями языка...)

5. обобщение экспериментальных данных

6. построение дефиниций на соответствующем метаязыке и их проверка в ходе новых экспериментов

7. сбор и систематизация дополнительной информации о каждой языковой единице

8. оформление словарных статей

9. системный анализ и порядочение словарных статей

10. оформление словаря в целом, включая вспомогательные казатели.

спекты лексикографии:

SYMBOL 183

Виды информации подаваемой в словаре определяют внутреннюю типологию словарей:

I. Объекты описания:

1) формальные/ семантические

2) природа объектов (лекс.-семантический или морфо-семантический уровень; в парадигматическом или в синтагматическом аспекте)

3) статус объекта (является ли словарь нормативныма или описательным)

4) хронологический период

5) по сфере общения (подъязык)

6) степень охвата языка

II. Системные свойства

1) какая грамматическая информация дается об описываемых единицах?

2) какие стилистические пометы используются?

3) какой тип определения (дефиниции) дается?

4) включается ли экстралингвистическая информация?

5) в какой мере учитываются семантические отношения?

6) объясняется ли мотивированность описываемой единицы?

. Актуализация в языковой жизни

1) казывается ли происхождение единиц?

2) казывается ли активность единицы в языковой жизни (частотность)?

3) показывается ли реализация единиц в контексте

IY. Прагматика пользователя

1) количество входов в словарь

2) каков порядок расположения единиц в словаре (по формальному или семантическому признаку?

3) имеются ли в словаре казатели?

4) даются ли металингвитсические сведения (история изучения, разные трактовки)?

Y. Связь с другими языками

1) производится ли генетическое сопоставление единиц и их значений с родственными языками?

2) производится ли типологическое сопоставление материала неродственных языков?

Цели словаря задают внешнюю (функциональную) типологию словарей:

Òèïû ñëîâàðåé	Öåëü
ó÷åáíûå ñëîâàðè	îáó÷åíèå
ïåðåâîäíûå ñëîâàðè	ïåðåâîä
íîðìàòèâíûå ñëîâàðè	íîðìèðîâàíèå
òåðìèíîëîãè÷åñêèå ñëîâàðè	ñèñòåìàòèçàöèÿ, óòî÷íåíèå íàó÷íûõ ïîíÿòèé

Типология словарей по Ожегову:

SYMBOL 183

Типология словарей по Щербе:

SYMBOL 183

2. Автоматизированные информационно-поисковые системы: их структуры, функции, критерии оценки. Информационные языки.

ИПС предназначены для инф. обслуживания пользователей информации в заданной тематической области.

2 основные задачи АИПС:

SYMBOL 183

Из сведений о ТО. поступающих на хранение в систему формируется информационный массив (ИМ). От потребителя поступают запросы, и система ищет сведения в ИМ, Соответствующие данному запросу. Всякая поисковая операция в системе сводится к сравнению поступившего запроса с имеющимися в системе сведениями. в современных ИПС все это происходит автоматически. Для этого и запрос и сведения должны быть представлены на таком языке, который обладает смысловой однозначностью - ИПЯ.

Индексирование - перевод содержания текста, хранящегося в ИМ на ИПЯ. в результате индексирования образуется поисковый образ, у документа - ПОД, у запроса - ПОЗ.

Критерий смыслового соответствия - мера соответствия между содержанием запроса и документа, достаточная для признания данного документа релевантным данному запросу. Вводится совокупность признаков, на основании которых станавливается степень необходимого и достаточного соответствия между поисковым предписанием и поисковым образом документа, выраженными на одном и том же ИПЯ.

Результатом поисковой операции является выборка релевантных ПДов.

бстрактная ИПС - некий логико-семантический аппарат, состоящий из ИПС, правил индексирования и критерия выдачи.

В зависимости от характера сведенийа и запроса различаются документальная и фактографическая ИПС. Фактографическая ИПС не хранит документы, только факты. Документальная хранит документы. Но существует прием, позволяющий в процессе поиска определенного документа извлекать факт: В документальной системе хранится информация о содержании документа + документографическая информация (автор, год...)

выделение нужной пользователю информации осложняется двумя обстоятельствами:

SYMBOL 183

Мера соответствия документа информационной потребности называется пертенетностью.

Соответствие документа запросу называется релевантностью:

SYMBOL 183

ИПЯ - специализированный ИЯ, предназначенный для эксплицитной записи содержания документов и запросов в форме, добной для автоматического поиска.

Êëàññèôèêàöèÿ ÈÏß:

предкоординированные ИПЯ

присутствует заранее заданная классификационная схема

посткоординируемые ИПЯ

отсутствует заранее заданная классификационная схема

Òèïû êëàññèôèêàöèé

иерархическая

задает дерево знаний, например всей литературы по лингвистике

лфавитно-предметная

например, телефонный справочник

фасетная

опирается на разные аспекты описания, задается так называемая фасетная формула (Ж1 Ц2 Ф1), представляющая собой шаблон, рассматривается класс, аспект предмета

Ôàñåòíàÿ êëàññèôèêàöèÿ: ôèëüìû:

æàíð

öâåò

ôîðìàò

Æ1

Æ2

Ц1 цветной

Ц2 черно-белый

Ô1 øèðîêîôîðìàòíûé

ôàñåòíàÿ ôîðìóëà: Æ1 Ö2 Ô1

Îáùèå íåäîñòàòêè ïðåäêîîðäèíèðîâàííûõ ÈÏß:

SYMBOL 183

Ïîñòêîîðäèíèðóåìûå ÈÏß:

семантические коды

в ЛЕ в явном виде заданы парадигматические отношения

дескрипторы

оперируют монолитными СЕ, в основу положен принцип координированного индексирования, который выражается в том. что основная тема документа выражается в виде набора слов или СС, т. о документ помещается в

Семантические коды Перри и Кента (США) м.б простыми и составными, простая ЛЕ - сем. ìíîæèòåëü;

RX êîäû

ðó÷íîå èíäåêñèðîâàíèå

грамматики мешочного типа

(теоретико-множественные грамматики) задаются отношением совместного вхождения в класс, ПОД составляется вручную, ПОД -перечень ключевых слов.

позиционно-скобочные грамматики

сохранение всего исходного текста документа с явным казанием порядка следования, деления на абзацы, предложения:

сетевые грамматики

в явном виде задается смысл связи между элементами текста (Скрэгг)

ИПЯ с ПСГ:

SYMBOL 183

2. Назначение и принципы организации Субд на ПЭВМ

СУБД состоит из совокупности взаимосвязанных данных и набора программ, обеспечивающих доступ к данным и манипуляцию ими. Совокупность взаимосвязанных данных принято называть БД. [Henry F. Korth<]

Более зкое определение СУБД - набор компьютерных программ, предназначенных для создания, поддержки, и использования БД

СУБД обеспечивает доступ к данным в процессе диалога с пользователем, отвечая на его вопросы (запросы).

Выделяется три уровня абстракции, на которых можно просмотреть данные.

SYMBOL 183

Выделяют три класса моделей:

SYMBOL 183

Объектные логические модели.

Объектные логические модели описывают данные на концептуальном уровне и уровне представления. Они позволяют определять структуру и ограничения целостности. На сегодняшний день существует свыше 30 моделей этого класса. Из них самые известные:

SYMBOL 183

Модель сущность-связь - основной представитель класса объектных моделей. Она считается наиболее адекватной для архитектуры БД и наиболее распространенной.

В основе модели сущность-связь лежит представление о реальном мире как о совокупности основных объектов, называемых сущностями и связей между ними.

SYMBOL 183

БД, довлетворяющая диаграмме сущность-связь, может быть представлена в виде набора таблиц. Для каждого набора сущностей, как и для каждого набора отношений, создается отдельная таблица, которой присваивается имя соответствующего набора. В свою очередь, каждая таблица состоит из столбцов, каждый из которых имеет свое название.

Логические модели, опирающиеся на понятие записи.

Логические модели, опирающиеся на понятие записи, как и объектные логические модели, описывают данные на концептуальном уровне и уровне представления, но, в отличие от последних, эти модели определяют не только архитектуру БД, но и даюта общее описание ее реализации. Однако модели этого класса же не позволяют вводить ограничения на содержимое БД, как это делают объектные логические модели.

Самые распространенные модели:

SYMBOL 183

Реляционная модель была предложена в 1970 году Е.Ф. Коддом и на сегодняшний день является признанным лидером среди моделей своего класса. Она основана на математическом понятии отношения.

Согласно реляционной модели, общая структура данных (отношение) может быть представлена в виде таблицы, в которой каждая строка значений (кортеж) соответствует логической записи, заголовки столбцов являются названиями полей (элементов) в записях. Таким образом, данные и отношения между ними в реляционной модели представлены в виде набора таблиц, аналогичным по своей структуре таблицам модели сущность-связь.

Примеры реляционных БД: dBASE IY, FoxPro,

Наиболее уязвимой частью реляционной модели являются проблемы целостности. Для их разрешения приняты ограничения, соответствующие строгой реляционной модели. До сих пор не давалось создать СУБД полностью реляционную СУБД. Можно говорить лишь о большей или меньшей степени реляционности в отношении коммерческих СУБД. Однако для того чтобы называться реляционной СУБД должна обязательно отвечать следующим словиям:

SYMBOL 183

Сетевая модель появилась в конце 1960-х гг. Она более привязана к реализации БД, чем реляционная модель.

Сетевая БД состоит из набора записей, соединенных друг с другом при помощи ссылок (

Иерархическая модель представляет собой разновидность сетевой.

Иерархическая БД, как и сетевая, состоит из совокупности записей, соединенных между собой при помощи ссылок. Каждая запись состоит из набора полей, каждое из которых содержит ровно один параметр данных.

Основное отличие иерархической модели от сетевой заключается в способе организации записей. В иерархической модели записи организованы в виде деревьев, не произвольных графов, как в сетевой модели. Общая логическая структура иерархической БД описывается при помощи диаграммы структуры дерева (

Пример иерархической БД: ACCESS.

Физические модели данных.

Физические модели данных используются на уровне минимальной абстракции. Это самый малочисленный класс моделей. Наиболее известные из них: отождествляющая модель (

Язык определения данных.

План БД определяется набором выражений (дефиниций), написанных на специальном языке, который называется язык определения данных (ЯОД) (data definition

Результатом компиляции выражений на ЯОД является набор таблиц, хранящийся в специальном файле, который называется словарь данных (data dictionary). В словаре данных хранятся метаданные, то есть данные о данных.

Разновидностью ЯОД является язык хранения и определения данных (data

Язык манипуляции данными.

Под манипуляцией данными понимают:

SYMBOL 183

Язык манипуляции данными (ЯМД) обеспечивает пользователю доступ и манипуляцию данными. Различают два основных типа ЯМД:

SYMBOL 183

Часть ЯМД, отвечающая за выборку данных, называется языком запросов.

Запрос (

Менеджер БД - программный модуль, обеспечивающий интерфейс между данными низкого уровня, хранящимися в БД, прикладными программами и адресованными системе запросами.

Развернутая структура СУБД: СУБД состоит из модулей, каждый из которых выполняет определенную функцию. Некоторые функции СУБД могут выполняться операционной системой. Архитектура СУБД должна обеспечивать интерфейс между СУБД и операционной системой. СУБД состоит из следующих функциональных компонентов:

SYMBOL 183

Структуры данных

SYMBOL 183

Билет 9

1. Формальные модели синтаксической структуры предложения.

Динамические и статистические модели

1. Дескриптивная модель Задача - описание структуры языка

нормирование (определение всех правил синтаксических структур)

исчисление

1) Грамматика зависимостей (европейская традиция, близка к НС, один из авторов - Гладкий) - казание для каждого слова тех слов, которые ему непосредственно подчинены.

Дерево синтаксических зависимостейа есть дерево, множество злов которого служит множеством вхождений слов в предложение. Деревом называется множество, между элементами которого - злами - становлено бинарное отношение - отношение подчинения и графически изображают стрелками. идущими от подчиняющих злов к подчиненным,- такое, что:

SYMBOL 183

ДЗ (дерево зависимостей) обычно используется в описаниях языков со свободным порядком слов (в частности, русского). Стрелки ДЗ обычно помечаются символами синтаксических отношений (предикативное, определительное и т.п.).

2) Метод Са составляющие - Для описания синтаксической структуры предложения выделяются группы слов, функционирующие как отдельные синт. единицы - составляющие.

Систем составляющих <- это множество отрезков предложения которое обладает тем свойством, что каждые два входящих в него отрезка либо не пересекаются либо один из них содержится в другом.

SYMBOL 183

2. Трансформационная грамматика (Харрис, 50-е гг.) (грамматика деревьев) служит не для порождения предложений, для преобразования деревьев, интерпретируемых как деревья подчинения или деревья составляющих, например грамматика - система правил преобразования деревьев, интерпретируемых как "чистые" деревья подчинения предложений (без линейного порядка слов).

три уровня описания

1) правила НС

2) трансформационные правила

3) морфологические правила

Допущения:

SYMBOL 183

Представление синт. структуры предложения - казание ядерного типа, лежащего в основе предложения и трансформаций, которые к нему применялись, также их последовательности.

Метод явился основой порождающей грамматики Хомского.

3. Порождающая грамматика Хомского, представляющая собой порядоченную систему Г =(V,W,П,R), где V и W - непересекающиеся конечные множества - основное (терминальное) и вспомогательное (нетерминальное), П - элемент W, называемый начальным символом и R - конечное множество правил вид , где цепочки (конечные последовательности) из основных и вспомогательных символов. Множество тех цепочек из основных символов, которые выводимы в Г из ее начального символа, называют языком, порождаемым грамматикой Г и обозначают L(Г). Если все правила Г имеют вид , где <- правый и левый контексты, то Г называется грамматикой асоставляющих или грамматикой непосредственно составляющих (ГНС). Чаще всего основные символы интерпретируются как слова, вспомогательные - как символы грамматических категорий, начальный символ - как символ категории "предложение".

4. Реляционная модель

5. Аппликационная модель (Шаумяна?)

Доминационная грамматика, которая порождает множество цепочек, интерпретируемых обычно как предложения и вместе с их синтакс. структурами в виде ДЗ.

Грамматики Монтегю служат одновременно для описания синтакс. и семант. структуры предложения. В них используется сложный математико-логический аппарата (так называемая интенциональная логика).

2. Экспертные системы и их архитектура. Функции основных компонентов.

Экспертная система - это компьютерная программа, которая моделирует рассуждение человека-эксперта в определенной области, используя для этого БЗ, содержащую факты и правила об этой области и некоторую процедуру логического вывода.

Разработка ЭС - сравнительно новое направление в системах ИИ; второе название - инженерия знаний (термин ввел в 1977 Фегенбаум), сформировалась в середине 70 гг.

Раньше была цепочка: аналитик - программист - оператор - пользователь; теперь пользователь может обращаться прямо к ЭВМ (либо только через инженера по знаниям).

Ñòðóêòóðà ÝÑ:

ðàíüøå:

âõîäíûå äàííûå

ïðîãðàìì

теперь:

входные данные

интерпретатор БЗ

БЗ

Обычные программы имеют фиксированную последовательность шагов, строго определенную программистом, ЭС пользуются нахождением довлетворительного решения методом проб и ошибок.

ЭС решают трудно формализуемые задачи. не имеющие алгоритмического решения () медицина, геология, правление, юридические науки).

Попов: три причины появления ЭС:

SYMBOL 183

3 принципа разработки ЭС:

1. мощность ЭС определяется мощностью БЗ и процедурами ее пополнения, т.о. компонент приобретения знаний важнее компонента логического вывода. (Раньше большее внимание делялось лог. выводу).

2. Знание. используемое ЭС, является в основном эвристическим, экспериментальным, поэтому используется коэффициент достоверности.

3. ЭС реализуется в форме диалоговой системы.

ЭС должна обладать способностью приобретать знания.

2 источника приобретения знаний:

1) от эксперта

2) из текстов (не разработано)

ЭС решают практические задачи. не экспериментальные; решения ЭС могут быть объяснены пользователю, т.е обладают свойством прозрачности, для этого существует специальный компонент - объяснительный.

Формальная основа ЭС: базовое понятие - правило продукции или формальные процедуры системы: правила вида словие -> действие если -> то (если была разлита горючая жидкостью то вызовите пожарных).

Термин продукция ввел Пост (1943)

Свойство продукции - всякая формальная система. оперирующая символами, может быть реализована одной из продукционных систем.

Àðõèòåêòóðà ÝÑ

Ïîëüçîâàòåëü ÝÑ Îáùåíèå íà Åß	Лигвитсический компонент анализа с синтеза входных сообщений	рабочая память текущее состояние проведения экспертизы	îáúÿñíèòåëüíûé êîìïîíåíò

			èíòåðïðåòàòîð

			êîìïîíåíò ïðèîáðåòåíèÿ çíàíèé

			ÁÇ

SYMBOL 183

2 режима работы ЭС:

SYMBOL 183

Типы ЭС:

SYMBOL 183

Примеры ЭС

две старейшие ЭС:

DENDRAL (химическая тематика, определяет структуру хим. элементов)

MAXIMA (решение мат. задач)

Система FOBS

Санджай, Чадна и др., "Использование известных ситуаций (

Билет 10

1. Типы экспериментальных методов в лингвистике

Экспериментальные методы в лингвистике - это методы, позволяющие изучать факты языка в словиях. правляемых и контролируемых исследователем. Философской основой применения экспериментальных методов в лингвистике является тезис о единстве теоретического и эмпирического уровней познания.

В современной лингвистике термин "экспериментальный метод" не является четким; лингвисты часто говорят об эксперименте там, где имеет место наблюдение, прежде всего наблюдение над текстами (письменными и устными). Существенно. что текст как таковой, будучи данностью не может быть объектом ЭМ; именно поэтому ЭМ не применимы к изучению истории языка, особенностей стиля автора и т.п. в этих случаях следует говорить о наблюдении. Объектом ЭМ является человек - носитель языка, порождающий текст, воспринимающий тексты и выступающий как информант для исследователя. в лингвистическом эксперименте исследователь может иметь в качестве подобного объекта самого себя или других носителей языка; в первом случае следует говорить об интроспекции, во втором - об объективном эксперименте.

Экспериментальная работа с информантами (нередко в сочетании с наблюдением) непосредственно в среде носителей языка называется обычно полевой лингвистикой.

Историю применения ЭМ в лингвистике можно разделить на три периода:

1. Активное освоение ЭМ в фонетике, акцент на сходстве ЭМ в лингвистике и точных науках (труды Богородицкого, Щербы, Матусевича)

2. Осознание ЭМ в лингвистике как важнейшего способа получения данных о живом языке вообще, включая его морфологию. синтаксис, семантику, также проблемы языковой нормы, языкового общения, патологий речевого развития и т.д. эта научная программа была впервые сформулирована Щербой ("О трояком аспекте языковых явлений и об эксперименте в языкознании")

3. Реализация казанной научной программы, и как следствие глублении методологических разработок (Апресян, Фрумкина). В социолингвистике и психолигвистике ЭМ занимают доминирующие место.

Последовательное применение ЭМ в исследовании языка и речевых процессов сделало необходимым использование статистических методов при планировании эксперимента и обработке результатов (лингв. статистика). существенно. что лигвист, изучающий речевое поведение человека, имеет дело с объектом, равным ему самому по сложности. В силу этого отношение исследователь - объект в лингвистике превращается в симметричное отношение между двумя исследователями: информант может иметь свою теорию об экспериментаторе и соответственно изменять свое поведение в процессе эксперимента, что может негативно повлиять на результаты Э. Особой сферой использования ЭМ являются машинные эксперименты, проверяющие адекватность формализованных действующих моделей языка.

Процесс Э:

SYMBOL 183

Цель Э - проверка гипотез. Человек не должен знать целевую становку экспериментатора.

Типы экспериментов:

SYMBOL 183

Типы методов (по количеству информантов):

SYMBOL 183

(Хофман) Экспериментальные методы в семантике:

SYMBOL 183

2. Эволюция систем автоматизированного перевода.

1947 г. <- Memorandum

1954 г. <- Джорджтаунский эксперимент (Массачусетс)

Типы систем:

SYMBOL 183

Три поколения СМП (условная классификация, Марчук не признавал деления на поколения):

I поколение:

SYMBOL 183

II поколение (SYSTRAN, АМПАК, Georgetown System, ):

SYMBOL 183

поколение (ЭТАП-1 (350 слов), ЭТАП-2 (4 слов), модель "Смысл-текст", Апресян):

SYMBOL 183

Марчук "Проблемы МП" - 3 периода, Слокум "Обзор разработок по МП":

1. 1946 - 1957

SYMBOL 183

2. 1957 - 1967

SYMBOL 183

3. 1967 - настоящее время

SYMBOL 183

Развитие МП происходило согласно гегелевской триаде - тезис, антитезис, синтез.

ÑÌÏ

ÀÑ

ÒÁÄ

SYSTRAN (1070, автор -

НРАП (ВЦП), СПРИТа

EURODICAUTOM (1.200. çàãîëîâêîâ)

LEXISа а(1.500.)

SIEMENSа (1.500.)

TERMIUM (> 2 ìëí.)

Билет 11

1. Общенаучный метод моделирования и специфика его применения в лингвистике

Метод моделирования центральный исследовательский метод в науке.

Моделирование в науке - это выяснение свойств какого-либо предмета при помощи построения его модели.

Моделью можно назвать образ какого-либо объекта, используемый в определенных словиях в качестве его заместителя (фотография в паспорте - модель человека).

Свойства моделей:

SYMBOL 183

Модель в лингвистике - искусственно создаваемое лингвистом реальное или мысленное стройство, воспроизводящее, имитирующее своим поведением (обычно в прощенном виде) поведение оригинала в лингвистических целях.

Собственно лингвитсические модели:

SYMBOL 183

Лингвистическое моделирование необходимо предполагает использование абстракции и идеализации. Отображая релевантные существенные (с точки зрения исследования) свойства оригинала и отвлекаясь от несущественных, модель выступает как некоторый абстрактный идеализированный объект. Всякая модель строится на основе гипотезы о возможном стройстве оригинала и представляет собой функциональный аналог оригинала. что позволяет переносить знания с модели на оригинал. Критерием адекватности модели является эксперимент.

В идеале модель должна быть формальной (т.е. в ней должны быть в явном виде и однозначно заданы исходные объекты, связывающие их отношения и правила обращения с ними) и обладать объяснительной силой (т.е. не только объяснять факты или данные экспериментов, необъяснимые с точки зрения же существующей теории, но и предсказывать неизвестное раньше, хотя и принципиально возможное поведение оригинала, которое позднее должно подтверждаться данными наблюдения или экспериментов).

Понятие лингвистической модели возникло в структурной лингвистике, но вошло в научный обихода в 60-70 гг. 20 в. с возникновением мат. лингвистики и проникновением в лингвистику мат. методов.

Содержание термина "модель" в современной лингвистике в значительной степени охватывалось ранее термином "теория" (особенно Ельмслевым). Считается, что наименования модель заслуживает лишь такая теория. которая достаточно эксплицитно изложена и в достаточной степени формализована (в идеале каждая модель должна допускать реализацию на ЭВМ).

Контруирование модели - не только одно из средств отображения языковых явлений, но и объективный практический критерий проверки истинности знаний о языке. В единстве с другими методами изучения языка моделирование выступает как средство глубления познания скрытых механизмов речевой деятельности, его движения от относительно примитивных к более содержательным моделям, полнее раскрывающим сущность языка.

Внутри языка как системы существует принцип моделирования: одни его подсистемы моделируют другие, например, система письменной речи является моделью стной речи; внутри письменной речи мы имеем дело с несколькими моделями (печатной, рукописной); план выражения является моделью плана содержания.

Метод моделирования обычно опирается на знаковые систем, но язык - сам знаковая система, т.е. слова мы моделируем при помощи слов.

Главная цель моделирования в лингвистике - это моделирование целостной языковой способности человека.

Синтез речи.

1 Ограничения на синтез речи.

Cуществуют различные методы синтеза речи. Выбор того или иного метода определяется различными ограничениями. Рассмотрим те 4 вида ограничений, которые влияют на выбор метода синтеза.

Задача.

Возможности синтезированной речи зависят от того, в какой области она будет применятся. Когда необходимо произносить ограниченное число фраз ( и их произнесение линейно не меняется ), необходимый речевой материал просто записывается на пленку. С другой стороны, если задача состоит в стимулировании познавательного процесса при чтении вслух, используется совершенно другой ряд методик.

Голосовой аппарат человека.

Все системы синтеза речи должны производить на выходе какую-то речевую волну, но это не произвольный сигнал. Чтобы получить речевую волну определенного качества, сигнал должен пройти путь от источника в речевом тракте, который возбуждает действие артикуляторных органов, которые действуют как изменяющиеся во времени фильтры. Артикуляторные органы также накладывают ограничения на скорость изменения сигнала. Они также имеют функцию сглаживания: гладкого сцепления отдельных базовых фонетических единиц в сложный речевой поток.

Структура языка.

Ряд возможных звуковых сочетаний опредляется природой той или иной языковой структуры. Было обнаружено, что еденицы и структуры, используемые лингвистами для описания и объяснения языка, могута также использоваться для характеристики и построения речевой волны. Таким образом, при построении выходной речевой волны используются основные фонологические законы, правила дарения, морфологические и синтаксические структуры, фонотактические ограничения.

Технология.

Возможности спешно моделировать и создавать стройства для синтеза речи в сильной степени зависят от состояния технико-технологической стороны дела. Речевая наука сделала большой шаг вперед благодаря появлению различных технолоний, в том числе: рентгенография, кинематография, теория фильтров и спектров, главным образом - цифровые компьютеры. С приходом интегральных сетевых технологий с постоянно возрастающими возможностями стало возсожно построение мощных, компактных, недорогих стройств, действующих в реальном времени. Этот факт, вместе с основательными знаниями алгоритмов синтеза речи, стимулировал дальнейшее развитие систем синтеза речи и переход их в практическую жизнь, где они находят широкое применение.

2 Методы синтеза.

Различные подходы могут быть сгруппированы по областям их применения, по сложности их воплощения.

Синтезаторы делят на два типа: с ограниченным и неограниченным словарем. В стройствах с ограниченным словарем речь хранится в виде слов и предложений, которые выводятся в определенной последовательности при синтезе речевого сообщения. Речевые единицы, используемые в синтезаторах подобного типа, произносятся диктором заранее, затем преобразуются в цифровую форму, что достигается с помощью различных методов кодирования, позволяющих компрессировать речевую информацию и хранить ее в памяти синтезирующего стройства. Существует несколько методов записи и компоновки речи.

Волновой метод кодирования.

Самый легкий путь - просто записать материал на пленку и по необходимости проигрывать. Этот способ обеспечивает высокое качество синтезируемой речи, т.к. позволяет воспроизводить форму естественного речевого сигнала. Однако этот путь синтеза не позволяет реализовать построение новой фразы, т.к. не предусматривает обращение к различным ячейкам памяти и вызов из памяти нужных слов. В зависимости от используемой технологии этот способ может представлять задержки в доступе и иметь ограничения, связанные с возможностями записи. Никаких знаний об стройстве речевого тракта и структуре языка не требуется. Единственно серьезное ограничение в данном случае имеет объем памяти. Существуют способы кодирования речевого сигнала в цифровой форме, позволяющие в несколько раз плотнять информацию: простая модуляция данных, импульсно-кодовая модуляция, адаптивная дельтовая модуляция, адаптивное предиктивное кодирование. Данные способы могут уменьшить скорость передачи данных от 50кбит/сек (нормальный вариант) до 10кбит/сек, в то время как качество речи сохраняется. Естественно, сложность операций кодирования и декодирования величивается со снижением числа бит в секунду. Такие системы хороши, когда словарь сообщений небольшой и фиксированный. В случае же, когда требуется соединить сообщения в более длинное, сгенерировть высококачественную речь трудно, т.к. значения параметров речевой волны нельзя изменить, они могут не подойти в новом контексте. Во всех системах синтеза речи станавливается некоторый компромисс между качеством речи и гибкостью системы. величение гибкости неизбежно ведет к сложнению вычислений.

Параметрическое представление.

С целью дальнейшего уменьшения требуемой памяти для хранения и обеспечения необходимой гибкости было разработано несколько способов, которые абстрагируются от речевой волны как таковой, представляют ее в виде набора параметров. Эти параметры отражают наиболее характерную информацию либо во временной, либо в частотной области. Например, речевая волна может быть сформирована сложением отдельных гармоник заданной высоты и заданными спектральными выступами на данной частоте. Альтернативный путь состоит в том, чтобы форму речевого тракта описать в терминах акустики и искусственным путем создать набор резонансов. Этот метод синтеза экономичнее волнового, т.к. требует значительно меньшего объема памяти, но при этом он требует больше вычислений, чтобы воспроизвести исходный речевой сигнал. Данный способ дает возможность манипулировать теми параметрами, которые отвечают за качество речи (значение формант, ширина полос, частота основного тона, амплитуда сигнала). Это дает возможность склеивать сигналы, так что переходы на границах совершенно не заметны. Изменения таких параметров как частота основного тона на протяжении всего сообщения дают возможность существенно изменять интонацию и временные характеристики сообщения. Наиболее популярным в наст.вр. методами кодирования в стройствах, использующиха параметрическое представление сигналов, является метод, основанный на формантных резонансах и метод линейного предсказания (LPC -

Синтез по правилам.

Описанные выше методы синтеза ориентированы на такие речевые единицы, как слова, предварительно введенные в стройство с голоса диктора. Данный принцип лежит в основе функционирования синтезаторов с ограниченным словарем. В синтезаторах с неограниченным словарем элементами речи являются фонемы или слоги, поэтому в них применяется метод синтеза по правилам, не простая компоновка. Данный метод весьма перспективен, т.к. обеспечивает работу с любым необходимым словарем, однако качество речи значительно ниже, чем при использовании метода компоновки.

При синтезе речи по правилам также используются волновой и параметрический методы кодирования, но же на уровне слогов.

Метод параметрического представления требует компромисса между качеством речи и возможностью изменять параметры. Исследователи обнаружили, что для синтеза речи высокого качества необходимо иметь несколько различных произношений единицы синтеза (например, слога), что ведет к увеличению словаря исходных единиц без каких бы то ни было сведений о контекстной ситуации, оправдывающей тот или иной выбор. По этой причине процесс синтеза получает еще более абстрактный характер и переходит от параметрического представления к разработке набора правил, по которым вычисляются необходимые параметры на основе вводного фонетического описания.Это вводное представление содержит само по себе мало информации. Это обычно имена фонетических сегментов ( напр, гласные и согласные) со знаками дарения, обозначениями тона и временных характеристик. Таким образом, метод синтеза по правилам использует малоинформационное описание на входе ( менее 100 бит/сек). Этот метод дает полную свободу моделирования параметров, но необходимо подчеркнуть, что правила моделирования несовеншенны. Синтезированная речь хуже натуральной, тем не менее, она довлетворяет тестам по разборчивости и понятности. На уровне предложения и параграфа правила предоставляют необходимую степень свободы для создания плавного речевого потока.

3 Конвертация текста в речь.

Синтез по правилам требует детального фонетического транскрибирования на входе. Хотя для запоминания этой информации требуется мало памяти, чтобы извлечь из нее необходимые параметры, необходимы знания эксперта. Для конвертации неограниченного английского текста в речь необходимо сначала пронализировать его с целью получения транскрипции, которая затем синтезируется в выходную речевую волну. Анализ текста по своей природе задача лингвистическая и включает в себя определение базовых фонетических, слоговых, морфемных и синтакисическмих форм, плюс - вычленение семантической и прагматической информации. Системы конвертации текста в речь являются наиболее комплексными системами синтеза речи, включающие в себя знания об стройстве речевого аппарата человека, лингвистической структуре языка, также которые должны учитывать ограничения, накладываемые областью применения системы, технико-технологической базой. Необходимо заметить, что и текст и речь являются поверхностными представлениями базовых лингвистических форм, поэтому задача преобразования текста в речь состоит в выявлении этих базовых форм, затем в воплощении их в речи.

4 Система преобразования текста в речь MITalk.

На примере этой системы проиллюстрируем сильные и слабые стороны коммерческих версий. Разработка системы началась в конце 60-х гг. Изначально предполагалось разработать читающую машину для слепых, но система MITalk может применяться в любых ситуациях, где необходимо преобразовать текст в речь. Система имеет блок морфологического анализа, правила преобразования буква-звук, правила лексического дарения, просодический и фонематический синтез.

5 Анализ текста

Преобразование символов в стандартную форму.

В самых различных текстах можно обнаружить символы и аббревиатуры, которые не принадлежат к категории " правильно образованных слов". Такие символы как "%" и "&", аббревиатуры типа "Mr" и "Nov" должны быть преобразованы в нормальную форму. Были разработаны подробные руководства по транскрибированию чисел, дат, сум денег. Иногда возникают двусмысленные ситуации, такие как, например, использование знака дефиса в конце строки. Человек в таких случаях, чтобы определить подходящее произношение, обращается к контексту и к практическим знаниям, которые не поддаются алгоритмизации.

Морфологический анализ

В вводном тексте границы слов легко определяются. Можно хранить произношение всех английских слов. Размер словаря будет большим, но в таком подходе есть несколько привлекательных сторон. Во-первых, в любом случае необходим словарь слов, произношение которых является исключением из общих правил. Такими являются, например, заимствованные слова (

Правила "буква-звук" и лексическое дарение

В системе MITalk нормализованный вводный текст подвергается морфологическому анализу. Может быть, что целое слово есть в словаре морфов, как, например, слово "

Второй этап состоит в преобразовании согласных в фонетические значки, начиная с наиболее длинного согласного кластера до тех пор, пока все отдельные согласные не будут преобразованы. Последний этап - оставшиеся гласные преобразуются при помощи контекстов. Гласные преобразуются последними, потому что это наиболее трудная задача, зависящая от контекста. Например, гласный кластер /

В системе MITalk правила преобразования букв в звуки действуют в паре с широким набором правил расстановки лексического дарения. Еще 25 лет назад лингвистам не давалось обнаружить никакой системы расстановки дарений в английских словах. В Настоящее время разработан ряд правил, эффективно справляющихся с этой задачей. Ударения зависят от синтаксической роли слова, например, прилагательное "

В системе MITalk разработаны несколько наборов таких правил, некоторые из которых включают в себя до 600 правил. Конечно, большинство из них потребляются довольно редко. Подразумеваются, что все сильные и неправильные формы преобразуются на стадии морфологического анализа. Правила же "буква-звук" используются для преобразования новых и неправильно написанных слов. Например, слово "recieved" получает правильную транскрипцию, благодаря этим правилам преобразования.

Парсинг.

Каждая схема преобразования неограниченного текста в речь должна включать синтаксический анализ. Необходимо определить синтаксическую роль слова, т.к. она часто влияет на произношение и дарение. Кроме того синтаксический анализ важен для определения правильного тонального контура и временных характеристик. Просодические характеристики важны для синтеза речи, чтобы она звучала живо и естественно. К сожалению, полный синтаксический анализ на уровне сложного предложения (

В английском языке существует ряд синтагматических маркеров, по которым можно формально разграничить фразы: это вспомогательные глаголы, детерминативы в номинативных фразах. Система MITalk широко использует это и проводит высокоточный грамматический анализа (

Модификация ударения и фонологические точнения.

Последняя фаза анализа состоит в некоторых незначительных поправках к имеющейся же фонетической транскрипции на основе анализа контекстного окружения. Простой пример определения произношения артикля "

6 Синтез.

Важно осознать, что в системе MITalk не используются готовые речевые волны даже в параметрическом представлении. Система не хранит параметрические представления множества морфов или слов. Вместо этого были разработаны правила контроля параметров, так что можно реализовать любую желаемую речевую волну на выходе.

Просодическая рамка.

Первый шаг в создании выходной речевой волны - создание временного контура и частоты основного тона ( основные корреляты интонации ), на основе которых строится детальная артикуляция отдельных фонетических элементов. Распределение дарения, которое было вычислено на стадии анализа, во многом ответственно за контур временного распределения и тональный контур. Часто интенсивность принимают за коррелят дарения, тогда как главными ключами являются длительность и изменения в тональном контуре. Согласные мало меняются по длительности, в то время как гласные более пластичны и могут легко сжиматься или растягиваться. Существует также тенденция растягивать слова на границе основных абзацев предложения, и наоборот, сжимать интервалы на относительно невыделенных участках. Кроме того, на основе временной рамки задается частота основного тона (или тональный контур). В твердительных предложениях обычно высота тона резко поднимается на первом дарном слоге, затем плавно снижается до последнего ударного слога, где она резко падает. Вопросительные и повелительные предложения имеют различные тональные контуры. Кроме целостного контура предложения существуют еще локальные дарения. Большее дарение получают слова, выражающие отрицание или сомнение ( например, слово

Синтез фонетических сегментов.

Когда завершено создание просодической рамки, создаются параметры, соответствующие модели речевого тракта. Обычно таких параметров 25, которые изменяются с интервалом 5 - 10 мсек. В настоящее время используются около 100 контекстных правил описания траектории изменения параметров. Когда значения параметров вычислены, они должны быть перенесены на соответствующую модель речевого тракта (обычно это формантная модель или LPC<-модель). Выходная дискретная модель создается обычно на частоте 10 Кгц.

7 Оценка синтетической речи.

С точки зрения понятности, разборчивости качество синтезированной речи достаточно хорошее. Был проведен тест, где одна группа испытуемых прослушивала синтезированную речь с письменным вариантом перед глазами, другая - без. Выяснилось, что результаты прослушивания мало отличаются друг от друга. Тем не менее, синтезированной речи не хватает живости и естественности, поэтому воспринимать ее на протяжении длительного времени трудно. Исследования показали, что фрикативные и назальные звуки требуют дальнейшего лучшения качества.

Билет 12

1. Типы лингвистических моделей; основные требования к ним и критерии их оценки.

Типы лингвистических моделей:

1. по охвату структуры языка:

SYMBOL 183

2. по типологическому статусу:

SYMBOL 183

3. по гносеологическому статусу:

SYMBOL 183

4. по отраженному аспекту языка и речевой деятельности:

Модели различаются не только по направленности на определенный объект, но и по используемым средствам моделирования (алгоритму или исчислению)

лгоритм - строгая последовательность предписывающих правил

Исчисление <- множество разрешающих правил (порядок выполнения не важен)

SYMBOL 183

; не служат выражением смысла; на выходе - цепочки элементов (грамм. правильных предложений)

SYMBOL 183

5. по конечной цели исследования

SYMBOL 183

6. по используемым методам

SYMBOL 183

7. по функциональному статусу

SYMBOL 183

8. по используемым материальным средствам

SYMBOL 183

Частная модель обычно входит в набор частных моделей, описывающий определенный уровень языка:

1. фонологический уровень

2. морфологический уровень

3. синтаксический

4. лексико-семантический

Основные теоретические требования к модели:

1. полнота модели - способность отражать все факты, на которые она рассчитана, на охват которых она претендует

2. простота - добство, использования как можно меньшего числа средств (символов, правил) для достижения поставленной научной цели

3. объяснительная сила - способность модели вскрывать причины наблюдаемых фактов и предсказывать новые факты (например. модели исторического изменения слова; системы машинного перевода в очень малой степени объяснительные)

4. адекватность - свойство максимальной похожести на моделируемый объект, на оригинал, можно свести к объяснительной силе или теоретико-множественному соответствию

5. экономность - экономичное использование энергетических и временных ресурсов при применении модели

6. точность - возможность выполнения операций представляемым моделью формальным аппаратом

7. эстетические свойства - красота модели

Прикладные критерий: главное - добство модели. Для моделирования языка очень важны логические средства реализации модели (компьютерное воплощение модели).

Расширенная сеть переходов. Расширенная сеть переходов была разработана Бобровым (Bobrow), Фрейзером (Fraser) и во многом Вудсом (Woods) как продолжение идей синтаксического анализа и свободно-контекстных грамматик в частности. Она представляет собой узлы и направленные стрелки, Урасширенные (т.е. дополненные) рядом тестов (правил), на основании которых выбирается путь для дальнейшего анализа. Промежуточные результаты записываются в ячейки (регистры). Ниже приводится пример такой сети, позволяющей анализировать простые предложения всех типов (включая пассив), состоящие из подлежащего, сказуемого и прямого дополнения, таких, как The rabbit

Разберем алгоритм работы сети на вышеприведенном примере. Анализ начинается слева, т. е. с первого слова в предложении. Словосочетание

Расширенная сеть переходов имеет свои недостатки:

Билет 13

1. Метаязыки формального описания семантических структур.

Семантические метаязыки различаются:

по объекту, который они описывают (морфема, лексема, словосочетание, предложение, текст в целом).

по аспекту языковой структуры, который они отражают: (парадигматический аспект

синтагматический аспект)

Сходимость МЯ - возможность переводить с одного МЯ на другой.

По описываемому объекту:

1. значение морфем МЯ

SYMBOL 183

2. значение лексем исследуется

в синтагматичсеком аспекте - сочетаемость лексем:

SYMBOL 183

в парадигматическом аспекте:

SYMBOL 183

3. значение словосочетаний исследуется

в парадигматическом аспекте при помощи тех же МЯ описания, что и лексемы,

в синтагматическом плане:

SYMBOL 183

4. значение предложения

в парадигматическом аспекте:

SYMBOL 183

5. значение текста в целом

в парадигматическом аспекте используются такие макроструктуры, как сценарии. фреймы, планы, сцены,

фрейм - базовая структура представления знаний

сценарий динамический - набор фреймов, развертывающийся во времени.

SYMBOL 183

Чейф: - теория организации памяти

три вида памяти:

поверхностная (

кратковременная (

долговременная (deep)

иерархия событий -> иерархия событий различной личностной значимости

личностная зависимость

понятие текущего сознания (

SYMBOL 183

6. процессы

SYMBOL 183

Роджер Шенк: знания не могут быть истолкованы в лингвистических терминах -> язык концептуальных зависимостей:

Шенком была постулирована независимость языкового представления от ЕЯ, тем не менее язык КЗ оказался привязан к поверхностному синтаксису английского языка. Каждое высказывание запускает цепочку концептуальных выводов (

Модель SAM (Script Applying Mechanism) является компьютерной программой, которая позволяет понимать связность текста за счет применения сценариев:

SYMBOL 183

Категории, встречающиеся у Шенка:

SYMBOL 183

Уилкс, "Анализ предложений английского языка": вводит единую форму представления - шаблон (

SYMBOL 183

2. Гипертекстовые системы

Гипертекст - это текст. смысловые элементы которого могут читаться в разной последовательности.

Последовательность чтения - произвольная. Между текстовыми фрагментами казаны разрешенные переходы. Как правило, от одного фрагмента можно перейти к нескольким другим. Читать можно с любого элемента в разных направлениях. Компьютеры позволяют мгновенно переходить от одного фрагмента текста к другому, что позволяет читать нелинейные так же легко, как линейные.

Гипертекст - компьютаризованный нелинейный текст. Нельсон и Энгельбарт впервые реализовали ГТ в конце 60 гг.

Особенности Та по сравнению с традиционными нелинейными текстами (текст с комментариями, ссылками, энциклопедия):

1. явная выраженность сетевой структуры: злы (текстовые фрагменты) и связи (возможность перехода от одного ТФ к другому -> навигация). Связь может быть однонаправленной от фрагмента к комментарию или двунаправленной между двумя фрагментами. Связь может носить иерархический характер - от общего к целому.

Пользовательский интерфейс:

SYMBOL 183

2. открытость гипертекста (для включения новых ФТ, читатель может выступать совтором)

Пример ГТ: изобразительная и звуковая система Гипермеди (комплексное использование информации разной природы, синтез разных искусств)

Динамический ГТ постоянно дополняется новыми текстовыми фрагментами (необходимо находить связи для поступающих извне ФТ)

ГТ - сама форма организации материала и технология, без которой невозможна его организация. Гт - накопление информации в БД, доступ к данным - через запросы. связь важна для пользователя, поэтому в БД ГТ системы нет заранее становленных связей. Выдача информации - воспроизведение фрагментов сетей, сформированных к этому моменту в БД. выдаются отд. злы и участки сети в графической форме вместе с маршрутами движения. В ГТ сети можно легко отражать идеи частников проекта, для дальнейшего изучения их в интерактивном режиме сразу несколькими частниками.

4 вида ГТС (обзор Конилина):

1. библиотечные макросистемы (шире, чем поиск литературы) XANADU, Нельсон система хранения и актуализации информации), TEXTNET (принцип динамического порядочения, перечень злов)

2. средства исследования проблем: IBIS, Риштель (аспекты, позиции, аргументы); ; JOG (изучение справочной энциклопедической литературы, выведение страниц)

3. системы для просмотра БД (подобны библиотечным. но меньше, служат для получения справочных данных) Browsing Systems, WE среда нужна для описания системы просмотра, легкость доступа, добавление новой информации не разрешено

4. системы широкого назначения (экспериментирование в разл. направлениях): INTERMEDIA фирмы XEROX

Билет 14

1. Автоматизация анализа письменного текста: основные подходы к решению проблемы.

Существует 2 основные стратегии решения проблемы:

1. модульный подход - последовательный анализ по уровням (морфологический, синтаксический, семантический, прагматический)

2. интегральный подход (более современный и более адекватный, Р. Шенк)

1. Ñèñòåìû ìîäóëüíîãî òèïà (Ëåîíòüåâà):

ìîäóëü ìîðôîëîãè÷åñêîãî àíàëèçà	-> ïîëíîå ìîðô. ïðåäñòàâëåíèå
ìîäóëü ñèíòàêñè÷åñêîãî àíàëèçà	-> ïîëíîå ñèíò.ïðåäñòàâëåíèå
ìîäóëü ñåìàíòè÷åñêîãî àíàëèçà	-> ÷àñòè÷íîå (ôðàãìåíòàðíîå) ïðåäñòàâë.
прагматический анализ (пока не реализован)

Для широких ПО может быть использован в нескольких системах:

SYMBOL 183

2. Ñèñòåìû èíòåãðàëüíîãî òèïà

Êîíöåïòóàëüíûé àíàëèç	->	ôðàãìåíòàðíûå êîíöåïòóàëüíûå ïðåäñòàâëåíèÿ:
ìîðô.àíàëèç	ñèíò.àíàëèç	ñåì. àíàëèç	ñöåíàðèè, ôðåéìû. ïëàíû.

SYMBOL 183 f "Symbol" s 10 h Èùåò â òåêñòå äèàãíîñòè÷åñêèå ñëîâà

SYMBOL 183

Пример: интегральная система анализа Шенка:

1. MARGE (Memory Response Generation in English) - îáðàáîòêà êîíöåïòóàëüíîé èíôîðìàöèè. В основе лежит теория концептуальных зависимостей - комплексная теория человеческого мышления.

Работает в двух режимах:

SYMBOL 183

2. Модель SAM (Script Applying Mechanism) является компьютерной программой, которая позволяет понимать связность текста за счет применения сценариев:

SYMBOL 183

2. Терминологические банки данных: структуры, функции, методы построения.

ТБД - автоматизированная система инвентаризации и машинного представления терминологической лексики и ее семантизации в системах машинного и человеко-машинного речевого общения. Это единая служба с добным доступом, описывающая все сведения о термине и ликвидирующая неравномерность описания терминологии.

Научные задачи:

SYMBOL 183

Типы традиционного использования ТБД:

SYMBOL 183

Организационная структура ТБД:

SYMBOL 183

Функциональная структура ТБД:

1. Головной ТБД - справочно-поисковый аппарата по видовым банкам данных:

SYMBOL 183

2. Специализированные ТБД (сбор, хранение, обработка информации), могут включать существующие ТБД, словарно-терминологические службы НТИ:

отбор представительного массива источников

ввод и обновление терминологической информации в БД

передача информации другим СТБД и ГТБД

эксплуатация СТБД в соответствии с конкретными задачами организации.

ТБД состоит из ряда массивов, которые называются подфондами.

Подфонды - массивы терминов, которые создаются и хранятся в центральном органе МФРЯ (Машинный фонд РЯ) на базе массивов первичного типа.

Подфонды:

специальных и межотраслевых терминов, фигурирующих в отдельных отраслях знаний и деятельности

общенаучных и общетехнических терминов

терминоэлементов (используются в нескольких терминосистемах).

3. Примеры оформления сложных документов (сноски, газетная верстка, колонтитулы и т. д) в MS Word 5.0.

Сноски:

1. курсор на месте символа ссылки на сноску

2. Format, Footnote

3. в поле reference

5. ввести текст сноски (до нескольких абзацев)

перемещение между сноской и текстом: Jump Footnote

использование окна сносок: Esc W S F

переход из окна в окно: F1

местоположение сносок:

SYMBOL 183

SYMBOL 183 f "Symbol" s 10 h Format Division Layout: same page, end

Ãàçåòíàÿ âåðñòêà:

êîëîíêè:

1. Options: Show Layout Yes èëè Alt-F4

2. Esc Format Division Layout

колонтитулы:

1. курсор в начало документа

2. ввести текст +

3. курсор внутрь текста или выделить текст

4. Esc Format Running Head: Position:

Top Bottom None Odd Even First Alignment: left margin Edge-of-paper

Быстрое создание колонтитулов:

1-3 - то же самое

4. верхнийа колонтитул: Ctrl<+F2

нижний колонтитул: Alt<+F2

На каждой странице может быть не более двух колонтитулов: верхний и нижний

Выравнивание колонтитулов: Format

Вывод номера страницы/даты:

1. курсор в то место колонтитула, где будет страница.

2. íàáðàòü page/date

3. F3