Читайте данную работу прямо на сайте или скачайте

Лингвистика

Билет 1

1. Сущность прикладной лингвистики как особого подхода к языковым явлениям. Характерные черты прикладных методик.

В языкознании всегда присутствовали три глобальных исследовательских направления:

SYMBOL 183 f "Symbol" s 10 hа теоретическое (объяснение языковых систем и процессов)

SYMBOL 183 f "Symbol" s 10 hа описательное (конкретное описание языковых явлений)

SYMBOL 183 f "Symbol" s 10 hа прикладное (совершенствование языковой системы).

В рамках последнего направления сформировалась научная дисциплина, которая получила название прикладной лингвистики. Ее отличает подход к языку как к деятельности, не мертвому продукту.

Прикладная лингвистика

SYMBOL 183 f "Symbol" s 10 hа это комплексная научная дисциплина, изучающая язык в различных ситуациях его применения и разрабатывающая методы совершенствования языковых систем и языковых процессов.

SYMBOL 183 f "Symbol" s 10 hа чение о методах решения разнообразных практических задач с использованием знаний о языке

SYMBOL 183 f "Symbol" s 10 hа чение о совершенствовании языковой способности человека и общества в целом.

Термин прикладная лингвистика появился в конце 20 гг. 20 в., когда была осознана необходимость строгого научного решения прикладных задач с использованием методов формального лингвистического анализа письменных и акустико-лингвистического анализа стных сообщений.

За рубежом под ПЛ часто понимают совершенствование методов преподавания языка (дидактическая лингвистика). В нашей стране ПЛ понимают как компьютерную лингвистику, которая становится сейчас все более широкой дисциплиной почти синонимом ПЛ.

Синонимы ПЛ: компьютерная Л, структурная Л, машинная Л, статистическая Л, математическая Л, искусственный интеллект (ИИ),...

ПЛ требует строгого структурного подхода к языку и отводит важную роль математике.

Основные задачи ПЛ:

SYMBOL 183 f "Symbol" s 10 hа автоматическое распознавание и синтез речи

SYMBOL 183 f "Symbol" s 10 hа автоматические методы переработки текстовой информации

SYMBOL 183 f "Symbol" s 10 hа создание автоматизированных систем информационного поиска

SYMBOL 183 f "Symbol" s 10 hа составление автоматических словарей и систем машинного перевода

SYMBOL 183 f "Symbol" s 10 hа разработка методов автоматического аннотирования, реферирования и перевода

SYMBOL 183 f "Symbol" s 10 hа разработка экспертных систем

SYMBOL 183 f "Symbol" s 10 hа лингвистическое обеспечение АСУ

SYMBOL 183 f "Symbol" s 10 hа стандартизация научно-технической терминологии

Прикладные модели отличаются определенным прощением, огрублением языковой реальности, но это не значит, что они игнорируют реальную сложность моделируемого объекта. Методология прикладного исследования должна учитывать многоспектность, многоуровневость, открытость языкового механизма.

Методология - совокупность общих принципов, определяющая способ исследования какого-либо явления; определяет взгляд на объект, как к нему подойти; философские принципы исследования явлений.

Метод - определенный тип способа исследования, определяемый инструментами, которые используются при изучении объекта исследования (метод компьютерного моделирования, статистический метод)

Собственно лингвистические методы:

SYMBOL 183 f "Symbol" s 10 hа дистрибутивный метод

SYMBOL 183 f "Symbol" s 10 hа трансформационный метод

SYMBOL 183 f "Symbol" s 10 hа метод компонентного анализа

SYMBOL 183 f "Symbol" s 10 hа метод различительных признаков

Методика - конкретный способ исследования, определяемый целью исследования; может объединять несколько методов (методика построения ассоциативных тезаурусов).

Характерные черты прикладных методик

SYMBOL 183 f "Symbol" s 10 hа ведущая роль метода моделирования

SYMBOL 183 f "Symbol" s 10 hа экспериментальный характер прикладных методик

SYMBOL 183 f "Symbol" s 10 hа применение точного метаязыка

SYMBOL 183 f "Symbol" s 10 hа формализованность самих операций исследования (хотя результат может быть приближенным)

SYMBOL 183 f "Symbol" s 10 hа использование искусственного метаязыка описания

SYMBOL 183 f "Symbol" s 10 hа комплексное сочетание разных наук

Билет 2

1. Понятие репрезентации в науках о языке и мышлении человека.

Понятие репрезентации знаний является одним из центральных в когнитивной науке вообще, и в когнитивной лингвистике в частности.

1. Репрезентация - (общефилософский смысл) сущность произвольной природы, выступающая в познавательной деятельности человека в качестве заместителя некоторой другой сущности.

Человек творит мир артефактов:

материальные (орудия)

когнитивные (орудия мысли)

Репрезентация - когнитивный артефакт.

2. Репрезентация - символьное выражение на специальном репрезентационном языке, выступающие в познавательной деятельности человека в качестве заместителя некоторой сущности иной природы. Например мат. модели, любые теории.

3. Репрезентация - (в лингвистике) символьное выражение на специальном репрезентационном языке, рассматриваемое как отличное от непосредственно данной формы осуществления некоторого другого символьного же выражения, также сама эта непосредственно данная форма, рассматриваемая в ряде других форм.

4. Репрезентация - некоторая гипотетическая ментальная структура, замещающая ту или иную сущность из внешнего мира.

Предполагается, что существует некоторый ровень анализа, на котором можно отвлечься от физической природы вещей, некоторый ровень изучения психических функций человека, отличный от нейро-хирургического, - ровень концептуальных репрезентаций. На этом ровне моделируются когнитивные процессы (символьно/на ЭВМ).

Типология репрезентаций:

1. представление знаний (концептуальные репрезентации) vs представление языковых структур (фонологические, синтаксич., семантические репрезентации)

Репрезентация языковых структур - представление высказывания, предложения, текста (требование лингвистической релевантности). Понимание-> анализ -> сем. репрезентация. Компоненты языковой структуры - компоненты языка, концептуальные репрезентации ими не являются.

2. ñåíòåíöèîíàëüíûå

èäåîãðàììàòè÷åñêèåа

(логические)

построены по законам ЕЯ:

ÿçûê èñ÷èñëåíèÿ ïðåäèêàòîâ

(аналоговые репрезентации,)

хранятся в виде образа в человеческом мозге

Иногда сюда включают еще и списочные представления (таблицы, БД)

3. äåêëàðàòèâíûå (çíàíèÿ "÷òî")

ïðîöåäóðíûå (çíàíèÿ "êàê")

экономный способ (указание на факты)

(ñòðóêòóðèðîâàíèå ïðåäìåòíîé îáëàñòè)

точный способ (указание на действие)

4. формализованные vs неформализованные

5. внешние vs внутрисистемные

6. ëîãè÷åñêèå

ýâðèñòè÷åñêèå

ïðåäñòàâëåíèÿ çíàíèé

èñ÷èñëåíèå ïðåäèêàòîâ

ñåòåâûå. ôðåéìîâûå, ïðîäóêöèîííûå

Понятие репрезентации также активно используется в порождающей семантике. Так, например, семантическая репрезентация речевого отрезка интерпретируется как его запись на каком-либо семантическом метаязыке.

2. Операционные системы как основной вид программного обеспечения для ПЭВМ. Операционная система MS-DOS, основные группы команд.

Операционная система - это программа, которая загружается при включении компьютера. Она производит диалог с пользователем, осуществляет правление компьютером, его ресурсами (оперативной памятью, местом на диске и т.д.), запускает другие (прикладные) программы на выполнение. ОС обеспечивает пользователю и прикладным программам удобный способ общения (интерфейс с стройствами компьютера.

Функции ОС:

SYMBOL 183 f "Symbol" s 10 h правление памятью

SYMBOL 183 f "Symbol" s 10 h правление вводом-выводом

SYMBOL 183 f "Symbol" s 10 h правление файловой системой

SYMBOL 183 f "Symbol" s 10 h правление взаимодействием процессов

SYMBOL 183 f "Symbol" s 10 h диспетчеризация процессов

SYMBOL 183 f "Symbol" s 10 h защита и чет использования ресурсов

SYMBOL 183 f "Symbol" s 10 h обработка командного языка

MS-DOS (Microsoft):

SYMBOL 183 f "Symbol" s 10 h PC-DOS (IBM, вариант MS-DOS), DR-DOS (Digital Research, совместима са MS-DOS);

SYMBOL 183 f "Symbol" s 10 h OS-2 (äëÿ ìàøèí IBM PS-2 series), UNIX, Macintosh OS, MAINFRAMES (?).

Âåðñèè 1.0 (1981) - 6.0 (1992: ïàìÿòü cache, disk defragmentation utility for speed disk data access, optional dynamic file compression, that can double disk storage space, automatically loads itself into upper and high memory leaving more conventional memory free).

Ìîäóëüíàÿ ñòðóêòóðà MS-DOS:

1. BIOS

2. Boot Record

3. IBMBIO.com

4. IBMDOS.com

5. Command.com

6. Utilities

Список внутренних команд ( недоступны для просмотра, выполняются COMMAND.COM):

break

cls

copy

CTTY

date

del

dir

erase

mkdir

path

prompt

rename

rmdir

set

time

type

erify

exit

Остальные команды - внешние. Они располагаются в каталоге DOS и являются самостоятельными программами (tree, label, diskcopy, diskcomp, chkdsk и т.д.).

Îñíîâíûå ãðóïïû êîìàíä MS-DOS:

1. Команды работы с каталогами (10):

dir

append

join

subst

path

tree

xcopy

2. Команды работы с файлами (21):

2.1 исходные:

copy

type

del

rename

erase

comp

2.2 êîìàíäû-ôèëüòðû:

find

sort

2.3

attrib

append

path

join

subst

restore

backup

fastopen

FC (àíàëîã compare)

recover

3. Команды работы с дисками (14):

3.1 основные

format

label

chkdsk

diskcopy

diskcomp

sys

3.2 команды начальной работы с диском

fdisk

select

assing

backup

restore

fastopen

recover

4. Команды правления ресурсами ПЭВМ:

(настройка компьютера на пользователя):

date

time

assign

cls

graphics

prompt

break

set

keyb

nlsfunc

fastopen

chcp

command

CTTY

mode

erify

graphtable

СЕМАНТИЧЕСКИЕ СЕТИ.

Семантическая сеть - структура для представления знаний в виде злов, соединенных дугами. Самые первые семантические сети были разработаны в качестве языка-посредника для систем машинного перевода, многие современные версии до сих пор сходны по своим характеристикам с естественным языком. Однако последние версии семантических сетей стали более мощными и гибкими и составляют конкуренцию фреймовым системам, логическому программированию и другим языкам представления.

Начиная с конца 50-ых годов были создано и применены на практике десятки вариантов семантических сетей. Несмотря на то, что терминология и их структура различаются, существуют сходства, присущие практически всем семантическим сетям:

1. злы семантических сетей представляют собой концепты предметов, событий, состояний;

2. различные злы одного концепта относятся к различным значениям, если они не помечено, что они относятся к одному концепту;

3. дуги семантических сетей создают отношения между злами-концептами (пометки над дугами казывают на тип отношения);

4. некоторые отношения между концептами представляют собой лингвистические падежи, такие как агент, объект, реципиент и инструмент (другие означают временные, пространственные, логические отношения и отношения между отдельными предложениями;

5. концепты организованы по ровням в соответствии со степенью обобщенности так как, например, сущность, живое существо, животное, плотоядное,;

Однако существуют и различия: понятие значения с точки зрения философии; методы представления кванторов общности и существования и логических операторов; способы манипулирования сетями и правила вывода, терминология. Все это варьируется от автора к автору. Несмотря не некоторые различия, сети добны для чтения и обработки компьютером, также достаточно мощны, чтобы представить семантику естественного языка.

ИСТОРИЧЕСКАЯ СПРАВКА.

Фрег представил логические формулы в виде деревьев, которые однако мало напоминают современные семантические сети. Еще одним пионером стал Чарльз Сандерз Прис, который использовал графические записи в органической химии.

Он сформулировал правила выводы с использованием экзистенциональных графов.

В психологии Зельц использовал графы для представления наследственности некоторых характеристик в иерархии концептов. Научные изыскания Зельца имели огромное влияние на изучение тактики в шахматах, который в свою очередь повлиял на таких теоретиков, как Саймон и Ньюэлл.

Что касается лингвистики, то первым ченым, занимавшимся разработкой графических описаний, стал Теньер. Он использовал графическую запись для своей грамматики зависимостей. Теньер оказал огромное влияние на развитие лингвистики в Европе.

Впервые семантические сети были использованы в системах машинного перевода в конце 50-х - начале 60-х годов. Первая такая система, которую создала Мастерман, включала в себя 100 примитивных концептов таких, как, например, НАРОД, ВЕЩЬ, ДЕЛАТЬ, БЫТЬ. С помощью этих концептов она описала словарь объемом 15 единиц, в котором также имелся механизм переноса характеристик с гипертипа на подтип. Некоторые системы машинного перевода базировались на корреляционных сетях Цеккато, которые представляли собой набор 56 различных отношений, некоторые из которых - падежные отношения, отношения подтипа, члена, части и целого. Он использовал сети, состоящие из концептов и отношений для руководства действиями парсера и разрешения неоднозначностей.

В системах искусственного интеллекта семантические сети используются для ответа на различные вопросы, изучение процессов обучения, запоминания и рассуждений. В конце 70-х сети получили широкое распространение. В 80-х годах границы между сетями, фреймовыми структурами и линейными формами записи постепенно стирались. Выразительная сила больше не является решающим аргументом в пользу выбора сетей или линейных форм записи, поскольку идеи записанные с помощью одной формы записи могут быть легко переведены в другую. И наоборот, особо важное значение получили второстепенные факторы, как читаемость, эффективность, неискусственность и теоретическая элегантность, также учитываются легкость введения в компьютер, редактирование и распечатка.

РЕЛЯЦИОННЫЕ ГРАФЫ.

Самые простые сети, которые используются в системах искусственного интеллекта, - реляционные графы. Они состоят из злов, соединенных дугами. Каждый зел представляет собой понятие, каждая дуга - отношения между различными понятиями. На рисунке 1 представлено предложение Собака жадно гложет кость. Четыре прямоугольника представляют понятия собаки, процесса гложения, кости и такой характеристики, как жадность. Надписи над дугами означают, что собака является агентов гложения, кость является объектом гложения, жадность - это манера гложения.

Терминология, использующаяся в этой области различна. Чтобы добиться некоторой однородности, злы, соединенные дугами, принято называть графами, структуру, где имеется целое гнездо из злов или где существуют отношения различного порядка между графами, называется сетью. Помимо терминологии, использующейся для пояснения, также различаются способы изображения. Некоторые используют кружки вместо прямоугольников; некоторые пишут типы отношений прямо над дугами, не заключая их в овалы; некоторые используют аббревиатуры, например О или А для обозначения агента или объекта; некоторые используют различные типы стрелок. На рисунке 2 изображен граф концептуальных зависимостей Шенка. <=> означает агента. INGEST (поглощать) - один из примитивов Шенка: ЕСТЬ - ПОГЛОЩАТЬ твердый объект; ПИТЬ - ПОГЛОЩАТЬ жидкий объект; ДЫШАТЬ - ПОГЛОЩАТЬ газообразный объект. Дополнительная стекла слева показывает, что кость переход из неуказанного места к собаке.

Поскольку довольно сложно ввести в компьютер некоторые диаграммы и при этом они занимают много места при печати, многие ченые записывают свои графы в более компактном варианте. Например, то же предложение Сова предложил записать в линейном виде с использованием некоторых элементов из рисунка 1:

[ЕСТЬ](AGNT) -> [СОБАКА]

(OBJ) -> [КОСТЬ]

(MANR) -> [ЖАДНОСТЬ]

В этом варианте записи квадратные скобки обозначают понятия, круглые скобки содержат в себе названия отношений. Все линейные формы записи очень похожи на фреймовые структуры.

ГРАФЫ С ЦЕНТРОМ В ГЛАГОЛЕ.

Глаголы соединяются с группой существительного с использованием падежных отношений. Например, с предложении УMary gave a book to FredФ, Mary агент давания, book объект этого процесса, Fred реципиент глагола давать. Помимо падежных отношений в предложении в естественном языке также имеются средства для связи отдельных предложений. Такие отношения необходимы для следующего:

Союзы. Самый простой способ соединить предложения - это поставить между ними союз. Некоторые союзы, как например и, или, если обозначают логическую связь; некоторые, такие кака Упосле того, как, когда, пока, с тех пор, как и потому что, выражают временные отношения и причину.

Глаголы, требующие подчиненное предложение. Падежные фреймы многих глаголов требуют подчиненного предложения, являющегося обычно прямым дополнением. К такому типу относятся глаголы говорить, считать, думать, знать, быть убежденным, угрожать, пытаться и др.

Определители, относящиеся к целому предложению. Многие наречия и пропозиционные фразы относятся только к глаголу, но некоторые определяют целое предложение. Такие наречия, как обычно, вероятно, в большинстве случаев ставятся в начале предложения. А например, слово однажды определяет весь рассказ, следующий после него.

Модальные глаголы и времена. Такие глаголы, как УmayФ, УcanФ, УmustФ, УshouldФ, УwouldФ и УcouldФ имеют модальное значение и относятся ко всему предложению, где они встречаются. Временное отношение может быть выражено как формой прошедшего времени глаголов, так и обстоятельствами сейчас, завтра или однажды и другими.

Связанный дискурс. Помимо отношений, выраженных в одном предложении, существуют также отношения более высокого порядка между отдельными предложениями рассказа или какого-либо другого повествования. Многие из них не выражены эксплицитно: временные отношения и следование аргументов может быть, например, имплицитно выражено порядком следования предложения друг за другом в тексте.

Именно потому, что глагол отводится такая важная роль в предложении, многие теория делают его своим центральным связующим звеном. Этот подход берет свое начало из Индо-Европейской языковой семьи, где модальность и временные отношения выражаются изменением глагольной формы. Рассмотрим следующий пример: УWhile a dog was eating a bone, a cat passed by unnoticedФ. В этом предложении сообщено, что, когда предложение УWhile a dog was eating a boneФ являлось истинным, второе предложение УA cat passed unnoticedФ также является истинным. На рисунке 3 изображена граф с центром в глаголе. Союз УwhileФ (WHL) соединяет зел PASS-BY с злом EAT. На рисунке 3 показано, что собака является агентом незамечания (not noticing).

Графы с центром в глаголе - это реляционные графы, где глагол считается центральным звеном любого предложения. Маркеры времени и отношения пишутся прямо рядома с концептами, которые представляют глаголы. Графы концептуальных зависимостей Роджера Шенка также используют этот подход.

Несмотря на то, что графы с центром в глаголе довольно гибкие по своей структуре, они обладают рядом ограничений. Одно из них заключается в том, что они не проводят разграничение между определителями, которые относятся только к глаголу, и определителями, относящимися к предложению целиком. Рассмотрима следующие примеры:

The dog greedily ate the bone.

Greedily, the dog ate the bone.

Эти графы также плохо справляются с предложениями, находящимися внутри других предложений.

При работе с реляционными графами возникают проблемы с передачей всего многообразия временных отношений и отношений модальности. Несмотря на то, что многие чение используют эти графы для решения сложных проблем, они так до сих пор и не разработали общего метода для их разрешения. В выше приведенном примере пометка PAST должна относится ко всему предложению, которое говорит о том, что собака ест кость, не только к глаголу EAT, поскольку очевидно, что кость позже была съедена собакой целиком. Также должно быть казано, что процесс прохождения кошки и процесс не замечания ее собакой происходили в одно и то же время.

ПРОПОЗИЦИОННЫЕ СЕТИ.

В пропозиционных сетях злы представляют целые предложения. Эти злы являются точками соприкосновения для отношений между отдельными предложениями связанного текста. С другой стороны они определяют время и модальность для всего контекста. Представленные ниже примеры иллюстрируют отношения, для записи которых необходимы пропозиционные злы:

Sue thinks that Bob believes that a dog is eating a bone.

If a dog is eating a bone, it is unwise to try to take it away from him.

В первом предложении для глаголов УthinkФ и УbelieveФ целое предложение является дополнением: Боб считает, что у dog is eating a boneФ, то, что думает Сью представляет собой более сложное предложение-УBob believes that a dog is eating a boneФ. Такое гнездование предложений внутри других предложений может повторятся сколь годно большое количество раз. Чтобы изобразить такое предложение, необходимо использовать пропозиционные злы, которые содержат гнездящиеся графы. На рисунке 4 изображена пропозиционная сеть для этого предложения. Отметим, что (EXP) - experiencer, то есть тот кто испытывает, соединяет THINK с Сью, BELIEVE с Бобом, однако EAT и DOG соединены между собой агентивным отношением (AGNT). Причиной разного типа отношений является тот факт, что думать и считать-это состояния, испытываемые людьми, поедание-это действие осуществляемое агентом.

Во втором примере представлены два предложения, находящиеся в отношении условия. Антецедентом является предложение у dog is eating a boneФ, консеквентом предложение УIt is unwise to try to take it away from himФ. Инфинитивы Уto tryФ и Уto takeФ казывают на другие, гнездящиеся предложения. На гнездящиеся предложения также казывает оборот Уit is unwiseФ. Для этого предложения также необходимо казать соответствие между УitФ, УhimФ и УboneФ и УdogФ. Связи соответствия обозначены пунктиром. Для формальной записи этого предложения также используются кванторы общности и существования и некоторые элементы логики.

Все реляционные графы и графы с центром в глаголе имеют много общего. Однако среди них существуют также и отличия:

1. Включение контекста или всего лишь его словное обозначение с отсылкой на схеме.

2. Строгое гнездование: один и тот же концепт может или не может встречаться в двух разных контекстах, ни один из которых не гнездиться в другом.

3. казание связей соответствия. При перекрещивающемся контексте, то есть когд они один и тот же концепт встречается в двух разных контекстах, эти связи не казываются.

Однако это всего лишь стилистические расхождения, которые не влияют существенно на логику построения.

ИЕРАРХИЯ ТИПОВ.

Иерархия типов и подтипов является стандартной характеристикой семантических сетей. Иерархия может включать сущности: ТАКСА<СОБАКА<ПЛОТОЯДНОЕ<ЖИВОТНОЕ<ЖИВОЕ СУЩЕСТВО<ФИЗИЧЕСКИЙ ОБЪЕКТ<СУЩНОСТЬ. Они также могут включать в себя события: ЖЕРТВОВАТЬ<ДАВАТЬ<ДЕЙСТВИЕ<СОБЫТИЕ или состояния: ЭКСТАЗ<СЧАСТЬЕ<ЭМОЦИОНАЛЬНОЕ СОТОЯНИЕ<СОСТОЯНИЕ. Иерархия Аристотеля включала в себя 10 основных категорий: субстанция, количество, качество, отношение, место, время, состояние, активность и пассивность. Некоторые чение дополнили его своими категориями.

Символ < между более общим и более частным символом читается как: УХ-тип/подтип Ф.

Термин иерархия обычно обозначает частичное порядочение, где одни типы являются более общими, чем другие. порядочение является частичным, потому, что многие типы просто не подлежат сравнению между собой. Сравним HOUSE<DOG и DOG<HOUSE бессмысленны, если их сравнивать, однако слово DOGHOUSE является подтипом HOUSE, но не DOG. Рассмотрим некоторые виды графов:

цикличный граф. Любое частичное порядочение может быть изображено, как граф без циклов. Такой граф имеет ветви, которые расходятся и сходятся вместе опять, что позволяет некоторым злам иметь несколько злов-родителей. Иногда такой тип графа называют путанным.

Деревья. Самым распространенным видом иерархии является граф с одной вершиной. В такого рода графах налагаются ограничения на ацикличные графы: вершина графа представляет собой один общий тип, и каждый другой тип Х имеет лишь одного родителя У.

Решетка. В отличие от деревьев злы в решетке могут иметь несколько злов родителей. Однако здесь налагаются другие ограничения: любая пара типов Х и У как минимум должна иметь общий гипертипа ХиУ и подтип ХилиУ. Вследствие этого ограничения решетка выглядит, как дерево, имеющее по главной вершине с каждого конца. Вместо всего одной вершины решетка имеет одну вершину, которая является гипертипом всех категорий, и другую вершину, которая является подтипом всех типов.

НАСЛЕДОВАНИЕ.

Основным свойством иерархии является возможность наследования подтипами качеств гипертипов: все характеристики, которые присущи ЖИВОТНОМУ, также присущи МЛЕКОПИТАЮЩЕМУСЯ, РЫБЕ и ПТИЦЕ. В основе теории наследования лежит теория силлогизмов Аристотеля: Если А - характеристика В, В - х-ка С, то А хар-ка всех С.

Преимущества иерархии и наследования:

Иерархия типов является отличной структурой для индексирования базы знаний и ее эффективной организации.

Следование по какой-либо ветви с помощью иерархии осуществляется гораздо быстрее.

СИНТАКСИЧЕСКИЙ АНАЛИЗ ЯЗЫКА И ЕГО ПОРОЖДЕНИЕ.

Семантические сети могут помочь парсеру разрешить семантическую неоднозначность. Без такого рода представления вся тяжесть анализ языка падает на синтаксические правила и семантические тесты. Структура же семантической сети ясно показывает, как отдельные концепты соединены между собой. Когда парсер встречает какую-либо неоднозначность, он может использовать семантическую сеть для того, чтобы выбрать тот или иной вариант. При работе с семантическими сетями используется несколько техник парсинга.

Парсинг, в основе которого лежит синтаксис. Работа парсера контролируется грамматикой непосредственных составляющих и операторами построения структур и их тестирования. В то время, как данные на входе анализируются, операторы построения структур создают семантическую сеть, операторы тестирования проверяют ограничения на частично построенной сети. Если никакие ограничения не найдены, то используемое при этом грамматическое правило отвергается и парсер проверяет другую возможность. Это самый распространенный подход.

Синтаксический анализатора с использованием семантики. Синтаксический анализатор с использованием семантики оперирует также как и парсер, в основе которого лежит синтаксис. Однако он оперирует не с синтаксическими категориями типа группа подлежащего и группа сказуемого, с концептами высокого ровня типа КОРАБЛЬ и ПЕРЕВОЗИТЬ.

Концептуальный парсинг. Семантическая сеть предсказывает возможные ограничения, которые могут встретится в отношениях между словами, также прогнозировать слова, которые позже могут встретиться в предложении. Например, глагол давать требует одушевленного агента и также прогнозирует возможность реципиента и объекта, который будет дан. Шенк был одним из самых активных сторонников концептуального парсинга.

Парсинг, основанный на экспертизе слов. Вследствие существования большого количества неправильных образований в естественном языке, многие люди вместо того, чтобы обращаться к каким-либо ниверсальным обобщениям, используют специальные словари, представляющих собой совокупность некоторых независимых процедур, которые называются экспертами слов. Анализ предложения рассматривается как процесс, осуществляемый совместно различными словарными экспертами. Главным сторонником этого подхода был Смол.

ргументы за и против различных техник парсинга часто основывался не на конкретные данные, больше на же стоявшемся мнении. И лишь один проекта на практике сравнил несколько видов парсинга - это Язык Семантических Репрезентаций, проект разработанный в ниверситете Берлина. В течение нескольких лет они создали четыре разных вида парсерова для анализа немецкого языка и его записи на Языка Семантических Репрезентаций, который представляет собой сеть.

Первым парсерома был парсер, созданный по подобию концептуального парсера Шенка. Было отмечено, что хотя добавление в его лексикон новых слов было довольно легко, анализ однако мог проводиться только на простых предложениях и только относительных придаточных. Расширить область синтаксической обработки этого парсера оказалось сложной задачей.

Второй парсер была семантически ориентированные расширенные сети перехода. В нем было легче обобщить синтаксис, однако аппарат синтаксиса работал медленнее, чем у первого рассмотренного парсера.

Затем работа велась с парсером словарных экспертов. Здесь легко велась обработка особых случаев, однако разбросанность грамматики между отдельными составляющими делала практически невозможным ее общее понимание, поддержку и модифицирование.

Парсер, который был создан относительно недавно, - это синтаксически ориентированный парсер, основанный на общей грамматике фразовой структуры. Он наиболее систематичен и обобщен и относительно быстр.

Эти результаты в принципе соответствуют мнению других лингвистов: синтаксически ориентированные парсеры наиболее целостны, однако для них необходим определенный набор сетевых операторов для плавного взаимодействия между грамматикой и семантическими сетями.

Порождение языка по семантической сети представляет собой обратный парсинг. Вместо синтаксического анализа некоторй цепочки с целью порождения сети генератор языка производит парсинг сети для получения некоторой цепочки. Существует два варианта порождения языка из семантической сети.

1. Генератор языка просто следует по сети, превращая концепты в слова, а отношения, казанные рядом с дугами, в отношения естественного языка. Этот метод имеет много ограничений.

2. Подходы, ориентированные на синтаксис контролируют порождение языка с помощью грамматических правил, которые используют сеть для того, чтобы определить, какое следующее правило нужно применить.

Однако на практике оба метода имеют много сходств: например, первый способ представляет собой последовательность злов, которые обрабатываются генератором языка, ориентированным на синтаксис.

ОБУЧЕНИЕ МАШИН.

Графы и сети представляют собой простые понятия для программ, которые изучают новые структуры. Их преимущество при обучении заключается в легкости добавления и даления, также сравнения дуг и злов. Ниже представлены программы, которые для обучения использовали семантические сети.

Винстон использовал реляционные графы для описания таких структур, как арки и башни. Машине предлагались примеры верного и неверного описания этих структур, программа создавала графы, которые казывали все необходимые условия для того, чтобы эта структура была именно аркой или башней.

Салветер использовал графы с центром в глаголе для представления падежных отношений, которые требуют различные глаголы. Его программа MORAN для каждого глагола выведет падежный фрейм, сравнивая одни и те же ситуации до и после их описания с использованием этого глагола.

Шенк разработала теорию Memory-Organization Packets для объяснения того, как люди знают новую информацию из конкретных жизненных ситуаций. При этом MOP-это это обобщенная абстрактная структура, которая не имеют отношения ни к одной конкретной ситуации в отдельности.

ПРИМЕНИЕ НА ПРАКТИКЕ.

Семантические сети могут быть записаны практически на любом языке программирования на любой машине. Самые популярные в этом отношении языки LISP и PROLOG. Однако многие версии были созданы и на FORTRANе, PASCALе, C и других языках программирования. Для хранения всех злов и дуг необходима большая память, хотя первые системы были выполнены в 60-х годах на машинах, которые были гораздо меньше и медленнее современных компьютеров.

Один из самых распространенных языков, разработанных для записи естественного языка в виде сетей, - это PLNLP (Programming Language for Natural Language Processing) Язык Программирования для Обработки Естественного Языка, созданный Хайдерном. Этот язык используется для работы с большими грамматиками с обширным покрытием. PLNLP работает с двумя видами правил:

1. с помощью правил декодирования производится синтаксический анализ линейной языковой цепочки и строится сеть.

2. с помощью правила кодирования сканируется сеть порождается языковая цепочка или другая трансформированная сеть.

Помимо специальных языков для семантических сетей было также разработано специальное аппаратное обеспечение. На обычных компьютерах могут быть спешно выполнены операции с языками синтаксического анализа и операции сканирования сетей. Однако для больших баз знаний нахождение нужных правил или доступ к предзнаниям может потребоваться очень много времени. Чтобы позволить различным процессам поисках проходить одновременно Фальман разработал систему NETL, которая представляет собой семантическую сеть, которая может использоваться с параллельным аппаратным обеспечением. Таким образом он хотел создать модель человеческого мозга, в котором сигналы могут двигаться по различным каналам одновременно. Другие ченые разработали параллельное программное обеспечение для поиска наиболее вероятной интерпретации двусмысленных фраз естественного языка.

Теория фреймов

- это апарадигма для представления знаний с целью использования этих знаний компьютером. Впервые была представлена Минским кака попытка построить фреймовую сеть, или парадигму с целью достижения большего эффекта понимания. С одной стороны Минский пытался сконструировать базу данных, содержащую энциклопедические знания, но с другой стороны, он хотел создать наиболее описывающую базу, содержащую информацию в структурированной и упорядоченной форме. Эта структура позволила бы компьютеру вводить информацию в более гибкой форме, имея доступ к тому разделу, который требуется в данный момент. Минский разработал такую схемуа, в которой информация содержится в специальных ячейках, называемых фреймами, объединенными в сеть, называемую системой фреймов. Новый фрейм активизируется с наступлением новой ситуации. Отличительной его чертой является то, что он одновременно содержит большой объем знаний и в то же время является достаточно гибким для того, чтобы быть использованным как отдельный элемент БД. Термин лфрейм был наиболее популярен в середине семидесятых годов, когда существовало много его толкований, отличных от интерпретации Минского.

Чтобы лучше понять эту теорию, рассмотрим один из примеров Минского, основанный н связи между ожиданием, ощущениема и чувством человека, когда он открывает дверь и входит в комнату. Предположим, что вы собираетесь открыть дверь и зайти в комнату незнакомого вам дома. Находясь в доме, перед тем как открыть дверь, у вас имеются определенные представления о том, что вы видите, войдя в комнату. Например, если вы видите к-л пейзаж или морской берег, поначалу вы с трудом знаете их. Затем вы будете дивлены, и в конце концов дезориентированы, так как вы не сможете объяснить поступившую информацию и связать ее с теми представлениями, которые у вас имелись до того. Также у вас возникнут затруднения с тем, чтобы предсказать дальнейший ход событий. С аналитической точки зрения это можно объяснить как активизацию фрейма комнаты в момент открывания двери и его ведущую роль в интерпретации поступающей информации. Если бы вы видели за дверью кровать, то фрейм комнаты приобрел бы более зкую форму и превратился бы во фрей кровати. Другими словами, вы бы имели доступ к наиболее специфичному фрейму из всех доступных.Возможно,б что вы используете информацию, содержащуюся в вашем фрейме комнаты для того чтобы распознать мебель, что называется процессом сверху-вниз, или в контексте теории фреймов фреймодвижущим распознаванием. Если бы вы видели пожарный гидрант, то ваши ощущения были бы аналогичны первому случаю. Психологи подметили, что распознавание объектов легче проходит в обычном контексте, чем в нестандартной обстановке. Из этого примера мы видим , что фрейм - это модель знаний, которая активизируется в определенной ситуации и служит для ее объяснения и предсказания. У Минского имелись достаточно расплывчатые идеи о самой структуре такой БД, которая могла бы выполнять подобные вещи. Он предложил систему, состоящую из связанных между собой фреймов, многие из которых состоят из одинаковых подкомпонентов, объединенных в сеть. Таким образом, в случаеа, когда к-л входит в дом, его ожидания контролируются операциями, входящими в сеть системы фреймов . В рассмотренном выше случае мы имеем дело с фреймовой системой для дома, и с подсистемами для двери и комнаты. Активизированные фреймы с дополнительной информацией в БД о том, что вы открываете дверь, будут служить переходом от активизированного фрейма двери к фрейму комнаты. При этом фреймы двери и комнаты будут иметь одинаковую подструктуру. Минский назвал это явление разделом терминалов и считал его важной частью теории фреймов.

Минский также ввел терминологию , которая могла бы использоваться при изучении этой теории ( фреймы, слоты, терминалы и т. д.). Хотя примеры этой теории были разделены на языковые и перцептуальные, и Минский рассматривал их как имеющих общую природу, в языке имеется более широкая сфера ее применения. В основном большинство исследований было сделано в контексте общеупотребительной лексики и литературного языка.

Как наиболее доступную иллюстрацию распознаванию, интерпретации и предположению можно рассмотреть две последовательности предложений, взятых из Шранка и Абельсона. На глобальном уровне последовательность А явно отличается от В.

A John went to a restaurant

He asked the waitress for a hamburger

He paid the tip & left

B John went to a park

He asked the midget for a mouse

He picked up the box & left

Хотя все эти предложения имеют одинаковую синтаксическую структуру и тип семантической информации, понимание их кардинально различается. Последовательность А имеет доступ к некоторому виду структуры знаний высшего ровня, В не имеет. Если бы А не имело такой доступ, то ее понимание сводилось бы к ровню В и характеризовалось бы кака дезориентированное. Этот контраст является наглядным примером мгновенной работы высшего ровня структуры знаний.

Была предложена программа под названием SAM, которая отвечает на вопросы и выдает содержание таких рассказов. Например, SAM может ответить на следующие вопросы, ответы на которые не даны в тексте, с помощью доступа к записи предполагаемых событийа , предшествующих обеду в ресторане.

Did John sit down in the restaurant ?

Did John eat the hamburger ?

Таким образом, SAM может распознать описанную ситуацию как обед в ресторане и затем предсказать оптимальное развитие событий. В нашем случае распознавание не представляло трудностей, но в большинствеа случаев оно довольно непростое и является самой важной частью теории.

Рассмотрим другой пример :

C He plunked down $5 at the window.

She tried to give him $ 2.50, but he wouldnТt take it.

So when they got inside, she bought him a large bag of popcorn.

Он интересен тема, что у большинства людей он вызывает цикл повторяющихся неправильных или незаконченныха распознаваний и реинтерпретаций.

В случаях с многозначными словами многозначность разрешается с помощью активизированного ранее фрейма. Для этих целей необходимо создать лексикон к каждому фрейму. Когда фрейм активизируется, соответствующему лексикону отдается предпочтение при поиске соответствующего значения слова. В контексте ТФ это распознавание процессов, контролируемых фреймами, которые, в свою очередь, контролируют распознавание входящей информации. Иногда это называется процессом сверху - вниз фреймодвижущего распознавания.

Применение этих процессов нашло свое отражение в программе FRAMP, которая может суммировать газетные сводки и классифицировать их в соответствие с классом событий, например терроризм или землетрясения. Эта программа хранит набор объектов, которые должны быть описаны в каждой разновидности текстов, и этот набор помогает процессу распознавания описываемых событий.

Манипуляция фреймами

Детали спецификации Ф и их репрезентации могут быть опущены, така же как и алгоритмы их манипуляции, потому что они не играют большой роли в ТФ.

Такие вопросы, как размер Ф или доступ к немуа, связаны с организацией памяти и не требуют специального рассмотрения.

Распознавание

В литературе имеется много рассуждений по поводу процессов, касающихся распознавания фреймов и доступа к структуре знаний высшего ровня. Несмотря на то, что люди могут распознать фрейм без особых силийа, для компьютера в большинстве случаев это довольно сложная задача. Поэтому вопросы распознавания фреймов остаются открытыми и трудными для решения с помощью ИИ.

Размер фрейма

Размер фрейма гораздо более тесно связан с организацией памяти , чем это кажется на первый взгляд. Это происходит потому, что в понимании человека размер фрейма определяется не столько семантическим контекстом, но и многими другими факторами. Рассмотрим фрейм визита к докторуа, который складывается из подфреймов, одним из которых является комната ожидания. Таким образома мы можем сказать, что размер фрейма не зависит от семантического содержания представленного фрейм / такого, как, напримера, визит к врачу /, но зависит ота того, какие компоненты описывающей информации во фрейме / таком, как комната ожидания / используются в памяти. Это означает, что когда определенный набор знаний используется памятью более чем в одной ситуации, система памяти определяет это, затем модифицирует эту информацию во фрейм, и реструктурируета исходный фрейм так, чтобы новый фрей использовался как его подкомпонент .

Вышеперечисленные операции также остаются открытыми вопросами в ТФ.

Инициализационные категории

Рош предложил три ровня категорий представления знаний : базовую , субординатную и суперординационнуюа. Например в сфере меблировки концепция кресла является примером категории основного ровня, концепция мебели - это пример суперординационной категории. Язык представления знаний подвержен влиянию этой таксономии и включает их как различные типы данных. В сфере человеческого общения категории основного ровня являются первейшими категориями, которые знают человек, другие же категории вытекают из них. То есть суперординационная категория - это обобщение базовой, субординатная - это подраздел базовой категории.

апример

суперординатная идеи события

базовая события действия

субординатная действия прогулка

Каждый фрейм имеет свой определенный так называемый слот. Так, для фрейма действие слот может быть заполнен только к-л исполнителем этого действия, соседние фреймы могут наследовать этот слот.

Некоторые исследователи предположили, что случаи грамматики падежей совпадают со слотами в ТФ, и эта теория была названа теорией идентичности слота и падежа. Было предложено число таких падежей, от 8 до 20, но точное число не определено. Но если агентив полностью совпадаета со своим слотом, то остальные падежи вызвали споры. И до сих пор точно не становлено, сколько всего существует падежей.

Также вызвал трудность тот факт, что слоты не всегда могут быть переходными. Например, в соответствие с ТФ можно сказать, что фрейм одушевленный предмет может иметь слот аживой , фрейм ачеловек может иметь слот честныйа , фрейма блоха не может иметь такой слот, и он к нему никогда не перейдет.

Другими словами, связи между слотами в ТФ не являются исследованными до конца. Слоты могут передаваться, могут быть многофункциональны, но в то же время не рассматриваются как функции . Гибридные системы

СФ иногда адаптируются для построения описаний или определенийа. Был создан смешанный язык, названный KRYPTON, состоящий из фреймовых компонентова и компонентов предикатных исчислений, помогающиха делать к-л выводы с помощью терминов и предикатова. Когда активизируется фрейм, факты становятся доступными пользователю. Также существует язык Loops, который объединяет объекты, логическое программирование и процедуры.

Существуют также фреймоподобные языки, которые за исходную позицию принимают один тип данных в памяти, к-л концепцию, не две / напр фрейм и слот /, и представление этой концепции в памяти должно быть цельным.

Объектно - ориентированные языки

Параллельно с языками фреймов существуют объектно - ориентированные программные языки, которые используются для составления программ, но имеют некоторые св-ва языков фреймов, такие, как использование слотов для детальной , доскональной классификации объектов. Отличие их от языков фреймов в том, что фреймовые языки направлены на более обобщенное представление информации об объекте.

Одной из трудностей представления знаний и языка фреймов является отсутствие формальной семантики. Это затрудняет сравнение свойств представления знаний различных языков фреймов , также полное логическое объяснение языка фреймов.

Теория фреймов

Чтобы лучше понять эту теорию, рассмотрим один из примеров Минского, основанный н связи между ожиданием, ощущениема и чувством человека, когда он открывает дверь и входит в комнату. Предположим, что вы собираетесь открыть дверь и зайти в комнату незнакомого вам дома. Находясь в доме, перед тем как открыть дверь, у вас имеются определенные представления о том, что вы видите, войдя в комнату. Например, если вы видите к-л пейзаж или морской берег, поначалу вы с трудом знаете их. Затем вы будете дивлены, и в конце концов дезориентированы, так как вы не сможете объяснить поступившую информацию и связать ее с теми представлениями, которые у вас имелись до того. Также у вас возникнут затруднения с тем, чтобы предсказать дальнейший ход событий. С аналитической точки зрения это можно объяснить как активизацию фрейма комнаты в момент открывания двери и его ведущую роль в интерпретации поступающей информации. Если бы вы видели за дверью кровать, то фрейм комнаты приобрел бы более зкую форму и превратился бы во фрей кровати. Другими словами, вы бы имели доступ к наиболее специфичному фрейму из всех доступных.Возможно,б что вы используете информацию, содержащуюся в вашем фрейме комнаты для того чтобы распознать мебель, что называется процессом сверху-вниз, или в контексте теории фреймов фреймодвижущим распознаванием. Если бы вы видели пожарный гидрант, то ваши ощущения были бы аналогичны первому случаю. Психологи подметили, что распознавание объектов легче проходит в обычном контексте, чем в нестандартной обстановке. Из этого примера мы видим , что фрейм - это модель знаний, которая активизируется в определенной ситуации и служит для ее объяснения и предсказания. У Минского имелись достаточно расплывчатые идеи о самой структуре такой БД, которая могла бы выполнять подобные вещи. Он предложил систему, состоящую из связанных между собой фреймов, многие из которых состоят из одинаковых подкомпонентов, объединенных в сеть. Таким образом, в случаеа, когда к-л входит в дом, его ожидания контролируются операциями, входящими в сеть системы фреймов. В рассмотренном выше случае мы имеем дело с фреймовой системой для дома, и с подсистемами для двери и комнаты. Активизированные фреймы с дополнительной информацией в БД о том, что вы открываете дверь, будут служить переходом от активизированного фрейма двери к фрейму комнаты. При этом фреймы двери и комнаты будут иметь одинаковую подструктуру. Минский назвал это явление разделом терминалов и считал его важнойа частью теории фреймов.

A John went to a restaurant

He asked the waitress for a hamburger

He paid the tip & left

B John went to a park

He asked the midget for a mouse

He picked up the box & left

Did John sit down in the restaurant ?

Did John eat the hamburger ?

Ðàññìîòðèì äðóãîé ïðèìåð :

C He plunked down $5 at the window.

She tried to give him $ 2.50, but he wouldnТt take it.

So when they got inside, she bought him a large bag of popcorn.

Манипуляция фреймами

Распознавание

Размер фрейма

Вышеперечисленные операции также остаются открытыми вопросами в ТФ.

Èíèöèàëèçàöèîííûå êàòåãîðèè

апример

суперординатная идеи события

базовая события действия

асубординатная действия прогулка

Объектно - ориентированные языки

Билет 4

1. Различные наименования области прикладной лингвистики и их смысловые различия. ниверсальные прикладные проблемы.

Прикладная лингвистика - это комплексная научная дисциплина, изучающая язык в различных ситуациях его применения и разрабатывающая методы совершенствования языковых систем и языковых процессов.

Лингвистика входит в ядро складывающегося в настоящее время комплекса когнитивных наук, объединяемых по их интересу к проблемам организации, представления, обработки и использования знаний.

Синонимы ПЛ:

SYMBOL 183 f "Symbol" s 10 h Компьютерная лингвистика (машинная лингвистика) - дисциплина, которая разрабатывает лингвистические аспекты компьютеризации.

SYMBOL 183 f "Symbol" s 10 h Вычислительная лингвистика

Термин компьютерная лингвистика шире термина вычислительная лингвистика, так как задает общую ориентацию на использование компьютеров для решения разнообразных научных и практических задач, никак не ограничивая способы решения этих задач. Термин же вычислительная лингвистика может пониматься более зко, так как даже при широкой трактовке понятия вычисление за его пределами остаются такие стороны решения линг. задач, как, например, представление знаний, организация банков языковых данных, психолингвистические аспекты взаимодействия человека и компьютера и др. Т. о. можно считать, что термин компьютерная лингвистика (по своей внутренней форме) шире, чем вычислительная лингвистика. Английский эквивалент computational linguistics может переводиться и как компьютерный и как вычислительный (как и русском компьютер - синоним ЭВМ).

SYMBOL 183 f "Symbol" s 10 h Структурная лингвистика - совокупность взглядов на язык м методов его исследования, в основе которых лежит понимание языка как знаковой системы с четко выделенными структурными элементами (единицами языка, их классами и пр.) и стремление к строгому (как в точных науках) формальному описанию языку. Свое название СЛ получила благодаря особому вниманию к структуре языка, которая представляет собой сеть отношений (противопоставлений) между элементами языковой системы, порядоченных и находящихся в иерархической зависимости в пределах определенных ровней. Структурное описание языка предполагает такой анализ реального текста, который позволяет выделить обобщенные инвариантные единицы (схемы предложений, морфемы, фонемы) и соотнести их с конкретными речевыми сегментами на основе строгих правил реализации Эти правила определяют границы допустимого варьирования яз. единиц в речи. В зависимости от ровня анализа правила реализации формулируются как правила позиционного распределения конкретных, например, принцип дополнительной дистрибуции в фонологии и морфологии (дистрибутивный анализ), или как трансформационные правила в синтаксисе (при трансформационном анализе) регулирующие переход от инвариантной глубинной структуры предложения к множеству ее реализации. На базе СЛ развилась порождающая грамматика (генеративная лингвистика); идеи структурного анализа во многом определили постановку и решение задач, связанных с машинным переводом; СЛ открыла дорогу для широкого проникновения в лингвистику мат. методов (математическая лингвистика). На СЛ оказали влияние: Сепир, Блумфилд. Ф.де Соссюр, один из создателей и ведущих теоретиков -Якобсон; у нас - Реформатский (знаковая теория языка), Ревзин (общая теория моделирования), Холодович; практическое применение методов СЛ: Апресян, Арутюнова, Гак, Зализняк, Звегинцев, Мельчук, спенский и др.

SYMBOL 183 f "Symbol" s 10 h Математическая лингвистик - математическая дисциплина, предметом которой является разработка формального аппарата для описания строения естественных и некоторых искусственных языков. Возникла в 50 годы 20 в.; одним из главных стимулов появления математической лингвистики послужила назревшая потребность в точнения основных лингвистических понятий. Методы МЛ имеют много общего с с методами мат. логики - мат. дисциплины, занимающейся изучением строения мат. рассуждений, - и в особенности таких ее разделов, как теория алгоритмов и теория автоматов.

SYMBOL 183 f "Symbol" s 10 h Контрастивная лингвистика (сопоставительная лингвистика) - сопоставительное изучение двух, реже нескольких языков для выявления их сходств и различий на всех ровнях языковой структуры с целью типологической классификации языков. Как правило, контрастивная лингвистика оперирует материалами на синхронном срезе языка. КЛ появилась и интенсивно развивалась в 50 гг. 20 в., однако ее появление подготовили работы Е.Д. Поливанова, Бодуена де Куртенэ, Л.В. Щербы с изложением теор. основ сравнения родного и ин. языков. В 70 гг. контрастивные исследования в одт. странах (гл. образом в США) использовали порождающую модель Хомского, с возведением явлений двух сопоставляемых языков к общей глубинной структуре; в наст. время наблюдается отход от этой методики в пользу сруктурно-функционального подхода.

SYMBOL 183 f "Symbol" s 10 h Искусственный интеллект

SYMBOL 183 f "Symbol" s 10 h Автоматический перевод - выполняемое на компьютере действие по преобразованию текста на одном ЕЯ в эквивалентный по содержанию текст на другом языке.

Универсальные прикладные проблемы:

SYMBOL 183 f "Symbol" s 10 h создание и совершенствование алфавитов и письменности (решена полностью и спешно) 3 стадии: (1) появление письменности, (2) книгопечатание, (3) компьютеризация.

SYMBOL 183 f "Symbol" s 10 h создание систем транскрипции стной речи, систем транслитерации иноязычных слов

SYMBOL 183 f "Symbol" s 10 h составление словарей (лексикография) (первые словари - глоссарии - комментарии к церковным текстам) составление автоматических словарей, тезаурусов

SYMBOL 183 f "Symbol" s 10 h нификация и стандартизация научно-технической терминологии

SYMBOL 183 f "Symbol" s 10 h изучение процессов и создание правил образования новых названий изделий, товаров и т.п.

SYMBOL 183 f "Symbol" s 10 h стный и письменный перевод, разработка систем машинного перевода, АМов

SYMBOL 183 f "Symbol" s 10 h обучение родному и иностранным языкам, разработка соответствующих методик (обучение детей и взрослых, обучение эмигрантов,...)

SYMBOL 183 f "Symbol" s 10 h создание и совершенствование ИЯ для для записи информации

SYMBOL 183 f "Symbol" s 10 h автоматическое распознавание и синтез речи

SYMBOL 183 f "Symbol" s 10 h автоматические методы переработки текстовой информации

SYMBOL 183 f "Symbol" s 10 h создание автоматизированных систем информационного поиска

SYMBOL 183 f "Symbol" s 10 h составление автоматических словарей и систем машинного перевода

SYMBOL 183 f "Symbol" s 10 h разработка методов автоматического аннотирования, реферирования и перевода

SYMBOL 183 f "Symbol" s 10 h разработка экспертных систем

SYMBOL 183 f "Symbol" s 10 h лингвистическое обеспечение АСУ

SYMBOL 183 f "Symbol" s 10 h ïðîáëåìû ÿçûêà è ïîëà (politically correct non-sexist language)

SYMBOL 183 f "Symbol" s 10 h создание систем стенографии, систем письма для слепых

SYMBOL 183 f "Symbol" s 10 h лечение речевых расстройств

SYMBOL 183 f "Symbol" s 10 h анализ дискурса

Билет 5

1. Понятие ровня в теоретической и прикладной лингвистике

Идея ровневой организации языка получила широкое распространение в сер. 20 гг. сначала в в американской дескриптивистской лингвистике, позднее и в других направлениях, в том числе в отечественной лингвистике.

(ЛЭС) ровни языка - некоторые части языка; подсистемы общей языковой системы, каждая из которых характеризуется совокупностью относительно однородных единиц и набором правил, регулирующих их использование и группировку в различные классы и подклассы.

Членение на ровни в рамках теоретической лингвистики:

SYMBOL 183 f "Symbol" s 10 h фонемный

SYMBOL 183 f "Symbol" s 10 h морфемный

SYMBOL 183 f "Symbol" s 10 h лексический (уровень слова)

SYMBOL 183 f "Symbol" s 10 h синтаксический (уровень предложения)

Уровнеобразующими свойствами обладают только те единицы языка, которые подчиняются правилам уровневой сочетаемости, т.е. обладают способностью вступать в парадигматические и синтагматические отношения только с единицами того же ровня. С единицами другого ровня единицы какого-либо ровня вступают только в иерархические отношения типа "состоит из...", "входит в...". Так фонемы могут образовать классы и сочетаться в речевой цепи только с фонемами, морфемы - с морфемами, слова - только со словами. В тоже время фонемы входят в звуковые оболочки морфем, морфемы - в слова, слова - в предложения. Группировки единиц языка внутри ровней, например. фонем (гласные и согласные), морфем (корневые, аффиксальные), слов (знаменательные. служебные и т.д.) не являются ровнеобразующими.

Уровень языка следует отличать от ровня анализа языка - фаз или этапов рассмотрения языка. В лингвистической практике онтологический ровень языка и процедурный уровень анализа (операционный) нередко смешиваются, хотя между ними нет прямого соответствия. ровни анализа зависят от целей и задач исследования, т.е. во многом определяются точкой зрения исследователя на изучаемый объект.

(Городецкий, К проблеме семантической типологии): ровень языка - это совокупность сходно функционирующих единиц вместе со связывающих их отношениями.

Структура языка делится на два относительно замкнутых (самостоятельных и независимых) плана: план выражения и план содержания, внутри каждого из которых различают индивидуальный набор ровней, т.е. ровни плана содержания не изоморфны ровням плана выражения (полисемия, омонимия, синонимия; русским гласным не соответствуют никакие единицы ПС).

Как и языковая структура в целом ровни правляют обеими сторонами речевой деятельности анализом и синтезом, являясь их структурной основой, однако не следует привязывать языковой ровень к конкретной процедуре анализа/синтеза. Языковой ровень - лингвистическая универсалия.

Состав ровней ПВ:

1) ровень фонемы

2) ровень морфемы

3) ровень слова

4) ровень словосочетания

5) ровень предложения

Состав ровней ПС:

1) морфо-семантический ровень (единицы - значения морфем)

2) лексико-семантический ровень (единицы - лексемы (значения слов)

Различаются в размере соответствующих формальных единиц.

Морфема - наименьший двуплановый речевой отрезок с ПС состоит

2. Автоматизированные переводные словари. Принципы построения.

С - это словарь, который при переводе некоторые операции делает за человека. Компьютерный словарь - аналог бумажного на магнитных носителях. С = ТБД с общеупотребительной лексикой. EURODICAUTOM (11, 1.200. ЛЕ), LEXIS (8, 1.500. ЛЕ).

Отличительные свойства АС:

многоязычие

SYMBOL 183 f "Symbol" s 10 h обратимость ( полная: всякая ЛЕ может выступать в роли входной при запросе и выходной при ответе; частичная: наличие индекса)

SYMBOL 183 f "Symbol" s 10 h гибкость (удобное, прощенное обращение к словарю: несколько входов в словарь)

SYMBOL 183 f "Symbol" s 10 h динамичность (постоянное пополнение словарного состава; оперативность редактирования)

SYMBOL 183 f "Symbol" s 10 h состав (структура) словаря:

макроструктура - структура словаря:

микроструктура - структура словарной статьи

основная единица словаря

SYMBOL 183 f "Symbol" s 10 h слово (композиционно)

SYMBOL 183 f "Symbol" s 10 h словосочетание (статистически); 80% обращений к словарю - СС; причина -уклон в терминологию

3 главных компонента АС:

SYMBOL 183 f "Symbol" s 10 h блок обработки запроса (блок лемматизации - сведения текстовых форм к их словарным (каноническим) форме)

SYMBOL 183 f "Symbol" s 10 h блок лексических массивов (в АС ЛЕ могут храниться и в виде основ, и виде словоформ)

(SYMBOL 183 f "Symbol" s 10 h блок морфологического анализа) (иногда)

SYMBOL 183 f "Symbol" s 10 h блок выдачи ответа (ПЭ; главная задача - варьирование ответа в зависимости от пожеланий пользователя)

Желательно также, чтобы АС обладал:

SYMBOL 183 f "Symbol" s 10 h блоком лемматизации

SYMBOL 183 f "Symbol" s 10 h алгоритмом обработки некорректных запросов

SYMBOL 183 f "Symbol" s 10 h алгоритмом словообразовательного анализа)

С не СМП, он берет на себя только работу с лексемой, оставляя человеку проблему выбора ПЭ и синтеза текста. На вход АПС поступают отдельные слова и СС, с помощью анализа которых можно получить сведения о грамм. классе слова и его грамм. форме. решить на основании этой информации проблемы омонимии и многозначность, определить синтас. функцию ПЭ в тексте невозможно, поэтому разработчики АПС таких задач перед собой и не ставят. Тем не менее индекс тематической принадлежности в какой-то мере разрешает многозначность лексики.

Словарная статья:

Ее структура и наполнение определяется назначением словаря.

Структура словарной статьи (13 зон):

1. Заголовок - основа, СС (больше всех по количеству), морфема, фрагменты текста

2. Зона лексического грамматического класса - ЛЕ по частям речи, далее - категоризация.

3. Зона морфологической информации

4. Рубрик подрубрик стиль (вся информация - в виде цифровых кодов)

5. Зона индекса надежности отражает степень общепринятости данного ПЭ:

- официальный стандарт

Б - важаемые словари

В - тетради новых терминов

Г - плавающие

6. Зона ПЭ (при нескольких ПЭ - у каждого свой номер)

7. Зона пояснительных помет - точнение значения данной ЛЕ

SYMBOL 183 f "Symbol" s 10 h семантические

SYMBOL 183 f "Symbol" s 10 h лексические

SYMBOL 183 f "Symbol" s 10 h синтаксические (обязат. управление)

8. Зона толкований (для многозначных слов и новых терминов)

9. Зона примеров потребления выполняет две функции:

SYMBOL 183 f "Symbol" s 10 h иллюстративную

SYMBOL 183 f "Symbol" s 10 h смыслоразличительную

10. Зона фразеологии.

11. Составитель словарной статьи

12. Источник составления словарной статьи -> необязательные

13. Дата составления словарной статьи

Билет 7

1. Лексикография как прикладная дисциплина. Внутренняя и внешняя типология словарей.

Лексикография - прикладная лингвистическая дисциплина, занимающаяся практикой и теорией составления словарей.

Словарь - способ организации и представления знаний. Чем полнее и адекватнее в словаре представлены знания, тем лучше словарь выполняет свою функцию.

Лексикография как научная дисциплина носит комплексный характер, но определяющей чертой лексикографии является ее прикладная направленность. Все многообразие различных типов словарей (нормативные, учебные, переводные, терминологические, идеологические, этимологические... ) получает практическую ориентацию исходя из целевой становки словаря.

Лексикография разрабатывает оптимальные средства выявления и фиксации семантических фактов определенных практических целях. Главная проблем в разработке оптимальной стратегии новых словарей - проблема обоснованности словарей как с точки зрения их состава, так и в плане адекватности подаваемой в них информации. Лексикография в широком смысле охватывает все множество инвентарей языковых единиц с приписанной им информацией того или иного рода. Наиболее богата и сложна для отражения семантическая информация.

Лексикографическая деятельность распадается на ряд этапов:

1. разработка системы требований, касающихся внешних параметров словаря (назначения, круга пользователей, инф. области...)

2. разработка системы требований, касающихся внутренней параметров словаря (единиц описания, основных свойств метаязыка. объема, структуры, видов словарной информации...)

3. формальная инвентаризация выбранных подъязыков (отбор текстов, расписывание контекстов, характеристика грамм. форм, составление предварительных словников...)

4. экспериментальные исследования семантики описываемых единиц (дистрибутивный анализ текстов, тесты с носителями языка...)

5. обобщение экспериментальных данных

6. построение дефиниций на соответствующем метаязыке и их проверка в ходе новых экспериментов

7. сбор и систематизация дополнительной информации о каждой языковой единице

8. оформление словарных статей

9. системный анализ и порядочение словарных статей

10. оформление словаря в целом, включая вспомогательные казатели.

спекты лексикографии:

SYMBOL 183 f "Symbol" s 10 h историко-филологический - изучение истории словарей как части истории культуры общества

SYMBOL 183 f "Symbol" s 10 h гносеологический (когнитивный) - изучение словарей как сокровищниц знаний. накопленных обществом

SYMBOL 183 f "Symbol" s 10 h семантико-лексикологический - использование словарей для лексико-семантического описания языка

SYMBOL 183 f "Symbol" s 10 h прикладной (самый важный) - прикладная лексикография направлена на совершенствование словарей с точки зрения тех или иных практических требований к словарям

Виды информации подаваемой в словаре определяют внутреннюю типологию словарей:

I. Объекты описания:

1) формальные/ семантические

2) природа объектов (лекс.-семантический или морфо-семантический ровень; в парадигматическом или в синтагматическом аспекте)

3) статус объекта (является ли словарь нормативныма или описательным)

4) хронологический период

5) по сфере общения (подъязык)

6) степень охвата языка

II. Системные свойства

1) какая грамматическая информация дается об описываемых единицах?

2) какие стилистические пометы используются?

3) какой тип определения (дефиниции) дается?

4) включается ли экстралингвистическая информация?

5) в какой мере учитываются семантические отношения?

6) объясняется ли мотивированность описываемой единицы?

. Актуализация в языковой жизни

1) казывается ли происхождение единиц?

2) казывается ли активность единицы в языковой жизни (частотность)?

3) показывается ли реализация единиц в контексте

IY. Прагматика пользователя

1) количество входов в словарь

2) каков порядок расположения единиц в словаре (по формальному или семантическому признаку?

3) имеются ли в словаре казатели?

4) даются ли металингвитсические сведения (история изучения, разные трактовки)?

Y. Связь с другими языками

1) производится ли генетическое сопоставление единиц и их значений с родственными языками?

2) производится ли типологическое сопоставление материала неродственных языков?

Цели словаря задают внешнюю (функциональную) типологию словарей:

Òèïû ñëîâàðåé	Öåëü
ó÷åáíûå ñëîâàðè	îáó÷åíèå
ïåðåâîäíûå ñëîâàðè	ïåðåâîä
íîðìàòèâíûå ñëîâàðè	íîðìèðîâàíèå
òåðìèíîëîãè÷åñêèå ñëîâàðè	ñèñòåìàòèçàöèÿ, óòî÷íåíèå íàó÷íûõ ïîíÿòèé

Типология словарей по Ожегову:

SYMBOL 183 f "Symbol" s 10 h большой (представляет совр. русский язык в широкой ист. перспективе)

SYMBOL 183 f "Symbol" s 10 h средний (с детальной разработкой исторически оправданного стилистического многообразия лит. РЯ)

SYMBOL 183 f "Symbol" s 10 h краткий (популярного типа, стремящийся к активной нормализации совр. лит. речи)

Типология словарей по Щербе:

SYMBOL 183 f "Symbol" s 10 h словарь-справочник - словарь академического типа

SYMBOL 183 f "Symbol" s 10 h энциклопедический - общий словарь

SYMBOL 183 f "Symbol" s 10 h тезаурус - обычный толковый или переводной словарь

SYMBOL 183 f "Symbol" s 10 h обычный толковый или переводной словарь - идеологический словарь

SYMBOL 183 f "Symbol" s 10 h толковый словарь - переводной словарь

2. Автоматизированные информационно-поисковые системы: их структуры, функции, критерии оценки. Информационные языки.

ИПС предназначены для инф. обслуживания пользователей информации в заданной тематической области.

2 основные задачи АИПС:

SYMBOL 183 f "Symbol" s 10 h хранение информации

SYMBOL 183 f "Symbol" s 10 h поиск и выдача информации

Из сведений о ТО. поступающих на хранение в систему формируется информационный массив (ИМ). От потребителя поступают запросы, и система ищет сведения в ИМ, Соответствующие данному запросу. Всякая поисковая операция в системе сводится к сравнению поступившего запроса с имеющимися в системе сведениями. в современных ИПС все это происходит автоматически. Для этого и запрос и сведения должны быть представлены на таком языке, который обладает смысловой однозначностью - ИПЯ.

Индексирование - перевод содержания текста, хранящегося в ИМ на ИПЯ. в результате индексирования образуется поисковый образ, у документа - ПОД, у запроса - ПОЗ.

Критерий смыслового соответствия - мера соответствия между содержанием запроса и документа, достаточная для признания данного документа релевантным данному запросу. Вводится совокупность признаков, на основании которых станавливается степень необходимого и достаточного соответствия между поисковым предписанием и поисковым образом документа, выраженными на одном и том же ИПЯ.

Результатом поисковой операции является выборка релевантных ПДов.

бстрактная ИПС - некий логико-семантический аппарат, состоящий из ИПС, правил индексирования и критерия выдачи.

В зависимости от характера сведений и запроса различаются документальная и фактографическая ИПС. Фактографическая ИПС не хранит документы, только факты. Документальная хранит документы. Но существует прием, позволяющий в процессе поиска определенного документа извлекать факт: В документальной системе хранится информация о содержании документа + документографическая информация (автор, год...)

выделение нужной пользователю информации осложняется двумя обстоятельствами:

SYMBOL 183 f "Symbol" s 10 h несоответствие между формулировкой запроса и реальной информацией нужной потребителю

SYMBOL 183 f "Symbol" s 10 h перевод запроса в ПОЗ

Мера соответствия документа информационной потребности называется пертенетностью.

Соответствие документа запросу называется релевантностью:

SYMBOL 183 f "Symbol" s 10 h смысловая (соответствие запроса поисковому предписанию) - просто релевантность, зависит от ИПЯ (его семантической силы, глубины индексирования, совершенства логико-сем. аппарата)

SYMBOL 183 f "Symbol" s 10 h формальная (соответствие документа поисковому предписанию)

ИПЯ - специализированный ИЯ, предназначенный для эксплицитной записи содержания документов и запросов в форме, добной для автоматического поиска.

Êëàññèôèêàöèÿ ÈÏß:

предкоординированные ИПЯ

присутствует заранее заданная классификационная схема

посткоординируемые ИПЯ

отсутствует заранее заданная классификационная схема

Òèïû êëàññèôèêàöèé

иерархическая

задает дерево знаний, например всей литературы по лингвистике

лфавитно-предметная

например, телефонный справочник

фасетная

опирается на разные аспекты описания, задается так называемая фасетная формула (Ж1 Ц2 Ф1), представляющая собой шаблон, рассматривается класс, аспект предмета

Ôàñåòíàÿ êëàññèôèêàöèÿ: ôèëüìû:

æàíð

öâåò

ôîðìàò

Æ1

Æ2

Ц1 цветной

Ц2 черно-белый

Ô1 øèðîêîôîðìàòíûé

ôàñåòíàÿ ôîðìóëà: Æ1 Ö2 Ô1

Îáùèå íåäîñòàòêè ïðåäêîîðäèíèðîâàííûõ ÈÏß:

SYMBOL 183 f "Symbol" s 10 h не позволяют вести поиск по заранее непредусмотренному сочетанию признаков

SYMBOL 183 f "Symbol" s 10 h все классификации имеют недостаточную глубину

SYMBOL 183 f "Symbol" s 10 h процесс индексирования принципиально не автоматизирован, т. е ручное индексирование

Ïîñòêîîðäèíèðóåìûå ÈÏß:

семантические коды

в ЛЕ в явном виде заданы парадигматические отношения

дескрипторы

оперируют монолитными СЕ, в основу положен принцип координированного индексирования, который выражается в том. что основная тема документа выражается в виде набора слов или СС, т. о документ помещается в n-мерное пространство

Семантические коды Перри и Кента (США) м.б простыми и составными, простая ЛЕ - сем. ìíîæèòåëü;

RX êîäû

ðó÷íîå èíäåêñèðîâàíèå

грамматики мешочного типа

(теоретико-множественные грамматики) задаются отношением совместного вхождения в класс, ПОД составляется вручную, ПОД -перечень ключевых слов.

позиционно-скобочные грамматики

сохранение всего исходного текста документа с явным казанием порядка следования, деления на абзацы, предложения:

сетевые грамматики

в явном виде задается смысл связи между элементами текста (Скрэгг)

ИПЯ с ПСГ:

SYMBOL 183 f "Symbol" s 10 h индексирование без лексического контроля, до индексирования могут не иметь словаря, словарь формируется в результате индексирования.

SYMBOL 183 f "Symbol" s 10 h индексирование с лексическим контролем - все словоформы приводятся к стандартному виду

2. Назначение и принципы организации Субд на ПЭВМ

СУБД состоит из совокупности взаимосвязанных данных и набора программ, обеспечивающих доступ к данным и манипуляцию ими. Совокупность взаимосвязанных данных принято называть БД. [Henry F. Korth]

Более зкое определение СУБД - набор компьютерных программ, предназначенных для создания, поддержки, и использования БД

СУБД обеспечивает доступ к данным в процессе диалога с пользователем, отвечая на его вопросы (запросы).

Выделяется три ровня абстракции, на которых можно просмотреть данные.

SYMBOL 183 f "Symbol" s 10 h Физический ровень - ровень минимальной абстракции; на нем хранятся физические данные.

SYMBOL 183 f "Symbol" s 10 h Концептуальный уровень содержит описание данных, хранящихся в БД и отношений между ними. Он описывает всю БД в целом, используя несколько относительно простых структур - концептуальных схем; предназначен для администратора БД.

SYMBOL 183 f "Symbol" s 10 h ровень представления - ровень максимальной абстракции; предназначен для основной массы пользователей БД. В одной БД может одновременно существовать несколько ровней представления.

SYMBOL 183 f "Symbol" s 10 h Модель данных представляет собой набор концептуальных инструментов для описания данных, отношений между ними, семантики данных и ограничений их целостности (consistency constraints).

Выделяют три класса моделей:

SYMBOL 183 f "Symbol" s 10 h логические модели, опирающиеся на понятие объекта (object-based logical models);

SYMBOL 183 f "Symbol" s 10 h логические модели, опирающиеся на понятие записи; (record-based logical models);

SYMBOL 183 f "Symbol" s 10 h физические модели данных (physical data models).

Объектные логические модели.

Объектные логические модели описывают данные на концептуальном ровне и ровне представления. Они позволяют определять структуру и ограничения целостности. На сегодняшний день существует свыше 30 моделей этого класса. Из них самые известные:

SYMBOL 183 f "Symbol" s 10 h модель сущность-связь;

SYMBOL 183 f "Symbol" s 10 h бинарная модель;

SYMBOL 183 f "Symbol" s 10 h семантическая модель данных;

SYMBOL 183 f "Symbol" s 10 h инфологическая модель.

Модель сущность-связь - основной представитель класса объектных моделей. Она считается наиболее адекватной для архитектуры БД и наиболее распространенной.

В основе модели сущность-связь лежит представление о реальном мире как о совокупности основных объектов, называемых сущностями и связей между ними.

SYMBOL 183 f "Symbol" s 10 h Под сущностью понимают любой реально существующий объект, отличный от других объектов. Чтобы отличить один объект от другого, каждому из ниха приписывается набор атрибутов, описывающих данный объект.

SYMBOL 183 f "Symbol" s 10 h Связь - это соединение между несколькими сущностями. Для того, чтобы различать сущности и связи, каждому набору сущностей приписывается первичный ключ.

SYMBOL 183 f "Symbol" s 10 h Первичный ключ - это один или несколько атрибутов, позволяющих однозначно идентифицировать сущность в наборе сущностей.

БД, довлетворяющая диаграмме сущность-связь, может быть представлена в виде набора таблиц. Для каждого набора сущностей, как и для каждого набора отношений, создается отдельная таблица, которой присваивается имя соответствующего набора. В свою очередь, каждая таблица состоит из столбцов, каждый из которых имеет свое название.

Логические модели, опирающиеся на понятие записи.

Логические модели, опирающиеся на понятие записи, как и объектные логические модели, описывают данные на концептуальном ровне и уровне представления, но, в отличие от последних, эти модели определяют не только архитектуру БД, но и даюта общее описание ее реализации. Однако модели этого класса же не позволяют вводить ограничения на содержимое БД, как это делают объектные логические модели.

Самые распространенные модели:

SYMBOL 183 f "Symbol" s 10 h реляционная

SYMBOL 183 f "Symbol" s 10 h сетевая

SYMBOL 183 f "Symbol" s 10 h иерархическая.

Реляционная модель была предложена в 1970 году Е.Ф. Коддом и на сегодняшний день является признанным лидером среди моделей своего класса. Она основана на математическом понятии отношения.

Согласно реляционной модели, общая структура данных (отношение) может быть представлена в виде таблицы, в которой каждая строка значений (кортеж) соответствует логической записи, заголовки столбцов являются названиями полей (элементов) в записях. Таким образом, данные и отношения между ними в реляционной модели представлены в виде набора таблиц, аналогичным по своей структуре таблицам модели сущность-связь.

Примеры реляционных БД: dBASE IY, FoxPro, Paradox.

Наиболее язвимой частью реляционной модели являются проблемы целостности. Для их разрешения приняты ограничения, соответствующие строгой реляционной модели. До сих пор не давалось создать СУБД полностью реляционную СУБД. Можно говорить лишь о большей или меньшей степени реляционности в отношении коммерческих СУБД. Однако для того чтобы называться реляционной СУБД должна обязательно отвечать следующим словиям:

SYMBOL 183 f "Symbol" s 10 h данные в ней должны храниться в таблицах;

SYMBOL 183 f "Symbol" s 10 h казатели и связи не должны быть видны пользователю;

SYMBOL 183 f "Symbol" s 10 h язык запросов должен быть реляционно полным.

Сетевая модель появилась в конце 1960-х гг. Она более привязана к реализации БД, чем реляционная модель.

Сетевая БД состоит из набора записей, соединенных друг с другом при помощи ссылок (links), которые могут быть видны пользователю как казатели (pointers). Ссылка соединяет ровно две записи. Записи организованы в виде произвольного графа (arbitrary graph).

Иерархическая модель представляет собой разновидность сетевой.

Иерархическая БД, как и сетевая, состоит из совокупности записей, соединенных между собой при помощи ссылок. Каждая запись состоит из набора полей, каждое из которых содержит ровно один параметр данных.

Основное отличие иерархической модели от сетевой заключается в способе организации записей. В иерархической модели записи организованы в виде деревьев, не произвольных графов, как в сетевой модели. Общая логическая структура иерархической БД описывается при помощи диаграммы структуры дерева (tree- structure diagram), состоящей из записей и ссылок.

Пример иерархической БД: ACCESS.

Физические модели данных.

Физические модели данных используются на ровне минимальной абстракции. Это самый малочисленный класс моделей. Наиболее известные из них: отождествляющая модель (unifying model) и модель фреймовой памяти (frame memory).

Язык определения данных.

План БД определяется набором выражений (дефиниций), написанных на специальном языке, который называется язык определения данных (ЯОД) (data definition language).

Результатом компиляции выражений на ЯОД является набор таблиц, хранящийся в специальном файле, который называется словарь данных (data dictionary). В словаре данных хранятся метаданные, то есть данные о данных.

Разновидностью ЯОД является язык хранения и определения данных (data storage and manipulation language), на котором написаны выражения, определяющие методы доступа к данным и способ хранения структуры.

Язык манипуляции данными.

Под манипуляцией данными понимают:

SYMBOL 183 f "Symbol" s 10 h извлечение информации, хранящейся в БД;

SYMBOL 183 f "Symbol" s 10 h добавление новой информации в БД;

SYMBOL 183 f "Symbol" s 10 h уничтожение хранящейся в БД информации.

Язык манипуляции данными (ЯМД) обеспечивает пользователю доступ и манипуляцию данными. Различают два основных типа ЯМД:

SYMBOL 183 f "Symbol" s 10 h процедурный, который требует от пользователя казать тип нужных ему данных и способ их получения, то есть содержит процедуры поиска данных;

SYMBOL 183 f "Symbol" s 10 h непроцедурный, который требует казать только тип данных, не точняя способ их получения, то есть не включает процедуры поиска.

Часть ЯМД, отвечающая за выборку данных, называется языком запросов.

Запрос (query) - выражение, задающее поиск данных в СУБД.

Менеджер БД - программный модуль, обеспечивающий интерфейс между данными низкого ровня, хранящимися в БД, прикладными программами и адресованными системе запросами.

Развернутая структура СУБД: СУБД состоит из модулей, каждый из которых выполняет определенную функцию. Некоторые функции СУБД могут выполняться операционной системой. Архитектура СУБД должна обеспечивать интерфейс между СУБД и операционной системой. СУБД состоит из следующих функциональных компонентов:

SYMBOL 183 f "Symbol" s 10 h Менеджер файлов правляет распределением места на диске и структурами данных; обеспечивает взаимодействие между данными низкого ровня, хранящимися в БД, прикладными программами и запросами, адресованными системе.

SYMBOL 183 f "Symbol" s 10 h Процессор запросов переводит выражения на языке запросов в инструкции, понятные менеджеру БД.

SYMBOL 183 f "Symbol" s 10 h Прекомпилятор ЯМД переводит выражения на ЯМД, вложенные в прикладную программу.

SYMBOL 183 f "Symbol" s 10 h Компилятор ЯОД переводит выражения на ЯОД в набор таблиц, содержащих

Структуры данных

SYMBOL 183 f "Symbol" s 10 h Файлы данных содержат собственно данные.

SYMBOL 183 f "Symbol" s 10 h Словарь данных содержит информацию о структуре БД.

SYMBOL 183 f "Symbol" s 10 h Индексы служат для быстрого поиска данных с конкретными значениями (атрибутами).

Билет 9

1. Формальные модели синтаксической структуры предложения.

Динамические и статистические модели

1. Дескриптивная модель Задача - описание структуры языка

нормирование (определение всех правил синтаксических структур)

исчисление

1) Грамматика зависимостей (европейская традиция, близка к НС, один из авторов - Гладкий) - казание для каждого слова тех слов, которые ему непосредственно подчинены.

Дерево синтаксических зависимостей есть дерево, множество злов которого служит множеством вхождений слов в предложение. Деревом называется множество, между элементами которого - злами - становлено бинарное отношение - отношение подчинения и графически изображают стрелками. идущими от подчиняющих злов к подчиненным,- такое, что:

SYMBOL 183 f "Symbol" s 10 h среди узлов имеется одина - корень - неподчиненный никакому другому узлу

SYMBOL 183 f "Symbol" s 10 h каждый из остальных злов подчинен точно одному злу

SYMBOL 183 f "Symbol" s 10 h нельзя, отправившись из к.л. зла вдоль стрелок вернутся в тот же зел.

ДЗ (дерево зависимостей) обычно используется в описаниях языков со свободным порядком слов (в частности, русского). Стрелки ДЗ обычно помечаются символами синтаксических отношений (предикативное, определительное и т.п.).

2) Метод Са составляющие - Для описания синтаксической структуры предложения выделяются группы слов, функционирующие как отдельные синт. единицы - составляющие.

Систем составляющих - это множество отрезков предложения которое обладает тем свойством, что каждые два входящих в него отрезка либо не пересекаются либо один из них содержится в другом.

SYMBOL 183 f "Symbol" s 10 h Одна из НС - ядро конструкции, остальные - маргинальные элементы.

SYMBOL 183 f "Symbol" s 10 h При графическом изображении система составляющих тоже приобретает вид дерева (дерева непосредственных составляющих - ДНС).

SYMBOL 183 f "Symbol" s 10 h ДНС используются преим. в описаниях языков с жестким порядком слов.

SYMBOL 183 f "Symbol" s 10 h Составляющие обычно помечаются символами грамм. категорий (именная группа, группа переходного глагола и т.п.)

2. Трансформационная грамматика (Харрис, 50-е гг.) (грамматика деревьев) служит не для порождения предложений, для преобразования деревьев, интерпретируемых как деревья подчинения или деревья составляющих, например грамматика - система правил преобразования деревьев, интерпретируемых как "чистые" деревья подчинения предложений (без линейного порядка слов).

три ровня описания

1) правила НС

2) трансформационные правила

3) морфологические правила

Допущения:

SYMBOL 183 f "Symbol" s 10 h синт. система может быть разбита на ряд подсистем, одна из которых - исходная (ядерная), остальные - производные. Ядерная Т - набор предложений (утвердительных, простых, с глаголом в изъяв. форме, активного залога, наст. времени.)

SYMBOL 183 f "Symbol" s 10 h ядерное предложение описывает элементарные ситуации, класс ЯП - все множество элем. ситуаций.

SYMBOL 183 f "Symbol" s 10 h любой сложный синт. тип можно получить при применении порядоченного набора обязательных и факультативных трансформаций к ядерному предложению.

Представление синт. структуры предложения - казание ядерного типа, лежащего в основе предложения и трансформаций, которые к нему применялись, также их последовательности.

Метод явился основой порождающей грамматики Хомского.

3. Порождающая грамматика Хомского, представляющая собой порядоченную систему Г =(V,W,П,R), где V и W - непересекающиеся конечные множества - основное (терминальное) и вспомогательное (нетерминальное), П - элемент W, называемый начальным символом и R - конечное множество правил вид, где цепочки (конечные последовательности) из основных и вспомогательных символов. Множество тех цепочек из основных символов, которые выводимы в Г из ее начального символа, называют языком, порождаемым грамматикой Г и обозначают L(Г). Если все правила Г имеют вид, где - правый и левый контексты, то Г называется грамматикой асоставляющих или грамматикой непосредственно составляющих (ГНС). Чаще всего основные символы интерпретируются как слова, вспомогательные - как символы грамматических категорий, начальный символ - как символ категории "предложение".

4. Реляционная модель

5. Аппликационная модель (Шаумяна?)

Доминационная грамматика, которая порождает множество цепочек, интерпретируемых обычно как предложения и вместе с их синтакс. структурами в виде ДЗ.

Грамматики Монтегю служат одновременно для описания синтакс. и семант. структуры предложения. В них используется сложный математико-логический аппарата (так называемая интенциональная логика).

2. Экспертные системы и их архитектура. Функции основных компонентов.

Экспертная система - это компьютерная программа, которая моделирует рассуждение человека-эксперта в определенной области, используя для этого БЗ, содержащую факты и правила об этой области и некоторую процедуру логического вывода.

Разработка ЭС - сравнительно новое направление в системах ИИ; второе название - инженерия знаний (термин ввел в 1977 Фегенбаум), сформировалась в середине 70 гг.

Раньше была цепочка: аналитик - программист - оператор - пользователь; теперь пользователь может обращаться прямо к ЭВМ (либо только через инженера по знаниям).

Ñòðóêòóðà ÝÑ:

ðàíüøå:

âõîäíûå äàííûå

ïðîãðàìì

теперь:

входные данные

интерпретатор БЗ

БЗ

Обычные программы имеют фиксированную последовательность шагов, строго определенную программистом, ЭС пользуются нахождением довлетворительного решения методом проб и ошибок.

ЭС решают трудно формализуемые задачи. не имеющие алгоритмического решения () медицина, геология, правление, юридические науки).

Попов: три причины появления ЭС:

SYMBOL 183 f "Symbol" s 10 h ориентированы на решение задач в неформализованных областях

SYMBOL 183 f "Symbol" s 10 h предназначены для пользователей, не имеющих спец. навыков программирования

SYMBOL 183 f "Symbol" s 10 h ЭС решают задачи лучше, чем человек.

3 принципа разработки ЭС:

1. мощность ЭС определяется мощностью БЗ и процедурами ее пополнения, т.о. компонент приобретения знаний важнее компонента логического вывода. (Раньше большее внимание делялось лог. выводу).

2. Знание. используемое ЭС, является в основном эвристическим, экспериментальным, поэтому используется коэффициент достоверности.

3. ЭС реализуется в форме диалоговой системы.

ЭС должна обладать способностью приобретать знания.

2 источника приобретения знаний:

1) от эксперта

2) из текстов (не разработано)

ЭС решают практические задачи. не экспериментальные; решения ЭС могут быть объяснены пользователю, т.е обладают свойством прозрачности, для этого существует специальный компонент - объяснительный.

Формальная основа ЭС: базовое понятие - правило продукции или формальные процедуры системы: правила вида словие -> действие если -> то (если была разлита горючая жидкостью то вызовите пожарных).

Термин продукция ввел Пост (1943)

Свойство продукции - всякая формальная система. оперирующая символами, может быть реализована одной из продукционных систем.

Àðõèòåêòóðà ÝÑ

Ïîëüçîâàòåëü ÝÑ Îáùåíèå íà Åß	Лигвитсический компонент анализа с синтеза входных сообщений	рабочая память текущее состояние проведения экспертизы	îáúÿñíèòåëüíûé êîìïîíåíò

			èíòåðïðåòàòîð

			êîìïîíåíò ïðèîáðåòåíèÿ çíàíèé

			ÁÇ

SYMBOL 183 f "Symbol" s 10 h БЗ имеет динамический характер, содержит факты и правила в форме продукций

SYMBOL 183 f "Symbol" s 10 h интерпретатор (решатель) имеет дело с процедурами логического вывода, на основе имеющихся данных решает задачу

SYMBOL 183 f "Symbol" s 10 h лингвистический процессор осуществляет диалог с пользователем

SYMBOL 183 f "Symbol" s 10 h рабочая память хранит данные

SYMBOL 183 f "Symbol" s 10 h компонент приобретения знаний - с его помощью знания извлекаются из эксперта или текста и заносятся в БЗ

SYMBOL 183 f "Symbol" s 10 h объяснительный компонент отвечает на вопрос, почему принято данное решение и чем мотивирован выбор.

2 режима работы ЭС:

SYMBOL 183 f "Symbol" s 10 h приобретение знаний: частвует эксперт и инженер по знаниям (посредник)ручные и автоматизированные методы (brainstorm)

SYMBOL 183 f "Symbol" s 10 h режим решения задач: главный частник - пользователь, заинтересованный в результате.

Типы ЭС:

SYMBOL 183 f "Symbol" s 10 h демонстрационные прототипы (56)

SYMBOL 183 f "Symbol" s 10 h исследовательские (92)

SYMBOL 183 f "Symbol" s 10 h действующие (12)

SYMBOL 183 f "Symbol" s 10 h промышленные (4)

SYMBOL 183 f "Symbol" s 10 h коммерческие (9)

Примеры ЭС

две старейшие ЭС:

DENDRAL (химическая тематика, определяет структуру хим. элементов)

MAXIMA (решение мат. задач)

Система FOBS

Санджай, Чадна и др., "Использование известных ситуаций (cases) для построения" ЭС MEDIA (выбор оптимального СМИ для маркетинга на материале Harvard Business School) на основе оболочки ADVISOR. Система задает вопросы и анализирует все факторы, связанные с продуктом (поведение покупателя, ориентация на конкретного покупателя, конъюнктура), рекомендует средство рекламы, перечисляет возможные альтернативы и аргументирует свой выбор.

Билет 10

1. Типы экспериментальных методов в лингвистике

Экспериментальные методы в лингвистике - это методы, позволяющие изучать факты языка в словиях. правляемых и контролируемых исследователем. Философской основой применения экспериментальных методов в лингвистике является тезис о единстве теоретического и эмпирического ровней познания.

В современной лингвистике термин "экспериментальный метод" не является четким; лингвисты часто говорят об эксперименте там, где имеет место наблюдение, прежде всего наблюдение над текстами (письменными и устными). Существенно. что текст как таковой, будучи данностью не может быть объектом ЭМ; именно поэтому ЭМ не применимы к изучению истории языка, особенностей стиля автора и т.п. в этих случаях следует говорить о наблюдении. Объектом ЭМ является человек - носитель языка, порождающий текст, воспринимающий тексты и выступающий как информант для исследователя. в лингвистическом эксперименте исследователь может иметь в качестве подобного объекта самого себя или других носителей языка; в первом случае следует говорить об интроспекции, во втором - об объективном эксперименте.

Экспериментальная работа с информантами (нередко в сочетании с наблюдением) непосредственно в среде носителей языка называется обычно полевой лингвистикой.

Историю применения ЭМ в лингвистике можно разделить на три периода:

1. Активное освоение ЭМ в фонетике, акцент на сходстве ЭМ в лингвистике и точных науках (труды Богородицкого, Щербы, Матусевича)

2. Осознание ЭМ в лингвистике как важнейшего способа получения данных о живом языке вообще, включая его морфологию. синтаксис, семантику, также проблемы языковой нормы, языкового общения, патологий речевого развития и т.д. эта научная программа была впервые сформулирована Щербой ("О трояком аспекте языковых явлений и об эксперименте в языкознании")

3. Реализация казанной научной программы, и как следствие глублении методологических разработок (Апресян, Фрумкина). В социолингвистике и психолигвистике ЭМ занимают доминирующие место.

Последовательное применение ЭМ в исследовании языка и речевых процессов сделало необходимым использование статистических методов при планировании эксперимента и обработке результатов (лингв. статистика). существенно. что лигвист, изучающий речевое поведение человека, имеет дело с объектом, равным ему самому по сложности. В силу этого отношение исследователь - объект в лингвистике превращается в симметричное отношение между двумя исследователями: информант может иметь свою теорию об экспериментаторе и соответственно изменять свое поведение в процессе эксперимента, что может негативно повлиять на результаты Э. Особой сферой использования ЭМ являются машинные эксперименты, проверяющие адекватность формализованных действующих моделей языка.

Процесс Э:

SYMBOL 183 f "Symbol" s 10 h общая задача

SYMBOL 183 f "Symbol" s 10 h рабочая гипотеза

SYMBOL 183 f "Symbol" s 10 h формальные выводы, изменения

SYMBOL 183 f "Symbol" s 10 h новые гипотезы

Цель Э - проверка гипотез. Человек не должен знать целевую становку экспериментатора.

Типы экспериментов:

SYMBOL 183 f "Symbol" s 10 h моделирующие эксперименты (в социолингвистике): порождается ряд гипотез, отбираются социальные параметры, которые варьируются

SYMBOL 183 f "Symbol" s 10 h имитационные эксперименты (лабораторные) - имитация сеченной действительности

SYMBOL 183 f "Symbol" s 10 h натурные эксперименты включают словия, позволяющие демонстрировать поведение, максимально похожее на реакцию в аналогичной естественной ситуации.

Типы методов (по количеству информантов):

SYMBOL 183 f "Symbol" s 10 h индивидуальный

SYMBOL 183 f "Symbol" s 10 h межгрупповой

SYMBOL 183 f "Symbol" s 10 h многоуровневый, многофакторный

(Хофман) Экспериментальные методы в семантике:

SYMBOL 183 f "Symbol" s 10 h ассоциативный эксперимент - испытуемому дается слово-стимул и предлагается реагировать на это слово первым пришедшим в голову словом или словосочетанием

SYMBOL 183 f "Symbol" s 10 h метод семантического дифференциала (экспер. семантика) - один из методов построения субъективных сем. пространств ( градуированные оценочные шкалы)

SYMBOL 183 f "Symbol" s 10 h метод классификации (в психолигвистике - испытуемым предлагается разбить материал на произвольное количество классов.)

SYMBOL 183 f "Symbol" s 10 h эксперимент п членению денотативного континуума (Фрумкина: смысловые отношения в группе слов цветообозначений + Лабов "Структура денотативных значений" - сосуды - cup, bowl, glass -> размытость и взаимозависимость денотативных границ; модели, основанные на компонентном анализе, не объясняют вышеназваного свойства, вывод - более адекватна теория прототипов, которая только начинает применяться в семантике).

2. Эволюция систем автоматизированного перевода.

1947 г. - Memorandum by Warren Weaver об автоматическом переводе

1954 г. - Джорджтаунский эксперимент (Массачусетс)

Типы систем:

SYMBOL 183 f "Symbol" s 10 h системы машинного перевода (СМП)

SYMBOL 183 f "Symbol" s 10 h системы человеко машинного перевода (АС)

SYMBOL 183 f "Symbol" s 10 h ТБД

Три поколения СМП (условная классификация, Марчук не признавал деления на поколения):

I поколение:

SYMBOL 183 f "Symbol" s 10 h содержали полный алгоритм морфологического анализа

SYMBOL 183 f "Symbol" s 10 h имели имели алгоритм снтаксического анализа, но всегда одновариантный

SYMBOL 183 f "Symbol" s 10 h синтез - блок морфологического синтеза, болк синтаксического синтеза

SYMBOL 183 f "Symbol" s 10 h в словарной статье - только переводной эквивалент, остальная информация - в алгоритмах

SYMBOL 183 f "Symbol" s 10 h работа только в пакетном режиме

II поколение (SYSTRAN, АМПАК, Georgetown System, ):

SYMBOL 183 f "Symbol" s 10 h мощный блок синтаксическогонализа и синтеза

SYMBOL 183 f "Symbol" s 10 h многовариантный синтаксический анализ

SYMBOL 183 f "Symbol" s 10 h величение числа и объема словарных статей: ПЭ + синтаксические модели правления и сочетаемости (информация об правлении должна находится в словаре, не в алгоритме)

SYMBOL 183 f "Symbol" s 10 h недостаточное внимание семантике ( нет сем. дефиниций, моделей праления в терминах сем. классов)

SYMBOL 183 f "Symbol" s 10 h работа и пакетном и в интерактивном режимах

поколение (ЭТАП-1 (350 слов), ЭТАП-2 (4 слов), модель "Смысл-текст", Апресян):

SYMBOL 183 f "Symbol" s 10 h широкое использование семантики на всех ровнях: в словаре, алгоритме

SYMBOL 183 f "Symbol" s 10 h только исследовательские системы, нет ни одной промышленной

Марчук "Проблемы МП" - 3 периода, Слокум "Обзор разработок по МП":

1. 1946 - 1957

SYMBOL 183 f "Symbol" s 10 h выдвинута концепция языка как кода

SYMBOL 183 f "Symbol" s 10 h созданы первые машинные словаридля МП

SYMBOL 183 f "Symbol" s 10 h разработана общая концепция МП (алгоритмы нлиза и синтеза, рпограммное обеспечение)

SYMBOL 183 f "Symbol" s 10 h опробованы первые СМП

SYMBOL 183 f "Symbol" s 10 h повышенный интерес к проблеме, связанный с надеждами на возможность скоростного высококачественного перевода текстов любого типа, щедрое финансирование

2. 1957 - 1967

SYMBOL 183 f "Symbol" s 10 h доклад консультативного Комитета по автоматизированной обработке ЕЯ (ALPAC) при Национального Академии Наук США - доказана невозможность полностью автоматизированного высококачественного перевода -> свертывание разработок, сокращение финансирования текущих исследований (но не долгосрочных)

SYMBOL 183 f "Symbol" s 10 h спешные попытки промышленной эксплуатации СМП

SYMBOL 183 f "Symbol" s 10 h широкие теоретические исследования: возникла идея языка-посредника, методика контекстного анализа для рзрешения основных лигв. проблем.

3. 1967 - настоящее время

SYMBOL 183 f "Symbol" s 10 h возрождение интереса к МП

SYMBOL 183 f "Symbol" s 10 h Люксембург, конференция "Преодоление языковых барьеров"

SYMBOL 183 f "Symbol" s 10 h активная промышленная эксплуатация СМП

Развитие МП происходило согласно гегелевской триаде - тезис, антитезис, синтез.

ÑÌÏ

ÀÑ

ÒÁÄ

SYSTRAN (1070, автор -Peter Toma, 15 пром. пар языков, пакетный режим работы, язык посредник Interlingua, 200. - 300. )

НРАП (ВЦП), СПРИТа PC, ЭТАП-1 (Апресян, модель "Смысл-текст", словарь -350 слов), ЭТАП-2, словарь -4 слов

EURODICAUTOM (1.200. çàãîëîâêîâ)

LEXISа а(1.500.)

SIEMENSа (1.500.)

TERMIUM (> 2 ìëí.)

Билет 11

1. Общенаучный метод моделирования и специфика его применения в лингвистике

Метод моделирования центральный исследовательский метод в науке.

Моделирование в науке - это выяснение свойств какого-либо предмета при помощи построения его модели.

Моделью можно назвать образ какого-либо объекта, используемый в определенных словиях в качестве его заместителя (фотография в паспорте - модель человека).

Свойства моделей:

SYMBOL 183 f "Symbol" s 10 h словность

SYMBOL 183 f "Symbol" s 10 h образ может быть не только материальным, но и мысленным и передаваться посредством знаковой системы

SYMBOL 183 f "Symbol" s 10 h моделью может быть не только образ, но и праобраз оригинала

SYMBOL 183 f "Symbol" s 10 h модель чаще всего является гомоморфной оригиналу (то есть многим элементам оригинала соответствует меньшее количество элементов модели в отличие от изоморфизма)

Модель в лингвистике - искусственно создаваемое лингвистом реальное или мысленное стройство, воспроизводящее, имитирующее своим поведением (обычно в прощенном виде) поведение оригинала в лингвистических целях.

Собственно лингвитсические модели:

SYMBOL 183 f "Symbol" s 10 h модели речевой деятельности, процессуальный модели (самые сложные)

SYMBOL 183 f "Symbol" s 10 h модели языковой системы, языковой структуры (тоже очень сложные)

SYMBOL 183 f "Symbol" s 10 h модель памяти и др.

Лингвистическое моделирование необходимо предполагает использование абстракции и идеализации. Отображая релевантные существенные (с точки зрения исследования) свойства оригинала и отвлекаясь от несущественных, модель выступает как некоторый абстрактный идеализированный объект. Всякая модель строится на основе гипотезы о возможном стройстве оригинала и представляет собой функциональный аналог оригинала. что позволяет переносить знания с модели на оригинал. Критерием адекватности модели является эксперимент.

В идеале модель должна быть формальной (т.е. в ней должны быть в явном виде и однозначно заданы исходные объекты, связывающие их отношения и правила обращения с ними) и обладать объяснительной силой (т.е. не только объяснять факты или данные экспериментов, необъяснимые с точки зрения же существующей теории, но и предсказывать неизвестное раньше, хотя и принципиально возможное поведение оригинала, которое позднее должно подтверждаться данными наблюдения или экспериментов).

Понятие лингвистической модели возникло в структурной лингвистике, но вошло в научный обихода в 60-70 гг. 20 в. с возникновением мат. лингвистики и проникновением в лингвистику мат. методов.

Содержание термина "модель" в современной лингвистике в значительной степени охватывалось ранее термином "теория" (особенно Ельмслевым). Считается, что наименования модель заслуживает лишь такая теория. которая достаточно эксплицитно изложена и в достаточной степени формализована (в идеале каждая модель должна допускать реализацию на ЭВМ).

Контруирование модели - не только одно из средств отображения языковых явлений, но и объективный практический критерий проверки истинности знаний о языке. В единстве с другими методами изучения языка моделирование выступает как средство глубления познания скрытых механизмов речевой деятельности, его движения от относительно примитивных к более содержательным моделям, полнее раскрывающим сущность языка.

Внутри языка как системы существует принцип моделирования: одни его подсистемы моделируют другие, например, система письменной речи является моделью стной речи; внутри письменной речи мы имеем дело с несколькими моделями (печатной, рукописной); план выражения является моделью плана содержания.

Метод моделирования обычно опирается на знаковые систем, но язык - сам знаковая система, т.е. слова мы моделируем при помощи слов.

Главная цель моделирования в лингвистике - это моделирование целостной языковой способности человека.

Синтез речи.

1 Ограничения на синтез речи.

Cуществуют различные методы синтеза речи. Выбор того или иного метода определяется различными ограничениями. Рассмотрим те 4 вида ограничений, которые влияют на выбор метода синтеза.

Задача.

Возможности синтезированной речи зависят от того, в какой области она будет применятся. Когда необходимо произносить ограниченное число фраз ( и их произнесение линейно не меняется ), необходимый речевой материал просто записывается на пленку. С другой стороны, если задача состоит в стимулировании познавательного процесса при чтении вслух, используется совершенно другой ряд методик.

Голосовой аппарат человека.

Все системы синтеза речи должны производить на выходе какую-то речевую волну, но это не произвольный сигнал. Чтобы получить речевую волну определенного качества, сигнал должен пройти путь от источника в речевом тракте, который возбуждает действие артикуляторных органов, которые действуют как изменяющиеся во времени фильтры. Артикуляторные органы также накладывают ограничения на скорость изменения сигнала. Они также имеют функцию сглаживания: гладкого сцепления отдельных базовых фонетических единиц в сложный речевой поток.

Структура языка.

Ряд возможных звуковых сочетаний опредляется природой той или иной языковой структуры. Было обнаружено, что еденицы и структуры, используемые лингвистами для описания и объяснения языка, могута также использоваться для характеристики и построения речевой волны. Таким образом, при построении выходной речевой волны используются основные фонологические законы, правила дарения, морфологические и синтаксические структуры, фонотактические ограничения.

Технология.

Возможности спешно моделировать и создавать стройства для синтеза речи в сильной степени зависят от состояния технико-технологической стороны дела. Речевая наука сделала большой шаг вперед благодаря появлению различных технолоний, в том числе: рентгенография, кинематография, теория фильтров и спектров, главным образом - цифровые компьютеры. С приходом интегральных сетевых технологий с постоянно возрастающими возможностями стало возсожно построение мощных, компактных, недорогих стройств, действующих в реальном времени. Этот факт, вместе с основательными знаниями алгоритмов синтеза речи, стимулировал дальнейшее развитие систем синтеза речи и переход их в практическую жизнь, где они находят широкое применение.

2 Методы синтеза.

Различные подходы могут быть сгруппированы по областям их применения, по сложности их воплощения.

Синтезаторы делят на два типа: с ограниченным и неограниченным словарем. В стройствах с ограниченным словарем речь хранится в виде слов и предложений, которые выводятся в определенной последовательности при синтезе речевого сообщения. Речевые единицы, используемые в синтезаторах подобного типа, произносятся диктором заранее, затем преобразуются в цифровую форму, что достигается с помощью различных методов кодирования, позволяющих компрессировать речевую информацию и хранить ее в памяти синтезирующего стройства. Существует несколько методов записи и компоновки речи.

Волновой метод кодирования.

Самый легкий путь - просто записать материал на пленку и по необходимости проигрывать. Этот способ обеспечивает высокое качество синтезируемой речи, т.к. позволяет воспроизводить форму естественного речевого сигнала. Однако этот путь синтеза не позволяет реализовать построение новой фразы, т.к. не предусматривает обращение к различным ячейкам памяти и вызов из памяти нужных слов. В зависимости от используемой технологии этот способ может представлять задержки в доступе и иметь ограничения, связанные с возможностями записи. Никаких знаний об стройстве речевого тракта и структуре языка не требуется. Единственно серьезное ограничение в данном случае имеет объем памяти. Существуют способы кодирования речевого сигнала в цифровой форме, позволяющие в несколько раз плотнять информацию: простая модуляция данных, импульсно-кодовая модуляция, адаптивная дельтовая модуляция, адаптивное предиктивное кодирование. Данные способы могут меньшить скорость передачи данных от 50кбит/сек (нормальный вариант) до 10кбит/сек, в то время как качество речи сохраняется. Естественно, сложность операций кодирования и декодирования величивается со снижением числа бит в секунду. Такие системы хороши, когда словарь сообщений небольшой и фиксированный. В случае же, когда требуется соединить сообщения в более длинное, сгенерировть высококачественную речь трудно, т.к. значения параметров речевой волны нельзя изменить, они могут не подойти в новом контексте. Во всех системах синтеза речи станавливается некоторый компромисс между качеством речи и гибкостью системы. величение гибкости неизбежно ведет к сложнению вычислений.

Параметрическое представление.

С целью дальнейшего меньшения требуемой памяти для хранения и обеспечения необходимой гибкости было разработано несколько способов, которые абстрагируются от речевой волны как таковой, представляют ее в виде набора параметров. Эти параметры отражают наиболее характерную информацию либо во временной, либо в частотной области. Например, речевая волна может быть сформирована сложением отдельных гармоник заданной высоты и заданными спектральными выступами на данной частоте. Альтернативный путь состоит в том, чтобы форму речевого тракта описать в терминах акустики и искусственным путем создать набор резонансов. Этот метод синтеза экономичнее волнового, т.к. требует значительно меньшего объема памяти, но при этом он требует больше вычислений, чтобы воспроизвести исходный речевой сигнал. Данный способ дает возможность манипулировать теми параметрами, которые отвечают за качество речи (значение формант, ширина полос, частота основного тона, амплитуда сигнала). Это дает возможность склеивать сигналы, так что переходы на границах совершенно не заметны. Изменения таких параметров как частота основного тона на протяжении всего сообщения дают возможность существенно изменять интонацию и временные характеристики сообщения. Наиболее популярным в наст.вр. методами кодирования в стройствах, использующиха параметрическое представление сигналов, является метод, основанный на формантных резонансах и метод линейного предсказания (LPC - linear predictive coding). Для синтеза используются единицы речи различной длины: параграфы, предложения, фразы, слова, слоги, полуслоги, дифоны. Чем меньше единица синтеза, тем меньшее их количество требуется для синтеза. При этом, требуется больше вычислений, и возникают трудности кортикуляции на стыках. Преимущества этого метода: гибкость, немного памяти для хранения исходного материала, сохранение индивидуальных характеристик диктора. Требуется соответствующая цифровая техника и знание моделей речеобразования, при этом, лингвистическая структура языка не используется.

Синтез по правилам.

Описанные выше методы синтеза ориентированы на такие речевые единицы, как слова, предварительно введенные в стройство с голоса диктора. Данный принцип лежит в основе функционирования синтезаторов с ограниченным словарем. В синтезаторах с неограниченным словарем элементами речи являются фонемы или слоги, поэтому в них применяется метод синтеза по правилам, не простая компоновка. Данный метод весьма перспективен, т.к. обеспечивает работу с любым необходимым словарем, однако качество речи значительно ниже, чем при использовании метода компоновки.

При синтезе речи по правилам также используются волновой и параметрический методы кодирования, но же на ровне слогов.

Метод параметрического представления требует компромисса между качеством речи и возможностью изменять параметры. Исследователи обнаружили, что для синтеза речи высокого качества необходимо иметь несколько различных произношений единицы синтеза (например, слога), что ведет к увеличению словаря исходных единиц без каких бы то ни было сведений о контекстной ситуации, оправдывающей тот или иной выбор. По этой причине процесс синтеза получает еще более абстрактный характер и переходит от параметрического представления к разработке набора правил, по которым вычисляются необходимые параметры на основе вводного фонетического описания.Это вводное представление содержит само по себе мало информации. Это обычно имена фонетических сегментов ( напр, гласные и согласные) со знаками дарения, обозначениями тона и временных характеристик. Таким образом, метод синтеза по правилам использует малоинформационное описание на входе ( менее 100 бит/сек). Этот метод дает полную свободу моделирования параметров, но необходимо подчеркнуть, что правила моделирования несовеншенны. Синтезированная речь хуже натуральной, тем не менее, она довлетворяет тестам по разборчивости и понятности. На ровне предложения и параграфа правила предоставляют необходимую степень свободы для создания плавного речевого потока.

3 Конвертация текста в речь.

Синтез по правилам требует детального фонетического транскрибирования на входе. Хотя для запоминания этой информации требуется мало памяти, чтобы извлечь из нее необходимые параметры, необходимы знания эксперта. Для конвертации неограниченного английского текста в речь необходимо сначала пронализировать его с целью получения транскрипции, которая затем синтезируется в выходную речевую волну. Анализ текста по своей природе задача лингвистическая и включает в себя определение базовых фонетических, слоговых, морфемных и синтакисическмих форм, плюс - вычленение семантической и прагматической информации. Системы конвертации текста в речь являются наиболее комплексными системами синтеза речи, включающие в себя знания об стройстве речевого аппарата человека, лингвистической структуре языка, также которые должны учитывать ограничения, накладываемые областью применения системы, технико-технологической базой. Необходимо заметить, что и текст и речь являются поверхностными представлениями базовых лингвистических форм, поэтому задача преобразования текста в речь состоит в выявлении этих базовых форм, затем в воплощении их в речи.

4 Система преобразования текста в речь MITalk.

На примере этой системы проиллюстрируем сильные и слабые стороны коммерческих версий. Разработка системы началась в конце 60-х гг. Изначально предполагалось разработать читающую машину для слепых, но система MITalk может применяться в любых ситуациях, где необходимо преобразовать текст в речь. Система имеет блок морфологического анализа, правила преобразования буква-звук, правила лексического дарения, просодический и фонематический синтез.

5 Анализ текста

Преобразование символов в стандартную форму.

В самых различных текстах можно обнаружить символы и аббревиатуры, которые не принадлежат к категории " правильно образованных слов". Такие символы как "%" и "&", аббревиатуры типа "Mr" и "Nov" должны быть преобразованы в нормальную форму. Были разработаны подробные руководства по транскрибированию чисел, дат, сум денег. Иногда возникают двусмысленные ситуации, такие как, например, использование знака дефиса в конце строки. Человек в таких случаях, чтобы определить подходящее произношение, обращается к контексту и к практическим знаниям, которые не поддаются алгоритмизации.

Морфологический анализ

В вводном тексте границы слов легко определяются. Можно хранить произношение всех английских слов. Размер словаря будет большим, но в таком подходе есть несколько привлекательных сторон. Во-первых, в любом случае необходим словарь слов, произношение которых является исключением из общих правил. Такими являются, например, заимствованные слова ( parfait, tortilla). Более того, все механизмы преобразования цепочки букв в фонетические значки допускают ошибки. Интересный класс исключений составляют часто потребительные слова. Например, звук /th/ в начале слова произносится как глухой фрикативный в большинстве слов (thin, thesis, thimble). Но в наиболее частотных, таких как короткие функциональные слова the, this, there, these, those, etc. начальный звук произносится как звонкий. Также /f/ всегда произносится глухо, за исключением слова "of". Другой пример. В словах типа "shave", "behave" конечный /e/ длиняет предшествующий гласный, но в таком частом слове как "have" это правило не действует. Наконец, конечный /s/ в "atlas", "canvas" глухой, но в функциональных словах is, was, has он произносится звонко. Таким образом, приходим к выводу, что все системы должны иметь такой словарь исключений. Что касается нормальных слов, то здесь имеется два варианта. Первый крайний случай состоит в том, чтобы составить полный словарь. Хотя число слов ограничено, составить абсолютно полный словарь невозможно, т.к. постоянно появляются новые слова. Кроме того, в словарь необходимо будет внести все изменяемые формы слова. Другой крайний подход состоит в становлении ряда правил, которые бы преобразовывали цепочки букв в фонетические значки. Хотя эти правила очень продуктивны, нельзя избежать ошибок, что ведет к созданию словаря исключений. Чтобы правильно определить фонетическую транскрипцию слова, нужно правильно разбить слово на структурные составляющие. Было обнаружено, что важную роль в определении произношения играет морфема, минимальная синтаксическая единица языка. Система MITalk использует морфемный лексикон, что может рассматриваться как некоторый компромиссный подход между двумя крайними, помянутыми выше. Многие английские слова можно расчленить на последовательность морфов, таких как префиксы, корни, суффиксы. Так слово "snowplows" имеет два корня и окончание, "relearn" имеет приставку и корень. Такие морфы являются атомными составляющими слова и они относительно стабильны в языке, новые морфы формируются в языке очень редко. Эффективный лексикон может иметь не более 10, морфов. Морфемный словарь действует вместе с процедурами анализа. Этот подход эффективен и экономичен, т.к. хранение морфемного словаря не занимает много места, хранить все изменяемые формы слова не нужно. Так как морфы являются основными составляющими слова, проиллюстрируем их полезность при определении произношения. При соединении морфов они часто меняют свое произношение. Например, при образовании множественного числа существительных "dog" и "cat" конечный /s/ будет звонким в первом случае и глухим во втором. Это пример морфофонемного правила, касающегося реализации морфемы множественного числа в различных окружениях. Становится очевидным, что для эффективного и легкого определения произношения нужно распознать составляющие морфемы слова и обозначить их границы. Еще один плюс морфемного анализа - обеспечение подходящей базы для использования правил преобразования буква-звук. Большинство таких правил рассматривают слово как неструктурированную последовательность букв, используя окно сканирования для нахождения согласных и гласных кластеров, которые преобразуются в фонетические значки. Буквы "t" и "h" в большинстве случаев выступают как единый согласный кластер, но в слове "hothouse" кластер /th/ разрывается границей двух разных морфем. Гласный кластер /ea/ представляет много трудностей для алгоритмов буква-звук, но в слове changeable он явно разрывается. В системе MITalk морфемный анализ всегда проводится перед правилами преобразования букв в звуки. Лежащие в основе слова морфы не всегда очевидны. Например, некоторые морфы множественного числа не всегда легко определить: mice, fish. Подобные формы заносятся в словарь. При помощи морфемного лексикона и соответствующего алгоритма анализа 95-98% слов анализируется довлетворительно. В результате им приписывается фонетическая транскрипция и часть речи.

Правила "буква-звук" и лексическое дарение

В системе MITalk нормализованный вводный текст подвергается морфологическому анализу. Может быть, что целое слово есть в словаре морфов, как, например, слово "snow". С другой стороны, слово может быть пронализировано как последовательность соединенных морфов. В английском языке среднее число морфов в слове, примерно два. В случае, если ни целое слово не может быть найдено в словаре морфов, ни пронализировано как последовательность морфов, в этом случае применяются правила преобразования "буква-звук". Важно подчеркнуть, что этот метод никогда не применяется, если морфемный анализ удался. Конвертация последовательности букв в последовательность звуков при помощи этих правил проходит в три этапа. Первый этап - отделение префиксов и суффиксов. Возможность отделения аффиксов не такая сильная, как в морфемном анализе, но действует довлетворительно. Предполагается, что после отделения префиксов и суффиксов остается одна центральная часть слова, которая состоит из одного морфа, подвергаемого затем правилам преобразования.

Второй этап состоит в преобразовании согласных в фонетические значки, начиная с наиболее длинного согласного кластера до тех пор, пока все отдельные согласные не будут преобразованы. Последний этап - оставшиеся гласные преобразуются при помощи контекстов. Гласные преобразуются последними, потому что это наиболее трудная задача, зависящая от контекста. Например, гласный кластер /ea/ имеет 14 разных произносительных контекстов и несколько произношений (reach, tear, steak, leather).

В системе MITalk правила преобразования букв в звуки действуют в паре с широким набором правил расстановки лексического дарения. Еще 25 лет назад лингвистам не давалось обнаружить никакой системы расстановки дарений в английских словах. В Настоящее время разработан ряд правил, эффективно справляющихся с этой задачей. Ударения зависят от синтаксической роли слова, например, прилагательное "invalid" отличается от существительного. Таких слов немного, но учитывать их необходимо. Кроме того, на некоторые суффиксы автоматически падают дарения в словах, как, например, в "engineer". Но бывают более сложные случаи, которые разрешаются применением циклических правил.

В системе MITalk разработаны несколько наборов таких правил, некоторые из которых включают в себя до 600 правил. Конечно, большинство из них потребляются довольно редко. Подразумеваются, что все сильные и неправильные формы преобразуются на стадии морфологического анализа. Правила же "буква-звук" используются для преобразования новых и неправильно написанных слов. Например, слово "recieved" получает правильную транскрипцию, благодаря этим правилам преобразования.

Парсинг.

Каждая схема преобразования неограниченного текста в речь должна включать синтаксический анализ. Необходимо определить синтаксическую роль слова, т.к. она часто влияет на произношение и дарение. Кроме того синтаксический анализ важен для определения правильного тонального контура и временных характеристик. Просодические характеристики важны для синтеза речи, чтобы она звучала живо и естественно. К сожалению, полный синтаксический анализ на ровне сложного предложения (clause-level parsing) осуществить нельзя. Тем не менее, возможно провести синтаксический анализ на ровне фразы (phrase-level parsing), в результате которого определяется большая часть необходимой для синтеза речи структуры, хотя в некоторых ситуациях неизбежны ошибки из-за отсутсвия анализа целого предложения. Встречается множество синтаксически двусмысленных предложений, таких как "he saw the man in the park with a telescope", для которых фразовый анализ достаточен.

В английском языке существует ряд синтагматических маркеров, по которым можно формально разграничить фразы: это вспомогательные глаголы, детерминативы в номинативных фразах. Система MITalk широко использует это и проводит высокоточный грамматический анализа (augmented-transition-network grammas). Фразовый анализ показал удовлетворительные результаты, хотя эффективный анализатор предложений несомненно лучшил бы работу системы. Пока анализаторы предложений сталкиваются со значительными трудностями, когда встречают неполное или синтаксически омонимичное предложение. По завершении деятельности блока синтаксического анализа система приписывает словам маркеры функциональных частей речи, отмечает синтаксические паузы как основу для дальнейшего точнения произношения, временных харатеристик, частоты основного тона.

Модификация ударения и фонологические точнения.

Последняя фаза анализа состоит в некоторых незначительных поправках к имеющейся же фонетической транскрипции на основе анализа контекстного окружения. Простой пример определения произношения артикля "the", которое зависит от начального звука последующего слова. Кроме того, на этом этапе используются некоторые эвристические методы проверки правильного соотношения общего контура предложения с контурами отдельных слов. На этом этапе заканчивается подготовка исходного текста собственно к самому процессу синтеза.

6 Синтез.

Важно осознать, что в системе MITalk не используются готовые речевые волны даже в параметрическом представлении. Система не хранит параметрические представления множества морфов или слов. Вместо этого были разработаны правила контроля параметров, так что можно реализовать любую желаемую речевую волну на выходе.

Просодическая рамка.

Первый шаг в создании выходной речевой волны - создание временного контура и частоты основного тона ( основные корреляты интонации ), на основе которых строится детальная артикуляция отдельных фонетических элементов. Распределение дарения, которое было вычислено на стадии анализа, во многом ответственно за контур временного распределения и тональный контур. Часто интенсивность принимают за коррелят дарения, тогда как главными ключами являются длительность и изменения в тональном контуре. Согласные мало меняются по длительности, в то время как гласные более пластичны и могут легко сжиматься или растягиваться. Существует также тенденция растягивать слова на границе основных абзацев предложения, и наоборот, сжимать интервалы на относительно невыделенных участках. Кроме того, на основе временной рамки задается частота основного тона (или тональный контур). В твердительных предложениях обычно высота тона резко поднимается на первом дарном слоге, затем плавно снижается до последнего ударного слога, где она резко падает. Вопросительные и повелительные предложения имеют различные тональные контуры. Кроме целостного контура предложения существуют еще локальные дарения. Большее дарение получают слова, выражающие отрицание или сомнение ( например, слово might ), значение частоты основного тона на них возрастает; новая информация в предложении также больше выделяется ударением. С другой стороны, высота тона используется в семантических и эмоциональных целях, что не может быть выведено из письменного текста. Необходимо лишний раз подчеркнуть важность составления правильного просодического контура, т.к. неправильный просодический контур может привести к трудностям в восприятии.

Синтез фонетических сегментов.

Когда завершено создание просодической рамки, создаются параметры, соответствующие модели речевого тракта. Обычно таких параметров 25, которые изменяются с интервалом 5 - 10 мсек. В настоящее время используются около 100 контекстных правил описания траектории изменения параметров. Когда значения параметров вычислены, они должны быть перенесены на соответствующую модель речевого тракта (обычно это формантная модель или LPC-модель). Выходная дискретная модель создается обычно на частоте 10 Кгц.

7 Оценка синтетической речи.

С точки зрения понятности, разборчивости качество синтезированной речи достаточно хорошее. Был проведен тест, где одна группа испытуемых прослушивала синтезированную речь с письменным вариантом перед глазами, другая - без. Выяснилось, что результаты прослушивания мало отличаются друг от друга. Тем не менее, синтезированной речи не хватает живости и естественности, поэтому воспринимать ее на протяжении длительного времени трудно. Исследования показали, что фрикативные и назальные звуки требуют дальнейшего лучшения качества.

Билет 12

1. Типы лингвистических моделей; основные требования к ним и критерии их оценки.

Типы лингвистических моделей:

1. по охвату структуры языка:

SYMBOL 183 f "Symbol" s 10 h общие (глобальные) стремятся охватить весь язык: <VG> (vocabulary, grammar)

SYMBOL 183 f "Symbol" s 10 h частные: фонетическая модель русского языка, модель системы гласных

2. по типологическому статусу:

SYMBOL 183 f "Symbol" s 10 h ниверсальные стремятся охватить все языки мира: <VG>

SYMBOL 183 f "Symbol" s 10 h специфические характерны для определенного языка или группы языков: мягкость - твердость согласных рус. языка (не действует в англ., франц.)

3. по гносеологическому статусу:

SYMBOL 183 f "Symbol" s 10 h модели языка

SYMBOL 183 f "Symbol" s 10 h модели лингвистических знаний различные фонетические школы

SYMBOL 183 f "Symbol" s 10 h модели деятельности лингвиста

4. по отраженному аспекту языка и речевой деятельности:

Модели различаются не только по направленности на определенный объект, но и по используемым средствам моделирования (алгоритму или исчислению)

лгоритм - строгая последовательность предписывающих правил

Исчисление - множество разрешающих правил (порядок выполнения не важен)

SYMBOL 183 f "Symbol" s 10 h анализирующие модели моделируют процесс понимания, используют логическое средство алгоритм

SYMBOL 183 f "Symbol" s 10 h синтезирующие модели моделируют процесс вербализации, смысла речевого отрезка

SYMBOL 183 f "Symbol" s 10 h порождающие модели автор Хомский объект моделирования - множество правильных речевых отрезков составляются правила различения приемлемого и неприемлемого; логический средство - исчисление

; не служат выражением смысла; на выходе - цепочки элементов (грамм. правильных предложений)

SYMBOL 183 f "Symbol" s 10 h собственно структурные модели основа всех остальных объект моделирования - структура языка как таковая; логический аппарат - логика отношений и классов. Пример: грамматический словарь Железняка

5. по конечной цели исследования

SYMBOL 183 f "Symbol" s 10 h теоретические

SYMBOL 183 f "Symbol" s 10 h описательные

SYMBOL 183 f "Symbol" s 10 h прикладные

6. по используемым методам

SYMBOL 183 f "Symbol" s 10 h математические модели

SYMBOL 183 f "Symbol" s 10 h психологические модели

SYMBOL 183 f "Symbol" s 10 h социологические модели

7. по функциональному статусу

SYMBOL 183 f "Symbol" s 10 h абстрактно обобщающие модели

SYMBOL 183 f "Symbol" s 10 h действующие

8. по используемым материальным средствам

SYMBOL 183 f "Symbol" s 10 h графические

SYMBOL 183 f "Symbol" s 10 h символьные

SYMBOL 183 f "Symbol" s 10 h компьютерные

Частная модель обычно входит в набор частных моделей, описывающий определенный ровень языка:

1. фонологический уровень

2. морфологический уровень

3. синтаксический

4. лексико-семантический

Основные теоретические требования к модели:

1. полнота модели - способность отражать все факты, на которые она рассчитана, на охват которых она претендует

2. простота - добство, использования как можно меньшего числа средств (символов, правил) для достижения поставленной научной цели

3. объяснительная сила - способность модели вскрывать причины наблюдаемых фактов и предсказывать новые факты (например. модели исторического изменения слова; системы машинного перевода в очень малой степени объяснительные)

4. адекватность - свойство максимальной похожести на моделируемый объект, на оригинал, можно свести к объяснительной силе или теоретико-множественному соответствию

5. экономность - экономичное использование энергетических и временных ресурсов при применении модели

6. точность - возможность выполнения операций представляемым моделью формальным аппаратом

7. эстетические свойства - красота модели

Прикладные критерий: главное - добство модели. Для моделирования языка очень важны логические средства реализации модели (компьютерное воплощение модели).

Расширенная сеть переходов. Расширенная сеть переходов была разработана Бобровым (Bobrow), Фрейзером (Fraser) и во многом Вудсом (Woods) как продолжение идей синтаксического анализа и свободно-контекстных грамматик в частности. Она представляет собой узлы и направленные стрелки, расширенные (т.е. дополненные) рядом тестов (правил), на основании которых выбирается путь для дальнейшего анализа. Промежуточные результаты записываются в ячейки (регистры). Ниже приводится пример такой сети, позволяющей анализировать простые предложения всех типов (включая пассив), состоящие из подлежащего, сказуемого и прямого дополнения, таких, как The rabbit nibbles the carrot (Кролик грызет морковь). Обозначения у стрелок означают номер теста, также либо признаки, аналогичные применяемым в свободно-контекстных грамматиках (NP), либо конкретные слова (by). Тесты написаны на языке LISP и представляют собой правила типа если словие=истина, то присвоить анализируемому слову признак Х и записать его в соответствующую ячейку.

Разберем алгоритм работы сети на вышеприведенном примере. Анализ начинается слева, т. е. с первого слова в предложении. Словосочетание the rabbit проходит тест, который выясняет, что оно не является вспомогательным глаголом (Aux, стрелка 1), но является именной группой (NP, стрелка 2). Поэтому the rabbit кладется в ячейку Subj, и предложение получает признак TypeDeclarative, т.е. повествовательное, и система переходит ко второму злу. Здесь дополнительный тест не требуется, поскольку он отсутствует в списке тестов, записанных на LISP. Следовательно, слово, стоящее после the rabbit - т. е. nibbles - глагол-сказуемое (обозначение V на стрелке), и nibbles записывается в ячейку с именем V. Перечеркнутый зел означает, что в нем анализ предложения может в принципе закончиться. Но в нашем примере имеется еще и дополнение the carrot, так что анализ продолжается по стрелке 6 (выбор между стрелками 5 и 6 осуществляется снова с помощью специального теста), и словосочетание the carrot кладется в ячейку с именем Obj. На этом анализ заканчивается (последний зел был бы использован в случае анализа такого пассивного предложения, как The carrot was nibbled by the rabbit). Таким образом, в результате заполнены регистры (ячейки) Subj, Type, V и Obj, используя которые, можно получить какое-либо представление (например, дерево).

Расширенная сеть переходов имеет свои недостатки:

Билет 13

1. Метаязыки формального описания семантических структур.

Семантические метаязыки различаются:

по объекту, который они описывают (морфема, лексема, словосочетание, предложение, текст в целом).

по аспекту языковой структуры, который они отражают: (парадигматический аспект

синтагматический аспект)

Сходимость МЯ - возможность переводить с одного МЯ на другой.

По описываемому объекту:

1. значение морфем МЯ

SYMBOL 183 f "Symbol" s 10 h МЯ компонентного анализа (Найда, Апресян, Катс)

SYMBOL 183 f "Symbol" s 10 h МЯ пресуппазиционного анализа (прототипический анализ): если высказывание подвергнуть отрицанию, то отрицается только имплицитно выраженная часть, то, что не отрицается - ассерция

2. значение лексем исследуется

в синтагматичсеком аспекте - сочетаемость лексем:

SYMBOL 183 f "Symbol" s 10 h теория семантической валентности, понятие модели правления (Апресян)

в парадигматическом аспекте:

SYMBOL 183 f "Symbol" s 10 h глубинные падежи (агенс, интсрументалис ...), падежная рамка Филлмора

3. значение словосочетаний исследуется

в парадигматическом аспекте при помощи тех же МЯ описания, что и лексемы,

в синтагматическом плане:

SYMBOL 183 f "Symbol" s 10 h язык лексических параметров и функций (Апресян), понятие лекс. параметра связано с понятием стойчивой сочетаемости слов в словосочетании

4. значение предложения

в парадигматическом аспекте:

SYMBOL 183 f "Symbol" s 10 h семантическая сеть (Скрэгг: "Семантическая сеть как модель памяти")

SYMBOL 183 f "Symbol" s 10 h язык исчисления предикатов (Дж. Лакофф "Постулаты речевого общения", импликация, пресуппозиция, пропозиция, словия искренности. словия мотивированности)

5. значение текста в целом

в парадигматическом аспекте используются такие макроструктуры, как сценарии. фреймы, планы, сцены,

фрейм - базовая структура представления знаний

сценарий динамический - набор фреймов, развертывающийся во времени.

SYMBOL 183 f "Symbol" s 10 h семантическая сеть ()

Чейф: - теория организации памяти

три вида памяти:

поверхностная (surface)

кратковременная (shallow)

долговременная (deep)

иерархия событий -> иерархия событий различной личностной значимости

личностная зависимость

понятие текущего сознания (consciousness)

SYMBOL 183 f "Symbol" s 10 h язык концептуальных зависимостей (Шенк)

SYMBOL 183 f "Symbol" s 10 h язык шаблонов (templates, илкс:)

6. процессы

SYMBOL 183 f "Symbol" s 10 h понимания (Шенк)

SYMBOL 183 f "Symbol" s 10 h вербализации (Маккьюин)

Роджер Шенк: знания не могут быть истолкованы в лингвистических терминах -> язык концептуальных зависимостей: P-Trans (физическое перемещение), M-Trans (интеллектуальное перемещение).

Шенком была постулирована независимость языкового представления от ЕЯ, тем не менее язык КЗ оказался привязан к поверхностному синтаксису английского языка. Каждое высказывание запускает цепочку концептуальных выводов (inferences), позволяющих правильно понимать ситуацию (Мила была голодна, она взяла путеводитель Митчелина).

Модель SAM (Script Applying Mechanism) является компьютерной программой, которая позволяет понимать связность текста за счет применения сценариев:

SYMBOL 183 f "Symbol" s 10 h POLITICS (ведет диалог, моделирует политическую идеологию)

SYMBOL 183 f "Symbol" s 10 h PAMа -> TALE-SPIN - порождение сказок

SYMBOL 183 f "Symbol" s 10 h FRUMP - машинное реферирование сообщений на нескольких языках, чтение, опирающееся на понятие интереса (Integral Partial Parser)

Категории, встречающиеся у Шенка:

SYMBOL 183 f "Symbol" s 10 h интерес

SYMBOL 183 f "Symbol" s 10 h объяснение

SYMBOL 183 f "Symbol" s 10 h память (организация концептуальной памяти)

SYMBOL 183 f "Symbol" s 10 h ожидание

SYMBOL 183 f "Symbol" s 10 h понимание движимого ошибками

Уилкс, "Анализ предложений английского языка": вводит единую форму представления - шаблон (template), интуитивным соответствием которого можно считать базисную форму представления "агенс - действие - объект. Шаблоны строятся из более мелких блоков - формул, соответствующих толкованиям отдельных лексем. Для того, чтобы построить полное сем. представление текста (сем. блок), шаблоны объединяются с помощью структур более высокого ровня - надшаблонов (paraplates) и правил вывода мозаключений;

SYMBOL 183 f "Symbol" s 10 h каждая из готовых структур построена на базе 80 атомарных сем. элементов, также функций и предикатов, задаваемых на этом множестве.

SYMBOL 183 f "Symbol" s 10 h система на LISPe, переводит тексты с англ. на фр.

SYMBOL 183 f "Symbol" s 10 h для разрешения неоднозначности используется цепь мозаключений

SYMBOL 183 f "Symbol" s 10 h нет синтаксического анализа в обычном понимании, сразу переходит к сем. представлениям; не содержит в явном виде никакой синт. информации, только формула (Ф), которая имеет вид ДЗ; главным считается самый правый элемент Ф, который задает фундаментальную категорию для всей Ф.

SYMBOL 183 f "Symbol" s 10 h содержит глубинные падежные элементы

SYMBOL 183 f "Symbol" s 10 h большая гибкость при описании смысла, чем у метода Фодора и Катса, в которых нет глубинных падежных элементов

SYMBOL 183 f "Symbol" s 10 h шаблоны имеют вид сети, состоящей из Ф

SYMBOL 183 f "Symbol" s 10 h шаблон состоит из 3 злов: агенс, действие. объект.

2. Гипертекстовые системы

Гипертекст - это текст. смысловые элементы которого могут читаться в разной последовательности.

Последовательность чтения - произвольная. Между текстовыми фрагментами казаны разрешенные переходы. Как правило, от одного фрагмента можно перейти к нескольким другим. Читать можно с любого элемента в разных направлениях. Компьютеры позволяют мгновенно переходить от одного фрагмента текста к другому, что позволяет читать нелинейные так же легко, как линейные.

Гипертекст - компьютаризованный нелинейный текст. Нельсон и Энгельбарт впервые реализовали ГТ в конце 60 гг.

Особенности Та по сравнению с традиционными нелинейными текстами (текст с комментариями, ссылками, энциклопедия):

1. явная выраженность сетевой структуры: злы (текстовые фрагменты) и связи (возможность перехода от одного ТФ к другому -> навигация). Связь может быть однонаправленной от фрагмента к комментарию или двунаправленной между двумя фрагментами. Связь может носить иерархический характер - от общего к целому.

Пользовательский интерфейс:

SYMBOL 183 f "Symbol" s 10 h переход - не более двух клавиш

SYMBOL 183 f "Symbol" s 10 h пользователь должен иметь средства ориентации: При каждом зле дается оглавление - локальная ориентация. Глобальная ориентация - наглядное изображение структуры гипертекстов ой сети, в которой помечается путь, пройденный пользователем

SYMBOL 183 f "Symbol" s 10 h многооконная система позволяет видеть одновременно несколько ФТ на экране.

2. открытость гипертекста (для включения новых ФТ, читатель может выступать совтором)

Пример ГТ: изобразительная и звуковая система Гипермеди (комплексное использование информации разной природы, синтез разных искусств)

Динамический ГТ постоянно дополняется новыми текстовыми фрагментами (необходимо находить связи для поступающих извне ФТ)

ГТ - сама форма организации материала и технология, без которой невозможна его организация. Гт - накопление информации в БД, доступ к данным - через запросы. связь важна для пользователя, поэтому в БД ГТ системы нет заранее становленных связей. Выдача информации - воспроизведение фрагментов сетей, сформированных к этому моменту в БД. выдаются отд. злы и участки сети в графической форме вместе с маршрутами движения. В ГТ сети можно легко отражать идеи частников проекта, для дальнейшего изучения их в интерактивном режиме сразу несколькими частниками.

4 вида ГТС (обзор Конилина):

1. библиотечные макросистемы (шире, чем поиск литературы) XANADU, Нельсон система хранения и актуализации информации), TEXTNET (принцип динамического порядочения, перечень злов)

2. средства исследования проблем: IBIS, Риштель (аспекты, позиции, аргументы); ; JOG (изучение справочной энциклопедической литературы, выведение страниц)

3. системы для просмотра БД (подобны библиотечным. но меньше, служат для получения справочных данных) Browsing Systems, WE среда нужна для описания системы просмотра, легкость доступа, добавление новой информации не разрешено

4. системы широкого назначения (экспериментирование в разл. направлениях): INTERMEDIA фирмы XEROX

Билет 14

1. Автоматизация анализа письменного текста: основные подходы к решению проблемы.

Существует 2 основные стратегии решения проблемы:

1. модульный подход - последовательный анализ по ровням (морфологический, синтаксический, семантический, прагматический)

2. интегральный подход (более современный и более адекватный, Р. Шенк)

1. Ñèñòåìû ìîäóëüíîãî òèïà (Ëåîíòüåâà):

ìîäóëü ìîðôîëîãè÷åñêîãî àíàëèçà	-> ïîëíîå ìîðô. ïðåäñòàâëåíèå
ìîäóëü ñèíòàêñè÷åñêîãî àíàëèçà	-> ïîëíîå ñèíò.ïðåäñòàâëåíèå
ìîäóëü ñåìàíòè÷åñêîãî àíàëèçà	-> ÷àñòè÷íîå (ôðàãìåíòàðíîå) ïðåäñòàâë.
прагматический анализ (пока не реализован)

Для широких ПО может быть использован в нескольких системах:

SYMBOL 183 f "Symbol" s 10 h СМП (SYSTRAN)

SYMBOL 183 f "Symbol" s 10 h системах извлечения знаний

SYMBOL 183 f "Symbol" s 10 h ИПС

2. Ñèñòåìû èíòåãðàëüíîãî òèïà

Êîíöåïòóàëüíûé àíàëèç	->	ôðàãìåíòàðíûå êîíöåïòóàëüíûå ïðåäñòàâëåíèÿ:
ìîðô.àíàëèç	ñèíò.àíàëèç	ñåì. àíàëèç	ñöåíàðèè, ôðåéìû. ïëàíû.

SYMBOL 183 f "Symbol" s 10 h Èùåò â òåêñòå äèàãíîñòè÷åñêèå ñëîâà

SYMBOL 183 f "Symbol" s 10 h заполняет пустые слоты в сценарии

SYMBOL 183 f "Symbol" s 10 h делает ряд концептуальных выводов (inferences) о смысле текста (в результате чего способна отвечать на поставленные вопросы по содержанию)

SYMBOL 183 f "Symbol" s 10 h на определенных этапах подключает процедуры

SYMBOL 183 f "Symbol" s 10 h нельзя получить ровневое представление

SYMBOL 183 f "Symbol" s 10 h тексты узко ограниченной тематики

Пример: интегральная система анализа Шенка:

1. MARGE (Memory Response Generation in English) - îáðàáîòêà êîíöåïòóàëüíîé èíôîðìàöèè. В основе лежит теория концептуальных зависимостей - комплексная теория человеческого мышления.

Работает в двух режимах:

SYMBOL 183 f "Symbol" s 10 h перефразирование (перевод входной фразы на ЯКЗ)

SYMBOL 183 f "Symbol" s 10 h концептуальный вывод

2. Модель SAM (Script Applying Mechanism) является компьютерной программой, которая позволяет понимать связность текста за счет применения сценариев:

SYMBOL 183 f "Symbol" s 10 h POLITICS (ведет диалог, моделирует политическую идеологию)

SYMBOL 183 f "Symbol" s 10 h PAMа -> TALE-SPIN - порождение сказок

2. Терминологические банки данных: структуры, функции, методы построения.

ТБД - автоматизированная система инвентаризации и машинного представления терминологической лексики и ее семантизации в системах машинного и человеко-машинного речевого общения. Это единая служба с добным доступом, описывающая все сведения о термине и ликвидирующая неравномерность описания терминологии.

Научные задачи:

SYMBOL 183 f "Symbol" s 10 h моделирование терминологической системы РЯ как системы подсистем

SYMBOL 183 f "Symbol" s 10 h построение общенаучных и общетеоретических тезаурусов

SYMBOL 183 f "Symbol" s 10 h исследование русской терминологии

Типы традиционного использования ТБД:

SYMBOL 183 f "Symbol" s 10 h справочно-информационное обслуживание специалистов различных областей знания

SYMBOL 183 f "Symbol" s 10 h обеспечение традиционного перевода научно-технической литературы

SYMBOL 183 f "Symbol" s 10 h обеспечение АСОТ, включая системы машинного перевода

SYMBOL 183 f "Symbol" s 10 h лингвистическое обеспечение авт. систем информации

SYMBOL 183 f "Symbol" s 10 h обеспечение работ по порядочению терминологии

SYMBOL 183 f "Symbol" s 10 h подготовка и издание терминологических словарей

SYMBOL 183 f "Symbol" s 10 h нификация определенных терминов

SYMBOL 183 f "Symbol" s 10 h подготовка научных отчетов о составе РЯ

Организационная структура ТБД:

SYMBOL 183 f "Symbol" s 10 h терминологические центры

SYMBOL 183 f "Symbol" s 10 h службы переводов (переводческая функция)

SYMBOL 183 f "Symbol" s 10 h службы стандартизации (нормативная функция)

SYMBOL 183 f "Symbol" s 10 h ниверситеты (исследовательская функция)

SYMBOL 183 f "Symbol" s 10 h всероссийские органы НТИ (по АСУ и ИПС)

Функциональная структура ТБД:

1. Головной ТБД - справочно-поисковый аппарата по видовым банкам данных:

SYMBOL 183 f "Symbol" s 10 h ведение коммуникативного формата данных

SYMBOL 183 f "Symbol" s 10 h организация и руководство работами по передаче данных в ТБД

SYMBOL 183 f "Symbol" s 10 h обработка и ввод данных

SYMBOL 183 f "Symbol" s 10 h обслуживание предприятий

2. Специализированные ТБД (сбор, хранение, обработка информации), могут включать существующие ТБД, словарно-терминологические службы НТИ:

отбор представительного массива источников

ввод и обновление терминологической информации в БД

передача информации другим СТБД и ГТБД

эксплуатация СТБД в соответствии с конкретными задачами организации.

ТБД состоит из ряда массивов, которые называются подфондами.

Подфонды - массивы терминов, которые создаются и хранятся в центральном органе МФРЯ (Машинный фонд РЯ) на базе массивов первичного типа.

Подфонды:

специальных и межотраслевых терминов, фигурирующих в отдельных отраслях знаний и деятельности

общенаучных и общетехнических терминов

терминоэлементов (используются в нескольких терминосистемах).

3. Примеры оформления сложных документов (сноски, газетная верстка, колонтитулы и т. д) в MS Word 5.0.

Сноски:

1. курсор на месте символа ссылки на сноску

2. Format, Footnote

3. в поле reference mark ввести ссылку на сноску (не более 28 символов)

4. enter

5. ввести текст сноски (до нескольких абзацев)

перемещение между сноской и текстом: Jump Footnote

использование окна сносок: Esc W S F

переход из окна в окно: F1

местоположение сносок:

SYMBOL 183 f "Symbol" s 10 h по умолчанию - на той же стр., где ссылка

SYMBOL 183 f "Symbol" s 10 h Format Division Layout: same page, end

Ãàçåòíàÿ âåðñòêà:

êîëîíêè:

1. Options: Show Layout Yes èëè Alt-F4

2. Esc Format Division Layout

колонтитулы:

1. курсор в начало документа

2. ввести текст + enter

3. курсор внутрь текста или выделить текст

4. Esc Format Running Head: Position:

Top Bottom None Odd Even First Alignment: left margin Edge-of-paper

5. enter

Быстрое создание колонтитулов:

1-3 - то же самое

4. верхний колонтитул: Ctrl+F2

нижний колонтитул: Alt+F2

На каждой странице может быть не более двух колонтитулов: верхний и нижний

Выравнивание колонтитулов: Format Paragraph или Alt C, Alt R.

Вывод номера страницы/даты:

1. курсор в то место колонтитула, где будет страница.

2. íàáðàòü page/date

3. F3