Системантика
Вид материала | Монография |
Содержание2. Энтропия и ценность информации 1. Анализ и синтез текста Естественно-языковые системы общения Морфологический анализ Семантический анализ Морфологический синтез |
2. Энтропия и ценность информации
В древнегреческом языке слово entropia возникло в результате слияния грамматических элементов: en (в, внутрь) и trope (поворот, превращение).
Энтропия в термодинамике характеризует неопределенность теплового состояние системы, являясь мерой ее внутренней неупорядоченности. В такой трактовке это понятие было введено в науку Р. Клаузиусом в 1865 г. В информатике энтропия как мера неопределенности системной ситуации была введена К. Шенноном в 1949 г. В классической теории информации установилась традиция связывать информацию с термодинамической величиной – энтропией. Начало этой традиции было положено Н. Винером, увидевшим сходство формул К. Шеннона для количества информации и Л. Больцмана для физической энтропии. Это привело к ошибочному пониманию негэнтропии как отрицательной энтропии (т.е. энтропии со знаком минус). В большинстве источников негэнтропией системы называют энтропию или ее изменение, взятое со знаком минус (Э. Шредингер, 1943 г. и Л. Бриллюэн, 1960 г.)1.
В настоящее время энтропия понимается как одно из фундаментальных свойств любых систем с вероятностным поведением. При этом в качестве универсального параметра, объединяющего наиболее общие свойства действительности, такие как неопределенность и определенность, хаос и порядок, выступает понятие обобщенной энтропии. Свойство обобщенности обозначает, что его можно определять для всех моделей, как материальных, так и идеальных, с оптимизацией по цели и действующим на систему факторам. Не вдаваясь в формальные подробности с системных семантических позиций, с учетом сопряженности понятий «информация» и «знания» энтропию можно представить как меру неопределенности сообщения источника, а негэнтропию как изменение знаний (тезауруса) получателя в результате принятого сообщения. В сложных системах следует различать обобщенное негэнтропийное поле информации и обобщенное негэнтропийное поле знаний соответственно.
Численно количество информации равно той энтропии, которая имела место до получения информации. Количественное равенство информации и энтропии не означает тождественности этих понятий. Наоборот, они противоположны друг другу, так как информация равна не просто энтропии, а устраненной энтропии.
С семантических позиций при подходе к оценке информации требуется учет смыслового содержания сообщения. С этой точки зрения представляет интерес трактовка, предложенная в работе М.Н. Вахтомина1, согласно которой в сообщении содержится тем больше семантической информации, чем большие изменения претерпевает тезаурус приемника в результате воздействия этого сообщения. Количество семантической информации, извлекаемой получателем из сообщения, зависит не только от самого сообщения, но и от знаний получателя, степени подготовленности его тезауруса для восприятия такой информации.
Когда человек получает какое-либо сообщение, он, прежде всего, сравнивает содержащуюся в этом сообщении информацию со своими знаниями, со своим тезаурусом. При этом возможны три ситуации:
- тезаурус имеет те сведения, которые содержатся в сообщении;
- в тезаурусе нет таких сведений, но они сопоставимы с тезаурусом;
- в тезаурусе нет таких сведений и они несопоставимы с тезаурусом.
Содержательная ценность поступившей информации и негэнтропия тем выше, чем большие изменения новые сведения вызвали в знаниях человека и в его тезаурусе. Ценность имеет относительный характер. Одни и те же сведения могут оказаться банальными для большого тезауруса, очень ценными для среднего и недоступными для малого тезауруса.
Здесь тезаурус выступает как модель системного знания, позволяющая производить количественное измерение энтропии на формальном уровне в нечетких условиях возможных множеств ситуаций.
Глава XI
СЦЕНАРИЙ ЧЕЛОВЕКО-МАШИННОГО ОБЩЕНИЯ
1. Анализ и синтез текста
Человек познает окружающий мир посредством своих пяти чувств: зрения, слуха, осязания, обоняния, вкуса. Модели всех этих чувств используются при создании человеко-машинных систем. Наиболее важными из них являются зрение и слух. Они применяются при диалоге человека с ЭВМ на естественном языке в форме текста, речи и изображения.
Естественно-языковые системы общения предназначены для человеко-машинного общения в диалоговом режиме. Естественный язык как средство общения занимает центральное место. Естественно-языковое общение с ЭВМ до последнего времени оставалось недостаточно эффективным. Это связано с влиянием ряда факторов. Процесс общения всегда носит итеративный характер, его нельзя ограничить изолированными сообщениями типа «запрос – ответ», так как в большинстве случаев реальные информационные потребности пользователей не могут быть выражены в виде одного запроса (предложения). Необходимы анализ информационных потребностей пользователей, выраженный связным текстом, определение ситуации возникновения информационных потребностей пользователей и контекста, в рамках которого следует интерпретировать текстовое представление информационных потребностей пользователей. Должен быть предусмотрен анализ содержания всех предшествующих фаз диалога и его структуры в целом. Анализ базируется на идеях искусственного интеллекта и включает модели познавательного процесса.
С точки зрения общения человека с ЭВМ на естественном языке необходимо решить две взаимно сопряженные задачи: машинного восприятия и машинного понимания.
Задача восприятия решается на основе анализа текста как некоторой знаковой системы, связанной с распознаванием отдельных лексических единиц и синтаксических структур в рамках предложения или связного текста.
Задача понимания решается на основе отображения информации, содержащейся во входном тексте, на модель предметной области.
Под теоретической моделью понимания известны модели двух типов:
1) кибернетическая:
(текст ↔ смысл) ↔ (действительность ↔ цель);
2) лингвистическая:
(текст ↔ смысл).
С лигвистической моделью возможности понимания ограничиваются взаимной интерпретацией переводных соответствий на паре языков.
Возможность построения первой модели (кибернетической) связана с представлением семантического уровня знаний системы, с помощью которого удается зафиксировать способ отображения текста естественного языка и модели предметной области (см. рис. 80).
С формальной точки зрения семантический уровень и модель предметной области рассматриваются с единых реляционных (описательных) позиций как совокупность алгебраических систем с общей сигнатурой, включающих парадигматические и синтагматические отношения.
Фонемы – это некоторый звуковой сигнал, которому можно поставить в соответствие некоторый символ.
Морфемы – это часть слова (корень, основание, приставки, суффиксы и т. п.). Для устной речи первым выполняется фонетический анализ. Здесь каждому звуку ставится в соответствие набор символов (блок 1).
Для письменного языка первым будет морфологический анализ. Здесь компьютер находит для каждого слова основную форму и флексии (приставки, суффиксы, окончания).
В ходе лексического анализа (блок 3) каждое слово относится к определенной части речи и выясняются его свойства.
После этого в блоке 4 выполняется синтаксический анализ или разбор предложения по правилам грамматики, определяется его структура.
В результате семантического анализа в блоке 5 предложение преобразуется в вид, допускающий вывод следствий.
Рис. 80. Блок-схема кибернетической модели
Последняя стадия – прагматический анализ (блок 6) выявляет контекст предложения.
После этих процедур система готова осуществлять вывод следствий (блок 7) при заданных запросах.
Рассмотрим процедуры анализа и синтеза текста применительно к вопросно-ответной системе (рис. 81).
Система состоит из языка общения, словаря, семантической сети, базы данных и комплекса обрабатывающих алгоритмов и программ.
Запрос должен состоять из одного предложения. В нем не должно быть местоимений. Имена собственные должны употребляться с определяемым словом.
Знания о языке содержатся в словаре семантической сети и базе данных. Семантическая сеть представляет собой модель внешнего мира. Она состоит из абстрактной и конкретной сети. Абстрактная сеть хранит информацию об абстрактных сущностях, выраженную через общие родовые понятия, события и характеристики (см. рис. 82).
Рис. 81. Блок-схема вопросно-ответной системы
Конкретная сеть описывает объекты, являющиеся реальным накоплением понятий, встречающихся в абстрактной сети.
Математической моделью абстрактной сети является помеченный ориентированный граф, вершинам которого соответствуют слова и словосочетания, а дугам – семантические отношения, существующие между словами.
В абстрактной сети падежами события были абстрактные понятия. В конкретной сети – это конкретные объекты. Объем конкретной сети значительно превышает объем абстрактной сети.
Конкретная и абстрактная сети хранят содержательную информацию о внешнем мире. Все числовые значения характеристик находятся в базе данных. Хранимая числовая информация определяется теми характеристиками, которые соотнесены с данным предметом в абстрактной сети.
Рис. 82. Семантическая сеть
Конкретная сеть с базой данных является основой для поиска необходимой информации, указанной в запросе. Эта информация может носить количественный и качественный характер.
Управление поиском осуществляет абстрактная сеть. Поэтому она занимает центральное место, определяя семантическую структуру конкретной сети.
Задача анализа текста применительно к машинному способу обработки состоит в том, чтобы выразить смысл анализируемого предложения в каноническом виде, т. е. преобразовать входное предложение в такое внутреннее представление, которое допустимо для обработки средствами информационно-поисковых языков, систем управления БД и языков манипулирования данными.
Морфологический анализ выполняет распознающую роль на входе системы. Его функциями являются выделение основы слова и определение морфологической информации, приписываемой этой основе по таблицам аффиксов и словарю. Морфологический анализ, отсекая аффиксы, приписывает полученным основам морфологическую информацию, соответствующую этому аффиксу. Далее производится обращение с полученной основой к словарю для определения, существует ли такая основа. Если да, то полученная информация поступает на вход алгоритма синтаксического анализа. Синтаксический анализ осуществляет перебор всех возможных вариантов синтаксических отношений. Синтаксический анализ служит для установления синтаксической взаимосвязи между словами входного предложения.
Морфологический анализ
Сколько каменного угля перевезено железнодорожным
колич. прилаг. сущ. глагол прилаг.
числ. род./вин. род. пассив. творит.пад.
ед. ед. ед. ед./мн.
муж. муж. вр.любое
транспортом в 1975-м году?
сущ. предлог пор.числ сущ.
твор. вин./пред предл. предл.
ед. число люб. ед. ед.
муж. род любой муж. муж.
_______________________
Синтаксический анализ
Семантический анализ
Семантический синтез предложения
Синтаксический синтез
Морфологический синтез
В 1975 году железнодорожный транспорт
предл. числ. сущ. прилаг. сущ.
ед ед ед
муж муж муж
предл. имен. имен.
перевез 14,4 млн т. каменного угля.
Глагол числ. сущ. прилаг. сущ.
св. колич. дополн. дополн.
Семантический анализ осуществляет построение интенсионального выражения смысла обрабатываемого предложения в виде семантического графа. Замена синтаксических отношений семантическими осуществляется по модели управления и по абстрактной семантической сети.
Завершается процесс анализа сопоставлением семантического графа запроса с моделью предметной области. На основе этого выбирается содержательная информация из конкретной сети, производятся выбор числовых данных из БД и обработка этой информации.
Алгоритм синтеза текста состоит в переводе смысла некоторого высказывания из внутреннего представления в предложение естественного языка.
Семантический синтез служит для построения семантического графа ответа, получающегося из семантического графа запроса введением в него информации из базы данных.
Синтаксический синтез служит для перевода смысла некоторого высказывания, выраженного семантическим графом ответа, в предложение естественного языка. В синтаксическом синтезе используется модель управления и грамматика русского языка.
Семантический граф ответа преобразуется в синтаксическую структуру, в вершинах которой стоят основы слов с приписываемой им морфологической информацией. Полученная структура линеаризуется по правилам естественного языка в последовательность основ с приписанной морфологической информацией.
Морфологический синтез осуществляет построение фраз естественного языка путем приписывания аффиксов соответствующим основам.
Семантический анализ базируется на знаниях о предметной области и отражает парадигматические отношения, т. е. отношения между объектами реальной действительности.
Синтаксическую структуру запроса можно сравнивать только с синтаксическими структурами, записанными в словарном фонде; семантическую структуру запроса – только с семантической структурой семантической сети.