Основные понятия информационного поиска информационные процессы и системы

Вид материалаДокументы
2.2. Информационно-поисковые языки
2.2.1. Предкоординированные ИПЯ
Алфавитно-предметные классификации
Фасетные классификации
Подобный материал:
1   2   3   4   5   6   7   8
Глава 2. ЛИНГВИСТИЧЕСКОЕ ОБЕСПЕЧЕНИЕ ИНФОРМАЦИОННО-ПОИСКОВЫХ СИСТЕМ

2.1. Понятие и состав лингвистического обеспечения

С самого начала появления информационно-поисковых систем их главной частью считался информационно-поисковый язык (ИПЯ). Повышенное внимание к проблемам разработки ИПЯ, как в теории, так и на практике, особенно характерно для периода 1960-1970-х гг.1 По данным Н.И. Гендиной2 пик публикаций по теме ИПЯ в нашей стране пришелся на 1974-1978 гг. В целом для работ этого периода развития ИПС характерно выявление природы ИПЯ через его сопоставление с естественным языком (ЕЯ)3. Большое внимание уделялось разработке конкретных языков и способов их использования (методик индексирования).

Постепенно наряду с термином ИПЯ стал использоваться термин лингвистическое обеспечение (ЛО), обозначающий весь комплекс языковых и логических средств и методов, используемых в ИПС для обеспечения основной задачи информационного поиска — сопоставления содержания документов и запросов. К ЛО относятся собственно ИПЯ, критерий смыслового соответствия (КСС), методики индексирования, методики составления тезаурусов, различные правила, вспомогательные средства создания и ведения ИПЯ и т. п. Приведем два определения.

«Лингвистическое обеспечение — это комплекс средств представления информации в виде данных и интерпретации данных в процессе функционирования информационных систем»4.

«Лингвистическое обеспечение - это комплекс мероприятий, направленных на разработку языковых средств АСНТИ, а также сами средства»5.

К лингвистическому обеспечению ИПС стали относить и специальные языковые средства поиска в режиме диалога, и языковые средства мультибазового поиска, и средства автоматизации вспомогательных процессов в ИПС, предназначенные для ведения машинных словарей6.

Развитие языковых средств систем управления базами данных (языки описания данных, языки манипулирования данными), а также различных языков программирования еще более расширили сферу применения понятия ЛО7, не всегда, впрочем, правомерно.

Нередко в понятие «ЛО ИПС» включают всю совокупность языков, которые применяются как для составления программ, так и в процессе функционирования ИПС. В этом случае данный термин становится синонимом для термина «средства общения человека с машиной». «Под языковыми средствами информационной системы мы будем... понимать весь комплекс языков и систем знаков (включая и естественный язык), используемых при проектировании АИС, составлении программ и в ходе информационных процессов, реализуемых на ЭВМ как программными средствами, так и пользователями АИС»8. В состав языковых средств авторы указанной работы включают языки программирования, информационные языки, языки представления служебной или вспомогательной информации, используемой алгоритмами обработки сообщений, языки описания структур информации, в том числе структур массивов и сообщений, используемых программами обработки, служебные языки сервисных программ. «С точки зрения использования указанных языковых средств в процессах функционирования АИС их можно разделить на средства представления информации и средства доступа к ней. Для человека средствами доступа являются не только информационные языки, но и языки программирования...»9. С таким расширительным толкованием ЛО никак нельзя согласиться. У языков программирования и информационных языков совершенно разное назначение. Поэтому вряд ли правомерно говорить о стирании грани между языками этих двух типов10. Лингвистические средства информационного поиска описывают предметное содержание документов и запросов и определяют логику поиска, а программные, к которым относят языки программирования, языки описания структур данных и т. п., реализуют эту логику в той или иной вычислительной среде.

Рассмотрим состав и классификацию средств лингвистического обеспечения. Построение классификационной схемы языковых средств представляется важным как с теоретической, так и с практической точки зрения. «Классификация это один из способов логического анализа сложных систем. Расположение явлений по какой-то определенной схеме, выбранной исследователем для решения стоящих перед ним познавательных задач, это взгляд на систему в некотором специальном ракурсе, позволяющий отчетливо увидеть то, что ранее оставалось затушеванным»" .

Вопросы типологии языковых средств рассматриваются во многих работах12. Любая классификация всегда относительна. Одна и та же совокупность явлений может быть классифицирована по разным признакам или критериям. Тем не менее, классификация позволяет взглянуть на предмет исследования целиком в разрезе его характерных признаков.

Предлагаем схему, отражающую объем и содержание понятия ЛО в его современном понимании. Итак, в состав лингвистического обеспечения документальной ИПС входят следующие компоненты.

1. Собственно информационно-поисковый язык (язык описания содержания документов и запросов).
  1. Алфавит и микросинтаксис ИПЯ.
  2. Средства представления плана содержания (семантики):
    словари, тезаурусы;

вспомогательные словари (единиц измерений, сокращений и т. п.); рубрикаторы, классификаторы; наполнение форматов.

1.3. Средства представления плана выражения:
грамматические средства ИПЯ (указатели связи, указатели роли и т. п.);

структура форматов.

1.4. Средства представления естественно-языковой информации в ИПЯ (правила представления текстов на ЕЯ, диакритика и т. п.).

2. Средства обеспечения совместимости различных языков:
таблицы соответствия;

таблицы конвертирования; протоколы.

3. Процедурные средства:
  1. Методики индексирования.
  2. Алгоритмы автоматического индексирования.
  3. Средства поиска:
    язык запросов;

средства автоматической адресации запросов к базам данных; единые командные языки.

4. Критерий смыслового соответствия.
  1. Языки структурирования (представления) и метаописания данных.
  2. Вспомогательные средства обработки текстов на ЕЯ:
  • программно-алгоритмические средства морфологического и синтаксического анализа;
  • средства семантической обработки текстовых данных; лингвистические средства и алгоритмы автоматической классификации документов;
  • лингвистические средства и алгоритмы автоматизированного построения поисковых предписаний; средства автоматизированного обнаружения ошибок; лингвистические банки данных, машинные словари лексических (слой, словосочетаний) и морфологических единиц ЕЯ (основ, флексий, префиксов, префиксоидов).

7. Средства поддержки лингвистического обеспечения:
процедуры составления машинных словарей;
процедуры ведения машинных словарей;
документация по лингвистическому обеспечению.

2.2. Информационно-поисковые языки

Для обеспечения работы информационных систем разрабатываются информационные языки. В основе всех языков, действующих в человеческом обществе, в том числе и искусственных информационных, лежит семантический анализ, моделирующий процесс понимания смысла человеком13. Задача описания смысла текста является одной из краеугольных проблем теоретической и прикладной лингвистики.

Искусственные языки, предназначенные для формализованного описания смыслового содержания документов или данных с целью обеспечения последующего поиска, называют информационно-поисковыми языками. Необходимость в искусственных языках вызвана необходимостью устранения «избыточности» и «недостаточности» естественного языка для целей информационного поиска, а также ликвидации присутствующих в нем синонимии и омонимии14.

Можно сказать, что информационно-поисковые языки совместно с критерием смыслового соответствия выполняют в ИПС специальную функцию «опосредованной коммуникации». Аспекты этой «коммуникации» рассматривались выше в главе 1, при определении понятия релевантность. Искусственные языки, как правило, строятся и описываются по аналогии с естественными. С одной стороны, часто эта аналогия чисто внешняя, с другой - общепринятый и понятный язык лингвистики создает общую метаязыковую среду для разных авторов, читателей и разных объектов описания.

Любой письменный язык, в том числе и искусственный, состоит, по крайней мере, из трех компонент: алфавита, словаря и грамматики. Исходя из такого понимания информационного языка (ИЯ) и базируясь на инструментарии традиционного лингвистического описания, В.А. Москович15 выделяет внешние и внутренние по отношению к языку признаки, на основании которых строится классификация. «Внешние признаки ИЯ характеризуют ИЯ с точки зрения условий его применения. При этом нас может интересовать тип документов, обрабатываемых ИПС, характер тематики обрабатываемого фонда документов и т. п. Внутренние по отношению к ИЯ признаки характеризуют способы организации понятий и формы их выражения»16. Именно классификация ИЯ по внутренним признакам позволяет обнаружить основные структурные типы ИЯ, сходства и различия этих типов.

В цитируемой работе рассматриваются способы организации понятий и способы их выражения, степень выраженности синтагматических и парадигматических отношений. Для лингвистов представляет интерес (правда, скорее теоретический) разработанная В.А. Московичем морфологическая классификация информационных языков, основывающаяся на классификации естественных языков Э. Сепира17. Сепир разделяет все понятия, выражаемые языком, на четыре группы. В различных языках эти группы понятий могут выражаться разными способами (изоляция, агглютинация, фузия, символизация). Кроме того, наблюдаются различные степени объединения корневых и аффиксальных элементов в слове. В.А. Москович выделил 8 морфологических типов языков, приводя для каждого из них примеры как из естественных, так и из информационных языков18. Представляет также интерес его анализ методов построения информационных языков, базирующийся на лингвистических основаниях".

Увеличение количества ИПЯ, расширение сферы их использования вызвали к жизни и многие другие классификации информационных языков20 . Наиболее известной и распространенной является классификация А.И. Черного, впервые предложенная в книге «Основы научно-технической информации»21 и в переработанном виде изложенная в более поздней работе автора22.

Эта классификация основывается на понятии координации, которое обозначает операцию пересечения (логического умножения) понятий. Принцип координатного индексирования был разработан в 1950-х гг. в процессе создания еще механизированных ИПС23. Он заключается в том, что главная и дополнительные темы документа описываются перечнем ключевых слов (или дескрипторов), являющихся именами простых понятий. Такие слова выступают в качестве как бы «координат» документов в некотором умозрительном n-мерном предметно-тематическом пространстве24 . На множестве этих простых лексических единиц (ЛЕ) информационно-поискового языка во время поиска выполняются логические операции. В результате понятия, выражаемые этими ЛЕ, соотносятся друг с другом — координируются — и образуют новые, более узкие или более широкие, понятия или классы понятий. Происходит это при поиске под воздействием поискового предписания. Операция построения новых сложных (более узких) классов понятий из уже имеющихся может строиться по-разному: путем дробления понятий или путем пересечения простых классов — и в разных «местах» системы: или при построении ИПЯ, или при его использовании. Координация строит такие классы при использовании.

Если ИПЯ имеет такую структуру и правила индексирования, при которых индексирование документов производится приписыванием им предварительно построенных классов (понятий), а имена этих классов становятся поисковыми образами, то такой ИПЯ называется предкоординированным. Если же поисковый образ документа состоит из простых классов, а операция координации (построение сложных классов путем пересечения простых) реально происходит только при поиске (после индексирования), то такой ИПЯ называется посткоординируемым.

Общая классификация ИПЯ, предложенная А.И. Черным, имеет следующий вид:

A. Предкоординированные ИПЯ.

АЛ. Иерархические классификации. А.2. Алфавитно-предметные классификации. А.З. Фасетные классификации. Б. Посткоординируемые25 ИПЯ. Б. 1. Дескрипторные языки. Б.2. Семантические языки. Б.З. Синтагматические языки.

B. Язык библиографических ссылок26.

В ряде работ справедливо отмечались недостатки данной классификации27 . И это естественно: желание отразить все многообразие языков и их особенности не укладывается в простую древовидную схему. Тем не менее, эта классификация стала общепринятой и достаточно хорошо соотносится с реальной «информационно-поисковой действительностью». В качестве ее усовершенствования мы бы предложили исключить из нее язык библиографических ссылок, фактически, являющийся языком фактографического (объектно-признакового) типа, и добавить в раздел Б (первым подразделом) вербальные языки.

Рассмотрим указанные выше типы языков.

2.2.1. Предкоординированные ИПЯ

Иерархические классификации

Предкоординированные ИПЯ объединяет то, что в них заранее перечислены имена всех основных классов и подклассов. К этим языкам относятся классификации понятий. В основе построения классификаций лежит принцип деления понятий, а сами классификации имеют структуру «дерева знаний» с поименованными узлами. Для каждого узла дерева дается идентификатор (имя) - обозначение понятия. Классификация—это система распределения объектов (предметов, явлений, процессов, понятий) по классам в соответствии с определенным признаком. Под объектом понимается любой предмет, процесс, явление материального или нематериального свойства. Система классификации позволяет сгруппировать объекты и выделить определенные классы, которые будут характеризоваться рядом общих свойств. Классификация объектов - это процедура группировки на качественном уровне, направленная на выделение однородных свойств. Применительно к информации как к объекту классификации выделенные классы называют информационными объектами.

При классификации широко используются понятия «классификационный признак» и «значение классификационного признака», которые позволяют установить сходство или различие объектов. Возможен подход к классификации с объединением этих двух понятий в одно, называемое «признак классификации». Признак классификации имеет также синоним «основание деления». При классификации информационных объектов — понятий — такой признак в явном виде отсутствует. Поэтому можно сказать, что иерархические классификации, используемые в информатике, не совсем соответствуют классическому определению классификации.

Иерархическая система классификации (рис. 2.1) строится следующим образом:
  • исходное множество элементов составляет 0-й уровень и делится в зависимости от выбранного классификационного при знака на классы (группировки), которые образуют 1-й уровень;
  • каждый класс 1-го уровня в соответствии со своим, характерным для него классификационным признаком делится на подклассы, которые образуют 2-й уровень;
  • каждый класс 2-го уровня аналогично делится на группы, которые образуют 3-й уровень, и т. д.



Рис. 2.1. Иерархическая система классификации.

Количество уровней классификации, соответствующее числу признаков, выбранных в качестве основания деления, характеризует глубину классификации.

В иерархической системе классификации каждый объект на любом уровне должен быть отнесен к одному классу, который характеризуется конкретным значением выбранного классификационного признака. Для последующей группировки в каждом новом классе могут быть заданы свои классификационные признаки и их значения. И в этом еще одно отличие понятийных классификаций: здесь основание деления, пусть даже оно нестрого определено, одно и то же.

В числе наиболее известных и распространенных иерархических классификаций следует назвать Десятичную классификацию Дьюи (DDC - Dewey Decimal Classification), Универсальную десятичную классификацию (УДК, UDC - Universal Decimal Classification), Рубрикатор ГСНТИ, Библиотечно-библиографическую классификацию (ББК), Международную классификацию изобретений (МКИ), Общероссийский классификатор продукции (ОКП) и др.

В иерархических классификациях обычно каждый класс/подкласс называется индексом и обозначается цифровым или буквенно-цифровым кодом, который сопровождается названием понятия на естественном языке и имеет постоянное, определенное место относительно других классов.


Пример: фрагмент Универсальной десятичной классификации

5 Математика. Естественные науки

53 Физика
  1. Общая механика
  2. Гидромеханика
  3. Механика газов. Аэродинамика. Физика плазмы
  4. Механические колебания
  5. Оптика
  6. Термодинамика

536.2 Теплопроводность. Теплопередача
  1. Теплопроводность твердых тел.
    Теплоизоляционная способность
  2. Теплопроводность жидкостей
  3. Теплопроводность газов

Иерархические классификации в основном применяются для систематизации литературы в библиотеках и книгохранилищах, поэтому они могут использоваться в качестве ИПЯ электронных каталогов в автоматизированных библиотечных системах.

Различные классификационные схемы отличаются друг от друга по объему и методологии их составления. Объединяет их назначение, простота использования. Есть еще одно преимущество, которое относится не ко всем схемам, но ко многим из них: всеобщность, универсальность, независимость от естественного языка. Недостатком же является слабая возможность многоаспектного индексирования, ориентация преимущественно на научно-техническое знание, статичность, жесткая структура, которая приводит к сложности внесения изменений, так как приходится перераспределять все классификационные группировки, что в результате приводит к отставанию от развития науки и техники.

Алфавитно-предметные классификации

Алфавитно-предметные и фасетные классификации также основываются на предварительном составлении перечня основных категорий и классов предметов, встречающихся в конкретной предметной области.

В алфавитно-предметных классификациях классы понятий называются словами естественного языка и располагаются в алфавитном порядке. Они предназначены для узкопредметного поиска документов, главная тема которых обозначается именем соответствующего предметного класса (предметным заголовком). Классы понятий в них называются предметными рубриками. В отличие от иерархических, алфавитно-предметные классификации содержат большое число фиксированных рубрик верхнего уровня (заголовков) с незначительной глубиной дальнейшего деления (на подзаголовки).

Пример: фрагмент предметных рубрик Российской национальной библиотеки.

Очистные работы - Учет

Очистные сооружения

Очистные сооружения - Гидробиология

Очистные сооружения - Железобетонные конструкции - Защита от коррозии

Очистные сооружения - Иловые площадки - Проектирование

Очистные сооружения ирригационных систем

Очистные сооружения ирригационных систем - Научно-исследовательская работа

Очистные сооружения - Коррозия и защита от нее - Применение ингибиторов

Очистные сооружения - Лабораторные исследования

Очистные сооружения на животноводческих фермах

Очистные сооружения на свиноводческих комплексах

Очистные сооружения на свиноводческих комплексах - Электроприводы

Очистные сооружения — Проектирование

Очистные сооружения — Размещение в плане города

Очистные сооружения - Санитарно-гельминтологические исследования

Очистные сооружения - Санитарно-гигиенические требования

Очистные сооружения - Управление

Очиток

Очищенные сточные воды

Очки

Очки - История

Очки - Подбор

Очковая оптика

Язык предметных рубрик, традиционно причисляемый к предкоординированным языкам, в то же время может рассматриваться и как ограниченный дескрипторный язык. Это подтверждается опытом использования языков предметных рубрик в некоторых библиотеках29.

Фасетные классификации

В основу фасетных классификаций положен принцип классификации одного и того же множества предметов и явлений по разным основаниям, а именно: для одного и того же множества объектов строится несколько иерархических классификаций. Основные категории — основания для классификации - называются фасетами (от англ, facet - аспект, рамка). Каждый фасет (Ф.) содержит совокупность однородных значений данного классификационного признака. Причем значения в фасете могут располагаться в произвольном порядке, хотя предпочтительнее их упорядочение. Так, множество терминов, обозначающих различные материалы, образуют фасет «Материалы», множество терминов, обозначающих процессы - фасет «Процессы» и т. д. Каждый термин фасета называют фокусом и для удобства обозначают каким-либо кодом (шифром). Множество фасетов называют схемой классификации. Расположение фасетов в схеме классификации и, соответственно, в ПОД фиксировано.

Процедура индексирования (классифицирования) состоите присвоении каждому объекту соответствующих значений (фокусов) из фасетов. При этом могут быть использованы не все фасеты. Для каждого объекта задается конкретная группировка фасетов в виде структурной формулы, в которой отражается порядок их следования,

0Г(Ф„Ф2,...,Ф,...,ФП), где Ф. - i-ый фасет;

п - количество фасетов.

Эта фиксированная последовательность называется фасетной формулой.

Достоинством фасетной классификации является ее большая емкость, т. е. использование большого числа признаков классификации и их значений для создания группировок фасетов и, как следствие, возможность производить многоаспектное индексирование. Недостатком фасетной системы классификации является сложность ее построения, так как необходимо учитывать все многообразие классификационных признаков.

Приведем пример из самой знаменитой (и, вероятно, самой сложной) системы фасетной классификации — «Классификации двоеточием» индийского книговеда Ш.М. Ранганатана (Раздел «Лингвистика»)30.


Фасеты



Фасеты

Содержание

Способы образования изолатов

[Р]

Языки

Перечислением

[Р2]

Разновидности языка Стадии языка

Перечислением По хрон.. методу

[РЗ]

Элементы языка

Перечислением

[Е] [2Р]

Проблемы

Перечислением

Таблицы






Фокус в [Р2]



Разновидности



Сленг

9D

Диалекты

9J

Жаргоны

А

Период



…………………..




Фокус в [Р], [Р2] (взятые совместно)

111.D

Древнеанглийский

111.Е

Среднеанглийский

111.J

Современный английский

113,0

Древненемецкий

113JE

Средненемецкий

113J

Современный немецкий

114,0

Старошведский

114,J

Современный шведский



…………………….




Фокус в [РЗ]

1

Звуки. Фонемы

11

Гласные звуки

111

Задние

115

Смешанные

118

Передние



……………………

15

Согласные звуки

151

Гортанные

153

Задненебные



…………………….

3

Слово

201

Корень

302

Основа



…………………….

31

Существительные



…………………….




Фокус в [Е], включая [2Р]

1

Фонология



…………………….

Классификация не содержит готовых индексов для всевозможных предметов. Она состоит из набора таблиц, сочетание индексов из которых (в определенных комбинациях) позволяет получить фасетные формулы для различных тем. Функцию соединения частных индексов выполняет двоеточие (есть и другие соединительные знаки), отсюда и название классификации.

Так, например, документ под названием «Словарь современного английского произношения» будет заиндексирован как