Основные понятия информационного поиска информационные процессы и системы
Вид материала | Документы |
- Полный курс лекций по Информационным системам информационные системы, 787.33kb.
- Конспект лекций для специальности «Прикладная информатика в экономике», 1468.57kb.
- Организационные основы информационных технологий в экономике, 44.75kb.
- Информационные системы (теория к экзамену) Основные понятия информационных систем, 82.21kb.
- Курсовая работа предмет: Информационные системы Тема: Языки информационного поиска, 154.92kb.
- Информация и информационные процессы, 276.11kb.
- Справочно-информационные системы в подготовке юриста, 31.18kb.
- 1 Информация. Кодирование информации, 59.79kb.
- Инициативный проект Российского семинара по оценке методов информационного поиска (ромип), 149.92kb.
- Программа по дисциплине «прикладные протоколы интернет и www» по направлениям: «Математика., 234.28kb.
2.4.2. Средства и методы выражения информационной потребности
Фактически в ИПС всегда происходит преобразование содержательного пользовательского запроса, сформулированного на естественном языке, в поисковое предписание для осуществления системой поиска по формальным критериям84. Поисковое предписание, помимо терминов, описывающих содержательную сторону запроса, содержит также набор операторов, управляющих поиском, и другие формальные характеристики. Обработка запроса включает как формальные, так и семантические операции. Процесс анализа и преобразования запроса на естественном языке в формализованное поисковое предписание, соответствующее выше описанной структурной схеме, в общем случае сводится к следующим операциям:
- минимизация текста запроса (удаление неинформативных и избыточных терминов);
- лексикографическая обработка терминов в системах с фиксированным ИПЯ (замена терминов дескрипторами или кодами классификатора);
- морфологическая нормализация оставшихся терминов запроса в системах без лексического (лексикографического, словарного) контроля;
- пополнение набора лексических единиц поискового предписания синонимами и нижестоящими лексемами (дескрипторами) при поиске на точность, а также ассоциативными терминами (дескрипторами) при поиске на полноту;
- определение структуры запроса и расстановка в явном виде поисковых операторов;
- дополнение поискового предписания требованиями на оформление выдачи.
И если первые три операции суть формальны и сравнительно легко формализуемы (автоматизируемы), то следующие две относятся к сфере семантики и реализуются, как правило, на уровне пользователя.
Определение структуры запроса заключается в выделении основных аспектов запроса (подтем) и формулировании логики поиска. Аспекты запроса, по сути, представляют собой основные и вспомогательные понятия, выраженные в формулировке запроса. В дескрипторных ИПС эти понятия выражаются с помощью дескрипторов, в классификационных - посредством индексов. В системах бестезаурусного типа содержание запросов, так же как и документов, выражается с помощью слов естественного языка. При этом говорят о ключевых словах, т. е. таких лексических единицах, использование которых существенно с точки зрения содержания документа и запроса. Слова, несущественные с этой точки зрения, в запрос не включаются. К ним относятся служебные части речи: предлоги, союзы, местоимения, а также незнаменательная лексика, задаваемая списком. Кроме того, имеется класс полнозначных слов, которые встречаются в слишком большом количестве документов и которые в определенных случаях также могут быть отнесены к стоп-словам (например, «компьютер», «Web», «Интернет» в тематической ИПС по новым технологиям, слово «аналог» в базе данных по патентам и т. п.)85. Пример такого списка «стоп-слов» из ИПС по патентам дается в Приложении 2.
Как правило, предметы документов и запросов выражаются существительными и субстантивными словосочетаниями. Аспекты запроса, уточняющие главную тему (предмет), могут выражаться и другими частями речи (прилагательные, причастия и глаголы, при этом вместо глаголов рекомендуется использовать отглагольные существительные). При подборе ключевых слов желательно также знать и учитывать их частотные характеристики - как в языке (подъязыке), так и в конкретном поисковом массиве. В некоторых системах эти характеристики можно получить непосредственно из системы86.
Понятие может выражаться в языке с помощью различных слов и словосочетаний. Поскольку тема запроса и ее аспекты - это суть имена понятий, и мы не знаем, каким способом это понятие будет выражено в искомых документах, то необходимо в запросе «развернуть» все гнездо близких по смыслу слов и словосочетаний, описывающих это понятие (синонимы, синонимичные выражения). В первую очередь это относится к вербальным ИПЯ, но и дескрипторные ИПЯ не решают полностью проблему различий в языке авторов документов и пользователей. Для этой цели рекомендуется опираться как на личный опыт пользователя, так и на различные лексикографические пособия (дескрипторные словари и информационно-поисковые тезаурусы, вне зависимости от типа системы, словари синонимов, лексические тезаурусы, терминологические словари и т. п.).
В информационно-поисковых тезаурусах, как минимум, явно выражены два отношения: синонимия и иерархия. Второе отношение, называемое также «род—вид», «выше—ниже», «шире—уже», в ряде случаев также целесообразно раскрывать в информационном запросе в явном виде. То есть, видовые термины могут рассматриваться как поисковые синонимы к родовому - и в этом случае возрастает полнота выдачи. В ряде случаев использование видовых терминов позволяет решить проблемы, возникающие в связи с многозначностью терминов. Например: пусть имеется запрос «Цветная фотография». Аспект «цветной» в этом случае раскрывается с помощью ключевого слова «цветной», а в качестве синонимов к нему можно добавить «полихромный», «многоцветный». Если имеется запрос «Цветные карандаши», то в качестве синонимов к ключевому слову «цветной» имеет смысл приписать названия отдельных цветов: красный, синий, желтый и т. п.
В качестве поисковых синонимов используются также ассоциативно связанные термины. Так, при строительстве домов существенную роль играет фундамент. Поэтому данное слово можно использовать как поисковый синоним к терминам «строительство домов», «домостроительный». В некоторых случаях при подборе лексики для поискового предписания выясняется, что часть имеющихся терминов раскрывает дополнительный смысловой аспект запроса. Этот аспект в явном виде в формулировке запроса может не присутствовать. Так, для запроса «Управление промышленными роботами» значимыми лексическими единицами могут оказаться термины, раскрывающие (или дополняющие) аспект «управление» в плане способов его осуществления: «команда», «перемещения», «движение», «ориентация» и т. п. Эти лексические единицы являются более узкими понятиями по отношению к термину «управление». Поэтому для получения более точной выдачи подобная лексика, относящаяся к «неявным» смысловым аспектам запроса, может включаться в поисковое предписание как условный синоним к термину «управление» (через оператор OR) или как дополнительный аспект (через оператор AND).
2.4.3. Средства морфологической нормализации
Задача морфологической нормализации лексических единиц (словоформ) в поисковых предписаниях может решаться следующими путями87:
- отказ от морфологической нормализации;
- автоматический морфологический анализ и последующая генерация стандартной (канонической) формы (лемматизация) по тем же правилам, что и в документах;
- то же самое, но по более упрощенным правилам - замена словоформ некоторым унифицированным кодом.
Вообще говоря, приведение словоформ к каноническому виду необязательно. Его можно избежать, если рассматривать каждую словоформу как отдельную ЛЕ - на уровне текста и входа в инвертированный файл.. При этом формальное отождествление разных словоформ одной лексемы обычно обеспечивается на этапе составления ПП и поиска механизмом, получившим название «маскирования» (wild cards) или «усечения» (truncation). Этот метод применяется в большинстве систем. Заключается он в следующем: в поисковом предписании указывается лишь часть слова, а механизм поиска находит в документах все слова, имеющие точно такую же часть. Как правило, это начальная часть слова - основа или квазиоснова, в этом случае говорят о правом усечении. Часть слова, которая в поисковом предписании опускается, отбрасывается, обычно обозначается специальным символом (чаще всего звездочкой (*)). Например: если требуется найти документы со словами «sing», «singer», «singers», «singing», то в запросе задается sing*. Но есть системы, которые поддерживают и левое усечение, и внутреннее (маскирование). Например, на запрос *хлоран будут выданы все документы по химии, содержащие сложные слова со второй частью «хлоран» («гексахлоран», «метилхлоран» и т. п.). Маскирование с точностью до количества символов, которые опускаются, может задаваться с помощью знаков вопроса (одного или нескольких).
Использование словоформ в качестве самостоятельных ЛЕ не только ведет к значительному увеличению объема машинных массивов (инверсных файлов), но и вызывает определенные неудобства и сложности для пользователей, связанные с необходимостью выделения основ на уровне ПП и проистекающими из этого возможными ошибками88. Поэтому целесообразно иметь в ИПС механизм морфологической нормализации. Алгоритмы автоматического морфологического анализа сегодня реализованы во многих системах89 и описаны в литературе (см. краткий обзор в разделе 2.3.2).
Замена словоформ каким-либо кодом обеспечивает сжатие информации и экономию магнитной памяти. Представление ЛЕ ИПЯ в виде равномерных кодов является также большим удобством при разработке и выполнении программ. Несколько условно-вероятностных и энтропийных статистических моделей автоматической нормализации слов естественных языков были предложены Д.О. Аветисяном90. Эти модели, ориентированные на автоматическое распознавание границ между морфемами слов ЕЯ, нашли свое применение как в лингвистических приложениях91 , так и в задачах информационного поиска92.
Основу их составляют алгоритмы выделения морфем в каждом анализируемом слове, использующие предварительно накопленную информацию - статистические характеристики совместной встречаемости различных букв и/или буквосочетаний в текстах рассматриваемого языка с учетом ряда факторов, таких как позиция в слове, окружение, принадлежность к разным морфемам и др. Статистические характеристики вычисляются путем автоматической обработки представительных объемов текстов данного языка. При этом процедуры определения статистических характеристик, равно как и их использования, являются полностью формализованными, т. е. не требуют участия специалистов-лингвистов.
Алгоритмы автоматического кодирования, разработанные при участии автора в рамках ИПС РАСПРИ-193, основываются на смыслоразличительной роли букв в различных позициях и заключаются в следующем.
Процедуры автоматической нормализации (кодирования) приводят все встречающиеся в документе или в 1111 разные словоформы одной и той же лексической единицы к одному и тому же стандартному виду. В ПОД вместо каждой словоформы включается ее код, который получается непосредственно из словоформы путем ее алгоритмического свертывания. Поэтому такой код получил название «свертки». Эта операция свертывания в идеальном случае должна удовлетворять двум условиям:
- разным лексемам должны ставиться в соответствие разные свертки;
- словоформы одной и той же лексемы (слова) должны свертываться одинаково.
Нарушение первого условия приводит к омонимии кодов (сверток), когда появляются одинаковые коды, полученные из разных лексем и имеющие, следовательно, разное смысловое значение. Нарушение второго требования, когда появляются разные коды с одним и тем же лексическим значением, создает явление синонимии сверток. В обоих случаях ошибки могут повлиять на качество поиска: омонимия кодов снижает точность поиска, синонимия - полноту. Были разработаны алгоритмы Для русского языка, снижающие потери документов, повышающие точность поиска и обеспечивающие кодирование за приемлемое время. Эта совокупность алгоритмов получила название ОСНОВА. В общих чертах эти алгоритмы сводятся к следующему:
- в код (свертку) включается начальная часть слова (две или три буквы);
- из остальной части слова в код включаются только согласные;
- согласные «в», «г», «м», «х», «и», оказавшиеся в позиции последнего символа кода, в код не включаются;
4) длина свертки фиксирована (6-12 символов); недостающая часть дополняется пробелами.
Лингвистическое обоснование описанного здесь свертывания заключается в том, что русский язык имеет консонантный характер, т. е. смыслоразличительная роль согласных больше, чем гласных. Начальная часть слова включается в свертку целиком, так как информативность первых букв, в том числе и гласных, в слове велика. Согласные «в», «г», «м», «х», «и», которым «запрещено» появляться в позиции последнего символа свертки, могут попадать в нее из окончаний существительных и прилагательных, а именно они составляют основу поисковых предписаний. Исключая эти согласные из кода, мы тем самым как бы отбрасываем окончания и исключаем большое количество случаев синонимии свертки.
Таким образом, при длине начальной части словоформы, равной двум, и длине свертки, равной 6 символам, для словоформ «двигатель», «двигателей», «двигателями», «двигателях» порождается свертка двгтл. Словоформы «синхронный», «синхронного», «синхронным», порождают одинаковую свертку синхрн.
Окончательное значение параметров алгоритма кодирования - длина начальной части слова, понятие согласной буквы (в одном из вариантов к согласным приравнивались цифры), длина самой свертки (постоянная, переменная, число символов в свертке, максимальное число символов в свертке, если длина переменная, и проч.) - устанавливалось в ходе экспериментов. Исследовалось влияние различных типов кодирования на омонимию и синонимию свертки и, как следствие, на характеристики поиска94. В результате были выбраны алгоритмы, снижающие потери релевантных документов и повышающие точность выдачи. Эти алгоритмы были названы ОСНОВА-1 и ОСНОВА-2. Значение параметров кодирования может задаваться как динамическая переменная величина в зависимости от требований на поиск (например, ориентация на повышение полноты или точности).
2.4.4. Поисковые операторы и структура запроса
Большинство систем сегодня базируется на булевой (логической) модели поиска. Запрос в этих системах представляет собой булево выражение - набор поисковых терминов, объединенных логическими операторами с учетом правил поискового синтаксиса. Булево выражение в результате сравнения его с документом всегда получает значение «истина» или «ложь». Если «истина» - документ признается релевантным запросу, если «ложь» - нерелевантным.
Во всех системах обработка булевых выражений ведется слева направо с учетом иерархии булевых операторов: первым выполняется оператор NOT, затем AND, затем OR. Однако в подавляющем большинстве случаев логическая формула запроса представляет собой конъюнктивную нормальную форму - конъюнкцию дизъюнкций (AND-выражение, объединяющее OR-группы). В этом случае порядок обработки запроса должен быть изменен: в начале обрабатываются OR-группы, т. е. вычисляется значение истинности для каждой OR-группы (аспекта запроса), затем - для всего запроса в целом (AND-выражение). Поэтому OR-группа должна быть заключена в скобки. В свою очередь, каждая OR- группа может представлять собой сложное выражение. Например, поисковое предписание по теме «Исследование и анализ информационных потоков» может выглядеть следующим образом:
[Исследование OR Анализ OR Модель OR (Количественная and мера) OR Критерий OR (Ранговое and распределение) OR (Закон and Ципфа) OR (Закон and, Бредфорда) OR Параметр OR Цитируемость OR (Частотное and распределение) OR (Распределение and Лотки) OR (Показатель and рассеяния) OR (Частота and терминов)]
AND
[(Информационный and поток) OR (Документальный and поток) OR (Периодическое and издание) OR (Продолжающееся and издание) OR (Рассеяние and информации) OR (Распределение and публикаций) OR (Поток and публикаций) OR (Массив and публикаций)]
Пример упрощенный: на самом деле словосочетания, заключенные в круглые скобки, представляют собой не простые AND-выражения внутри OR-групп, а устойчивые словосочетания, задаваемые контекстными операторами (условно показаны как «and» строчными буквами).
2.5. Модели поиска
Совокупность признаков, на основании которых определяется релевантность документов по отношению к информационному запросу и принимается решение о выдаче или невыдаче данного документа в ответ на поставленный информационный запрос, как уже говорилось, называется критерием выдачи или критерием смыслового соответствия (КСС).
Критерии в совокупности р методами их реализации называют моделями поиска. Здесь под моделью будем понимать логическую или математическую модель, в рамках и терминах которой и формулируется КСС. Принятая модель поиска определяет многие компоненты ИПС и их взаимодействие, в первую очередь, индексирование документов и запросов и тем самым структуру ПОД и ПОЗ, собственно критерий и тем самым результаты поиска. Поисковые образы являются результатом применения некоторой модели информационного массива документов, ориентированной на поиск, к реальному массиву. Алгоритмы сравнения ПОД и ПОЗ реализуют правила вычисления релевантности документа и запроса в соответствии с выбранной моделью. В идеале модели поиска должны включать в себя также и модель пользователя: формализованное описание и учет при поиске категории пользователя, типа запроса, целей поиска и т. д.
Модели поиска информации можно охарактеризовать четырьмя параметрами:
- представлением документов и запросов;
- методами сопоставления, применяемыми для оценки релевантности документа запросу пользователя;
- методами ранжирования результатов запроса;
- механизмами обратной связи, обеспечивающими оценку релевантности пользователем.
Можно утверждать, что главными здесь являются методы сопоставления оценки релевантности ПОД и ПОЗ, которые определяют остальные параметры.
Существует несколько типов моделей поиска информации: теоретико-множественные, логические, векторные (алгебраические), вероятностные и гибридные.
Теоретико-множественные модели являются самыми простыми и основываются на количественном КСС, в частности, на теоретико-множественной операции пересечения множеств терминов ПОД и ПОЗ. Степень такого пересечения выражает степень релевантности документов и запросов.
Наиболее популярной моделью является булева, или логическая, модель, которая трактует термины в запросе как булевы переменные. При наличии термина в документе соответствующая переменная принимает значение «true» (истина). Присваивание терминам весовых коэффициентов не допускается. Запросы формулируются как произвольные булевы выражения, связывающие термины с помощью стандартных логических операций: AND, OR или NOT. Мерой соответствия запроса документу служит значение статуса выборки (RSV, retrieval status value). В булевой модели статус выборки равен либо 1, если для данного документа вычисление выражения запроса дает значение «истина», либо 0 в противном случае. Все документы с RSV = 1 считаются релевантными запросу.
Такая модель проста в реализации и применяется во многих системах. Она позволяет пользователям вводить в свои запросы произвольно сложные выражения, однако эффективность поиска зависит от умения и опыта пользователя и обычно невысока. К тому же ранжировать результаты невозможно, так как все найденные документы имеют одинаковые RSV, а терминам нельзя присвоить весовые коэффициенты. Нередко результаты выглядят не очень естественно. Например, если пользователь указал в запросе десять терминов, связанных логической операцией AND, то документ, содержащий девять таких терминов, в выборку не попадет. Для повышения эффективности поиска в таких ИПС рекомендуется применять обратную связь с пользователем. Неадекватность собственно логического критерия смыслового соответствия была показана давно. Однако на практике до сих пор превалируют системы с булевой логикой.
Модель, основанная на нечеткой логике (или нечетких множествах), допускает (в отличие от обычной логики и теории множеств) частичную принадлежность элемента тому или иному множеству. Здесь обработка запросов пользователя выполняется аналогично булевой модели, но результат вычисления истинности логических операций принимает значения в диапазоне [0,1].
Строгая булева модель и модель, использующая методы теории нечетких множеств, требуют меньших объемов вычислений (при индексировании и оценке соответствия документов запросу), чем другие модели. Они менее сложны алгоритмически и предъявляют не очень жесткие требования к другим ресурсам, таким как дисковое пространство для хранения представлений документов.
Векторная модель (другие названия - пространственно-векторная, алгебраическая, линейная) основана на предположении, что совокупность документов можно представить набором из и нормализованных векторов-терминов в пространстве, определяемом базисом. Каждому документу приписывается вектор размерности, равной базису - числу терминов, которыми можно воспользоваться при индексировании (поиске). В пространстве, натянутом на п нормализованных векторов, каждый документ будет представлен n-мерным вектором. При простой векторной модели элемент вектора равен 1 или 0, в зависимости от наличия или отсутствия термина в ПОД. В более сложных моделях термины взвешиваются - элемент вектора равен не 1 или 0, а некоторому числу (весу), отражающему вес термина в документе. Запрос пользователя также представляется n-мерным вектором. Показатель RSV, определяющий соответствие документа запросу, задается скалярным произведением векторов запроса и документа. Чем больше RSV, тем выше релевантность документа запросу.
Достоинство подобной модели в ее эффективности и простоте. Она позволяет взвешивать термины, ранжировать результаты поиска по релевантности, реализовать обратную связь для оценки релевантности пользователем. В то же время приходится жертвовать выразительностью спецификации запроса, присущей булевой модели. Именно векторная модель в различных модификациях стала наиболее популярной в ИПС сети Интернет.
Наиболее сложной и перспективной считается вероятностная модель. Данная модель базируется на вероятности релевантности и нерелевантности документа запросу пользователя, которые вычисляются на основе вероятностных весовых коэффициентов терминов и фактического присутствия терминов в документе. Кроме того, в этой модели применяются два стоимостных параметра. Они характеризуют соответственно потери, связанные с включением в результат нерелевантного документа и пропуском релевантного документа. Данная модель требует определения вероятностей вхождения термина в релевантные и нерелевантные части совокупности документов, оценить которые довольно сложно. Между тем она выполняет важную функцию, объясняя процесс поиска и предлагая теоретическое обоснование методов, применявшихся ранее эмпирически. Теоретические подходы были сформулированы давно, но практического применения не нашли в силу своей сложности.
Существуют разные вероятностные модели документального поиска. В одних критерии, влияющие на оценку релевантности, являются свойствами потребителя (запроса). Поэтому история, статистика предыдущих поисков здесь оказывается чрезвычайно полезной.
Другой тип вероятностных моделей интерпретирует поисковую ситуацию следующим образом. Имеется массив документов, обладающих различными свойствами: семантическим значением (здесь мы имеем в виду значение в информационно-поисковом понимании: как предметное содержание), лингвистическими характеристиками (лексических единиц), библиографическими характеристиками и т. п. Запрос пользователя выражает информационную потребность в терминах этих свойств, формальное обнаружение этих поисковых признаков говорит не о релевантности документа и запроса, а только о вероятности, что документ может быть оценен «хозяином» запроса как релевантный.
На практике в реальных информационно-поисковых системах часто применяются гибридные модели, которые совмещают в себе свойства и функции нескольких моделей.
2.6. Языки описания данных
Средства описания (представления) документальной информации, обрабатываемой в ИПС, можно разделить на языки представления данных и языки метаописанш данных. Языки представления задают формальные характеристики документов: формат, кодировку, тип, структуру документа и т. п. — и включают себя собственно данные, в документальных системах это тексты. Языки описания включают средства мета-описания, т. е. данные о данных. В последнее время широко используется термин метаданные (metadata). Это могут быть информационные элементы, или вообще отсутствующие в тексте документа (например, «страна», «язык», «правовые аспекты использования», место/адрес публикации документа и т. д.), или не выделенные явно, не названные «поименно» (например, автор, заглавия разного уровня, связь с другими документами), или представленные не в формализованном виде (например, дата, язык, вид). На практике для этого обычно используется не один язык представления и не один язык описания, а целая совокупность языковых средств разного уровня, связанных между собой. Сами эти средства могут называться языками, стандартами, таблицами кодирования, протоколами и т. д. Можно сказать, что ИПЯ также являются языками метаописания.
2.6.1. Языки библиографического описания
В различных специализированных ИПС имеются свои языки представления и описания данных. Описание документа обычно складывается из смыслового содержания и формальных характеристик. Среди этих Формальных характеристик следует выделить библиографическое описание документа. Библиографический поиск, по существу являясь документальным, в то же время по форме смыкается с фактографическим.