Основные понятия информационного поиска информационные процессы и системы
Вид материала | Документы |
- Полный курс лекций по Информационным системам информационные системы, 787.33kb.
- Конспект лекций для специальности «Прикладная информатика в экономике», 1468.57kb.
- Организационные основы информационных технологий в экономике, 44.75kb.
- Информационные системы (теория к экзамену) Основные понятия информационных систем, 82.21kb.
- Курсовая работа предмет: Информационные системы Тема: Языки информационного поиска, 154.92kb.
- Информация и информационные процессы, 276.11kb.
- Справочно-информационные системы в подготовке юриста, 31.18kb.
- 1 Информация. Кодирование информации, 59.79kb.
- Инициативный проект Российского семинара по оценке методов информационного поиска (ромип), 149.92kb.
- Программа по дисциплине «прикладные протоколы интернет и www» по направлениям: «Математика., 234.28kb.
Глава 1. ОСНОВНЫЕ ПОНЯТИЯ
ИНФОРМАЦИОННОГО ПОИСКА
1.1. Информационные процессы и системы
В XX в. слово «информация» и его производные стали необычайно популярны и, как следствие, почти что бессодержательны. Существует бесчисленное множество определений и подходов к этому понятию. Информация - это, видимо, свойство живой природы. Само слово «информация» по своей внутренней форме (лат. informatio - осведомление, сообщение) предполагает общение, коммуникацию. Информацией обмениваются любые живые формы материи: растения, насекомые, животные, люди. Нас интересуют те виды информации и информационные процессы, которые имеют место в человеческом обществе. Информация может быть получена самыми разными способами: путем фиксации результатов наблюдений или измерений, в результате экспериментов, на основе умозрительного логического вывода и т. д. Различают информацию и данные (зарегистрированные сигналы). В этом случае говорят, что информация - это продукт обработки данных с помощью адекватных им методов1. Информация, как всякий объект, обладает разнообразными свойствами. С точки зрения информатики наиболее важными являются следующие свойства: объективность, достоверность, адекватность, полнота, доступность и актуальность информации2. Информация может быть истинной или ложной, детерминированной или вероятностной. Существуют различные аспекты рассмотрения информации: прагматический, семантический, синтаксический3.
Информация пронизывает все те сферы жизнедеятельности человека и общества, которые получили название социальных коммуникаций. В настоящее время сложился взгляд на информацию как на особый ресурс, имеющий для человечества не меньшее значение, чем энергетические, сырьевые или финансовые ресурсы. Все возрастающее значение информационных ресурсов определяет интенсивное развитие новой науки, получившей название «информатика». Можно определить ее как науку, систематизирующую методы создания, хранения, обработки и передачи данных средствами вычислительной техники, а также принципы функционирования этих средств. На пользовательском уровне достижения информатики проявляются в создании и использовании информационных систем.
Системы социальных коммуникаций по сути всегда являются системами информационного обмена. Эти системы состоят из функциональных и организационных компонент4. Под первыми понимаются собственно информационные процессы, т. е. процессы создания, хранения, распространения и использования информационных сообщений. Ко вторым относятся создатели информации, потребители информации, информационные каналы и информационные системы.
Информационные процессы мы определим как совокупность последовательных действий, осуществляемых в системах социальных коммуникаций с целью доведения до потребителей информационных сообщений, а также функциональных и информационных связей, а информационные системы — как организационные компоненты информационного взаимодействия, оперирующие информацией и поддерживающие информационные процессы5. Наполняют информационные процессы, связывая воедино всю систему информационного обмена, информационные потоки, представляющие собой совокупности данных.
Одни и те же люди или группы людей одновременно могут выступать как потребители и как создатели (поставщики) информации. В общем случае промежуточным потребителем и поставщиком информации может выступать и информационная система.
В 90-е годы XX в. широкое распространение получил термин информационные технологии. Фактически, это новое название для понятия «система информационного обмена». Под информационными технологиями понимается совокупность процессов, методов и средств обработки информационных массивов6. Как правило, это автоматизированные технологии с участием человека, или, как говорят, человеко-машинные системы.
Информационные системы и информационные технологии являются объектом науки «информатика». Термин «информатика» появился в начале 60-х гг. Первоначально под этим понималась «наука о научно-технической информации» (ср. англ, information science). Это определение было введено специалистами Всесоюзного института научной и технической информации (ВИНИТИ) под руководством А.И. Михайлова, занимавшимися изучением научных коммуникаций, научно-технической информации, научно-информационной деятельности, информационно, го обслуживания7. Наполнение этого понятия (говорят «информатика в смысле Михайлова») можно уяснить, посмотрев тематику реферативного журнала «Информатика», издаваемого ВИНИТИ (Приложение 1).
Затем родилось понимание информатики, связанное в первую очередь с именем А.П. Ершова, сводящее ее цели к системному изучению процессов и средств, связанных с электронной обработкой информации8 (ср. фр. informatique, англ, computer science). Иногда под «информатикой в смысле Ершова» понимают все, что связано с использованием вычислительной техники, тогда «информатизация» становится синонимом понятия «автоматизация». Информатикой называют также учебную дисциплину в школах и вузах, в рамках которой преподаются знания и навыки работы с компьютером.
Суммируя все эти толкования, можно сказать, что информатика как наука изучает закономерности построения и функционирования автоматизированных систем информационного обмена в различных сферах человеческой деятельности. Учитывая общенаучный характер понятия «информация», можно выделить общие закономерности процессов обработки информации в биологических, социальных и технических системах. И в этом случае говорят об информатике в узком смысле как фундаментальной естественно-научной дисциплине.
Естественно, в разных предметных областях, в разных сферах деятельности информация и информационные процессы имеют свою специфику. Поэтому возникло множество других значений слова «информатика». Например, делаются попытки различать информатику по областям применения, и тогда говорят о медицинской, психологической, экономической, правовой, географической, сельскохозяйственной, библиотечной и т. п. информатике.
Информатика, кроме своих собственных законов и методов, широко использует методы и результаты других научных дисциплин, в первую очередь, системного анализа, кибернетики, теории информации, теории вероятностей, программирования, теории передачи данных, документалистики, библиографии и библиотековедения. Одной из научных дисциплин, тесно связанных с информатикой, является лингвистика. И связь эта не случайна— ведь в основе всех социальных коммуникаций лежит естественный язык. И связь эта двухсторонняя: недаром существуют и преподаются такие курсы, как «Лингвистические основы
информатики» и «Информационные технологии в лингвистике». И сейчас, когда проблема общения с компьютером на естественном языке выходит на первый план, роль лингвистики в развитии информатики неуклонно возрастает.
Автоматизированную информационную систему «изнутри» можно определить как совокупность технических, программно-алгоритмических и языковых средств, а также специально организованной информации, создаваемую для регулярного выполнения определенных информационных процессов9.
Все преобразования информации, осуществляемые непосредственно в информационной системе, можно свести к пяти основным процедурам: ввод, обработка, хранение, поиск, вывод.
Информационные системы можно разделить на две группы: системы информационного обеспечения в рамках автоматизированных систем специального назначения и системы, имеющие самостоятельное целевое «информационное» назначение и область применения. Примерами первых являются системы управления (АСУ, АСУП, АСУТП), системы научных исследований (АСНИ), системы проектирования (САПР), системы принятия решений и многие другие. Информационными системами, имеющими самостоятельное назначение, являются информационно-поисковые системы.
Информационно-поисковая система (ИПС) - это упорядоченная совокупность документов (массивов документов) и информационных технологий, предназначенных для хранения и поиска информации - текстов (документов) или данных (фактов). Информационно-поисковыми системами являются любые определенным образом организованные хранилища информации. Причем информационно-поисковые системы могут быть и неавтоматизированными. Главное - это целевая функция; хранение и поиск информации.
В зависимости от объекта хранения и типа запроса различают два вида информационного поиска: документальный и фактографический -и, соответственно, два типа ИПС - документальные и фактографические10 . Последние также называют информационно-справочными ИПС.
Документальными называются ИПС, в которых реализуется поиск по тематическим запросам в массиве документов или текстов с последующим предоставлением пользователю подмножества этих документов или их копий. Понятие документа может меняться от системы к системе. В общем случае это некий информационный объект, зафиксированный (обычно посредством некоторой знаковой системы) на каком-то материальном носителе (бумага, фото- и кинопленка, магнитная лента и т. п.) и предназначенный для передачи в пространстве и времени в системе социальных коммуникаций.
Фактографические ИПС реализуют хранение, поиск и выдачу непосредственно фактических данных (научных, технических, экономических характеристик и свойств объектов, процессов, явлений, адресов, наименований, количественных данных и т. п.).
Документальные и фактографические системы прежде всего различаются степенью предварительной интеллектуальной обработки материала. В документальных системах объекты хранения и выдачи - документы (тексты) целиком. При фактографическом поиске объекты хранения и выдачи — это представленные в специальной форме сведения (факты) об определенном объекте или классе объектов. Эти сведения или непосредственно регистрируются при вводе, или извлекаются из документов (текстов).
Например, на запрос «какова скорость света» в документальной ИПС будут выданы статьи и книги, в которых говорится о скорости света, и, возможно, содержится ответ на поставленный вопрос, в фактографической же системе в той или иной форме будет выдано сообщение о том, какова она («Триста тысяч километров в секунду»).
Главное, сущностное, различие между документальным и фактографическим поиском заключается, на наш взгляд, в подходе к семантике документов и, соответственно, характеру предварительной обработки документов для нужд последующего поиска. В документальных системах анализируется и описывается, «о чем говорится в документе», а в фактографических - «что именно сообщается в документе». Соответственно, следует различать два типа запросов: документальные (тематические) («Найти документы, в которых говорится о скорости света») и фактографические («Найти, какова скорость света»).
В документальных системах описывается смысл документов в целом с точки зрения их тематического, предметного содержания. В этом случае важно выявить и назвать (перечислить) основные темы и объекты, которым посвящен документ. В фактографических системах описываются объекты, фиксируются их признаки и значения этих признаков. Отсюда различия в языках описания и способах хранения описаний в системе. Соответственно, для каждого вида поиска существуют свои поисковые средства.
Фактографические системы предполагают накопление и поиск в массиве документов со строго регламентированной структурой. Такая
структура или является результатом предварительной интеллектуальной обработки документов при вводе информации в систему, или предполагает наличие таких документов в готовом виде в конкретных сферах человеческой деятельности, например, учетные формы, бланки, справочники, расписания и т. п. Существуют фактографические ИПС, которые обеспечивают накопление информации и поиск только по одному типу объектов и только по одному типу запросов. Существуют и более развитые фактографические системы, обеспечивающие хранение и поиск данных, разнообразных по содержанию и структуре, но это разнообразие всегда конечно".
В то же время между документальными и фактографическими системами нет непреодолимой разницы. Нередко реальные ИПС представляют собой пример смешанных систем, в которых фактографическая информация используется как дополнительное средство документального поиска, и наоборот. В документальных системах тексты (документы) также могут быть структурированы, разбиты на фрагменты или поля, и обработка и выдача документальной информации может вестись на уровне отдельных полей.
Разновидностью документального поиска с элементами фактографии можно считать библиографический поиск, осуществляемый по элементам библиографического описания документов (автор, год, место издания, вид издания, издательство и т. п.). Библиографический запрос может носить вполне фактографический характер, например: «Книги, изданные издательством «Молодая гвардия» в 1990 году в серии «XX век: поэт и время». Объектами, выдаваемыми на такой запрос, могут быть как сведения, однозначно характеризующие искомые книги (библиографические описания, шифры хранения), так и сами книги. Тогда в первом случае говорят о библиографической системе (по сути фактографической), во втором - о библиотечной (документальной). На самом деле реальные библиотечные системы всегда представляют собой объединение нескольких ИПС разного типа, как документального, так и фактографического.
Выделяют еще и третий тип систем, которые называют информационно-логическими. Это системы, отвечающие на запросы, на которые в информационной базе в явном виде ответа нет. Получить ответ помогает экстралингвистическая база знаний и информация, порождаемая алгоритмически из уже имеющейся (документальной или фактографической). Эта новая информация или выдается как ответ на запрос, или дополнительно используется для поиска. Теоретически системы этого типа как класс исследуются и разрабатываются давно. На практике же они сравнительно редки и некоторые из них представляет собой развитие традиционных документальных и фактографических ИПС. В целом эти системы весьма различны. Среди них можно назвать интеллектуальные диалоговые ИПС, экспертные системы, расчетно-логические, системы (поддержки) принятия решений, базы знаний, системы искусственного интеллекта. Кроме того, подобные «разумные» системы разрабатываются как информационные подсистемы в составе разнообразных систем автоматизации - как прикладного характера, так и системного (например, общение с компьютером на естественном языке).
1.2. Краткий очерк истории развития документальных ИПС
Информационно-поисковыми системами фактически могут считаться любые определенным образом организованные хранилища информации. В качестве примеров таких систем можно назвать библиотечные каталоги, архивы, картотеки, словари, справочники и т. п. Информационно-поисковая система - это и указатель в книге, и целая библиотека. Главное, что все они выполняют одну и ту же целевую функцию поиска информации и для этого должны быть определенным образом устроены, организованы.
Информационно-поисковые системы, как и другие информационные системы, могут быть и неавтоматизированными. Первые специальные информационно-поисковые устройства и системы представляли собой технические средства, обеспечивающие отбор нужных документов путем механического сопоставления поисковых образов документов с запросами. Для этого применялись перфокарты, суперпозиционные карты, перфокарты с краевой перфорацией и т. п. Но все-таки основным средством реализации поисковых систем является вычислительная техника.
История развития автоматизированных ИПС исчисляется полувеком. Не много, но и не мало. Изучать ее можно под разными углами зрения, по разным основаниям. Но прежде всего это развитие определялось и определяется развитием лингвистического обеспечения. На этом пути можно выделить несколько основных этапов.
Первый этап развития ИПС условно можно отнести к 1955-1965 гг. В это время особенно активно заговорили о проблеме информационного взрыва. Эта проблема вместе с развитием средств вычислительной техники пробудила интерес к новым методам обработки, хранения и поиска информации. Первые автоматизированные ИПС появились уже к началу 60-х годов. Внедрение компьютеров в сферу информационного поиска сулило большие перспективы. Однако этот начальный период «бури и натиска» был недолгим, эйфория сменилась отрезвлением и даже разочарованием. Быстро получить полностью автоматизированные интеллектуальные поисковые системы оказалось невозможным. Началась практическая работа по созданию ограниченных, но полезных поисковых систем. Тогда же было осознано, что документальный поиск представляет собой отдельную, особую задачу, имеющую свой предмет и свои методы.
Второй период с известной долей условности можно поместить между серединой 60-х и серединой 70-х гг. XX в. В эти же годы начинается внедрение компьютеров и в работу библиотек. Это внедрение началось с автоматизации простых рутинных операций, однако в недрах библиотечного сообщества появляются и такие крупные амбициозные проекты, как система MEDLARS и формат MARC12. Для данного периода характерен повышенный интерес к информационно-поисковым языкам (ИПЯ) и методам индексирования. Индексирование повсеместно Осуществлялось вручную. Типичная ИПС тех лет - это человеко-машинная система, где анализ содержания документов и индексирование выполняются вручную, а поиски проводятся машиной. Эти поиски заключались в автоматическом сравнении поисковых образов документов и поисковых образов запросов, составленных на основе дескрипторных словарей или тезаурусов.
Эти ИПС, как правило, используются в режиме избирательного распространения информации и функционируют как автономные системы, не связанные с библиотеками. Особенно это характерно для СССР, где в те годы создается Государственная автоматизированная система научно-технической информации (ГАСНТИ).
В целом для работ этого периода развития ИПС и ИПЯ характерно выявление природы ИПЯ через его сопоставление с естественным языком. Большое внимание уделялось разработке конкретных языков, разработке и использованию методик индексирования. Основная тема исследований - это уже не доказательство возможности или невозможности автоматизированного информационного поиска как такового, а выявление и разработка средств и методов, обеспечивающих наиболее эффективное решение задачи нахождения в информационном массиве документов, релевантных запросу. Большое значение здесь имел Второй Крэнфилдский эксперимент13..- Его целью была сравнительная оценка эффективности различных средств и стратегий поиска. Было осознано, что многие поисковые средства (фиксация нетривиальных парадигматических и синтагматических отношений, учет синтаксических связей и др.) или не приводят к улучшению показателей поиска, или, незначительно улучшая одну из основных характеристик (полнота, точность), заметно ухудшают другую. Еще одна причина «отступления» семантически и синтаксически мощных языков - это переход от ручного интеллектуального индексирования к автоматизированному.
Третий период развития документальных ИПС условно можно отнести на 1975-1995 гг. В эти годы, после научных дискуссий и под влиянием внешних технологических факторов, массовое распространение получили системы, названные «бестезаурусными», или системами поиска по свободному тексту (free-text searching systems). Особенностью их является, с одной стороны, отказ от лексического контроля и тем самым отказ от учета парадигматики, а с другой — широкое использование контекста и синтагматических связей.
Внешние технологические факторы заключались в потребности информационной инфраструктуры в обработке большого числа машиночитаемых баз данных (на магнитных лентах). Как правило, эти базы данных (БД) содержали краткое библиографическое описание документов, включая текстовые поля — заглавие, аннотацию, реферат, представленные на естественном языке, и, напротив, не содержали поисковых образов документов с нормализованной лексикой. БД создавались, как правило, в одних местах - в специализированных организациях-генераторах баз данных, а использовались в других, так что процессы первичной семантической обработки документов и обработки запросов оказались разорванными. В этих условиях наиболее оптимальными показали себя вышеназванные системы. Были достигнуты неплохие результаты в области автоматического индексирования. Появились системы, где автоматическое индексирование осуществлялось уже в промышленном режиме (например, в ИПС «Скобки»14).
Другие направления исследований этого периода — это модели поиска (выбор критерия смыслового соответствия) и способы оценки систем. Несмотря на большое число исследований, посвященных вероятностно-статистическим моделям, на практике, в основном, стали использоваться ИПС с булевскими операторами. Преобладание булевских систем отчасти можно объяснить их простотой. «Прозрачность» булевского поиска совпала с развитием диалоговых средств поиска. Возможность получать промежуточные результаты поиска, возможность корректировать поисковое предписание по данным обратной связи для большинства пользователей оказались достаточными, чтобы удовлетвориться результатами поиска с помощью существующих систем.
Таким образом, к середине 70-х сформировался и на долгие годы стал преобладающим определенный класс систем, получивших наибольшее распространение и работающих в режиме промышленной эксплуатации.
Этот класс систем отличают следующие особенности:
- ИПЯ пост-координируемого типа на основе ключевых слов;
- логический критерий смыслового соответствия на основе булевой логики;
- специальные контекстные операторы для учета синтагматики;
- поиск по свободному тексту (как правило, представленному рефератами);
- диалоговый режим поиска;
- оценка эффективности поиска на полноту и точность;
- управление показателями поиска на основе данных обратной связи;
• широкое распространение систем поиска в режиме ИРИ.
Для данного этапа характерно превращение ИПС в «средство производства»: появляются мощные коммерческие информационные службы, осуществляющие генерацию машиночитаемых документальных баз данных и поиски по запросам. Программное обеспечение ИПС начинает распространяться в виде пакетов прикладных программ, сравнительно легко адаптируемых к условиям конкретных пользователей и организаций. Встает и решается вопрос об унификации языковых средств. Эта унификация выражается в создании единых форматов обмена документальными массивами (в СССР были созданы коммуникативные библиографические форматы ГКФ15 (1978-1979 гг.), затем МЕКОФ16 (1984-1985 гг.)), в попытках унификации языков запросов с целью создания единого командного языка. Можно сказать, что, в конечном счете, такой язык был создан, но позже, и не как отдельный язык, а в составе поискового протокола Z39.5017.
Четвертый этап развития документальных ИПС начался с середины 1990-х годов. Кардинальные изменения в информационной сфере произошли в связи с развитием сети Интернет и резким, лавинообразным ростом объемов документальной информации в электронном виде.
Для данного этапа характерны:
• гипертекстовые сетевые технологии как основа единого информационного пространства;
появление на этой базе глобальных ИПС;
- специальные языки представления электронных документов;
- видовое, тематическое и языковое разнообразие информационных массивов;
- ориентация на полнотекстовый поиск;
использование лингвистического обеспечения предыдущего периода.
Лингвистический компонент современных ИПС отстает от технического и программного. Разработка ИПС все чаще становится делом программистов и специалистов по компьютерной технике. Создание лингвистического обеспечения является сложной и комплексной проблемой, требующей исследования и решения многих проблем семантики, прикладной лингвистики и теории информационного поиска. Достижения в области программно-технического обеспечения документального поиска, коренным образом изменившие облик современных информационных систем, выглядят впечатляюще. Однако эти достижения находятся в диспропорции с показателями функциональной эффективности, отражающими качественную сторону поиска. В настоящее время мощность и особенности документальных потоков таковы, что эффективное функционирование информационных систем на старой лингвистической базе невозможно, и требуются исследования, направленные на разработку новых языковых средств. В конце XX в. в сферу электронного документооборота на полных правах вошел естественный язык. Это также требует новых теоретических и практических разработок в области информационных систем, в первую очередь, в направлении их «интеллектуализации»18 .
1.3. Основное содержание документального поиска
1.3.1. Релевантность и пертинентность
Информационно-поисковая система документального типа представляет собой упорядоченную совокупность документов, а также совокупность средств и методов, предназначенных для хранения, поиска и выдачи по запросам документальной информации. Разновидностью документального поиска является предметный, или тематический, поиск. Документальная ИПС выдает документы, соответствующие запросу по теме, по предмету. Документ, центральный предмет, или тема, которого в целом соответствует смысловому содержанию информационного запроса, называется релевантным, а свойство смысловой близости между двумя и более текстами (в данном случае - между документом и информационным запросом) — релевантностью (от англ, relevant - соответствующий). Релевантность - это фундаментальное понятие теории информационного поиска. С одной стороны, его часто оставляют без определения, как аксиому. С другой стороны, как это случается со всеми фундаментальными понятиями во всех науках, о нем спорят и пытаются определить с самого начала появления ИПС и до наших дней. Релевантность (ее определение, ее вычисление) была и остается основной проблемой информационного поиска". Первым, возможно, заговорил о релевантности статей предмету Р. Брэдфорд20. Давняя дискуссионная статья на эту тему, принадлежавшая одному из основоположников информационного поиска М. Таубу и называвшаяся «О псевдоматематике релевантности», призывала вообще отказаться от этого термина21.
Суть проблемы заключается в том, кто определяет это соответствие и между чем и чем. Принято считать, что релевантность - это отношение между двумя объектами, принадлежащими двум разным группам. В информационном поиске это группы документов и запросов, и основное назначение ИПС как раз в том и состоит, чтобы сравнивать содержание документов и запросов и принимать решение об их соответствии или несоответствии. Но для этого в ИПС формируются формализованные представления содержания документов л запросов, которые получили названия «поисковый образ документа» (ПОД) и «поисковый образ запроса» (ПОЗ22) (по-другому, поисковое предписание), которые и сравниваются между собой. И тогда следует сделать заключение, что релевантность - это отношение между двумя поисковыми образами. С другой стороны, определение релевантности, приведенное выше, говорит о соответствии не каких-то вторичных машинных образов, а самих документа и запроса, в том виде, в каком они известны и доступны пользователю. Возникли дискуссии, объективное это понятие или субъективное. Поэтому стали говорить о двух видах релевантности: смысловой и формальной. Соответствие документа содержанию информационного запроса называют смысловой релевантностью, а соответствие поискового образа этого документа поисковому предписанию, выражающему данный информационный запрос, формальной релевантностью, Также формальную релевантность называют релевантностью документа, а смысловую релевантность - релевантностью информации (имеется в виду, информации, содержащейся в документе)23.
Однако возникает вопрос, а исходя из чего пользователь будет оценивать информацию (содержание) документа? Дня него первична не формулировка запроса, а та информационная потребность, которая послужила поводом для поиска. Таким образом, возникает еще одна релевантность как свойство соответствия документов действительной информационной потребности. Ф. Ланкастер24 назвал ее истинной релевантностью. У. Гоффман и В. Ньюил25 предложили называть ее «полезностью» или пертинентностъю в противоположность просто релевантности (смысловая релевантность) (от англ, pertinent - уместный, подходящий).
Информационная потребность — еще одно из основополагающих понятий информационного поиска. Запрос на поиск рождается из потребности людей в информации, которая нужна им для решения каких-то задач или проблем (включая удовлетворение собственного любопытства). Известно, что всем людям свойственно, правда, в разной степени, неумение или неспособность сразу адекватно выражать свои подлинные информационные потребности. Поэтому реальная ИПС может обеспечить отыскание, в основном, лишь таких документов, которые отвечают на информационный запрос - в том виде, в каком он сформулирован в системе, а не на информационную потребность, существующую в голове пользователя.
Информационный запрос может значительно отличаться от выражаемой в нем информационной потребности. Во многих случаях пользователи оказываются неспособными выразить точно свои потребности. Например, такой запрос, как «параллельные алгоритмы», может оказаться достаточно неточным. Во-первых, непонятно, что именно нужно пользователю - примеры параллельных алгоритмов или информация о них. Во-вторых, нужна ли автору вся имеющаяся информация или только несколько образцов. И, наконец, какая область - теоретическая или практическая - интересует пользователя. Следовательно, пользователь, вынося суждение о релевантности, будет ее определять на основе собственной информационной потребности, которая очень часто находится только в его сознании, в то время как ИПС выносит суждения о релевантности на основе текста запроса, сформулированного пользователем. Таким образом, быть релевантным еще не означает действительно соответствовать информационной потребности того или иного лица. Любой документ, выданный системой, можно рассматривать в двух аспектах: с субъективной точки зрения пользователя, задавшего запрос (прагматический подход), и с точки зрения соответствия его смыслу запроса, как он сформулирован на естественном языке (семантический подход). В терминах семиотики релевантность можно определить как семантическое отношение, а пертинентность - как прагматическое* отношение26. Однако разграничение пертинентности и релевантности не решает всех проблем. На самом деле ситуация еще сложнее. В общем случае в информационном поиске в объектах первой группы, документах, можно выделить следующие сущности:
- документ (физическая сущность, которую пользователь ИПС получает в результате поиска информации);
- информация (то, что узнает пользователь, читая документ);
- поисковый образ документа (ПОД) (формализованное представление документа, которое используется при поиске и может принимать разные формы - может состоять из заглавия, спискаключевых слов, имен авторов, библиографических данных, аннотации, отрывка и т. п.).
В объектах второй группы, запросах, можно выделить следующие сущности:
проблема (то, с чем сталкивается пользователь и что требует информации для своего разрешения);
- информационная потребность (представление проблемы в сознании пользователя, причем пользователь может неправильно представлять себе проблему);
- информационный запрос (представление информационной потребности пользователя на естественном языке);
- поисковое предписание (представление информационного запроса в виде поискового образа запроса (ПОЗ) и задание на поиск на языке запросов).
Тогда релевантность можно рассматривать как отношение поискового образа документа к поисковому предписанию (формальная релевантность), или документа к информационному запросу (смысловая релевантность), или полученной пользователем информации к информационной потребности (пертинентность). Встает вопрос, в какой мере на суждение о каждом из видов релевантности оказывают влияние остальные сущности?
Кроме того, каждая из вышеуказанных сущностей во второй группе может включать следующие три компоненты:
- тема (то, что относится к предметной области);
- задача (то, что относится к деятельности пользователя по найденным документам);
- контекст (то, что не относится к теме и задаче, но, тем не менее, влияет на поиск и оценку результатов поиска).
Как правило, информационный поиск сконцентрирован на тематической компоненте, однако тематического соответствия может оказаться недостаточно: например, пользователю не нужна информация, которую нельзя использовать для выполнения задачи, или та информация, которая ему уже известна. В одних случаях пользователю достаточно единственного документа, в других он стремится получить максимум литературы по предмету своего запроса.
Тогда, другими словами, поисковый образ документа (документ, информация) может быть релевантен поисковому предписанию (пользовательскому запросу, информационной потребности, проблеме) в отношении одной или более компонент: можно говорить о релевантности относительно темы, относительно задачи и темы, или о релевантности относительно всех трех компонент.
Кроме того, должен быть учтен фактор времени. При формулировании информационного запроса человек не всегда по-настоящему осознает, какая информация ему действительно нужна. Поэтому содержание документов, выдаваемых ИПС в ответ на предъявленный ей информационный запрос, может изменить представление этого человека о своей информационной потребности или заставить его изменить форму выражения этой потребности и тем самым изменить суждения о релевантности. Релевантность - динамическое явление: для одного и того же эксперта документ может быть релевантным в определенный момент времени и нерелевантным позже, и наоборот. Существуют зависимости между документами: первый увиденный документ может повлиять на релевантность следующих.
Следовательно, каждый вид релевантности может рассматриваться как точка в четырехмерном пространстве со следующими значениями:
- поисковый образ, документ, информация;
- поисковое предписание, пользовательский запрос, информационная потребность, проблема;
- пользователь, тема, задача, контекст и всевозможные их комбинации;
- различные временные интервалы - от возникновения проблемы до ее решения.