А. Н. Баранов Введение в прикладную лингвистику ббк 81я73 Издание осуществлено при поддержке Института «Открытое общество» (Фонд Сороса) в рамках конкурс

Вид материалаКонкурс
§4. Теория и практика информационно-поисковых систем
4.1. Основные понятия информационного поиска
Полнота поиска
4.2. Типы информационно-поисковых систем
Структура базы данных по политической метафорике
Название поля
Название поля
Политическая кухня
4.3. Информационно-поисковые языки
Подобный материал:
1   ...   19   20   21   22   23   24   25   26   ...   35

§4. Теория и практика информационно-поисковых систем


Резкое возрастание объемов научно-технической информации в кон­це пятидесятых — начале шестидесятых годов XX столетия привело к бурному развитию информационных технологий и созданию автома­тизированных информационно-поисковых систем — ИПС или АИПС. Структура и организация информационно-поисковых систем определя­лись следующей проблемной ситуацией:
  1. имеется множество документов (текстов, фрагментов текстов);
  1. имеется коммуникативное задание, выраженное в запросе на инфор­мацию — информационная потребность;
  2. требуется найти в множестве документов тексты, соответствующие запросу и удовлетворяющие коммуникативную интенцию пользова­теля.

Особенно актуальной задача разработки информационно-поисковых систем оказалась для различных министерств и ведомств, заваленных грудами официальной и технической документации.

4.1. Основные понятия информационного поиска


Понятия запроса и документа стоят в центре информационной де­ятельности. В процессе поиска информации происходит сравнение со­держания запроса и документа. Степень соответствия документа запросу задается категорией релевантности. Каждый документ в ИПС получает определенный информационный код — кодируется с помощью инфор­мационно-поискового языка. Этот код называется поисковым образом до­кумента (ПОД). Аналогичное выражение на информационно-поисковом языке — поисковое предписание (ПП) — сопоставляется запросу. Соответ­ствие поискового образа документа поисковому предписания называет­ся формальной релевантностью. Действительное соответствие содержания выданного документа содержанию запроса называется смысловой реле­вантностью. Очевидно, что классификация характеристик информацион­ного поиска в значительной степени связана с возможными ошибками и сложностями, которые могут возникнуть в процессе информационной деятельности. Так, документ, релевантный запросу по смыслу, может оказаться не релевантным с формальной точки зрения и не будет выдан ИПС. С другой стороны, в процессе информационного поиска можно получить в выдаче значительный информационный шум — множество документов, формально релевантных, но не являющихся релевантны­ми по смыслу. Возможен и другой случай, когда пользователь не мо­жет адекватно выразить свою информационную потребность: степень соответствия информационного запроса реальной информационной по­требности называется пертинентностью. Для обеспечения пертинентности запросов разрабатываются специальные методики, включающие исполь­зование информационных словарей, которые позволяют пользователю более точно формулировать свою информационную потребность.

Результаты поиска могут характеризоваться с двух точек зрения: с точки зрения точности и с точки зрения полноты. Полнота поиска определяется соотношением между количеством выданных релевантных (по отношению к данному запросу) документов к общему числу реле­вантных документов, имеющихся в информационной системе. Точность поиска задается отношением между количеством выданных релевантных документов к общему количеству документов в выдаче:





В идеальном случае количественное выражение полного и точного поиска равно единице.

4.2. Типы информационно-поисковых систем


По типу хранимой и обрабатываемой информации, а также по осо­бенностям поиска ИПС разделяются на две больших группы — докумен­тальные и фактографические. В документальных ИПС хранятся тексты документов или их описания (рефераты, библиографические карточки и пр.). До последнего времени обычной формой представления данных в документальных ИПС был реферат (или другое краткое описание до­кумента) и его библиографические данные. В этом массиве, который называется первым документальным контуром, и проводился основной по­иск. Первичные документы хранились отдельно на бумаге или микрофи­шах. Массив первичных документов называется вторым документальным контуром. В настоящее время в связи с развитием ИПС бестезаурусного типа и появлением новых продуктивных способов архивации данных, а также новых типов памяти ЭВМ (оптические диски большой емко­сти) различие между первым и вторым контурами стирается: в память ЭВМ вводятся и сам текст документа, и его сокращенные аналоги. Для этих целей разрабатываются международные стандарты. Сейчас получил широкое распространение стандарт ISO 2709 (ГОСТ 7.14-84), который, кроме текста документа, предполагает наличие маркера записи (включает характеристики, относящиеся ко всей записи) и справочника (характе­ристики внутренней структуры документа).

Фактографические ИПС имеют дело с описанием конкретных фак­тов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и пр. Существуют и смешанные ИПС, включающие как до­кументы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). С теоретической точки зрения база данных представляет собой совокуп­ность признаков описываемых объектов с указанием отношений между ними. В качестве описываемого объекта может выступать, например, книга, телефонный номер и пр. Объект в базе данных характеризует­ся по признакам или атрибутам. Так, книга может иметь следующие атрибуты: 1) автор; 2) название; 3) год выхода; 4) издательство; 5) ти­раж; 6) объем. Телефонный номер может характеризоваться по фамилии владельца, месту его проживания, сумме абонементной оплаты и т.д.

Базы данных по своей структуре разделяются на иерархические, сете­вые и реляционные. Иерархические БД используются только по отноше­нию к таким проблемным областям, в которых характеристики объектов имеют четкую иерархию. Таковыми могут быть, например, БД по химиче­ским веществам, по деталям машин; четко выраженную иерархию имеют биологические классификации. В существенно меньшей степени выраже­на иерархическая структура для БД с разнородной информацией. Сетевые БД лишены ограничений на структуру атрибутов, однако программная обработка сети представляет определенные сложности. Наиболее распро­странены в настоящее время реляционные базы данных, которые можно представить в виде таблиц с очень большим количеством строк и столб­цов. Несколько таблиц могут быть связаны между собой перекрестными отсылками, что позволяет формировать довольно сложные БД.

Для создания структуры данных, ввода информации в реляционные БД и ее обработки создаются специальные программные средства — системы управления базами данных (СУБД). С программной точки зре­ния каждый объект в реляционной БД представляется в виде отдельной записи (record). Атрибутам объекта в записи соответствуют поля (fields). Поиск может происходить по всем полям БД. Типы полей различаются. Основная проблема заключается в том, что у полей записи (кроме полей типа «memo») ограничена и фиксирована длина поля. Так, для поля типа «text» она не должна превышать 255 знаков. Иными словами, атрибуты объекта описания в БД должны быть внимательно проанализированы, чтобы поле не было избыточным по длине, поскольку это значительно увеличивает объем используемой памяти ЭВМ. Дело в том, что незапол­ненные фрагменты поля все равно заносятся в память. С другой стороны, поле не должно быть и излишне коротким, иначе часть информации невозможно будет ввести в БД. Ср. структуру реляционной базы данных по политической метафорике, разработанной в Институте русского языка РАН, и пример записи в этой базе данных:

Структура базы данных по политической метафорике

Название поля: METAPHOR (метафора) Тип поля Text — 90 знаков

Название поля: SIGNIF_DES (сигнификативный дескриптор — метафорическая модель)

Тип поля Text — 100 знаков

Название поля: DENOT_DES (денотативный дескриптор — политическая реалия)

Тип поля Text — 100 знаков

Название поля: EXAMPLE

Тип поля Memo27)

Название поля: DATE

Тип поля Date/Time

Название поля: NEWSPAPER

Тип поля Text — 10 знаков

Название поля: AUTHOR

Тип поля Text — 30 знаков


Запись 900

METAPHOR (метафора)

ПОЛИТИЧЕСКАЯ КУХНЯ

SIGNIF_DES (сигнификативный дескриптор — метафорическая модель)

КУХНЯ

DENOT_DES (денотативный дескриптор — политическая реалия)

ПОЛИТИКА

EXAMPLE

(...) но зная нравы отечественной политической кухни и уникальные спо­собности многих лидеров в сжатые сроки портить отношения друг с другом, достижение такой исторической договоренности, принципиально меняющей ход скоротечной предвыборной кампании, представляется мне невероятным.

DATE

01.11.93

NEWSPAPER

Собеседник

AUTHOR

Соколов М.


27)В реляционных БД типа FOX, D-Base, ACCESS поле Memo не ограничено по длине.

4.3. Информационно-поисковые языки


Центральное место в информационно-поисковой системе занимает информационно-поисковый язык (ИПЯ). Информационно-поисковый язык — это формальный язык, предназначенный для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запро­са. Процедура описания документа на ИПЯ называется индексированием. В результате индексирования каждому документу приписывается его фор­мальное описание на ИПЯ — поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса или поисковое предписание. Алгоритмы информационно­го поиска основаны на сравнении поискового предписания с поисковым образом запроса. Критерий выдачи документа на запрос может состоять в полном или частичном совпадении ПОЗа документа и ПП. В ряде случаев пользователь имеет возможность сам сформулировать критерии выдачи. Это определяется его информационной потребностью.

Информационно-поисковые языки должны удовлетворять некото­рым важным условиям. К ИПЯ предъявляется требование достаточной разрешительной силы — способности дифференцировать важные для дан­ной проблемной области семантические различия между документами. На информационно поисковые языки налагается требование однознач­ности: в записи на ИПЯ недопустима полисемия и омонимия. Кроме того, ИПЯ должен иметь достаточно гибкую структуру, допускающую модификацию — прежде всего в отношении лексических средств ИПЯ.

Информационно-поисковые языки можно классифицировать по раз­ным основаниям. Чаще всего ИПЯ разделяются на языки-классификации и языки дескрипторного типа. Языки-классификации, или языки клас­сификационного типа основываются на иерархических классификациях понятий. Наиболее известна из языков классификационного типа уни­версальная десятичная классификация (УДК), используемая, например, в библиотечном деле для индексирования книг. По требованиям Книж­ной палаты на обороте титула каждой книги должен стоять индекс УДК. Наряду с УДК в библиотечном деле применяется также Библиотечно-библиографическая классификация (ББК). Если основы УДК были раз­работаны еще в 1895-1905 гг. в Международном библиографическом институте под руководством П. Отле и А. Лафонтена, то ББК была со­здана в СССР с учетом имевшихся тогда представлений о соотношении общественных и естественных наук. Основные проблемы использования языков-классификаций связаны с тем, что они, как правило, ограничены крупными классами (таксонами) понятий и не позволяют выйти на доста­точную глубину описания документов и тем самым обеспечить точность индексирования. Кроме того, они не позволяют характеризовать доку­мент с различных точек зрения, что делает невозможным многоаспектное индексирование (см. ниже). И, наконец, иерархические классификации Понятий не успевают за научно-техническим прогрессом.

Видом языков классификационного типа можно считать фасетные классификации. Структура языков этого типа предусматривает индекси­рование документа по нескольким основаниям — фасетам (ср. английскоее слово facet — «аспект»). Например, газетные и журнальные статьи в информационном компоненте Корпуса текстов по современной россий­ской публицистике характеризуются по параметрам источника, автора, времени публикации, темы текста, жанра текста (внутри публицистиче­ского стиля) [Баранов, Михайлов, Сидоров 1998]. Как и в классических вариантах языков классификационного типа, в качестве элементов фасетных ИПЯ могут выступать символьные выражения (коды), но часто используются и лексические элементы естественного языка с унифици­рованной морфологической формой. Каждый параметр (аспект) клас­сификации называется фасетом. Совокупность фасетов, используемая для индексирования документа, называется схемой классификации. В по­исковом образе документа последовательность и состав фасетов строго фиксированы. Они образуют фасетную формулу (см. рис. 1).

Рис. 1. Структура документа в информационном компоненте Корпуса текстов по современной российской публицистике


1. Итоги

2. 2.02.98

3. Невский проспект российских
политиков

4. Велехов Л.

5. внешняя политика

6. аналитическая статья

Фасетная формула; поисковый образ документа


Тело документа




Страсбург кружит им голову. Они ходят по нему, расправив плечи, освободившись от комплексов и раскрепостившись. Иногда даже кажутся симпатичными. Плакаты, расклеенные по всему Страсбургу, утверждают, что этот маленький французский город — столица Европы. Впрочем, основания для таких утверждений хорошо известны любому здешнему обитателю. Именно здесь, в провинциальном городке с большой судьбой, который в течение нескольких веков служил причиной распрей между Францией и Германией, неоднократно переходил из рук в руки, а в конце второй мировой войны едва не был стерт с лица земли в результате ошибочного налета французской авиации, обитают на протяжении послевоенного времени самые крупные и авторитетные общеевропейские институты {...).

Большинство российских парламентариев, делегированных фракциями Думы в Парламентскую ассамблею Совета Европы, еще недавно казались принципиально необучаемыми и неприспособленными к такого рода деятельности, требовавшей специальных знаний, усидчивости, умения аргументированно и внятно выразить и защитить свою точку зрения, терпимости к мнению оппонента. Они были неисправимо косноязычны, ставя в тупик даже вышколенных здешних переводчиков, они вечно попадали впросак: то выступали невпопад, то их не оказывалось на месте, когда приходил черед выступать, потому что они, конечно не успевали вовремя вернуться с «шопинга» (...).


В приведенном примере представлен довольно простой вариант фасетной классификации. В общем случае фасетные ИПЯ предполагают достаточно разветвленное, подробное описание каждого фасета — иерар­хического дерева понятий. Фасетные классификации довольно сложны и в аспекте индексирования, и в аспекте организации информационного поиска, выборе критериев соответствия.

Иерархические классификации и языки фасетного типа получи­ли наибольшее распространение в ручном информационном поиске. В автоматизированных И ПС чаще используются дескрипторные инфор­мационно-поисковые языки. Тематика документа описывается совокупно­стью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Коли­чество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков. Совокупность дескрипторов задает координаты документа в матрице — отсюда термин координатное индек­сирование. Часто в дескрипторном ИПЯ налагаются ограничения на со­четаемость дескрипторов в ПОДе и ПП; в этом случае можно говорить о том, что ИПЯ обладает синтаксисом.

Одна из первых систем, работавших с дескрипторным языком, была американская система УНИТЕРМ, созданная М. Таубе. В качестве де­скрипторов в этой системе функционировали ключевые слова докумен­та — унитермы. Особенность этой ИПС заключается в том, что изначаль­но словарь информационного языка не задавался, а возникал в процессе индексирования документа и запроса. Такой способ организации ИПС оказался чрезвычайно гибким, поскольку с помощью унитермов — про­стых понятий проблемной области — можно было достаточно полно опи­сать любой документ. Например, сочетание унитермов «кадры» и «новый» давало возможность получить всю информацию о новых кадровых реше­ниях, а сочетание «мебель», «офис» позволяло получить документацию об офисной мебели. К сожалению, гибкость структуры первых дескрип-торных ИПЯ порождала проблему полноты и точности информационного поиска. Полисемия и синонимия естественного языка в полной мере да­вала себя знать в процессе индексирования документов и запросов: если из нескольких синонимов пользователь выбирал не тот синоним, который был представлен в ПОДе документа, то документ не выдавался ИПС.

На следующем этапе развития ИПЯ дескрипторного типа возни­кла технология лингвистического (другие варианты — лексического или словарного) контроля, заключавшегося в унификации языка индекси­рования запросов и документов. Наиболее удачной формой унифи­кации оказался дескрипторный словарь, в котором в эксплицитной Форме перечислялись те слова (дескрипторы), которые допускаются в индексировании. Дескрипторный словарь с указанными в нем па­радигматическими отношениями получил название информационно-по­искового тезауруса (ИПТ). Объединение дескрипторов в рамках одного таксона в тезаурусе позволяло установить отношения квазисинонимии, обеспечивало переход от более частных понятий к более общим и на­оборот, что давало возможность преобразовать запрос в более част­ный или более общий по сфере охвата документов. Фактически хо­роший информационно-поисковый тезаурус является понятийной мо­делью проблемной области. Разработка ИПТ стоит в центре созда­ния любой информационно-поисковой системы. Среди парадигматиче­ских отношений в тезаурусе обычно отражаются отношения «род—вид», «часть—целое», «свойство—проявление свойства», «процесс—результат», «действие—результат», «причина—следствие», «предмет/объект—типич­ная функция». Как правило, в зону парадигматических связей попадают и ассоциативные отношения, позволяющие расширить информационный поиск по параметру полноты.

Принципы создания ИПТ и их форма определяются специальными государственными стандартами. В обычном случае ИПТ состоит из двух основных частей — собственно тезауруса, в котором представлены все дескрипторы с указанием связей между ними, и комплекса указателей, позволяющих перейти от дескриптора к структуре тезауруса. Кроме алфа­витного указателя дескрипторов, ИПТ может включать частотные указа­тели, указатели допустимых сочетаний дескрипторов и пр. Как правило, словарная статья ИПТ включает сам дескриптор и четыре зоны:
  • синонимы к данному дескриптору;
  • «вышестоящие» дескрипторы (более общие термины по сравнению
    с данным; отношение «гипероним—гипоним»);
  • «нижестоящие дескрипторы» (более частные термины по сравнению
    с данным; отношение «гипоним—гипероним»);
  • ассоциативные дескрипторы.

Синонимия является неиерархическим симметричным отношением, которое нежелательно для ИПТ, поскольку синонимия осложняет процесс информационного поиска. Часто отраслевые тезаурусы содержат синони­мы, однако статус дескрипторов (элементов информационно-поискового языка) получает только один из лексических элементов синонимического ряда. Иногда в ИПТ вводятся и другие типы симметричных отношений — отношения сходства, общего подчинения по различным признакам.

Правила использования тезауруса — приписывания дескрипторов документам — регламентируются специальными инструкциями, различа­ющимися от одной ИПС к другой. Тем не менее, инструкции не спасают: практика показывает, что процесс ручного индексирования представля­ет собой сложную задачу, в которой соединяются абсолютно рутинные процедуры и искусство. Качество индексирования документов в огром- 1 ной степени определяет эффективность информационного поиска. Для улучшения характеристик полноты поиска часто используют метод избыточного индексирования: поисковый образ документа и поисковое пред­писание пополняются за счет ассоциативных дескрипторов. Разумеется, это ухудшает параметры поиска на точность.

Решение о релевантности документа данному запросу определяется специальными критериями выдачи (KB). Здесь различаются два основных типа критериев — вычисляемые и логические. Вычисляемые KB опираются на количественные характеристики. Обычно это соотношение количества одинаковых дескрипторов в ПОДе и поисковом предписании. Полное совпадение дескрипторов ПОДа и поискового предписания как основной KB используется крайне редко. Как правило, речь идет о пересечении, количественная оценка которого производится в процентах. Чаще всего в качестве порога релевантности используется величина в 50 %. Значение критерия выдачи вычисляется по следующей формуле:

,

где Ni — количество совпавших дескрипторов в ПОДе и поисковом предписании; Njобщее количество дескрипторов в поисковом пред­писании.

В некоторых случаях для повышения точности поиска различным де­скрипторам приписываются веса, отражающие их значимость для описа­ния содержания документа или для выражения информационной потреб­ности пользователя. В этом случае в KB веса дескрипторов, естественно, так или иначе учитываются.

Логические критерии выдачи основываются на тех логических отно­шениях, которые устанавливаются пользователем между дескрипторами поискового предписания. Последнее имеет вид конъюнктивной нор­мальной формы — конъюнкции дизъюнкций. Конъюнкцией связыва­ются дескрипторы, отражающие различные аспекты запроса, а оператор дизъюнкции используется для связывания дескрипторов, находящихся в отношении квазисинонимии.

Увеличение объема документов в современных ИПС приводит к то­му, что ручное индексирование документов становится практически не­возможным. Стратегически эта проблема решается в настоящее время по двум основным направлениям. Первое направление — создание си­стем автоматического индексирования. Функционально они заменяют ручное индексирование и позволяют создавать ПОДы документов в авто­матическом режиме. Хорошие системы автоматического индексирования не уступают по качеству работы ручному индексированию. Алгоритмы работы систем такого рода включают два основных этапа. На первом эта­пе происходит отбор лексических единиц из текста на основании списка ключевых слов, существенных для данной проблемной области, а на вто­ром — отобранные слова с помощью процедур морфологического анализа приводятся к каноническому/исходному виду. В качестве такового может Фигурировать не только исходная словарная форма, но и псевдооснова. Вторая стратегия решения проблемы ручного индексирования свя­зана с разработкой ИПС бестезаурусного типа. Такие ИПС работают с пользователем на ограниченном естественном языке, а поиск осуще­ствляется по текстам рефератов документов, по их библиографическим описаниям, а часто и по самим документам. Для индексирования в ИПС бестезаурусного типа используются слова и словосочетания естественного языка. Работа с естественным языком предполагает, что в ИПС должны быть встроены грамматические парсеры. Проводившиеся эксперимен­ты показали, что ИПС последнего типа, несколько снижая параметры поиска по полноте, существенно повышают точность выдачи [Панков, Захаров 1996]. Именно в этом направлении идет развитие современных информационно-поисковых систем.


Задание 1. Иерархические отношения в информационно-поисковом теза­урусе, в частности отношения «род-вид», часто скрывают за собой комплекс более сложных отношений. Если эти более «дробные» отношения встречаются в проблемной области регулярно, то иерархическая структура может дополняться фасетной классификацией — альтернативной по отношению к семантическому дереву тезауруса. В [Варга 1970, с. 93, 94] разбирается показательный пример такого типа. Рассмотрим его подробнее.

Таксон РАКЕТА ИПТ по ракетной технике включает следующее множество единиц:

РАКЕТА

баллистическая ракета; одноступенчатая ракета; электрическая ракета, ра­кета без человека; ракета с человеком на борту; ракета с орбитой вокруг луны; лунная ракета; межпланетная ракета; управляемая ракета; исследовательская ракета; квантовая ракета; ракета, запускаемая с аэростата; высотная ракета; ра­кета, несущая приборы; ракета без пилота; ракета-спутник; солнечная ракета; термическая ракета; многоступенчатая ракета; космическая ракета.

Семантический анализ показывает, что таксон не однороден и может быть разбит по нескольким различным основаниям: 1) вид горючего; 2) число ступеней; 3) способ управления; 4) способ старта; 5) характер груза; 6) пилотируемость; 7) назначение; 8) характер орбиты.
  1. Сделайте фасетное разбиение таксона по указанным параметрам.
  2. Предложите свои параметры фасетной классификации и проведите разбие­
    ние таксона по ним.

Задание 2. Среди иерархических отношений в ИПТ может отражаться и от­ношение «часть-целое», которое также не всегда оказывается однородным. Однако в рассматриваемом ниже примере это не тот тип неоднородости, который был ра­зобран выше в Задании 1. Семантика «части-целого» в данном случае сохраняется и распространяется дальше по дереву, формируя более дробные непересекающие­ся таксоны. Предложите свой вариант иерархического членения таксона РАКЕТА, сформированного на основании отношения «часть-целое»:


РАКЕТА

бак горючего, бак топлива, бак средства окисления, защитный конус, ка­бина, камера сгорания, механизм управления, несущая ракета, носовой конус, плоскость управления, подача горючего, полезная нагрузка, приборы, привод, тело ракеты, управление, форсунка.


Основная литература
  1. Панков И. П., Захаров В. П. Информационно-поисковые системы // При­кладное языкознание. СПб., 1996.
  2. Московии В.А. Информационные языки. М., 1971.


Дополнительная литература
  1. Дейт К. Введение в системы баз данных. М., 1980.
  2. Информатика / Под ред. К.В.Тараканова. М., 1986.
  3. Мартин Дж. Организация баз данных в вычислительных системах. М., 1980.
  4. Сзлтон Г. Автоматическая обработка, хранение и поиск информации. М, 1973/.