Задачи решаемые ипс. Современными ипс в настоящее время решается большое количество задач различной сложности. Выделим несколько основных задач, решаемых современными ипс: Создание и ведение бд. Генерация запросов для проведения поиска

Вид материалаЛитература

Содержание


Задачи решаемые ипс.
2. Модели индексирования и поиска информации.
И.И. Попов, П.Б. Храмцов. Распределение частоты встречаемости терминов для линейной модели информационного потока. НТИ, Сер.2, #
Подобный материал:
РОССИЙСКАЯ АКАДЕМИЯ ГОСУДАРСТВЕННОЙ СЛУЖБЫ

при ПРЕЗИДЕНТЕ РОССИЙСКОЙ ФЕДЕРАЦИИ

Кафедра информатизации структур государственной службы


РЕФЕРАТ


по курсу "Теоретическая информатика"


на тему:


" Информационно-поисковые системы "


Абакумова Г.А. –

слушатель 2 курса заочного

отделения, гр.49


Москва – 2003

ВВЕДЕНИЕ ……………………………………………………………………………3
  1. Задачи решаемые ИПС …………………………………………………………...4
  2. Модели индексирования и поиска информации ………………………………..6

ЗАКЛЮЧЕНИЕ ………………………………………………………………………11

ЛИТЕРАТУРА ………………………………………………………………………..12

ВВЕДЕНИЕ

Современные документальные ИПС - это комплекс программных средств для преобразования массы разрозненных текстов (или одного большого текста) в документальную БД, обеспечивающую выдачу информации на запрос высокой синтаксической сложности. ИПС является центральным элементом любой автоматизированной информационной системой управления.

ИПС гораздо старше систем управления базами данных - они благополучно пережили конкуренцию со стороны последних и продолжают успешно развиваться в своей экологической нише, оказывая влияние и на ресурсы глобальных компьютерных сетей.


  1. ЗАДАЧИ РЕШАЕМЫЕ ИПС.

Современными ИПС в настоящее время решается большое количество задач различной сложности. Выделим несколько основных задач, решаемых современными ИПС:
  1. Создание и ведение БД.
  2. Генерация запросов для проведения поиска.
  3. Развитие стратегий поиска.
  4. Вывод информации.

Во всех развитых системах загрузка информации и создание БД осуществляется автоматически. Создание реляционной БД состоит из двух основных операций - копирование исходной информации во внутренний формат системы и создание поискового индекса, в котором каждый элемент текста - слово, число и т.п. - привязывается к соответствующей записи. Каждую операцию выполняет программа-робот. Одна такая программа занимается просмотром ресурсов в InterNet, зарегистрированных в системе, и обновлением их в случае их изменения. Другая программа составляет индекс ресурсов БД для дальнейшего использования его при поиске. Следующая программа занимается получением ключевых слов от пользователя и составлением, по ним, запроса к БД.

Задача составления запроса в ИПС сводится, во-первых, к отбору терминов, выражающих основные понятия темы запроса, и, во-вторых, к подбору достаточно большого количества синонимов к каждому из них, или целых выражений, а также и определения отношений между терминами, например, вхождение основных терминов в документ, задание расстояния между ними.

Практически любая ИПС использует усечение (маскирование) вводимых терминов, когда пользователь может указать только часть слова, и все слова, содержащие эту часть, будут использованы для поиска информации. В системах используются: усечения справа для отделения окончаний и суффиксов, левое усечение для отделения начала слов - приставок, начальных корней в сложных словах и т. п., усечение в середине слова. Для выражения темы запроса на информационно-поисковом языке практически во всех ИПС используются логические операторы AND, OR, NOT, скобки для обозначения выражений и определения порядка выполнения операций. В системах с естественным языком сравнения смысла запроса документа происходит на естественном языке по закону анализа и синтеза текста. В ИПС используются также операторы контекстного поиска, задающие порядок следования и допустимое количество слов, которые могут встретиться между терминами, а также принадлежность их к одному предложению, группе смежных предложений. Поиск включает в себя использование морфологического анализа, тематических или универсальных тезаурусов, автоматизированное реформулирование запросов с применением "статистических" методов поиска. Система содержит морфологический словарь языка, содержащий практически все употребляемые слова и их словоформы. Для обогащения запросов используются тезаурусы, т.е. словари дескрипторов с указанием парадигматических отношений между словами.


2. МОДЕЛИ ИНДЕКСИРОВАНИЯ И ПОИСКА ИНФОРМАЦИИ.

Одной из ключевых проблем разработки технологии распределенных ИПС Internet является реализация процедуры автоматического индексирования информационных ресурсов Сети. Совершенно очевидно, что методы ручного индексирования для систем, которые функционируют в Internet, не могут быть признаны удовлетворительными в силу следующих причин:

Internet - это огромный распределенный информационный ресурс, который просто физически трудно охватить. Информационные ресурсы Internet постоянно изменяются и для актуализации поискового аппарата необходима постояннодействующая система коррекции.

Достаточно нескольких примеров для подтверждения приведенных положений. Согласно ( И.И. Попов, П.Б. Храмцов. Распределение частоты встречаемости терминов для линейной модели информационного потока. НТИ, Сер.2, # 2, стр. 23-26, 1991) число серверов World Wide Web, а значит и документов в этой распределенной информационной системе Internet, удваивается каждые 60 дней. Время жизни почтового сообщения или сообщений Usenet в большинстве систем Internet - 5 суток. Это означает, что такие системы как Altavista и Lycos обязаны обновлять свои поисковые индексы каждую неделю. Имея свой сервер HTTP и наблюдая за статистикой его посещений, можно убедится, что на самом деле это делается значительно реже.

Многие системы (Yahoo, InfoSeek, WebCrawler) индексируют документы простым приписыванием терминов из их названий или гипертекстовых ссылок, однако системы OpenText, Lycos и Altavista осуществляют индексирование на основе применения показателя точности (различительной силы термина), предложенного Солтоном. Понятие точности термина тесно связано с частотой его встречаемости в массиве документов. Эта частота используется и при ранжировании документов при выдаче их пользователю. Сегодня в ИПС Internet наиболее популярен поиск с ранжированием документов. Выражаясь точнее применяется просто ранжирование всех документов в соответствии с мерами близости "документ-запрос" и выдача ссылок на первые n документов с наибольшим рангом. Рассмотрим четыре наиболее популярные меры близости, используемые в информационных системах Internet:
  • расширенный двоичный алгоритм поиска;
  • алгоритм наибольшего цитирования;
  • TFxIDF алгоритм;
  • расширенный векторный алгоритм поиска.

Следует отметить, что наиболее эффективным из этих алгоритмов является TFxIDF, предложенный Солтоном. Одним из компонентов меры близости TFxIDF является частота встречаемости терминов в массиве документов.

Как уже говорилось, наиболее распространенным алгоритмом индексирования в Internet является предложенный еще в 1979 году алгоритм, основанный на различительной силе термина. Суть его в том, что для индексирования используют те термины, которые имеют высокую частоту встречаемости внутри документа и низкую во всем информационном массиве. Сама характеристика вычисляется как отношение частоты встречаемости термина в документе к частоте встречаемости термина в массиве. Используя эту меру системы индексирования документу приписывают первые 20-40 символов, которые и составляют его поисковый образ. Выбор этой меры объясняется простыми прагматическими соображениями, которые становятся очевидными при сравнении выражения с другими способами взвешивания терминов . Здесь следует отметить, что во многом привлечение Alpha-кластеров в проект AltaVista обусловлено опытами по внедрению более ресурсоемких алгоритмов расчета значений качества терминов для процедуры индексирования документов.

Насыщение словаря - очень важное свойство систем со свободным словарем. Дело в том, что говорить вообще о векторной модели информационного потока и ее применимости для информационных систем можно только в том случае, когда мощность словаря (число представленных в нем терминов) фиксирована. Пока речь шла о локальных информационных системах, то вопрос о размере словаря не стоял. За время эксплуатации системы (с момента загрузки документов и до момента актуализации) информационный массив и словарь системы не менялись, и, следовательно были фиксированными. В Internet дело обстоит совсем иначе. Во-первых, нет единого информационного массива, который можно было бы одним махом загрузить, построив долгоживущий индекс. Поэтому система постоянно осуществляет сканирование сети и коррекцию своего поискового аппарата - словарь, который определяется индексом постоянно изменяется. Во-вторых, из-за отсутствия единой информационной службы нельзя организовать систему с контролируемым словарем, как это было сделано для INIS или INSPEC. Таким образом в Internet происходят два процесса: постоянный рост информационного массива, с одной стороны, и постоянное увеличение словаря системы, с другой. По данным информационной службы Lycos ее поисковый массив (индекс) на начало 1996 года составлял уже 4 Тбайта.

Но и Lycos, и OpenText, и Altavista, и другие системы Internet применяют линейную модель индексирования и поиска, используя различительную силу термина в алгоритмах автоматического индексирования и поиска. Следовательно, применяемые алгоритмы ограничивают словарь, допуская его незначительный рост.

Следует также отметить, что источником терминов индексирования, в большинстве случаев выступает не весь документ, а только отдельные его части: заголовок, гипертекстовые ссылки, подзаголовки, специальные поля. Таким образом удается контролировать размер словаря и оставаться в рамках линейной модели индексирования и поиска.


ЗАКЛЮЧЕНИЕ

В настоящее время ИПС применяются в той или иной степени, можно сказать, во всех областях науки, техники, культуры, управления технологическими процессами, в медицине, экономике, в системах организационного управления и, что особенно важно, в управлении государством, и являются центральным элементом любой автоматизированной информационной системой управления.

ЛИТЕРАТУРА
  1. И.И. Попов, П.Б. Храмцов.”Распределение частоты встречаемости терминов для линейной модели информационного потока. “НТИ, 1991г
  2. Шемакин Ю.И. “Семантика самоорганизующихся систем” –М,: Академический проект, 2003.