Тема. Интернет. Протоколы, службы Интернет, поиск в Интернет

Вид материалаДокументы

Содержание


Поисковые службы
Путешествуя по Web
Индексирование Web-документов
Подобный материал:
1   2   3   4   5   6   7   8   9   10   11

Поисковые службы



Поисковые службы рассылают запросы пользователя одновременно нескольким поисковым серверам и обращаются к некоторым другим источникам информации. Затем они объединяют полученные результаты и представляют их пользователю в виде HTML-страницы с активизируемыми URL-ссылками. Например, IBM InfoMarket выполняет поиск в Yahoo, OpenText, Magellan, различных коммерческих ресурсах и группах новостей одновременно, генерируя ранжированные и упорядоченные результаты обработки запроса. Еще одним средством такого рода является MetaCrawler. Данная служба посылает запросы восьми различным поисковым серверам: OpenText, Lycos, WebCrawler, InfoSeek, Excite, Altavista, Yahoo и Galaxy. MetaCrawler поддерживает булевы операторы и поиск фраз.


Путешествуя по Web


Одним из способов обнаружения в Web релевантных документов является запуск Web-робота – средства поиска. Такая программа получает запрос пользователя, после чего систематически исследует Web, находя документы, оценивая их релевантность, и возвращает пользователю ранжированный список документов. Данный способ малоэффективен из-за непроизводительных потерь и экспоненциального роста Web. Простое решение можно найти в заранее скомпилированном индексе, периодически формируемом и обновляемом программами-роботами Web. Указанный индекс представляет собой архив, в котором можно искать ссылки на документы Web. На данном, более практическом подходе, основаны многие поисковые системы.


Генерация полного индекса требует систематического обхода Web-узлов и определения местонахождения каждого документа. Структура Web аналогична структуре ориентированного графа, поэтому здесь применимы алгоритмы обхода графа. Поскольку клиенты и серверы Web для коммуникаций используют модель клиент/сервер, программа-робот, выполняющая обход всей системы Web, может выполняться на одном компьютере. Существует три метода такого обхода:
  • случайный выбор первого URL-адреса программой роботом для инициализации поиска. Программа индексирует начальный документ, выделяет URL-адреса, указывающие на другие документы, а затем рекурсивно анализирует эти URL для поиска «преимущественно в ширину» или «преимущественно в глубину»;
  • поиск начинается с набора URL-адресов, определяемых на основе популярности Web-узлов, а затем продолжается рекурсивно.
  • пространство Web делится на разделы на основе системы имен Интернет или кодов стран, а для полного исследования этих разделов выделяется одна программа-робот или несколько. Данный метод используется чаще, чем первые два.

Следующая важная характеристика программ-роботов является частота обхода Web, что очень важно для актуальности и полноты индекса.


Индексирование Web-документов


Поиск информации в Web подобен типичной задаче поиска информации. Такая задача определяется совокупностью документов и совокупностью пользователей, выполняющих запросы в целях поиска конкретного подмножества документов. Индексирование представляет собой процесс создания представления (формы) документа путем связывания с ним дескрипторов содержимого, или терминов. В дальнейшем термины используются для оценки релевантности документа запросу пользователя, что имеет непосредственное отношение к эффективности извлечения информации в информационно-поисковой системе (ИПС).


В ИПС различают термины двух типов: объективные и необъективные. Объективные термины – это термины, присущие семантическому содержимому документа, и обычно с их присваиванием не возникает никаких неясностей. К подобным терминам относятся фамилия автора, URL-адрес документа, дата его публикации. Необъективные термины отражают информацию самого документа, и однозначных правил их выбора, и определения степени соответствия пока не существует. Их называют также «терминами содержимого». Обычно при индексировании с документами соотносятся необъективные термины. Такое ассоциирование может дополняться значением весового коэффициента, определяющего степень представления или отражения данным термином содержимого документа.


На эффективность системы индексирования влияют два важных параметра. Полнота индексирования указывает, в какой степени тематика документа распознается системой индексирования. Если система индексирования является полной, то она генерирует большое число терминов, отражающих аспекты тематики документа. Неполная система генерирует меньшее число терминов соответствующих наиболее важным темам документа. Второй параметр – специфичность терминов – зависит от того, насколько широк спектр охватываемых ими понятий. Поиск по общим («широким») терминам дает большое число полезных документов наряду со значительным количеством нерелевантной информации. Использование более специфичных («узких») терминов приводит к получению меньшего числа документов и приводит к пропуску некоторой релевантной информации.


Влияние полноты индексирования и специфичности терминов на эффективность поиска информации можно пояснить на примере двух параметров, используемых во многих задачах ИПС.

  • Полнота поиска – отношение числа найденных релевантных документов к общему числу релевантных документов в исследуемой совокупности.
  • Точность поиска – отношение числа релевантных документов к общему числу полученных документов.


Индексирование по широким терминам дает более высокую полноту поиска за счет потери точности. ПО этой причине эффективность многих ИПС оценивается значениями параметра точности при различных уровнях полноты.


Индексирование может выполняться вручную или автоматически. Значительный объем информации в Web и разнообразие ее тематики делают ручное индексирование практически неприемлемым. Автоматическое индексирование не требует наличия строго контролируемых словарей и потенциально способно отразить больше различных аспектов документа, чем индексирование вручную. Между тем, несмотря на многолетние исследования, автоматическое индексирование находится на низком уровне развития.