Тема. Интернет. Протоколы, службы Интернет, поиск в Интернет

Вид материалаДокументы

Содержание


Автоматические индексы
Excite Search
Подобный материал:
1   2   3   4   5   6   7   8   9   10   11

Magellan



Еще одним тематическим каталогом является Magellan. Он индексирует Web-узлы, серверы FTP и Gopher, а аткже новости Usenet и сеансы Telnet. Коллектив редакторов и авторов просматривает Web-узлы и ранжирует их по таким факторам, как полнота и простота исследования. Пользователи могут присылать для рецензии свои URL-адреса. Каталог Magellan содержит оригинальную редакционную информацию, каталог ранжированных и рецензированных узлов, базу данных еще нерецензированных узлов и поисковую машину. Magellan предлагает опции +/-, аналогичные булевым операторам AND и OR.


Кроме Yahoo и Magellan пользуются известностью такие тематические каталоги как WWW Virtual Library и Galaxy. WWW Virtual Library – распределенный тематический каталог, доступный для просмотра и поддерживаемый добровольцами. Никаких средств для поиска в каталоге нет. Galaxy индексирует документы Web и Gopher. Индекс этой службы доступен для поиска и просмотра.

Автоматические индексы



Поисковые системы второго рода – поисковые системы или автоматические индексы (spiders, crawlers)  , постоянно исследуют Интернет с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Программа, в которую загрузили несколько тысяч общеизвестных URL-адресов, будучи запущена на компьютере с доступом к WWW, начинает автоматически скачивать из сети документы по этим URL, причем из каждого нового документа она извлекает все содержащиеся в нем ссылки и добавляет их в свою базу адресов.


Данные инструменты полностью скрывают от пользователя организацию индекса и его содержимое. Автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных и интерфейса для поиска в этой базе, с которым и работает пользователь.


Примером может быть поисковая система Altavista, или WebCrawler, или Lycos, или Open Text, или Excite, или Inktomi и др. Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы.

Altavista



Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo.


В Altavista применяется программа-робот (ее название   Scooter), просматривающая Web и группы новостей Usenet. Индексирование выполняется по всему тексту документа. В качестве аннотации используются первые несколько строк документа. Для явной спецификации индексируемых терминов и краткого описания содержимого авторы HTML-документов могут применять дескриптор МЕТА. Индекс Altavista обновляется, по крайней мере, раз в день. При посещении страниц Scooter отдает приоритет тем, что изменяются наиболее часто. Страница, не модифицировавшаяся в течение месяца, будет просматриваться реже, чем страница, оказывающаяся обновленной при каждом ее просмотре программой-роботом. Altavista поддерживает полный булев поиск, поиск по фразам и поиск, учитывающий регистр. Результата ранжируются по релевантности. Более высокий приоритет отдается документам, содержащим искомые термины в числе первых нескольких слов, документам, где термины находятся близко друг от друга, а также документам, содержащим несколько вхождений терминов. Результаты выборки включают в себя заголовок, аннотацию документа, его размер и дату последней модификации.

Excite Search



Запущенная в конце 1995 года, система быстро развивалась. В июле 1996 куплена Magellan, в сентябре 1996 - приобретена WebCrawler. Однако оба используют ее отдельно друг от друга. Возможно, в будущем они будут работать вместе. Существует в этой системе и каталог - Excite Reviews. Правда, информация из этого каталога не используется поисковой системой по умолчанию, зато есть возможность проверить ее после просмотра результатов поиска.


Сервер Excite также использует программу-робот, индексирующую документы по всему тексту. Он осуществляет поиск в Web и в группах новостей Usenet. Для участия в индексе пользователи могут присылать свои URL-адреса. В процессе индексирования генерируются термины и краткие рефераты. Индекс Excite содержит около 50 млн. URL-адресов. Здесь поддерживаются поиск по именам собственным, булевы операции AND, OR и NOT, запросы с булевыми выражениями. Результаты поиска ранжируются, и по каждому найденному документу предлагается краткий реферат. Excite предлагает также «поиск по подобию» и «сортировку по узлам», когда результат запроса ранжируются по числу найденных на узле документов.

HotBot



Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой системы Berkeley Inktomi.


Система HotBot ищет и индексирует Web-документы с помощью программы Slurp и сети параллельно функционирующих рабочих станций. Эта программа извлекает из найденного документа все URL-адреса и помещает их в структуру данных диспетчера, распределяющего URL по различным ЦП согласно некоторому критерию (например, времени последнего доступа к хост-узлу). Пользователи также могут присылать URL-адреса для индексирования. HotBot индексирует по всему тексту только документы HTML и простой текст. Терминам присваиваются весовые коэффициенты, а средство индексирования генерирует короткий реферат. Индексы распределяются по нескольким компьютерам, что позволяет HotBot осуществлять параллельную обработку запроса. Пользователи могут выполнять поиск по термину, фразе, существительному или URL-адресу. Поддерживается также булев поиск и поиск, чувствительный к регистру символов. Квалифицированные пользователи могут задать поиск информации конкретного формата, а также ограничить его определенными доменами Интернет. Результаты поиска ранжируются. HotBot оценивает релевантность документов по разным факторам, таким как частота вхождения термина и размер документа. Если искомый термин содержится в заголовке документа или дескрипторе МЕТА, то такой документ получает более высокий ранг релевантности. В результатах поиска показывается дата последней модификации документа и дается короткий реферат, состоящий из первых его строк.