Тема. Интернет. Протоколы, службы Интернет, поиск в Интернет

Вид материалаДокументы

Содержание


WorldWide Web Worm
Подобный материал:
1   2   3   4   5   6   7   8   9   10   11

InfoSeek



Запущена чуть раньше 1995 года, широко известна, прекрасно ищет и легко доступна. В настоящее время "Ultrasmart/Ultraseek" содержит порядка 50 миллионов URL. Опция для поиска по умолчанию Ultrasmart. В этом случае поиск производится по обоим каталогам. При опции Ultraseek результаты запроса выдаются без дополнительной информации. Новая поисковая технология также позволяет облегчить поиски и множество других особенностей, которые Вы можете прочитать об InfoSeek. Существует отдельный от поисковой системы каталог InfoSeek Select.


InfoSeek Guide – популярный сервер с программой-роботом, выполняющей поиск документов форматов HTML и PDF, индексирующей их по всему тексту и генерирующей по каждому документу краткий реферат. Infoseek позволяет искать информацию в Web, группах Usenet и FAQ Web. Его индексы являются распределенными. Поддерживаются поиск чувствительный к регистру символов, а также поиск отдельных символов, фраз и поиск по именам собственным. Допускается также поиск изображений (по заголовкам или ассоциированными с ними терминам индекса). InfoSeek ранжирует результаты выборки, присваивая большие весовые коэффициенты документам, содержащим искомые термины в начале текста. Выдаются также краткий реферат, значение оценки релевантности и размер документа. Infoseek предусматривает и поиск страниц, подобных заданным.

Lycos



Примерно с мая 1994 года работает одна из старейших поисковых систем Lycos. Широко известная и часто используемая. В ее состав входит поисковая система Point (работает с 1995 года) и каталог A2Z (работает с февраля 1996 года).


В сервере Lycos применяется программа-робот, использующая для навигации в Web и построения индекса эвристические алгоритмы. Для каждого индексируемого документа эта программа хранит в очереди внешние ссылки (текст привязки или дескрипторы ссылок), откуда и выбирает URL-адреса. Например, одна из эвристик побуждает программу робота выбирать URL, указывающий на титульную страницу Web-сервера. Пользователи могут присылать для индексирвоания свои URL-адреса. Lycos индексирует названия. Заголовки и подзаголовки документов HTML, FTP и Gopher. Если число индексных терминов превышает 100, то хранятся только 100 терминов с максимальным весом. Средство индексирвоания сохраняет также первые 20 строк документа, его размер в байтах и число слов. Lycos допускает поиск любого термина, всех терминов или некоторого заданного их числа. Выполняется поиск фрагментов слов, при этом допускается слабое, среднее, близкое, хорошее и строгое совпадение. Поддерживается булева операция NOT. Максимальный весовой коэффициент присваивается индексным терминам, встречающимся в названии и начале документа. Вывод ранжируется, в нем представлены активизируемые щелчком мыши ссылки URL. В результат включается также размер документа.

OpenText



Система OpenText появилась чуть раньше 1995 года. С июня 1996 года сотрудничает с Yahoo.


OpenText использует программу-робот, просматривающую узлы Web путем поочередного выбора URL из пула. Документ считывается с данного узла и индексируется. Все URL-адреса, содержащиеся в этом документе, извлекаются и также помещаются в пул URL. Пользователи могут присылать URL-адреса для включения их в индекс. OpenText индексирует HTML-документы по всему тексту и непрерывно обновляет индекс. Средство индексирования генерирует краткую аннотацию, содержащую первые сто слов документа. Поддерживаетя полный булев поиск, а также поиск по именам собственным, символам и фразам.

WebCrawler



Открыта 20 апреля 1994 года как исследовательский проект Вашингтонского Университета. В марте 1995 года была приобретена компанией America Online. Существует каталог WebCrawler Select.


Программа-робот сервера WebCrawler начинает поиск с некоторого известного набора HTML-документов и использует имеющиеся в них URL-адреса для получения новых документов. Данный сервер выполняет перебор узлов в режиме поиска «преимущественно в ширину». Он ведет список Web-серверов и URL-адресов, выбирая их по методу кругового обслуживания, что позволяет избежать последовательной выборки документов с одного сервера. Цель WebCrawler – проиндексировать хотя бы по одному документу на каждом сервере. Пользователи также могут присылать свои URL-адреса. Индексируются название и полный текст HTML-документа, а сам индекс обновляется еженедельно. Терминам присваиваются веса, равные частному от деления частоты их вхождения в документ на частоту встречаемости в данной предметной области. Термин, часто встречающийся в документе и редко – в предметной области, получает больший вес, а редко встречающиеся термины – меньшие весовые коэффициенты. WebCrawler поддерживает полный булев поиск и поиск фраз. Результат представляет собой ранжированный и упорядоченный список с URL-адресами, активизируемыми щелчком мыши. Вывод содержит также краткие рефераты и оценки релевантности. Предусматривается возможность поиска «подобных страниц».

WorldWide Web Worm



WorlWide Web Worm (WWWW) состоит из двух компонентов: указателя на место размещения ресурсов (локатора ресурсов) и поисковой машины. Локатор ресурсов выполняет поиск в Web в режиме «преимущественно в ширину», индексируя названия, текст привязки и URL-адреса HTML-документов. Он хранит индекс в обычном неструктурированном файле. WWWW индексирует также встроенные изображения (по их заголовкам HTML) и активные гипертекстовые ссылки (если они присутствуют). Поддерживаются булевы опреации AND и OR. К сожалению, возможносит WWWW ограничены, поскольку индексирвоание содержимого документов отсутствует. Название, текст привязки и URL-адреса не могут полноценно представлять весь текст документа.