Тема. Интернет. Протоколы, службы Интернет, поиск в Интернет
Вид материала | Документы |
СодержаниеWorldWide Web Worm |
- Урок по теме: "Поиск информации во Всемирной паутине", 96.8kb.
- Лекция – Семинар 2 Информационный поиск и информационные ресурсы Интернет, 161.64kb.
- Какую роль играют протоколы в сети Интернет, 135.8kb.
- Ов, по, 3-мерной мультипликации и информационных систем, помогающих компаниям интегрироваться, 66.51kb.
- Интернет и бизнес». 17 февраля 2012 года в Ульяновске состоится семинар «Интернет, 43.24kb.
- Исследовательная работа по дисциплине «технология научных исследований» на тему «общение, 243.98kb.
- Что такое Интернет, 44.71kb.
- Методика: анкета, направленная на исследование вовлеченности в интернет; семантический, 14.95kb.
- А. Б., Юматов К. В. Обзор интернет-ресурсов по культуре Кемеровской области, 162.78kb.
- А. Теленкова интернет-relations исследование моделей Интернет-присутствия, 191.68kb.
InfoSeek
Запущена чуть раньше 1995 года, широко известна, прекрасно ищет и легко доступна. В настоящее время "Ultrasmart/Ultraseek" содержит порядка 50 миллионов URL. Опция для поиска по умолчанию Ultrasmart. В этом случае поиск производится по обоим каталогам. При опции Ultraseek результаты запроса выдаются без дополнительной информации. Новая поисковая технология также позволяет облегчить поиски и множество других особенностей, которые Вы можете прочитать об InfoSeek. Существует отдельный от поисковой системы каталог InfoSeek Select.
InfoSeek Guide – популярный сервер с программой-роботом, выполняющей поиск документов форматов HTML и PDF, индексирующей их по всему тексту и генерирующей по каждому документу краткий реферат. Infoseek позволяет искать информацию в Web, группах Usenet и FAQ Web. Его индексы являются распределенными. Поддерживаются поиск чувствительный к регистру символов, а также поиск отдельных символов, фраз и поиск по именам собственным. Допускается также поиск изображений (по заголовкам или ассоциированными с ними терминам индекса). InfoSeek ранжирует результаты выборки, присваивая большие весовые коэффициенты документам, содержащим искомые термины в начале текста. Выдаются также краткий реферат, значение оценки релевантности и размер документа. Infoseek предусматривает и поиск страниц, подобных заданным.
Lycos
Примерно с мая 1994 года работает одна из старейших поисковых систем Lycos. Широко известная и часто используемая. В ее состав входит поисковая система Point (работает с 1995 года) и каталог A2Z (работает с февраля 1996 года).
В сервере Lycos применяется программа-робот, использующая для навигации в Web и построения индекса эвристические алгоритмы. Для каждого индексируемого документа эта программа хранит в очереди внешние ссылки (текст привязки или дескрипторы ссылок), откуда и выбирает URL-адреса. Например, одна из эвристик побуждает программу робота выбирать URL, указывающий на титульную страницу Web-сервера. Пользователи могут присылать для индексирвоания свои URL-адреса. Lycos индексирует названия. Заголовки и подзаголовки документов HTML, FTP и Gopher. Если число индексных терминов превышает 100, то хранятся только 100 терминов с максимальным весом. Средство индексирвоания сохраняет также первые 20 строк документа, его размер в байтах и число слов. Lycos допускает поиск любого термина, всех терминов или некоторого заданного их числа. Выполняется поиск фрагментов слов, при этом допускается слабое, среднее, близкое, хорошее и строгое совпадение. Поддерживается булева операция NOT. Максимальный весовой коэффициент присваивается индексным терминам, встречающимся в названии и начале документа. Вывод ранжируется, в нем представлены активизируемые щелчком мыши ссылки URL. В результат включается также размер документа.
OpenText
Система OpenText появилась чуть раньше 1995 года. С июня 1996 года сотрудничает с Yahoo.
OpenText использует программу-робот, просматривающую узлы Web путем поочередного выбора URL из пула. Документ считывается с данного узла и индексируется. Все URL-адреса, содержащиеся в этом документе, извлекаются и также помещаются в пул URL. Пользователи могут присылать URL-адреса для включения их в индекс. OpenText индексирует HTML-документы по всему тексту и непрерывно обновляет индекс. Средство индексирования генерирует краткую аннотацию, содержащую первые сто слов документа. Поддерживаетя полный булев поиск, а также поиск по именам собственным, символам и фразам.
WebCrawler
Открыта 20 апреля 1994 года как исследовательский проект Вашингтонского Университета. В марте 1995 года была приобретена компанией America Online. Существует каталог WebCrawler Select.
Программа-робот сервера WebCrawler начинает поиск с некоторого известного набора HTML-документов и использует имеющиеся в них URL-адреса для получения новых документов. Данный сервер выполняет перебор узлов в режиме поиска «преимущественно в ширину». Он ведет список Web-серверов и URL-адресов, выбирая их по методу кругового обслуживания, что позволяет избежать последовательной выборки документов с одного сервера. Цель WebCrawler – проиндексировать хотя бы по одному документу на каждом сервере. Пользователи также могут присылать свои URL-адреса. Индексируются название и полный текст HTML-документа, а сам индекс обновляется еженедельно. Терминам присваиваются веса, равные частному от деления частоты их вхождения в документ на частоту встречаемости в данной предметной области. Термин, часто встречающийся в документе и редко – в предметной области, получает больший вес, а редко встречающиеся термины – меньшие весовые коэффициенты. WebCrawler поддерживает полный булев поиск и поиск фраз. Результат представляет собой ранжированный и упорядоченный список с URL-адресами, активизируемыми щелчком мыши. Вывод содержит также краткие рефераты и оценки релевантности. Предусматривается возможность поиска «подобных страниц».
WorldWide Web Worm
WorlWide Web Worm (WWWW) состоит из двух компонентов: указателя на место размещения ресурсов (локатора ресурсов) и поисковой машины. Локатор ресурсов выполняет поиск в Web в режиме «преимущественно в ширину», индексируя названия, текст привязки и URL-адреса HTML-документов. Он хранит индекс в обычном неструктурированном файле. WWWW индексирует также встроенные изображения (по их заголовкам HTML) и активные гипертекстовые ссылки (если они присутствуют). Поддерживаются булевы опреации AND и OR. К сожалению, возможносит WWWW ограничены, поскольку индексирвоание содержимого документов отсутствует. Название, текст привязки и URL-адреса не могут полноценно представлять весь текст документа.