Тема. Интернет. Протоколы, службы Интернет, поиск в Интернет
Вид материала | Документы |
СодержаниеАвтоматические индексы Excite Search |
- Урок по теме: "Поиск информации во Всемирной паутине", 96.8kb.
- Лекция – Семинар 2 Информационный поиск и информационные ресурсы Интернет, 161.64kb.
- Какую роль играют протоколы в сети Интернет, 135.8kb.
- Ов, по, 3-мерной мультипликации и информационных систем, помогающих компаниям интегрироваться, 66.51kb.
- Интернет и бизнес». 17 февраля 2012 года в Ульяновске состоится семинар «Интернет, 43.24kb.
- Исследовательная работа по дисциплине «технология научных исследований» на тему «общение, 243.98kb.
- Что такое Интернет, 44.71kb.
- Методика: анкета, направленная на исследование вовлеченности в интернет; семантический, 14.95kb.
- А. Б., Юматов К. В. Обзор интернет-ресурсов по культуре Кемеровской области, 162.78kb.
- А. Теленкова интернет-relations исследование моделей Интернет-присутствия, 191.68kb.
Magellan
Еще одним тематическим каталогом является Magellan. Он индексирует Web-узлы, серверы FTP и Gopher, а аткже новости Usenet и сеансы Telnet. Коллектив редакторов и авторов просматривает Web-узлы и ранжирует их по таким факторам, как полнота и простота исследования. Пользователи могут присылать для рецензии свои URL-адреса. Каталог Magellan содержит оригинальную редакционную информацию, каталог ранжированных и рецензированных узлов, базу данных еще нерецензированных узлов и поисковую машину. Magellan предлагает опции +/-, аналогичные булевым операторам AND и OR.
Кроме Yahoo и Magellan пользуются известностью такие тематические каталоги как WWW Virtual Library и Galaxy. WWW Virtual Library – распределенный тематический каталог, доступный для просмотра и поддерживаемый добровольцами. Никаких средств для поиска в каталоге нет. Galaxy индексирует документы Web и Gopher. Индекс этой службы доступен для поиска и просмотра.
Автоматические индексы
Поисковые системы второго рода – поисковые системы или автоматические индексы (spiders, crawlers) , постоянно исследуют Интернет с целью пополнения своих баз данных документов. Обычно это не требует никаких усилий со стороны человека. Программа, в которую загрузили несколько тысяч общеизвестных URL-адресов, будучи запущена на компьютере с доступом к WWW, начинает автоматически скачивать из сети документы по этим URL, причем из каждого нового документа она извлекает все содержащиеся в нем ссылки и добавляет их в свою базу адресов.
Данные инструменты полностью скрывают от пользователя организацию индекса и его содержимое. Автоматический индекс состоит из трех частей: программы-робота, собираемой этим роботом базы данных и интерфейса для поиска в этой базе, с которым и работает пользователь.
Примером может быть поисковая система Altavista, или WebCrawler, или Lycos, или Open Text, или Excite, или Inktomi и др. Для поисковых систем довольно важна конструкция каждого документа. Большое значение имеют title, meta-таги и содержимое страницы.
Altavista
Система открыта в декабре 1995. Принадлежит компании DEC. С 1996 года сотрудничает с Yahoo.
В Altavista применяется программа-робот (ее название Scooter), просматривающая Web и группы новостей Usenet. Индексирование выполняется по всему тексту документа. В качестве аннотации используются первые несколько строк документа. Для явной спецификации индексируемых терминов и краткого описания содержимого авторы HTML-документов могут применять дескриптор МЕТА. Индекс Altavista обновляется, по крайней мере, раз в день. При посещении страниц Scooter отдает приоритет тем, что изменяются наиболее часто. Страница, не модифицировавшаяся в течение месяца, будет просматриваться реже, чем страница, оказывающаяся обновленной при каждом ее просмотре программой-роботом. Altavista поддерживает полный булев поиск, поиск по фразам и поиск, учитывающий регистр. Результата ранжируются по релевантности. Более высокий приоритет отдается документам, содержащим искомые термины в числе первых нескольких слов, документам, где термины находятся близко друг от друга, а также документам, содержащим несколько вхождений терминов. Результаты выборки включают в себя заголовок, аннотацию документа, его размер и дату последней модификации.
Excite Search
Запущенная в конце 1995 года, система быстро развивалась. В июле 1996 куплена Magellan, в сентябре 1996 - приобретена WebCrawler. Однако оба используют ее отдельно друг от друга. Возможно, в будущем они будут работать вместе. Существует в этой системе и каталог - Excite Reviews. Правда, информация из этого каталога не используется поисковой системой по умолчанию, зато есть возможность проверить ее после просмотра результатов поиска.
Сервер Excite также использует программу-робот, индексирующую документы по всему тексту. Он осуществляет поиск в Web и в группах новостей Usenet. Для участия в индексе пользователи могут присылать свои URL-адреса. В процессе индексирования генерируются термины и краткие рефераты. Индекс Excite содержит около 50 млн. URL-адресов. Здесь поддерживаются поиск по именам собственным, булевы операции AND, OR и NOT, запросы с булевыми выражениями. Результаты поиска ранжируются, и по каждому найденному документу предлагается краткий реферат. Excite предлагает также «поиск по подобию» и «сортировку по узлам», когда результат запроса ранжируются по числу найденных на узле документов.
HotBot
Запущена в мае 1996. Принадлежит компании Wired. Базируется на технологии поисковой системы Berkeley Inktomi.
Система HotBot ищет и индексирует Web-документы с помощью программы Slurp и сети параллельно функционирующих рабочих станций. Эта программа извлекает из найденного документа все URL-адреса и помещает их в структуру данных диспетчера, распределяющего URL по различным ЦП согласно некоторому критерию (например, времени последнего доступа к хост-узлу). Пользователи также могут присылать URL-адреса для индексирования. HotBot индексирует по всему тексту только документы HTML и простой текст. Терминам присваиваются весовые коэффициенты, а средство индексирования генерирует короткий реферат. Индексы распределяются по нескольким компьютерам, что позволяет HotBot осуществлять параллельную обработку запроса. Пользователи могут выполнять поиск по термину, фразе, существительному или URL-адресу. Поддерживается также булев поиск и поиск, чувствительный к регистру символов. Квалифицированные пользователи могут задать поиск информации конкретного формата, а также ограничить его определенными доменами Интернет. Результаты поиска ранжируются. HotBot оценивает релевантность документов по разным факторам, таким как частота вхождения термина и размер документа. Если искомый термин содержится в заголовке документа или дескрипторе МЕТА, то такой документ получает более высокий ранг релевантности. В результатах поиска показывается дата последней модификации документа и дается короткий реферат, состоящий из первых его строк.