Тема. Интернет. Протоколы, службы Интернет, поиск в Интернет

Вид материалаДокументы

Содержание


Основные поисковые инструменты
Тематические каталоги
Подобный материал:
1   2   3   4   5   6   7   8   9   10   11

Введение


World Wide Web представляет собой огромное хранилище распределенной цифровой информации. Появившаяся в 1991 г. как среда для коллективной работы в масштабе одной организации, а именно для обмена научными документами по ядерной физике в CERN, система Web быстро разрослась и превратилась в информационный ресурс, в составе которого существуют самые разные «документы» (личные Web-страницы, онлайновые электронные библиотеки, виртуальные музеи, каталоги по продуктам и услугам, открытая правительственная информация, научно-исследовательские публикации) и серверы (Gopher, FTP, Usenet и электронной почты). По некоторым оценкам, в настоящее время Web содержит около 150 млн. страниц и каждые четыре месяца этот объем удваивается.


Возможность эффективного поиска и извлечения информации имеет важнейшее значение для использования всего потенциала Web. Некоторые применяемые сегодня инструментальные средства поиска «просеивают» информацию предварительно созданных Web-индексов размером в несколько гигабайт за долю секунды. Между тем эффективность поиска является недостаточной, т.е. оставляет желать лучшего. Существующие инструменты возвращают слишком много документов, из которых лишь малая часть действительно соответствует запросу пользователя (релевантные ему). Более того, наиболее релевантные документы не обязательно оказываются в начале списка результатов поиска.


Одним из основных способов найти информацию в Internet являются поисковые машины или поисковые сервера, на которых расположено специальное программное обеспечение для осуществления поиска – поисковые инструменты. Поисковые инструменты каждый день "ползают" по Интернет: они посещают web-страницы и заносят их в гигантские базы данных. Это позволяет пользователю, используя услуги поисковых инструментов, набрать ключевые слова, нажать "submit", или “search”, или “seek” и получить список страниц по сформулированному (заданному) запросу (задать критерии поиска).

Основные поисковые инструменты



Существуют различные инструменты для поиска информации в Интернет. Строятся они на разных принципах и преследуют разные цели. Всех их объединяет то, что они располагаются на специально выделенных сетевых компьютерах с мощными каналами связи, обслуживают ежеминутно огромное количество посетителей и требуют от своих владельцев значительных затрат на поддержку и обновление. Тем не менее, почти все они отвечают на запросы пользователей совершенно бескорыстно. Оплачивают эти услуги спонсоры и рекламодатели.


Автоматизированные методы поиска и извлечения информации в Web можно в общем случае разделить на поисковые системы и службы. В системах поиска для индексирования Web-документов применяются программы-роботы. Такие инструменты имеют пользовательский интерфейс для спецификации запросов и просмотра результатов. Их ядром является поисковая машина, отвечающая за обработку индекса и извлечение документов, релевантных запросу пользователя. Содержательную классификацию поисковых систем удобнее строить на основании того, насколько автоматизирован в них сбор и обработка информации, предоставляемой затем пользователям,   иначе говоря, кто набирает базу данных, в которой производится поиск: люди или компьютеры, т.е. существует два вида информационных баз данных ссылок на web-страницы: поисковые системы первого и второго рода.


Поисковые службы предоставляют пользователям некий уровень абстракций, надстроенный над инструментами поиска, базами данных и упрощающий поиск в Web.

Тематические каталоги



Поисковые системы первого рода чаще всего называют предметными, или тематическими каталогами (subject catalogs). В каталог информация заносится по инициативе человека. Добавляемая страница должна быть жестко привязана к принятым в каталоге категориям. Результатом является постоянно обновляющийся иерархический (древовидный) каталог, на верхнем уровне которого собраны самые общие категории, такие как «бизнес», «наука», «искусство» и т.п., а элементы самого нижнего уровня представляют собой ссылки на отдельные web-страницы и сервера вместе с кратким описанием их содержимого.


Предметные каталоги предоставляют возможность автоматического поиска по ключевым словам. Только поиск происходит не в содержимом самих web-серверов, а в их кратких описаниях, хранящихся в каталоге.


Примером каталога может служить Yahoo, или WWW Virtual Library, или Galaxy и др. Конструкция страниц значения не имеет.

Yahoo



Старейший каталог Yahoo был запущен в начале 1994 года. Широко известен, часто используем и наиболее уважаем. В марте 1996 запущен еще один каталог Yahoo - Yahooligans для детей. Появляются все новые и новые региональные и top-каталоги Yahoo. Yahoo представляет собой ерархически организованный каталог Web, который генерируется полуавттоматически. Ссылки на различные ресурсы собираются двумя способами: присылаются пользователями и извлекаются программами роботами, считывающими новые ссылки из известных источников. Поскольку Yahoo основан на подписке пользователей, в нем может не быть некоторых web-sites. Если поиск по Yahoo не дал подходящих результатов, пользователи могут воспользоваться поисковой системой второго рода. Это делается очень просто. Когда делается запрос к Yahoo, каталог переправляет его к любой из основных поисковых систем. Первыми ссылками в списке удовлетворяющих запросу адресов идут адреса из каталога, а затем идут адреса, полученные от поисковых систем, в частности от Altavista.