Поиск информации в сети Internet

Вид материалаДокументы

Содержание


1.2. Система доменных имен
2. Классификация поисковых систем
3. Приемы простого поиска
Zhorez Alferov
Zhorez Alferov
Zhorez, и слово Alferov
4. Приемы расширенного поиска
OR (операция "ИЛИ
Жорес Иванович Алферов
5. Тематический каталог Yahoo
6. Автоматический индекс Alta Vista
Поиск информации по ключевым словам с помощью web-индекса HotBot (www.hotbot.com).
HotBot Advanced
7. Отечественные поисковые службы
7.1. Rambler (er.ru/)
Поиск по ключевым словам с помощью поисковой системы Rambler (www.rambler.ru)
AND (И). По запросухимическая+технология
7.2. Яndex (x.ru)
AND !). Удвоение того знака, т.е. использование символа “&&
7.2.1. Поиск по ключевым словам в системе Яndex
...
Полное содержание
Подобный материал:
  1   2   3   4   5   6   7

Поиск информации в сети Internet

1. Общее представление о глобальной сети Internet

1. 1. Протоколы передачи данных


Internet является глобальной сетью, объединяющей множество разнородных локальных компьютерных сетей. Процесс передачи данных по сети в упрощенном виде можно представить следующим образом. Для передачи данные разбиваются на порции, которые снабжаются необходимой управляющей информацией (заголовком). Данные вместе с управляющей информацией образуют пакет. Управляющая информация состоит из адреса компьютера-получателя, порядкового номера пакета и другой информации. На компьютере-получателе пакеты собираются в нужном порядке независимо от того, в какой последовательности они поступили. Таким образом, данные являются аналогом письма, а управляющая информация служит в качестве адреса на конверте.

Формат и объем пакетов, а также порядок их передачи и сборки на компьютере-получателе в Internet определяется набором протоколов TCP/IP (Transmission Control Protocol/Internet Protocol — протокол управления передачей /межсетевой протокол). Протокол TCP отвечает за организацию сеанса связи между двумя компьютерами в сети, а IP — за маршрутизацию, т.е. за то, чтобы пакет был доставлен по нужному адресу. Примерами TCP протоколов являются http (hypertext transfer protocol (протокол передачи гипертекста)), ftp (file transfer protocol (протокол передачи файлов)) и т.д., с которых начинаются адреса узлов Internet (Web-узлов), т.е. компьютеров, подключенных к этой сети, а также адреса отдельных документов, хранящихся на Web-узлах.

Чтобы при передаче данных не возникало накладок, каждый компьютер в Internet, должен иметь свой IP-адрес. Причем адрес этот должен быть уникальным. IP-адрес представляет собой последовательность из четырех чисел, разделенных точками. Каждое из этих чисел занимает один байт памяти машины и, следовательно, может принимать значения от 0 до 255 (например, 147.120.3.28 и т.д.). Крайнее левое число является номером сети самого верхнего ранга. Два следующих числа обозначают участки сетей более низкого ранга, а самое последнее из них определяет конкретный сетевой компьютер, или хост (host). В общем случае под термином "хост" понимается любое устройство, использующее TCP/IP для общения с другим оборудованием.

1.2. Система доменных имен


Поскольку длинные последовательности цифр трудно запоминаются, в качестве альтернативы цифровым IP-адресам были предложены условные названия — так называемые доменные имена (domain host name), которые представляют собой набор разделенных точками символьных последовательностей. Число составляющих доменного имени может быть разным. Однако если в IP-адресе старшая часть находится слева, то в доменных именах она размещена справа. Эта последняя часть доменного имени называется идентификатором или доменом первого уровня. Этот домен может указывать на страну, но для адресов на территории США домен верхнего уровня обычно определяет тип организации, которой принадлежит данный Web-узел. Например:
  • gov — для компьютеров правительственных структур;
  • edu — для учебных заведений;
  • org — для определения учреждений и частных компаний, которые не принадлежат к указанным выше категориям, но и не являются коммерческими. Адреса почти всех американских научных обществ имеют этот идентификатор (например, www.aps.org - адрес сервера Американского физического общества (American Physical Society, APS);
  • com — для коммерческих организаций (фирм и компаний).

Если домен верхнего уровня указывает на страну, то он представляет собой специфический для каждой страны двухбуквенный идентификатор. Например, для России — ru, для Великобритании — uk, для Германии — de, для Италии — it и т.д.

Левее идентификатора, т.е. домена верхнего уровня, указаны домены нижнего уровня, называемые также поддоменами, которые последовательно уточняют местоположение данного компьютера (хоста).

Пользователю легче работать с доменными именами, поскольку они имеют постоянную структуру, позволяющую легко понять, какой организации принадлежит адрес и в какой стране эта организация находится.

Следует помнить, что вводимое вами доменное имя преобразуется в понятный компьютеру цифровой IP-адрес. "Занимается" этим специальная служба Domain Name System (DNS — система доменных имен). Она имеет базу данных, в которой для каждого символического доменного имени компьютера содержится соответствующий ему IP- адрес. Именно благодаря работе DNS можно не запоминать IP-адрес, а использовать более наглядное доменное имя.

1.3. URL-адреса


URL-адрес представляет собой непосредственный указатель информационных ресурсов в Internet. Каждый подключенный к Internet компьютер имеет свой уникальный адрес, представленный или комбинацией цифр (IP-адрес), или определенным сочетанием символов (доменное имя). Однако, этой информации недостаточно, чтобы найти на компьютере конкретный документ, который хранится в виде файла в определенном каталоге. Для получения доступа к нужному файлу необходимо указать путь к нему. Однако, при обращении через сеть этого опять-таки мало — требуется указать, какой протокол должен применяться для доступа к информации.

Все перечисленные элементы (протокол, описывающий метод доступа, адрес компьютера, путь к файлу и его имя) содержатся в уникальном адресе каждого информационного ресурса, называемом URL (Universal Resource Locator - универсальный указатель ресурсов). URL также называют адресом ресурса или просто адресом.

Полный, т.е. содержащий все элементы, URL выглядит следующим образом:

Протокол://адрес_сервера/путь/имя_файла

Протокол, определяющий метод доступа, это первая часть адреса, которая отделяется от остальной его части двоеточием и двумя наклонными чертами (://). Адрес_сервера - это доменное имя компьютера, на котором размещены данные. Путь - последовательность имен каталогов и подкаталогов, в последнем из которых содержится нужный файл. Имена каталогов разделяются наклонной чертой (/).

Имя_файла — имя конечного файла (документа), который нужно найти. Оно должно иметь определенное расширение. Имена Web-страниц имеют расширение html, имена файлов, в которых хранятся научные статьи, - расширение pdf, а имена мультимедиа-документов - расширение gif, jpeg (графика), wav, au (звук), avi (видео) и т.д.

Полный URL-адрес является очень длинным. Его непосредственный набор крайне не удобен и зачастую сопряжен с ошибками. Поэтому в наиболее обширной и важной Internet-службе, называемой Всемирной Паутиной (WWW - World Wide Web), используется аппарат гиперссылок. Под термином гиперссылка подразумевается слово или несколько слов, выделенных из общего текста другим цветом, а иногда подчеркиванием. На самом же деле, это лишь одна, видимая часть гиперссылки, называемая указателем. Вторая ее часть называется адресом ссылки. Когда мы щелкаем на указателе левой кнопкой мыши, происходит считывание адреса ссылки и мы переходим на новую Web-страницу, имеющую именно этот адрес. Гиперссылками могут быть не только слова, но и любые символы и картинки. Если данный элемент является гиперссылкой, указатель мыши при подведении к нему принимает вид кулачка с вытянутым указательным пальцем, а внизу на экране, в строке состояния Web-страницы высвечивается URL-адрес, соответствующий этой ссылке.

Например, адрес американского университета Brigham Young University (BYU) имеет вид: ссылка скрыта . По этому адресу мы попадаем на home page этого университета, что переводится обычно как домашняя (начальная, исходная, заглавная) страница. Именно с нее удобно начинать свое виртуальное путешествие по Web-узлу любой организации, будь то маленькая университетская лаборатория, могучая компьютерная фирма или государственное учреждение. С помощью гиперссылок можно осуществлять переходы от одного документа к другому, который может находиться на другом компьютере и в другой части мира. Если имя файла в URL явно не указано, то по умолчанию загружается файл с домашней страницы.

Адреса электронной почты отличаются от стандартных URL-адресов: они состоят из двух частей, разделенных @. Справа от этого символа указывается доменное имя компьютера, на котором располагается почтовое отделение абонента, а слева от него размещается условное имя абонента. Обычно таковым является комбинация символов, взятых из фамилии и имени.