Информация и ее роль в современном мире

Вид материалаДокументы

Содержание


Два типа поисковых систем в Internet: Каталоги и Поисковые системы
Поисковая система
Rambler –
Alta vista –
Русскоязычные каталоги ресурсов
Созвездие Интернет
Каталог “atrus”
Стратегия информационного поиска в Интернет
Поисковые серверы
Электронная почта Интернет
Как работает почта
Подобный материал:
1   2   3

Два типа поисковых систем в Internet: Каталоги и Поисковые системы


Каталог - (англ. web-directory) Систематизированная и рубрицированная подборка ссылок на интернет-ресурсы с описаниями. Каталоги делятся на специализированные (отраслевые) и общие, а также на региональные, национальные и глобальные. В отличие от ссылка скрыта, где индекс создается автоматически, составление каталога - ручная работа по классификации и аннотированию ресурсов. Поэтому обычно в базе каталога меньше сайтов, чем в базе поисковой машины, то есть он уступает ей по покрытию. Каталогами удобно пользоваться, если вы ищете не ответ на конкретный вопрос, а сайты на какую-то тему. Для использования каталога не обязательно набирать поисковый запрос. По каталогу можно перемещаться с помощью мышки - просто двигаясь ("проваливаясь" на следующий уровень) по дереву категорий. Внутри каждой категории сайты могут быть отсортированы самыми разными способами: по алфавиту, по времени создания, по посещаемости и по авторитетности (цитируемости). Неопытные пользователи зачастую не отличают каталоги от поисковых машин, поскольку в каталогах обычно можно искать по запросу, только поиск при этом ведется не по всему интернету, а по описаниям каталога.

Таких каталогом может быть бесконечное множество, ибо количество тем освещаемых в сети Internet бессчетно. Типичными представителями этой категории являются следующие серверы:

Yahoo! (.com)

Magellan (lrtfp://www.magellan.com).

Поисковые машины типа тематических каталогов создаются людьми, которые сами просматривают узлы Web, читают электронную почту и телеконференции. Здесь требуется огромная доля труда квалифицированных специалистов, занимающихся классификацией и анализом поступающих данных. Дополнительным преимуществом каталогов можно назвать специальные обзоры, аннотации и пр., которые готовятся аналитиками этих узлов по различным темам и доступны пользователям этих узлов. Правда, рад зарубежных обозревателей высказывают некоторые сомнения в объективности представления информации по темам, где возможно давление рекламодателей.

Поисковая система -(англ. search engine, синонимы: искалка, поисковый сервер, поисковая машина). Инструмент для поиска информации в интернете. Как правило, работа поисковой машины состоит из двух этапов. Специальная программа (поисковый робот, автомат, агент, паук, червяк, crawler) постоянно обходит сеть и собирает информацию с веб-страниц (индексирует их). Когда пользователь задает запрос, поиск идет по предварительно построенному индексу. Результатом поиска является так называемая поисковая выдача - список ссылок на документы (веб-страницы), соответствующие запросу.

Устройство поискового робота:
  1. Сканнер как система сбора информации:
    1. Сканирование информационного пространства – “пауки”, “ползуны”, “роботы”.
    2. Распознавание и исключение нетекстовых файлов.
  2. Индексатор как система упорядочения и структурирования информации:
    1. Сортировка, слияние и построение индексных таблиц
  3. Подсистема приема и обработки запросов на поиск.
  4. Простые и расширенные поисковые языки.

Поисковые машины обычно имеют специальный язык запросов, с помощью которого можно точнее объяснить машине, что именно надо искать. Однако большинство искалок не требуют от пользователе знания этого языка, как правило, достаточно просто написать в строке запроса несколько ключевых слов, определяющих область вашего интереса. Самым современным искалкам можно задавать запросы просто на естественном, "человеческом" языке. Система сама разберется, какие слова и словосочетания являются ключевыми.
  • Алгоритмы определения релевантных документов.

Ссылки на документы в результатах поиска сортируются по по мере соответствия запросу. Этот критерий называется "релевантность". Способ вычисления релевантности является собственным know-how каждой поисковой машины, поэтому выдача по одному и тому же запросу в разных искалках может заметно отличаться.
  • Подсистема формирования ответов пользователям
    • Структура ответа пользователю на запрос на поиск.
      • URL
      • Степень релевантности.
      • Название документа.
      • Первые строки документа.
      • Объем документа.
      • Дата создания.
      • Порция документов из общего количества найденных.


Наиболее популярные поисковые системы Internet

Поисковый сервер Яндекс

Один из самых популярных серверов российской части Интернет. Имеет большие базы данных, достаточно регулярно обновляемых, и развитый язык запросов.


Официально поисковая машина ссылка скрыта была анонсирована 23 сентября 1997 года на выставке Softool. Основными отличительными чертами Yandex.Ru на тот момент были проверка уникальности документов (исключение копий в разных кодировках), а также ключевые свойства поискового ядра Яndex, а именно: учет морфологии русского языка (в том числе и поиск по точной словоформе), поиск с учетом расстояния (в том числе в пределах абзаца, точное словосочетание), и тщательно разработанный алгоритм оценки релевантности (соответствия ответа запросу), учитывающий не только количество слов запроса, найденных в тексте, но и "контрастность" слова (его относительную частоту для данного документа), расстояние между словами, и положение слова в документе.

Самый простой способ задать запрос - просто написать в строке запроса то, что Вам нужно.

Поисковый сервер Рамблер

Это второй не менее популярный поисковый сервер, а в некоторых кругах и более популярный, поскольку он был первым российским сервером такого класса и качества. В последнее время он стал еще более популярным, поскольку одним из первых в российской части Интернет, перешел на так называемую гибридную схему, которая объединяет элементы поискового сервера с функциями каталогов.

Язык запросов Рамблер

Поисковые слова

В запросе вы можете использовать одно или несколько слов, разделенных пробелами. Могут быть использованы как русские, так и английские словосочетания. По умолчанию, если вы не используете расширенный поиск и не отметили в нем, что должно встретиться любое слово, считается, что в найденных документах должны содержаться все слова.


Поисковые системы, ориентированные на англоязычного пользователя:

Alta Vista была создана фирмой Digital Equipment Corporation (DEC) для демонстрации возможностей вычислительных машин, построенных на основе процессоров Alpha. Эта задача успешно реализована: ни одно описание SE не обходится без упоминания этой системы, ее впечатляющей мощности и быстродействия. По данным фирмы DEC, в комплексе Alta Vista неутомимо трудится шесть машин, построенных на основе 64-разрядного процессора Alpha 266MHz. Самая мощная из них — AlphaServer 8400 5/300: эта 10-процессорная машина (!) с 6 Гб (!!) оперативной памяти каждую секунду (!!!) обслуживает несколько сотен запросов пользователей, успевая менее чем за секунду (!!!!) просматривать индексную базу данных размером более 45 Гб.

Yahoo! ( www.yahoo.com ) зародилась типичным для каталогов образом: в основе ее лежат ссылки на любимые узлы, собранные двумя студентами Стэнфордского унивеситета Дэвидом Фило и Джерри Янгом. В 1994 г. их увлечение стало основной деятельностью. В 1997 году Yahoo! акционировалась, в результате чего бывшие студенты заработали по очень много миллионов долларов и финансировали строительство очередного корпуса своей alma mater.

Сегодня Yahoo! прочно держит пальму первенства и по объему материала, и по популярности. Она содержит базу данных, описывающую десятки тысяч WEB-узлов. Программное обеспечение представляет собой оригинальную СУБД (некоммерческую), работающую под Unix на сети компьютеров класса Pentium.


Русскоязычные каталоги ресурсов

К наиболее часто посещаемым русскоязычным каталогам ресурсов относятся “Созвездие Интернет” (ссылка скрыта) и “Ау” (ссылка скрыта). Следует отметить, что они в последнее время развивают гибридные технологии и добавляют к своим функциям некоторые аналоги систем поисковых серверов.

Созвездие Интернет

Одна из самых старых и самых информационно наполненных директорий ресурсов русскоязычного Интернет. Имеет весьма разветвленную структуру и множество дополнительных сервисов и возможностей, включая поиск по документам и описаниям серверов, рулетку ресурсов (когда случайным образом выбираются ресурсы из всей базы данных), рейтинг ресурсов, при помощи которого пользователь может увидеть список наиболее популярных серверов.

Каталог “atrus”

Одна из самых “молодых”, но и из самых популярных директорий ресурсов. Содержит очень интересные функции и возможности. Имеет возможность задания сложных запросов как по описаниям, хранящимся в директории, так и по “родственному” поисковому серверу “Апорт” (ссылка скрыта), который, единственный из всех известных российских поисковых серверов, имеет возможность автоматического перевода (как подстрочника) с русского на английский и наоборот!

Стратегия информационного поиска в Интернет

Основная проблема сегодняшнего Интернет состоит не столько в том, что вы не сможете найти что-либо, а в том, чтобы при этом “отсечь” то, что вам не нужно. Это действительно большая проблема! Состояние информационных ресурсов Супермагистрали таково, что практически любой запрос, который имеет ту или иную смысловую нагрузку, приведет к получению некоего набора ответов. Чаще всего, если запрос недостаточно узок, число ответов превышает все разумные пределы.

Например, в поисковой системе “Яндекс” совершенно бессмысленно пытаться формулировать широкий запрос типа “русская литература”, поскольку число возвращенных документов чуть-чуть не дотянет до 100000.

Таким образом, становится понятно, что перед тем как начать поиск, нужно продумать некую стратегию - КАК, ГДЕ и ЧТО искать.

Необходимо отметить, что существует большое количество различных Интернет-серверов, которые предназначены для сбора, хранения и предоставления информации в максимально удобном для пользователя виде. Они делятся на две категории - поисковые серверы и директории ресурсов.

Поисковые серверы - специальные компьютерные комплексы, которые в автоматическом режиме опрашивают все известные им серверы Интернет и заносят в свои колоссальные базы данных все словоформы и их местонахождение. Понятно, что базы данных таких серверов огромны и в них можно найти практически все. Однако как было указано выше, основная задача при работе с такими серверами - грамотно и максимально возможно “сузить” поиск. Если вы это сумеете сделать, то работа с такими серверами практически полностью покроет все задачи навигации по Интернет.

Другой вопрос, если вы начинаете поиск нужной вам информации по принципу “это должно быть что-то из такой-то темы”. Здесь вы не можете создать грамотный узкий запрос и вам придется использовать стратегию так называемых “Отправных точек” (или порталов, как принято сейчас их называть) Интернет, из которых важнейшими являются директории ресурсов.

Директории ресурсов содержат описание и адреса серверов Интернет, которые заносят в их базы данных системные администраторы или информационные менеджеры этих серверов. Это основное их отличие от поисковых серверов - нет автоматического опроса серверов и доступна только введенная самими поставщиками информация.

К другим типам отправных точек относятся специализированные серверы (собственно “информационные порталы”). Это серверы, содержащие большой объем информации и ссылки на другие ресурсы по определенной тематике. Например, если вас интересуют русские музеи, то вы сразу можете выйти на нужный “пласт” информации, если будете знать сервер ссылка скрыта, который посвящен исключительно этой тематике и ведется очень профессионально и качественно. Аналогичная систуация с библиотечными, образовательными, научными серверами.

Электронная почта Интернет

Электронная почта была одним из первых видов сетевого сервиса, разработанных в Internet. Хотя первоначально основной целью установления сетевых коммуникаций между физически удаленными друг от друга машинами был обмен файлами и использование вычислительных ресурсов компьютеров, разработчики сети обнаружили, что одной из наиболее популярных сетевых услуг стала пересылка личных сообщений….. Сегодня электронная почта является важнейшим сервисом любой сети, а не только Internet.

Электронная почта предусматривает передачу сообщений от одного пользователя, имеющего определенный компьютерный адрес, к другому. Она позволяет людям, находящимся на больших расстояниях, быстро связаться друг с другом. Электронная почта – сервис позволяющий передавать и получать сообщения между адресатами сети в режиме off-line. Сервис e-mail является самым старым сервисом Internet, и поэтому число пользователей его очень большое – сотни миллионов человек.

(Слайд 1) Передачей эл. почты занимаются специальные программы, реализующие почтовые протоколы, пользователи этого сервиса используют специальную адресацию почтовых ящиков. В качестве стандартного способа передачи почты в Интернете используется стандартный протокол SMTP (Simple Mail Transfer Protocol – Простой Протокол Передачи Почты), семейства TCP/IP. Этот протокол обладает основными возможностями управления передачей данных и реализуется посредством команд и ответов на них

Для поддержания SMTP используются специальные почтовые компьютеры – серверы и программы - серверы: Почтовая система, построенная на основе протокола SMTP, работает с сообщениями посредством очередей. В соответствии с настройками сервера на почтовом узле, может выстраивается очередь сообщений предназначенных для отправки. Затем в определенное время сеанса связи накопленные сообщения передаются. Однако большинство современных систем не накапливает сообщений, а передают сразу.

Для работы пользователей с почтой используются программы – клиенты электронной почты (e-mail client): Microsoft Outlook, Outlook Express, The Bat!, Eudora, Lotus Mail, Netscape Mail, Netscape Messenger,.

Как работает почта:

Пользователь с помощью одной из почтовых программ-клиентов формирует письмо – пишет текст, адрес и некоторую другую информацию и посылает по локальной сети на почтовый сервер, который либо ставит его письмо в очередь, либо отправляет сразу через Интернет почтовому серверу получателя. Письмо может пройти через несколько почтовых серверов. Почтовый сервер получателя время от времени проверяет – включен ли компьютер получателя и работает ли у него программа – почтовый клиент, если почтовый клиент присылает запрос на чтение почты, то все письма с этого сервера пересылаются на рабочую станцию получателя.

Для получения почты программой клиентом с почтового сервера используются протоколы POP3 и IMAP, (протокол SMTP для отправки почты).
  • POP3 – вся почта e-mail сервера переписывается на рабочую станцию получателя.
  • IMAP – чтение сообщений с сервера без загрузки на клиент – читаются только заголовки писем, а далее получатель определяет, какие письма передавать на его машину, а какие нет.

Почтовый сервер со стороны пользователя доступен только после передачи на него прав доступа пользователя, которые определяется следующими параметрами: (Слайд 2)

1. учетная, регистрационная запись (логин) – набор символов, имя (например:ecology)

2. адрес в электронной почте – обычно используют имя и домен почтового сервера (еcology@bntu.by)

3. пароль – позволяет защитить почту от прочтение посторонними.

Для повышения безопасности некоторые почтовые клиенты (почтовые серверы) предлагают пользователю использовать разнообразные методы шифрования сообщений. При использовании должен убедиться в следующием:

1. способ шифрования надежен,

2. клиент-получатель умеет расшифровать сообщения

Наиболее надежная система шифрования : DES (Data Encryption Standard) Одна из простых ROT13 MIME64 – старая, но надежная. PGP – современная мощная, но процесс кодирования достаточно трудоемок, но уровень защиты очень высок.

Кроме передачи самих писем, в настоящее время есть возможность присоединять (attach) любые файлы к письму, таким образом передаются графические, звуковые и видео файлы. Кроме того, современные почтовые клиенты поддерживают написание и отображение писем в формате HTML.