«объединенные сети»

Вид материалаЛекции

Содержание


Поиск в Интернет
Обзор поисковых систем Рунет
Размер поисковой системы
Период обновления страницы в индексах
Поддержка фреймов.
Морфологический поиск
Учет регистра
Использование Интернет в корпоративных информационных системах
К преимуществам этих новых технологий относят
Гипертекст и гипермедиа
Офисные документы
Графическая информация
Архивные файлы
Сообщения электронной почты
Базы данных
Программное обеспечение
Программы просмотра и навигации
Клиентские приложения
Программное обеспечение Web-сервера
Средства поиска информации
...
3
Поисковые системы Интернет

^ Поиск в Интернет

Основные протоколы, используемые в сети Интернет, не обеспечены достаточными встроенными функциями поиска, этот недостаток характерен также и для миллионов серверов Интернет. В то же время, объемы информации, доступной в сети, растут очень быстро. Поэтому можно сказать, что нужную информацию невозможно получить сразу, так как в сети сейчас находятся миллиарды документов, количество которых возрастает согласно экспоненциальной зависимости.

Количество изменений, которым эта информация подвергнута, огромно. Все они произошли за очень короткий период времени. Основная проблема заключается в том, что единой функциональной системы обновления и занесения данного объема информации, одновременно доступного всем пользователям Интернет во всем мире, никогда не существовало. Для того чтобы структурировать информацию, накопленную в сети Интернет, и обеспечить пользователей удобными средствами ее поиска, были созданы поисковые системы.

В состав поисковых систем входят специальные средства поиска и структурирования информации, иногда называемые поисковыми механизмами. Такие средства поиска (они бывают нескольких типов: «агенты», «пауки», «кроулеры») используются для сбора информации о веб-документах, находящихся в сети Интернет. Это специальные программы, которые осуществляют поиск страниц в сети, извлекают гипертекстовые ссылки на этих страницах и автоматически заносят собранную информацию в свою базу данных.

Благодаря такой базе данных, пользователю при поиске информации в сети достаточно посетить страницу какой-либо поисковой системы и заполнить специальную форму. При заполнении формы могут использоваться ключевые слова, даты и другие критерии. База данных отыскивает предмет запроса, основанный на информации, указанной в заполненной форме, и выводит соответствующие документы, подготовленные базой данных. Чтобы определить порядок, в котором список документов будет показан, база данных применяет алгоритм ранжирования. В идеальном случае документы, наиболее релевантные пользовательскому запросу будут помещены первыми в списке. Различные поисковые системы используют различные алгоритмы ранжирования, однако основные принципы определения релевантности следующие: количество слов запроса в текстовом содержимом документа (т.е. в html-коде); теги, в которых эти слова располагаются; местоположение искомых слов в документе и их удельный вес в общем количестве слов документа.

База данных выводит ранжированный подобным образом список документов с HTML и возвращает его человеку, сделавшему запрос. Различные поисковые механизмы также выбирают различные способы показа полученного списка (некоторые показывают только ссылки; другие выводят cсылки c первыми несколькими предложениями, содержащимися в документе или заголовок документа вместе со ccылкой).

^ Обзор поисковых систем Рунет

В русскоязычной части сети Интернет (Рунете) основными поисковыми системами являются ссылка скрыта, ссылка скрыта и ссылка скрыта. Эти системы проводят автоматическое сканирование документов только с доменов .ru, .su (домен СССР), ua и других доменов, принадлежащих странам ближнего зарубежья. При регистрации страницы, располагающейся в зоне .com, робот проверит корневую страницу ресурса, причем при отсутствии русского текста индексация не произойдет. Некоторые важные характеристики названных поисковых систем приведены в табл. 5.4.

Таблица 5.4.

Сравнительные характеристики российских поисковых систем

Название системы

Rambler

Yandex

Апорт

Адрес системы

ссылка скрыта

www.ссылка скрыта

ссылка скрыта

Размер поисковой системы (ПС) (на 31.01.99)

3 815 679 (DOC)

5 143 907 (URL)

24 897 (SERV)

4 512 231 (DOC)

24 772 (SERV)

1 757 208 (DOC)

2 999 585 (URL)

13 264 (SERV)

Количество уникальных пользователей в день (среднее за неделю)

19 344

13 323

6 714

Количество запросов к ПС в день (среднее за неделю)

138 983

50 235

24 057

Период обновления страницы в индексах

от недели

до месяца

7 дней

от недели

до месяца

Глубина индексирования

не ограничена

не ограничена

не ограничена

Поддержка фреймов

+

+

+

Морфологический поиск

+

+

+

Учет регистра

-

+

-

 

^ Размер поисковой системы – это количество страниц, которые проиндексированы роботами поисковых систем на данный момент.

Размер – это основной параметр поисковой системы: (URL) – количество хранящихся в индексах адресов страниц; (DOC) – количество проиндексированных документов. Их, как правило, меньше чем (URL), так как по нескольким URL может находиться один и тот же документ; (SERV) - количество проиндексированных серверов. На одном сервере может располагаться от одной до нескольких тысяч страниц, поэтому данная цифра больше свидетельствует о широте охвата системы, чем об ее информационном объеме. От размера поисковой системы зависит, будет ли веб-сайт представлен в ее индексах, сколько страниц веб-сайта будет проиндексировано и т.д.

^ Период обновления страницы в индексах – среднее и максимальное время, через которое происходит повторная индексация страницы.

Глубина индексирования показывает, сколько страниц, помимо указанной, будет индексировать поисковая система. Как правило, у крупных поисковых машин нет ограничения на глубину, и их роботы пытаются проиндексировать все страницы Web-сайта. Ряд поисковых систем (например, Infoseek, Lycos) при индексации ограничиваются лишь некоторым количеством страниц Web-сайта. Количество страниц зависит как от самой системы, так и от популярности индексируемого ресурса.

^ Поддержка фреймов. Некоторые поисковые системы не понимают фреймовой структуры сайта. Вследствие этого практически все страницы сайта могут быть не проиндексированы.

^ Морфологический поиск. Если поисковая система поддерживает морфологию, то поиск будет осуществляться не только по указанному слову, но и по всем его морфологическим формам. Например, при запросе "баннер" такая поисковая машина найдет также страницы, содержащие "баннера", "баннеров", "баннере" и т. д.

^ Учет регистра. Некоторые поисковые системы чувствительны к запросам с учетом регистра, другие - нет. Например, поисковая система AltaVista при запросе "banner" выдаст Вам все страницы, содержащие слово "banner", где буквы могут быть в любом регистре, но при запросе "Banner" – только страницы, содержащие это слово с заглавной первой буквой.

Кроме названных поисковых систем, популярностью в российской части сети Интернет пользуются следующие системы и каталоги (табл. 5.5).

Одной из наиболее популярных поисковых систем Рунета является Яндекс. Эта система ежедневно «просматривает» сотни тысяч Web-страниц в поисках изменений или новых ссылок. Яндекс не требует от пользователя знания специальных команд для поиска. Достаточно набрать вопрос («где найти дешевые компьютеры» или «нужны телефоны Москвы»), и будет получен список страниц, где встречаются эти слова.

^ Использование Интернет в корпоративных информационных системах

В течение последних лет отмечается развитие новой экономики, основным элементом инфрастуктуры которой является сеть Интернет. Этот новый сектор экономики получил название электронной коммерции (e-commerce). Использование технологий Интернет в бизнесе, по оценкам специалистов, может обеспечить фирме значительные конкурентные преимущества.

В первую очередь, сеть Интернет, как самый большой на сегодня информационный ресурс, обеспечивает информационную поддержку деятельности фирмы. Появляются неограниченные возможности для ознакомления с последними публикациями, проведения маркетинговых исследований, получения консультаций у ведущих специалистов. Интернет является недорогим и универсальным средством обмена информацией. Посредством технологий сети Интернет можно пересылать сообщения электронной почты (e-mail), факсимильные сообщения, сообщения на пейджер и мобильный телефон (SMS), и просто разговаривать с партнерами по бизнесу в реальном масштабе времени (Internet Relay Chat, Net Meeting и IP-телефония).

Но использование Интернет только в качестве информационного ресурса и средства связи малоэффективно по сравнению с внедрением систем электронного бизнеса, использование которых в деятельности компании позволяет ей одновременно достичь нескольких важных целей: от сокращения издержек до улучшения качества управления на всех уровнях и организации новых каналов сбыта продукции (услуг).

Несмотря на существование множества схем, с помощью которых реализуется электронная коммерция, для эффективного использования любой из них компании необходимо заранее позаботиться о том, чтобы интернет-решения были интегрированы с существующими бизнес-процессами. Например, если компания создает веб-сайт с интерактивной формой для принятия заказов от клиентов (так называемую «веб-витрину») и при этом не может оперативно сообщить клиентам, в какой срок будет удовлетворен их заказ, то, скорее всего, компания этих клиентов потеряет. Поэтому, внедряя современные информационные технологии, компания должна провести тщательный анализ собственных бизнес-процессов.

Чаще всего, когда речь идет об управлении бизнес-процессами современного предприятия, имеются в виду корпоративные информационные системы класса MRPII/ERP. Такие системы обеспечивают ресурсное планирование и интегрированное управление всеми бизнес-процессами предприятия и служат надежной базой для применения интернет-технологий. Внедрение MRPII/ERP-систем, как правило, требует серьезного пересмотра внутренней логики работы компании («реинжиниринга бизнес-процессов»). Поэтому предварительный этап, связанный с внедрением этих систем представляет собой системное обследование предприятия, обычно проводимое независимой консалтинговой компанией


Интранет-технология

Можно сказать, что Всемирная паутина (World Wide Web, WWW) представляет собой образец универсальной базы данных. Технология, разработанная для WWW, воплощает идею глобальной информационной базы данных, реализованную в пределах современных возможностей. Эта технология оказалась весьма перспективной и для реализации обмена данными внутри корпоративных сетей предприятий.

С точки зрения терминологии, в настоящее время существуют два созвучных термина – интернет (internet) и Интернет (Internet). Под термином интернет подразумевают технологии обмена данными, основанные на использовании семейства протоколов TCP/IP, в то время как Интернет – это объединение мировых сетей, которые используют технологии интернет для обмена данными.

Интранет (Intranet) – это внутренняя информационная сеть предприятия, построенная на основе технологий интернет.

^ К преимуществам этих новых технологий относят:

- простоту в поиске информации и навигации. Так же как и в системе гипертекстовых документов сети Интернет, единственный навык, необходимый для работы в Интранет – это умение пользоваться «мышью»: с помощью простого выбора гипертекстовой ссылки сотрудник предприятия может перемещаться с одного узла сети на другой. Таким образом, Интранет позволяет организовать единый механизм доступа ко всей совокупности информационных ресурсов и приложений внутри компании;

- внешнюю привлекательность представления информации. За счет использования технологии WWW, текстовая информация, размещенная в корпоративной сети, дополняется графикой, звуком и другими элементами мультимедиа;

- наличие большого количества полезных служб, таких как новости, электронная почта, конференции и т.д.;

- возможность свободной циркуляции информации внутри предприятия, обусловленную простотой поиска, обработки и распространения информации.

Как правило, информация внутри отдельной организации распределена по множеству компьютеров и хранится в виде разнообразных БД, файлов, отчетов и сообщений электронной почты. Единый способ доступа ко всей этой информации чаще всего не организован. Поэтому выходом для многих организаций становится создание Интранет-сетей с внутренними WWW-серверами, облегчающих сотрудникам доступ к разнообразной информации.

В информационную инфраструктуру корпорации могут входить следующие информационные ресурсы:
  • гипертексты и гипермедиа;
  • офисные документы;
  • графическая информация;
  • архивные файлы;
  • сообщения электронной почты;
  • новости;
  • базы данных;
  • прикладное программное обеспечение.

Направление и содержание информационных потоков зависит от природы ресурсов, средств их создания, механизмов и прав доступа к информации.

^ Гипертекст и гипермедиа выполняют роль связующего звена, соединяющего воедино различные информационные ресурсы. Гипертекстовая информация не только отображается и служит для навигации, но и поддерживает диалог с пользователем. При необходимости возможен ввод данных в электронной форме с передачей их на сервер. Пользователь может также пересылать на сервер произвольные файлы.

^ Офисные документы представляют собой тексты, электронные документы, планы и т.п., подготовленные пакетами офисной автоматизации или групповой работы. Доступ к этой информации может быть обеспечен либо в режиме чтения (с использованием программ просмотра), либо полный доступ с возможностью редактирования в той среде, где документ был создан. Помимо навигации с помощью гипертекста возможно организовать контекстный поиск документов.

^ Графическая информация отображается в виде статических иллюстраций, анимации или трехмерных картин виртуальной реальности. Для выполнения навигации с изображением или его частями используют гиперссылки, кроме того, имеется возможность изменять виртуальные изображения.

^ Архивные файлы служат основой электронных архивов документов и программ, доступных на серверах FTP и Gopher для распространения. Пользователь может выбрать нужную информацию и получить ее с сервера по запросу. Загрузка файлов возможна и с WWW-серверов.

^ Сообщения электронной почты представляют собой информационный ресурс, хранимый в почтовых ящиках и общих папках. Они образуют двунаправленные потоки, сообщения можно посылать и получать, не выходя из броузера. Однако больше распространен сбор данных с использованием почты. В общих папках обычно организуются дискуссии, часто задаваемые вопросы FAQ, планы встреч и другие групповые работы.

Новости – динамически изменяемый ресурс, организуемый на основе внешних или внутренних (корпоративных) каналов. Отображение новостей производится по запросу или в режиме бегущей строки. Распространение информации осуществляется методом опроса каналов или широковещательной рассылки, нередко необходима «подписка» на требуемые новости.

^ Базы данных не имеют прямой поддержки в технологии интернет/интранет. Доступ к информации базы данных и ее ведение производится через специальные серверные или клиентские приложения.

^ Программное обеспечение в виде клиентских и серверных приложений составляет важный ресурс сети: гипертекст служит средством создания «меню», ссылающегося на разные общие и специальные прикладные программы.

Благодаря иерархической организации информационной базы сети Интранет, пользователи могут легко находить информацию с помощью различных возможностей поиска и ссылок источников информации друг на друга. Сеть Интранет может интегрировать различную информацию из неструктурированных документов для ее дальнейшего использования в традиционных приложениях. Кроме того, Интранет позволяет унифицировать информацию, которая физически хранится в различных местах, и представлять ее в различных форматах. Финансовые данные могут распространяться в форме электронных таблиц, текстовая информация – в форматах текстовых редакторов, а графическая информация – в виде презентационных документов. Таким образом, пользователи получают информацию прямо на своих рабочих местах и могут работать с ней с помощью имеющихся программ. Несмотря на различие форматов данных, обработка и управление всей информацией осуществляется в рамках единого интранет-приложения.

Сеть Интранет позволяет сократить время доступа пользователей к необходимым документам, так как все документы становятся доступными в любой момент времени в режиме on-line. При этом необходимость печати документов резко снижается, что существенно сокращает и затраты на печать. А поскольку все документы хранятся централизованно, достаточно внести изменения однократно в единственном месте сети вместо множества мест по всему предприятию. Сотрудники получают возможность ознакомиться с самыми свежими версиями документов со своих рабочих мест, что исключает затраты на распространение печатных копий.

Интранет способна облегчить задачу разделения информации различными способами, например, при помощи организации дискуссионных групп, позволяющих обмениваться мнениями о конкретных проектах, заказчиках или продуктах. Любой сотрудник предприятия имеет возможность поместить в сети свою информацию, а с автором того или иного сообщения все желающие могут связаться по электронной почте в рамках интегрированной сети.

Несмотря на то, что основными составляющими сети Интранет являются вполне традиционные элементы: серверы, на которых хранятся данные; клиентские приложения, служащие для просмотра и обработки данных; и сетевая инфраструктура, обеспечивающая взаимодействие компьютеров, следует отметить, что сеть Интранет обладает существенными отличиями от обычной локальной сети большого предприятия.

Технические отличия Интранет от традиционной локальной сети состоят, прежде всего, в независимости протокола HTTP от платформы, что позволяет легко включать и поддерживать совершенно различные локальные компьютеры в рамках одной сети Интранет.

Для ведения перечисленных информационных ресурсов и организации потоков между клиентами и серверами используются различные средства разработки, эксплуатации и сопровождения интранет-приложений.

В состав средств, предназначенных для разработки интранет-приложений, их эксплуатации и сопровождения, входят следующие группы:
  • средства Run-time (времени выполнения);
  • инструментальные средства разработки приложений;
  • средства администрирования.

Средства Run-time включают:
1)      программы просмотра и навигации (браузеры);
2)      клиентские приложения и расширения;
3)      программное обеспечение Web-серверов;
4)      средства поиска информации;
5)      программное обеспечение Интернет-серверов;
6)      средства безопасности и т.п.

^ Программы просмотра и навигации обеспечивают интерпретацию гипертекста или гипермедиа, организацию диалога, активизацию и выполнение клиентских приложений и расширений, обращение к серверным приложениям с передачей входных данных.

^ Клиентские приложения имеют различную природу. Это может быть, прежде всего, гипертекст или гипермедиа. Дополнительную функциональность обеспечивают сценарии на языках JavaScript или VisualBasicScript, мобильные Java-апплеты, helper-программы (редакторы текста, процессоры электронных таблиц и другие готовые программы, активируемые в зависимости от типа файла) и клиентские расширения (ActiveX и Plug-in).

^ Программное обеспечение Web-сервера осуществляет передачу гипертекста, гипермедиа и других файлов клиентам по запросам, активацию серверных приложений, связь с файл-серверами и серверами баз данных.

^ Средства поиска информации помогают найти в Итранет необходимые сведения, удовлетворяющие условиям поиска. Для этого используются как поисковые машины, так и средства управления документами с полнотекстовым индексированием.

^ Программное обеспечение Интернетt-серверов служит для поддержки электронной почты, FTP-сервиса для передачи файлов, возможностей доступа к новостям и др.

^ Средства безопасности могут быть встроены в программное обеспечения серверов или представлены в виде дополнительных компонентов: комплексов Firewall и Proxy-серверов, выполняющих фильтрацию на различных уровнях.

Инструментальные средства разработки Internet/Intranet-приложений очень разнообразны и включают:
1)      редакторы гипертекста;
2)      графические редакторы и конверторы изображений;
3)      средства разметки карт изображений;
4)      средства мультимедиа (аудио, анимация, видео);
5)      средства генерации виртуальной реальности;
6)      системы программирования клиентских приложений;
7)      средства программирования серверных приложений;
8)      системы программирования для создания клиентских и серверных расширений.

^ Редакторы гипертекста предназначены для формирования HTML-файлов. Для создания гипертекста могут использоваться и обычные текстовые редакторы, а также средства, встроенные в браузеры. К этой же группе относятся конверторы офисных документов в гипертекст.

^ Графические редакторы служат для создания изображений, включаемых в гипертекст. Конверторы изображений обеспечивают преобразование форматов, размеров и цветов, создание специальных эффектов.

^ Средства разметки карт изображений позволяют разбить изображение на участки и связать с каждым из них гиперссылки. Такие средства могут быть встроены в графический редактор.

^ Средства мультимедиа предназначены для создания звукового и музыкального сопровождения, анимационных и видео роликов. Часто воспроизведение файлов мультимедиа осуществляется клиентскими расширениями или helper-программами.

^ Средства генерации виртуальной реальности позволяют запрограммировать трехмерные сцены и управление ими на языке VRML. Воспроизведение виртуальной реальности может потребовать дополнительных программных продуктов.

^ Системы программирования клиентских приложений предназначены для разработки и отладки сценариев (на языках JavaScript, VBScript) и мобильных приложений (на языке Java), выполняемых на стороне клиента. Наибольшие удобство и производительность разработки дают средства визуального программирования.

В качестве средств программирования серверных приложений могут использоваться как обычные системы программирования (C/C++, VisualBasic, Java и др.), так и интерпретаторы команд (UNIX-shell, REXX и др.), интерпретаторы и компиляторы сценариев на языках JavaScript, VBScript и Perl.

Для создания клиентских и серверных расширений используются системы программирования, позволяющие разрабатывать компоненты с использованием механизмов ActiveX или Plug-in, представленных в виде встроенных или дополнительных библиотек интерфейсов.