Министерство образования и науки Российской Федерации Ростовский Государственный Университет

Вид материалаДокументы

Содержание


Описание системы оперативного выявления проблем в работе телекоммуникационных сетей с использованием методов статистического ана
Ростовский государственный университет, ЮГИНФО
Подобный материал:
1   ...   4   5   6   7   8   9   10   11   ...   75


ОПИСАНИЕ СИСТЕМЫ ОПЕРАТИВНОГО ВЫЯВЛЕНИЯ ПРОБЛЕМ В РАБОТЕ ТЕЛЕКОММУНИКАЦИОННЫХ СЕТЕЙ С ИСПОЛЬЗОВАНИЕМ МЕТОДОВ СТАТИСТИЧЕСКОГО АНАЛИЗА

Березовский А. Н.

Ростовский государственный университет, ЮГИНФО


and@rsu.ru

В настоящее время в работе значительного числа предприятий и организаций все большую роль играют средства коммуникации. К таким средствам относятся и сети передачи данных. Одной из основных задач при эксплуатации сетей является обеспечение ее непрерывной, нормальной работы.

К сожалению, полностью устранить появление неполадок в работе сети не представляется возможным. Поэтому для обеспечения нормальной работы сети используются системы, позволяющие оперативно выявлять (и, следовательно, устранять) возникающие проблемы.

Такие системы должны определять как можно большее число видов сетевых проблем, но при этом свести к минимуму количество ложных срабатываний, нагрузку, создаваемую на компоненты сети и объем работ по развертыванию и обслуживанию самой системы. И конечно, одним из самых важных параметров работы является быстрота выявления возникающих неполадок.

В настоящее время существует достаточно много программных разработок такого рода, однако все они не лишены определенных недостатков. Самые простые из них способны определять сравнительно небольшой класс сетевых проблем, таких как перегрузка канала передачи данных, либо его “падение”. Методы, применяемые этими программными пакетами не в состоянии выявить незначительные изменения в распределении сетевого траффика, которые соответствуют значительно более широкому спектру встречающихся сетевых проблем, таких как неполадки в работе ресурсных серверов, проблемы конфигурации и частичный отказ оборудования.

Системы, основанные на более сложных алгоритмах обнаружения сбоев, например, с использованием сценариев проблемных ситуаций, требуют создания и ведения специальной базы данных сценариев сетевых проблем и правил их обнаружения. Это требует наличия в штате организации специалиста по работе с такими базами и ощутимо повышает стоимость инсталляции и обслуживания систем данного класса. От подобных недостатков, а именно, из-за невозможности достаточно точно задать первоначальные сценарии проблемных ситуаций в работе сети, страдают также системы, базирующиеся на алгоритмах искусственного интеллекта.

Одной из целей работы, выполняемой автором, является разработка алгоритмов оперативного выявления проблем в работе сетей передачи данных в автоматическом режиме, основанных на методах статистического анализа и их программная реализация. Автор считает, что их применение позволит создать систему, лишенную перечисленных выше недостатков и, возможно, добавит системе дополнительную функциональность.

Подход с использованием методов статистического анализа не является новым. Уже достаточно давно экспериментально было показано, что эти методы могут быть использованы для обнаружения некоторых видов сетевых проблем [1,2,3]. Однако, до последнего времени их применимость ограничивалась в основном обнаружением неполадок на крупных магистральных каналах, либо анализом долговременного изменения характеристик работы телекоммуникационной сети с целью прогнозирования ее дальнейшего развития.

Прежде всего, это связанно с характером изменений основных параметров работы сети. Так, для каналов локальной сети изменение в течение небольшого промежутка времени значения некоторых из параметров работы (например, доли используемой пропускной способности) в довольно большом диапазоне есть абсолютно нормальное явление. Поэтому, для получения более стабильной картины приходится либо ограничиваться анализом состояния крупных магистральных каналов, для которых нет подобного разброса значений, либо рассматривать усредненные значения за некоторый достаточно большой интервал времени, что приводит как минимум к снижению оперативности обнаружения неполадок, а как максимум – к невозможности определения некоторых классов неисправностей.

В разработанном автором алгоритме анализируемые данные усредняются за достаточно небольшой промежуток времени, что позволяет оперативно обнаруживать возникающие неисправности в работе сети. Для уменьшения неизбежно увеличивающегося в этом случае числа ложных сигналов о возникающих проблемах используются специальные методы, основанные на анализе продолжительности сигнала об аномальной ситуации и анализе зависимостей между значениями различных характеристик работы сети передачи данных.

Рассмотрим схему работы алгоритма подробнее. Первоначальная задача – сбор информации о параметрах работы сети. Основными из этих параметров являются объем переданной через каналы сети информации, количество ошибок возникших при передаче данных, общее количество переданных пакетов, количество пакетов с неизвестным номером протокола верхнего уровня, количество фрагментированных пакетов и т.п. Для получения величин этих параметров используется протокол SNMP, поддерживаемый большинством сетевых устройств. Кроме того, для обнаружения некоторых классов проблем необходим анализ заголовков пакетов. Для получения этой информации используются данные, экспортируемые по протоколу Netflow для маршрутизаторов фирмы Cisco Systems и собственное, разработанное при участии автора решение – для других типов маршрутизирующих устройств [4]. Данные собираются каждые 15 секунд.

Следующим этапом является обнаружение подозрительных изменений полученных значений. Для этого используется математическая модель нормальной работы сети, в которой значения параметров состоят из следующих трех составляющих:

Y(t) = f(t)+g(t)+e(t),

где f(t) - тренд, медленно меняющаяся во времени функция, характеризующая изменения, связанные с развитием сетевой инфраструктуры;

g(t) - периодическая составляющая, которая может быть описана конечным рядом Фурье и характеризующая изменения, связанные с суточными и недельными колебаниями пользовательской активности;

e(t) - случайная последовательность, относительно которой делается предположение о равенстве нулю ее математического ожидания М[e(t)]=0 и с дисперсией s2=s2(t), посчитанной на основе предыдущих данных с учетом времени суток и дня недели.

Первые два параметра исключаются из рассмотрения, а значение случайной составляющей считается аномальным, если ее модуль в 2 раза больше, чем среднеквадратическое отклонение [5].

Если случайная составляющая значения некоторого параметра работы сети оказывается аномальной, то генерируется сообщение об обнаруженной аномалии, которое передается на вход специальному фильтру. Этот фильтр принимает окончательное решение о генерации сообщений о проблемах в работе сети. Его использование позволяет отсеивать большинство ложных срабатываний, анализируя информацию о продолжительности генерации сообщений об аномальных значениях параметра и учитывая взаимосвязь между различными параметрами работы сети. Так, например, единичное сообщение об аномальной загрузке канала не приведет к генерации сообщения о проблеме в сети, если оно не будет сопровождаться соответствующим сигналом для параметра, характеризующего количество переданных по каналу пакетов.

Созданный авторами программный комплекс, реализующий описанный алгоритм, развернут в сети Ростовского Государственного Университета. Тестирование показало, что его использование позволяет оперативно (в течение нескольких десятков секунд) обнаруживать около 85% фиксируемых проблем в работе сети. При этом количество ложных срабатываний составляет около 0,08% от общего количества проверок.

Список литературы:

  1. F. Feather, R Maxion. Fault detection in an ethernet network using anomaly signature matching, Proceeding of ACM SIGCOMM, Vol. 23, No. 4, pp. 279-288, 1993
  2. R.E. Moore, Problem detection, isolation and notificaton in systems network architecture. Proceeding of IEEE INFOCOM, Vol. 1, pp. 377-381, 1986
  3. R. Maxion, A case study of ethernet anomalies in a distributed computing environment. IEEE Transactions on Reliability, Vol. 39, No. 4, pp. 433-443, 1990
  4. Букатов А.А., Шаройко О.В. Программный комплекс учета загруженности информационных каналов ip сетей сложной топологии, Тез. докладов Международной конференции ТЕЛЕМАТИКА'2001, Санкт.-Петербург, 2001
  5. Бугай А.И., Калинина Э.В., Ретинская И.В., Скуратов А.К. Моделирование некоторых характеристик научно-образовательных сетей методами математической статистики. Труды Всероссийской научно – методической конференции Телематика, 3- 6 июня 2002 года, Санкт–Петербург, изд-во СПбГТУ, с. 213- 214, 2002
p"; ?>