Федеральное агентство по атомной энергии фгуп «цнииатоминформ» центр «атом-инновация» материалы инновационного форума росатома июнь, 2007 год москва партнеры форума

Вид материалаДокументы

Содержание


Высокопроизводительный кластер «Стрела»
Подобный материал:
1   ...   41   42   43   44   45   46   47   48   ...   60

Высокопроизводительный кластер «Стрела»


Мельников А.И., РФЯЦ-ВНИИТФ

В начале 2004 года в открытом вычислительном центре «Стрела» (г. Снежинск, Челябинская область, Россия, учредителем центра является РФЯЦ-ВНИИТФ) был установлен высокопроизводительный кластер «Стрела». Необходимость создания кластера была продиктована потребностью в больших вычислительных ресурсах для решения научных задач по конверсионной тематике.

Архитектура кластера является вполне традиционной для подобных систем и допускает постепенное наращивание вычислительной мощности. В качестве узлов используются сервера двух типов: HP ProLiant DL380 G3 - 2 процессора Intel Xeon 2.8 ГГц (400 МГц FSB, 512 Кбайт кеш 2-го уровня), оперативная память 4 Гбайт (PC2100 DDR); HP ProLiant DL380 G4 - 2 процессора Intel Xeon 3.2 ГГц (800 МГц FSB, 1024 Кбайт кеш 2-го уровня), оперативная память 4 Гбайт (PC3200 DDR2).

Далее представлены основные компоненты кластера. Вычислительные узлы. В состав кластера входит 33 вычислительных узла, используемых для отладки и выполнения прикладных задач.

Система хранения данных. Обеспечивает долговременное хранение больших объемов данных и включает:
  • дисковую подсистему HP StorageWorks Modular SAN Array 1000 (MSA1000) общим объёмом 2044 Гбайт;
  • ленточную библиотеку HP StorageWorks MSL6030 общим объёмом 12000 Гбайт;
  • коммутатор Fibre Channel HP StorageWorks MSA SAN Switch 2/8, интегрированный с MSA1000.

Файловый сервер. Обеспечивает управление подсистемой хранения данных и предоставляет доступ к ней по протоколу NFS со стороны других узлов кластера.

Сервисный узел. Используется для следующих функций: загрузка операционной системы на вычислительные узлы, экспортирование корневой файловой системы и каталогов с программным обеспечением на вычислительные узлы, выполнение ряда сервисных систем кластера, например, системы планирования и управления задачами.

Фронт-машина. К этому узлу имеют доступ все пользователи кластера. Основное его назначение - подготовка и запуск прикладных программ. Кроме того, здесь находятся домашние каталоги пользователей, которые доступны по NFS с других узлов кластера.

Сервисная сеть. Основана на Fast Ethernet и используется для целей удаленного управления серверами (через платы iLO) и коммутаторами, мониторинга, запуска задач, доступа к файлам по NFS и т.д.

Вычислительная сеть. Используется для передачи сообщений параллельных прикладных программ, для доступа к файлам по NFS и базируется на аппаратуре InfiniBand производства InfiniCon Systems в составе:
  • канальные адаптеры InfiniServ 7000;
  • коммутатор InfinIO 3032;
  • система разделяемого ввода/вывода InfinIO 7000, включающая коммутирующий модуль InfiniBand, модуль расширения VEx (Virtual Ethernet Exchange Card), модуль IBx (InfiniBand 4x) и один модуль VFx (Fiber Channel Exchange Card).

Рабочие места пользователей. В локальную сеть Ethernet включено несколько персональных компьютеров, используемых в основном техническим персоналом и системными администраторами для текущих работ по сопровождению комплекса.

Доступ к кластеру из Internet осуществляется через шлюз, который выполняет также функции сетевой защиты. В настоящее время обеспечивается доступ по протоколам SSH и HTTPS.

Сопровождение и администрирование кластера выполняется в основном через Internet. Наиболее критичные компоненты - файловый сервер, дисковый массив, фронт-машина, сервисный узел, шлюз и коммутаторы Ethernet - подключены к источнику бесперебойного питания.

На кластере используется концепция бездисковых клиентов, что позволяет сократить время на установку и сопровождение вычислительных узлов, повысить надежность системы и сократить энергопотребление.

Далее рассмотрены основные компоненты программного обеспечения кластера «Стрела». Операционная система. На файловом сервере установлена операционная система Red Наt Advanced Server 2.1, на остальных узлах кластера - Red Hat Enterprise Linux AS 3.

Средства управления кластером. Сюда входят служебные утилиты, обеспечивающие такие функции, как удаленное включение узлов (через плату iLO), выполнение команд на группе узлов в параллельном режиме, передачу файлов на группу узлов и т.д.

Системы программирования и отладки. На кластере обеспечивается поддержка языков программирования C, C++ и Fortran. Установлены отладчик и компиляторы GNU из состава дистрибутива Red Hat Linux. Также доступны некоммерческие версии отладчика и компиляторов Intel 7.0, 8.1 и 9.0.

Коммуникационное программное обеспечение. На кластере установлено ПО InfiniServ 3.0 компании InfiniCon, включающее системные драйвера и реализации ряда прикладных интерфейсов. Реализация стандарта MPI-1 (InfiniMPI) основана на свободно распространяемом пакете MVAPICH. Также установлена библиотека MVAPICH2, реализующая стандарт MPI-2.

Система распределения ресурсов и планирования задач. На кластере установлена свободно распространяемая версия системы пакетной обработки PBS – Torque. В качестве планировщика задач используется также свободно распространяемая система Maui. Для удобства пользователей установлен Web-интерфейс – PBSWeb-Lite, позволяющий, наряду с запуском и удалением задач, просматривать их результаты и пересылать файлы между компьютером пользователя и фронт-машиной кластера.

Система сбора статистических данных и мониторинга. На всех узлах кластера установлено программное обеспечение производителя серверов HP, обеспечивающее контроль состояния аппаратуры (температурный режим, скорость вентиляторов и т.д.). В случае критических ошибок администраторам оправляется сообщение по e-mail. Для сбора и накопления различных статистических данных о работе узлов кластера (загрузка CPU, использование памяти и т. д.) применяется свободно распространяемый пакет Ganglia. Кроме того, установлен пакет pbsacct для обработки учетной информации о выполненных задачах, собираемой в PBS. Просмотр статистических данных возможен через web-интерфейс на фронт-машине.

Для оценки реальной производительности кластера были проведены расчеты по программе High Performance Linpack (HPL), используемой для формирования списка 500 наиболее мощных компьютеров мира (0.org). На задаче размером 110000 была достигнута производительность 261.8 Гфлоп/c, что составляет 67% от пиковой производительности кластера (390.4 Гфлоп/c).

С мая 2004 года на основе результатов теста HPL формируется список 50-ти наиболее мощных компьютеров СНГ (computers.ru). Рейтинг организовали Межведомственный суперкомпьютерный центр РАН и Научно-исследовательский вычислительный центр МГУ им. М.В.Ломоносова при поддержке российской компании Т-Платформы. В первой редакции списка TOP50 СНГ кластер «Стрела» занимал 10-ю позицию с производительностью 118 Гфлоп/c. Наращивание памяти и оптимизация программного обеспечения позволили увеличить производительность до 153,8 Гфлоп/c (15-я позиция во 2-й редакции списка TOP50). Последующая модернизация кластера позволила довести данный показатель до 261.8 Гфлоп/c.

Кластер «Стрела» находится в эксплуатации с 2004 года. Все аппаратные компоненты кластера работают стабильно. За время эксплуатации не было зафиксировано ни одного отказа, вызванного неполадками в аппаратуре. Основное назначение кластера – решение ресурсоемких научных задач. Однако этим область его применения не ограничивается. Кластер может использоваться в качестве полигона для различных исследований и разработки прикладного, сервисного и системного программного обеспечения. Ресурсы кластера позволяют также проводить расчеты для промышленных предприятий.