Отчет гнс омвт ифвэ, профессора Клименко С. В. за 2001 год

Вид материала

2 Применение цифровых устройств с программируемой архитектурой в экспериментальной физике высоких энергий (нейросетевые технолог
За отчетный период были получены следующие важнейшие результаты
2.2 Технологические результаты
2.3 Степень новизны полученных результатов
2.4 Сопоставление полученных результатов с мировым уровнем
2.5 Используемые методы и подходы

Подобный материал:

1 2 3 4 5 6 7 8 9

2 Применение цифровых устройств с программируемой

архитектурой в экспериментальной физике высоких энергий

(нейросетевые технологии)

Эта работа частично поддержана грантом РФФИ 00-01-00607.

2.1 Введение

Целью выполнения проекта являются исследования потенциальных возможностей использования алгоритмов искусственных нейронных сетей (ИНС) для сбора и обработки информации в задачах физики высоких энергий (ФВЭ).

За отчетный период были получены следующие важнейшие результаты:

Создано несколько программных реализаций моделирующих поведение ИНС различной архитектуры на языках программирования высокого уровня для традиционных компьютеров.

Создан комплекс математического программного обеспечения для моделирования сигналов регистрирующих детекторов, использующихся в составе установок для экспериментов в ФВЭ.

Были проведены теоретические и экспериментальные исследования применимости алгоритмов ИНС к двум актуальным проблемам физики высоких энергий:

• задаче выделения и обработки редких радиационных распадов нейтральных мезонов рожденных в реакциях перезарядки, измеряемых на экспериментальных установках с использованием электромагнитных калориметров ячеистой структуры (типа ГАМС);

• задаче разделения электромагнитных каскадов от нескольких близких электронов или гамма-квантов в детекторе максимума ливня (ДМЛ).

Результат использования ИНС для выделения редких радиационных распадов нейтральных мезонов позволил подавить влияние фона в четыре раза при эффективности регистрации основного изучаемого процесса на уровне 70%. Отметим, что подобного результата до сих пор не удавалось добиться никаким другим способом.

Изучение разделения электромагнитных ливней в ДМЛ методами ИНС показало, что вероятность их правильной классификации при попадании в детектор одной или двух частиц, взаимодействующих электромагнитно, изменяется от 0,3 до 0,8 при изменении среднего расстояния между осями ливней от 0,5 до 2 единиц радиуса Мольера.

Традиционные алгоритмы разделения близко-лежащих электромагнитных ливней, основанные на статистических методах хотя и позволяют достичь подобного результата, не могут быть использованы для выработки триггера в реальном времени из-за большого времени, необходимого для вычислений.

Решение обеих задач методами ИНС убедительно демонстрируют их перспективность для задач первичной обработки (фильтрации) событий в ФВЭ.

2.2 Технологические результаты

В текущем году планировалось также провести детальное исследование различных архитектур перепрограммируемого процессора. На этой стадии работы над проектом планировалось создание алгоритмов и программного обеспечения нейросетевого эмулятора, а также программного обеспечения для моделирования процессов отбора редких событий с помощью процессоров с программируемой архитектурой. Планировалось также разработать дискретную математическую модель классификатора трех-фотонных распадов нейтральных мезонов для исследования реакций перезарядки. Кроме того была запланирована реализация ядра алгоритма классификации на программируемой логической матрице фирмы ALTERA. Необходимо отметить, что весь комплекс обозначенных задач проводится в нашей стране впервые.

Все поставленные задачи были выполнены.

Дополнительно была начата работа по приложению нейросетевого подхода к построению триггера для сепарации электромагнитных и адронных ливней (известная в физике высоких энергий проблема электрон-адронной режекции). В этом направлении был получен ряд интересных результатов.

Создание цифрового триггера для любого детектора, и в частности для электромагнитного калориметра (ЭК), начинается с выбора алгоритма классификации событий, зарегистрированных детектором.

Для многих типов событий существуют многократно опробованные узкоспециальные алгоритмы классификации, основанные на использовании специализированной логической электроники. Такой подход является достаточно дорогим (для каждой новой задачи эксперимента необходимо создавать новую электронную аппаратуру) и не удовлетворяющим, порой, требованиям на быстродействие.

В то же время в мировой практике физики высоких энергий последнего времени нашли применения весьма общие, легко перестраиваемые и почти независимые от типа данных классификаторы событий, основанные на ИНС. В ходе выполнения работ по проекту была разработана методика и проведена оценка принципиальных возможностей классификатора событий с 3-мя гамма квантами на основе ИНС.

Предполагалось, что события с 3 квантами, попавшими в электромагнитный калориметр образуются в взаимодействиях при 15 ГэВ/c и должны классифицироваться по присутствию или отсутствию .

События c больше 1.8 ГэВ/с моделировались программой PYTHIA. Отбирались события с 3 попавшими в электромагнитный калориметр, с энергией каждого  кванта большей 0.3 ГэВ. Окончательные значения энергий и координат  квантов разыгрывались по нормальному распределению согласно энергетическому и пространственному разрешениям детектора.

Для решения задачи классификации использовалась архитектура нейронной сети, наиболее часто применяемая в физике высоких энергий. Это многослойный перцептрон с одним входным, одним скрытым слоями нейронов и одним выходным нейроном.

Число нейронов входного слоя задавалось размерностью входного вектора, который определялся следующим образом

где — энергия, a и координаты i-го  кванта. Такой выбор входного вектора связан с естественным и наиболее простым представлением данных, получаемых с электромагнитного калориметра. Число нейронов скрытого слоя , которое совместно с размерностью входного вектора задает архитектуру НС варьировалось от 1 до 19. Обучение сети проводилось методом обратного распространения ошибок. Выборки для обучения и тестов состояли из событий каждого класса.

Качество работы сети определяется по классифицирующей способности. Для удобства интерпретации определим классифицирующую способность сети как , где — число событий опознанных сетью как класс 0, а — число событий, опознанных сетью как класс 1, при условии, что выборки событий каждого класса, поданных на вход сети равномощны.

Работа обученных ИНС с различным числом нейронов скрытого слоя тестировалась на независимых выборках событий с разной точностью представления данных. Было исследовано поведение классифицирующей способности сетей в зависимости от числа нейронов скрытого слоя.

Обнаружено, что при числе нейронов скрытого слоя больше чем 8 практически не происходит увеличения классифицирующей способности. Несколько неожиданной оказалась относительно низкая классифицирующая способность ИНС даже при большом числе нейронов скрытого слоя, что указывает на желательность поиска другого представления входного вектора.

Время выработки решения нейронной сетью прямо пропорционально числу нейронов скрытого слоя, а скорость вычисления компонент входного вектора зависит от точности их вычисления. Поэтому результаты исследований указывают на возможность оптимизации полного времени принятия решения триггером путем подбора алгоритма вычисления входного вектора и числа нейронов скрытого слоя ИНС.

При изучении возможности идентификации частиц и достижимые пределы на величину электрон/адронного фактора подавления в составном калориметре нейронная сеть была применена для распознавания/разделения сигналов от частиц разной природы. При этом, с целью получения максимального коэффициента режекции, были рассмотрены различные варианты составного калориметра. Идентификация частиц в составном калориметре была изучена на экспериментальном материале, полученном при исследовании его характеристик. Составной адронный калориметр состоит из ряда счетчиков-сэндвичей, расположенных в областях максимумов адронного и электронного каскадов. Сигналы от адронных и электронных счетчиков образуют пространство признаков частицы, причем адроны и электроны/фотоны заполняют разные области в этом пространстве. Аналитическое описание этих областей достаточно сложно, и в общем случае требует настройки функции разделения. Задача режекции сводится к задаче распознавания образов, хорошо решаемой с помощью методологии нейронных сетей. Применение нейронной сети позволяет получить фактор режекции адрон/электрон на уровне , что трудно-достижимо другими методами, в частности простым пороговым подавлением.

При реализации нейронной сети для экспериментов физики высоких энергий возникает вопрос быстродействия и оптимизации внутренней структуры для решения задач конкретного эксперимента. С учетом возможностей современной схемотехники и электроники для реализации нейронной сети с переменной внутренней архитектурой хорошо подходят программируемые логические матрицы ( float programmable gate array – FPGA). Последние варианты фирмы Altera, которая является лидером в данной области, обладают большим количеством элементарных логических ячеек (logical cell block), превышающее эквивалентных вентилей. Отметим, что на практике достаточно часто возникают потребности в разработке оригинальных цифровых устройств и изделий, не рассчитанных на крупносерийное производство, для которых разработка заказных СБИС не приемлема либо по экономическим причинам, либо по срокам исполнения. В течение длительного времени единственным путем для решения таких задач являлось использование интегральных микросхем.

В последние годы, однако, произошел резкий прорыв как в технологии изготовления FPGA, так и в разработке инструментальных и программных средств, предназначенных для проектирования цифровых устройств на FPGA и выпуска готовых изделий. Технологический прорыв характеризуется резким увеличением числа эквивалентных логических вентилей (до вентилей в ближайшей перспективе на одном кристалле), повышением рабочей частоты (до 400 МГц) с резким одновременным снижением как удельной, так и абсолютной стоимости.

Особенностью устройств этого класса является то, что требуемая структура целевого устройства должна восстанавливаться (записываться во внутреннее статическое ОЗУ) после каждого выключения и последующего включения питания, что требует принятия дополнительных мер по сохранению и восстановлению требуемой конфигурации. Такая особенность на первый взгляд может показаться недостатком FPGA. На самом деле эта особенность является важным достоинством, так как позволяет создавать адаптивные системы с динамически изменяющейся во времени структурой. Иными словами, в разные моменты времени использовать один и тот же кристалл для реализации различных цифровых устройств, которые наилучшим образом соответствуют изменяющимся во времени внешним условиям.

Для разработки цифровых устройств на FPGA фирмы Altera используется интегрированная среда разработки цифровых устройств, коммерческая версия которой называется MAX+PLUS II. При разработке нейронной сети на базе FPGA фирмы Altera проводится работа по моделированию элементарной ячейки нейронной сети — порогового сумматора с передаточной функцией сигмоидного типа, которая задается табличным способом. Оптимизируется количество точек (размер памяти) и точность представления передаточной функции, необходимая для функционирования сети. Рассматриваются сети с разной структурой — количество входных узлов, скрытых слоев и выходных нейронов. Определяется возможный максимальный размер сети при использовании различных типов FPGA и быстродействие.

2.3 Степень новизны полученных результатов

Полученные результаты являются новыми.

Результаты по моделированию использования нейронных сетей для калориметров различных типов и отображению структуры нейронных сетей с табличной передаточной функцией являются новыми, хотя существуют работы за рубежом, где поднимаются аналогичные проблемы.

Использование методов ИНС в любой области деятельности человека (наука, производство, управление, медицина, экономика, финансы и т. д.) бесспорно является новым перспективным делом. Физика высоких энергий не является здесь исключением. Уместно вспомнить, что ФВЭ всегда была пробным камнем, на котором апробировались высокие компьютерные технологии. Работы по использованию ИНС в ФВЭ проводятся в нашей стране впервые, полученные результаты новы и оригинальны.

2.4 Сопоставление полученных результатов с мировым уровнем

История исследования методов обработки информации с помощью ИНС насчитывает несколько десятилетий. За этот период интерес к нейросетевым технологиям то ослабевал, то вновь возрождался, что легко объяснимо практическими результатами достижимыми в рамках технологий, доступных на конкретный исторический момент. В последние годы исследования в области ИНС приобрели заметную динамику. В зарубежных странах, обладающих передовыми компьютерными технологиями, финансирование этого направления исчисляется сотнями миллионов долларов. Заметно возросло число публикаций по тематике ИНС. Только по приложениям ИНС в ФВЭ ежегодно издается более сотни публикаций.

Однако, ощутимые практические результаты использования ИНС пока немногочисленны. Причины тому следующие:

• традиционная вычислительная техника с фон Неймановской архитектурой не лучшим образом подходит для реализации нейросетевых методов;

• путь от теории ИНС к их практическому воплощению в жизнь требует адекватной методологической адаптации, опробованной на модельных задачах;

• применение аппарата ИНС имеет свои особенности, несвойственные привычным подходам, что делает затруднительным их понимание неискушенными пользователями.

Результаты, полученные в работах по настоящему проекту, относятся лишь к исследованиям в области методологической адаптации ИНС к задачам ФВЭ, апробированной на модельных задачах средствами обычной вычислительной техники и в этом плане полностью соответствуют уровню аналогичных работ выполняемых в зарубежных центрах. Отличие наших исследований состоит в том, что решаемые нами задачи ориентированы на приложение к экспериментам в ФВЭ, выполняемым в научных центрах Российской Федерации (ГНЦ ИФВЭ г. Протвино и ОИЯИ г. Дубна). Кроме того по соотношению полученного результата к финансовым затратам на их достижение, данный проект экономически выгоднее по крайней мере на два порядка.

Для воплощения полученных методологических результатов в практику физических экспериментов остро необходимо использование специальных средств аппаратной поддержки ИНС, реализуемых в виде оригинальных ускорительных плат, которые работают параллельно с процессором обычного ПК и берут на себя основную вычислительную нагрузку, превращая основной процессор компьютера в устройство управления и обслуживания последней. Однако, это потребовало бы на порядок большего уровня финансирования.

2.5 Используемые методы и подходы

Свойства центральной нервной системы человека, приобретенные в процессе многовековой эволюции, до сих пор не нашли должного воплощения как в традиционных вычислительных системах с архитектурой фон Неймана, так и в более современных компьютерах с архитектурой параллельных процессоров и транспьютерах. К этим свойствам относятся:

=-2pt

• способности к обучению и к обобщениям на основе опыта

• распределенное представление информации и вычислений

• массовый параллелизм и адаптивность к конкретной задаче

• способность контекстуальной обработки информации

• толерантность к ошибкам

• низкие энергетические затраты.

Естественно предположить, что вычислительная система, построенная на принципах биологических нейронов, будет также обладать перечисленными выше свойствами. Современная ФВЭ, в силу потребности в быстрой обработке и фильтрации гигантских потоков информации с целью отбора изучаемого класса редких процессов в реальном масштабе времени (выработка триггера), крайне нуждается в новых алгоритмах и методах.

Созданное нами математическое программное обеспечение рассматривает ИНС как направленный граф с весовыми связями между отдельными его узлами (имитаторами нейронов). По архитектуре связей, соединяющих нейроны, ИНС разделяются на два класса: сети прямого распространения, в которых графы не имеют замкнутых петель; и рекуррентные сети, или сети с обратными связями. Наиболее распространенным семейством сетей первого класса является многослойный персептрон, в котором нейроны расположены слоями с однонаправленными связями между нейронами каждого из соседних слоев. ИНС прямого распространения являются статическими в том смысле, что при заданных входных параметрах они вырабатывают одну совокупность отклика, который не зависит от предыдущего состояния сети. Рекуррентные сети являются динамическими, так как обратные связи приводят к изменению состояния сети.

Фундаментальным свойством мозга является его способность к обучению на основе опыта. В контексте ИНС процесс обучения рассматривается как настройка весовых связей для наиболее эффективного решения поставленной задачи. Для настройки весовой матрицы сети обычно используют обучающие выборки. Свойство ИНС обучаться на примерах делает их более привлекательными по сравнению с системами, которые следуют определенным правилам функционирования, заданным программами или экспертами. При необходимости ИНС может быть переобучена на решение другой задачи, что делает ее универсальным инструментом, в отличие от последовательных программных или аппаратных систем. Для конструирования процесса обучения необходима модель внешней среды, в которой функционирует нейронная сеть. Эта модель определяет доступную ИНС информацию и парадигму обучения. В нашем случае внешняя среда моделируется специальными Монте-Карло программами отражающими процесс воздействия излучения на экспериментальные детекторы. Различные алгоритмы обучения определяют процедуру, в которой используются правила обучения для настройки матрицы весов.

Для решения обеих задач ИНС имитировались последовательными программными алгоритмами на традиционных вычислительных архитектурах. Для изучения была выбрана структура сети — многослойный персептрон с одним скрытым слоем. Обучения (тренировки) ИНС выполнялись на событиях соответствующих физических процессов смоделированных методом Монте-Карло (искусственных событиях). В качестве обучающего алгоритма использовалось правило коррекции по ошибке. По завершению тренировки ИНС тестировалась на непересекающихся с обучающими выборками как искусственных, так и реальных событий (полученных в экспериментах на установке ГАМС ускорителя ИФВЭ, г. Протвино). Используемые методы и подходы новы и оригинальны в том смысле, что никогда ранее не использовались в нашей стране для приложений ФВЭ.

Blog