Авторефераты по всем темам  >>  Авторефераты по техническим специальностям  

На правах рукописи

       

Хрусталев Виталий Игоревич

мерА неопределенности информации В задаче выбора прогнозных решений

  Специальность 05.13.01 - Системный анализ, управление и обработка информации (космические и информационные технологии)

АВТОРЕФЕРАТ

диссертации на соискание ученой степени

кандидата технических наук

Красноярск-2012

Работа выполнена в Институте информационных технологий и инженерного образования ФГБОУ ВПО Хакасский государственный университет
им. Н. Ф. Катанова, г. Абакан

Научный руководитель:        доктор технических наук, доцент

Дулесов Александр Сергеевич

Официальные оппоненты:  Медведев Александр Васильевич

доктор технических наук, профессор, Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнёва, профессор кафедры системного анализа и исследования операций

 

Пимонов Александр Григорьевич

                                                        доктор технических наук, профессор,

Кузбасский государственный

технический университет
им. Т.Ф. Горбачева, профессор кафедры прикладных информационных технологий

                                                       

Ведущая организация:        ФГБОУ ВПО Сибирский федеральный университет, г. Красноярск

Защита состоится  9 ноября 2012 г. в 15 часов на заседании диссертационного совета Д 212.249.02 при ФГБОУ ВПО Сибирский государственный аэрокосмический университет имени академика М.Ф. Решетнёва по адресу 660014, г. Красноярск, проспект имени газеты Красноярский рабочий, 31

С диссертацией можно ознакомиться в научной библиотеке Сибирского государственного аэрокосмического университета имени академика М.Ф. Решетнёва

Автореферат разослан л___  октября 2012 г.

Ученый секретарь

диссертационного совета                                                 А.А. Кузнецов

                       

ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ

Актуальность работы.

Современные задачи выработки прогнозных решений направлены на обеспечение эффективного управления сложной системой, сохранения её устойчивого состояния и обеспечения устойчивых связей с внешними объектами. Решение такого рода задач достигается в основном за счет внедрения новейших технологий, в том числе и информационных.

Влияние внешней среды на рассматриваемую систему трудно предсказать: налицо неопределенность информации. Поэтому требования к качеству выработки прогнозных решений не должны ограничиваться разработкой и использованием математических методов и информационных технологий. Востребованы новые подходы и способы решения вопросов, касающихся учета неопределенности информации в прогнозировании параметров, как одного из элементов выработки проектных и плановых решений.

Прогнозирование решает вопросы, связанные с оценкой основных тенденций развития сложной системы, степени влияния факторов внутренней и внешней среды. Прогнозирование основывается на определении аналитических, формальных зависимостей между параметрами анализируемого объекта и реализуется с помощью методов и средств компьютерной технологии. Неопределенность информации здесь также накладывает свой отпечаток на получение конечного результата.

Система прогнозирования решает вопросы, связанные с оценкой основных тенденций развития организации, степени влияния факторов внутренней и внешней среды. Прогнозирование основывается на определении аналитических, формальных зависимостей между параметрами анализируемого объекта и реализуется с помощью методов и средств компьютерной технологии. Неопределенность информации здесь также накладывает свой отпечаток на получение конечного результата.

С развитием информационных технологий возрастает потребность в  применении новых методов, основанных на теории информации, позволяющих оптимизировать различного рода отклонения при оценке перспективности прогнозных решений. Выработка эффективной стратегии прогнозирования, её последующая реализация - получение благоприятного исхода с минимальным риском. Риск можно свести к минимуму, если из многообразия систем прогнозирования будет выбрана та, которая была бы адекватна реальным процессам. Технология выбора должна опираться на единую количественную меру оценки качества принимаемых прогнозных решений, то есть на меру неопределенности информации или информационную энтропию.

Построенные модели, разработанные методы и алгоритмы, посредством обработки данных и сопоставления прогнозных и фактических показателей позволят получить количественную меру, на основе которой можно принять решение о выборе качественной системы прогнозирования.

Степень разработанности проблемы. Совершенствованию систем прогнозирования посвящены многочисленные исследования, которые, прежде всего, направлены на получение точных прогнозных оценок. С другой стороны, повышение качества прогнозов и систем прогнозирования способствует развитию теории и практики научных прогнозов и, в конечном итоге, развитию системного анализа. Поэтому в настоящей работе было выполнено исследование одной из важнейших проблем прогнозирования Ц  выбор качественной системы прогнозирования, применение которой обеспечивало бы минимальный риск обусловленный наличием неопределенности информации при подготовке прогноза.

Автор в своей работе опирался на исследования зарубежных и отечественных ученых. Работы Р. Хартли, К. Шеннона, У. Р. Эшби, М. А. Басина, Н. А. Кузнецова, В. А. Леуса, А. М. Хазена, И. В. Прангишвили, Д.С. Чернавского, В. И Корогодина, В. Гагина, и многих других ученых позволили обобщить, систематизировать и логически увязать исследования автора.

Объектом исследования является система прогнозирования и анализа прогнозных показателей.

Предметом исследования являются: информационные технологии  анализа и обработки данных, методики и способы сопоставления и выбора эффективных прогнозных решений.

Цель диссертационной работы направлена на разработку модели, в основу которой положены инструменты определения меры неопределенности информации для выбора качественных прогнозных решений.

Для достижения поставленной цели предлагается решение задач:

  • рассмотреть основные положения выработки прогнозных решений при составлении планов, подготовке проектов относящихся к задачам с наличием неопределенности информации;
  • оценить возможности применения методов анализа данных и прогнозирования, методик учета неопределенности информации в измерении показателей;
  • обосновать роль теории информации в реализации проектных и плановых решений, возможности применения альтернативных методов определения информационной энтропии как меры неопределенности;
  • принимая во внимание наличие неопределенности информации в технической системе, выделить свойства, особенности и способы определения энтропии для выбора её структурного содержания, удовлетворяющего выработке эффективных прогнозных решений;
  • для определения информационной энтропии создать модель, разработать алгоритм и автоматизировать процесс поиска решений;
  • выполнить эксперимент подтверждающий адекватность модели и алгоритма выбора качественного метода прогнозирования.

Соответствие диссертационной работы избранной специальности. Согласно формуле специальности основным содержанием работы являются теоретические и прикладные исследования закономерностей развития объектов, ориентированные на повышение эффективности управления ими с использованием современных методов обработки информации.

Полученные результаты согласуются с областями исследований (специальности 05.13.01 по пунктам 3 и 11) включая в себя: разработку моделей описания и решения задач обработки информации; методы и алгоритмы прогнозирования, оценки эффективности и качества сложных систем.

Методы исследования. Разработанные в диссертационной работе модели, методы и алгоритмы лежат в плоскости теории информации и прогнозирования. При решении поставленных задач применялись методы прогнозирования, анализа и обработки статистических данных, определения меры неопределенности информации, теории вероятностей и измерений, программной инженерии и теория геометрического обобщения данных.

Научная новизна работы состоит в следующем:

  • выдвинуты теоретические предпосылки о необходимости определения меры неопределенности информации, которые послужили основополагающими материалами для разработки дополнительных инструментов в реализации задачи выбора эффективных прогнозных решений;
  • изложены теоретические положения о применимости понятия неопределенность в задаче сопоставления прогнозных показателей, что явилось основанием для разработки и практического использования метода определения энтропии;
  • рассмотрен и обоснован метод определения структурной сложности системы управления производством. В процессе прогнозирования перспективных вариантов управления, по его результатам (значениям энтропии) можно судить о простоте рассматриваемых структур управления и возможности выбора среди их многообразия качественного варианта;
  • выделены свойства и создана математическая модель определения энтропии, как меры информации о состоянии структуры технической системы, неопределенность которой обусловлена факторами выполнения и невыполнения планового задания. Выделенные в модели свойства энтропии и математические выкладки востребованы при разработке методов определения меры неопределенности в задаче выбора эффективных плановых решений;
  • с целью выбора качественной системы прогнозирования разработаны метод, алгоритм и программное обеспечение  определения энтропии с учетом геометрического обобщения данных. Технология получения конечного результата позволяет (в отличие от подхода Шеннона) учитывать фактор неопределенности, обусловленный  наличием рандомизированного расстояния между значениями событий.

Основные положения, выносимые на защиту:

  • гипотеза о применимости понятия неопределенность в системе измерений к задаче сопоставления прогнозных и фактических показателей;
  • свойства, особенности и математическое описание способов определения энтропии для выбора эффективных прогнозных решений;
  • модель, вычислительный алгоритм и программное средство определения энтропии для выбора качественных прогнозных решений;
  • результаты, полученные на основе расчета меры неопределенности информации и погрешностей, подтверждающие адекватность модели и алгоритма выбора качественного метода прогнозирования

Достоверность результатов. Обоснованность выдвинутых научных положений и представленных выводов подтверждается экспериментами, выполненными на основе строгого математического аппарата и компьютерного моделирования, результатами сопоставления прогнозных и фактических показателей.

Практическая ценность работы заключается в следующем:

  • расширяются возможности применения теории информации в задачах измерения показателей;
  • возможна оценка сложности структуры системы управления и состояния технических систем по выполнению производственных заданий;
  • подтверждается значимость меры неопределенности информации в задаче выбора  прогнозных решений;
  • появляются возможности использования программного обеспечения для выбора качественной системы прогнозирования;
  • развивается теория меры неопределенности информации и  пополняются знания студентами в ходе учебного процесса.

Использование результатов. Результаты работы внедрены в образовательный процесс подготовки студентов информационных специальностей/направлений в Хакасском государственном университете им. Н. Ф. Катанова.

Апробация работы. Основные результаты работы докладывались и обсуждались на 6-ой международной научно-практической конференции: Глобальный научный потенциал (г. Тамбов, 2010 г.), III Всероссийской научно-практической конференции Научное творчество XXI века с международным участием (г. Красноярск, 2010 г.), 2-ой международной научно-практической конференции: Роль науки в устойчивом развитии общества (г.Тамбов, 2010 г.), научно-практическая интернет конференция Современные проблемы и пути их решения в науке, транспорте, производстве и образовании'2011 (Украина, 2011 г.), региональная научно-практическая конференция Катановские чтения - секция Новые информационные технологии (г. Абакан, 2009-2011).

Публикации. По результатам исследований опубликовано 9 печатных работ, в том числе 4 в журналах, включенных в перечень ведущих рецензируемых научных журналов ВАК, зарегистрировано 3 программы для ЭВМ.

Гранты. Исследования выполнялись в рамках НИР: по заданию Федерального агентства по образованию - Развитие синергетической теории информации и моделирование поведения дискретных систем, 2010 г. - Развитие теории самоорганизации систем на принципах упорядоченности и двойственности их структур, 2011 г.; гранта РФФИ, проект 11-07-98021 р_сибирь_а, Обобщенная энтропия как мера определения структурного содержания и надежности технических систем; гранта Хакасского государственного университета им. Н. Ф. Катанова, Оценка реализации проектов на основе геометрического обобщения энтропии, 2010 г.

Структура и объем диссертации. Диссертация состоит из введения, 4 разделов с выводами к ним, заключения, библиографического списка и приложений. Материал изложен на 140 страницах, содержит 3 таблицы, 12 рисунков и 2 приложения. Список цитируемой литературы содержит 94 наименования.

КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫ

Во введении содержится обоснование актуальности и описание текущего состояния проблемы. Имеется цель и задачи исследований. Представлены научная новизна и практическая значимость полученных результатов исследований. Приведены основные положения диссертационной работы, выносимые на защиту, сведения об апробации и внедрении результатов работы.

В первом разделе рассматривается основные положения теории обработки данных и анализ методов прогнозирования.

Рассмотрены основные положения выработки проектных и плановых решений, которые вовлечены в эволюционный процесс технических систем производственного назначения и являются составной частью её управления. При этом результат выработки проектных и плановых решений (при информационной поддержке) во многом зависит от наличия информаций в виде исходных данных, характер которых связан с понятием неопределенность.

Показано, что неопределенность информации, порожденная воздействием трудно предсказуемых факторов, является основополагающим аспектом для построения моделей принятия решений, направленных на реализацию проектов и планов с минимальным риском, в которых система прогнозирования занимает ключевое место. Поскольку система прогнозирования должна быть эффективной, предлагается для выявления её качественного содержания использовать энтропию как меру неопределенности информации.

Дана формализованная постановка задачи, касающаяся необходимости создания моделей, методов и алгоритмов определения энтропии с целью сопоставления между собой методов прогнозирования для выбора наиболее качественного из них.

Для реализации данной задачи рассмотрено ряд существующих методов анализа данных и прогнозирования, применение которых позволяет получать удовлетворительные прогнозы. Среди методов обработки статистических данных были проанализированы: статистическое оценивание; дисперсионный анализ; корреляционно-регрессионный анализ; факторный анализ и др. Анализ показал, что для решения поставленной задачи востребованы методы (например, факторный анализ) эффективность применения которых возрастает при совместном рассмотрении с методами определения энтропии.

Из числа методов прогнозирования рассматривались количественные методы, применяемые в случаях, когда есть основания полагать, что системные параметры имели определенную тенденцию (динамику), которая может продолжиться и в будущем. В числе дополнительных условий была принята достаточность информации для выявления таких тенденций. Проанализированы методы  экстраполяции тренда, экономико-статистические и эконометрические методы, методы экспертных оценок, нормативные методы, нейросетевые модели прогнозирования, а также инструментальная среда их реализации. Анализ данных методов показал, что при прогнозировании параметров системы, особенно в условиях неопределенности, крайне желательно применение таких методов, которые позволяли бы с минимальным риском, то есть с наименьшей погрешностью получать прогноз.

При сопоставлении методов прогнозирования результативной составляющей принята величина ошибки или погрешности, которая определяется исходя из разности между прогнозными и фактическими показателями. Измерение параметров в нашем случае включает в себя совокупность операций для определения отношения одной прогнозируемой величины к другой однородной величине, принятой за стандартную или фактическую величину. Принимая данное определение для решения поставленной задачи, воспользовались понятием погрешность измерений, которое соотносится (в части указанного определения) с понятием погрешность прогнозирования. Поскольку в измерениях такие понятия как погрешность и неопределенность совпадают (в части определения величины разности в сопоставляемых параметрах), понятие неопределенность измерения было заимствовано из теории измерений и распространено на задачу выбора качественной системы прогнозирования. В пользу введения понятия неопределенность в систему измерений прогнозируемых результатов представлены аргументы, среди которых:

  • при выборе наилучшего варианта прогноза требуется сопоставлять их с альтернативными данными (стандартные значения, нормативные показатели, фактические данные);
  • определение дисперсии является косвенным показателем наличия неопределенности, так как позволяет иметь информацию лишь о том, насколько хорошо среднее значение результатов измерения воспроизводит истинное значение;
  • понятие неопределённость позволяет наглядно решать вопрос о соответствии (несоответствии) прогнозных значений качеству установленных нормам или фактическим результатам;
  • если отойти от понятия погрешность, то его можно заменить понятием  неопределенность как это принято в зарубежной практике измерений. При этом можно использовать математические выражения (например, формулы Р. Хартли, К. Шеннона, В. А. Леуса) для определения меры неопределенности информации.

Подход в применении понятия неопределенность измерений позволил на основе информации, полученной путем анализа погрешностей перевести её на вероятностную основу и определить энтропию.

Во втором разделе рассматриваются возможности применения теории информации и энтропии как меры её неопределенности.

В начале раздела представлены обоснования о необходимости исследований в области анализа и обработки информации:

  • техническая система, её состояние и структурное содержание подлежат анализу на предмет содержания неопределенности информации, наличия порядка;
  • анализ данных, факторов (приводящих систему к беспорядку) и их обработка позволяют определить энтропию как меру беспорядка в системе;
  • выработка решений должна быть направлена на противостояние естественному росту энтропии, то есть на сохранение упорядоченности системы.

Показано, что с точки зрения управления информациями, планирование (включая и прогнозирование) можно считать как одну из функций устранения неопределенности в технической системе.

В подтверждение выдвинутых теоретических обоснований рассматривался ряд примеров. С их помощью показано, что при статическом вероятностном анализе получение конкретного количества информации является результатом определенного выбора среди возможных состояний системы, включая и систему прогнозирования.

С целью получения наиболее точных оценок энтропии рассматривались классические подходы, включающие в себя математические выражения, применение которых, в зависимости от объема и количества исходных данных системы, позволили бы судить о её состоянии. Среди существующих подходов в определении энтропии рассматривались методы Р. Хартли и К. Шеннона. При этом полагалось, что система должна быть представлена в виде структуры (или ансамблей) дискретных данных, которая является формальной моделью, отделенной от содержательного наполнения системы. Ансамбли содержат числовые характеристики, отражающие плановые (прогнозные) значения и аналогичные показатели, зафиксированные в результате реализации плана.

В результате анализа подходов в определении энтропии было выявлено следующее:

  1. Мера информации (подход Р. Хартли) позволяет рассматривать дискретные состояния системы, когда исследуются влияния различных факторов приводящих к изменению структуры системы. Учитывая возможные состояния элементов системы как независимые события можно определить степень неопределенности как сумму количества информации по каждому из элементов.
  2. Стохастическая мера информации (подход К. Шеннона) позволяет получать результат определенного выбора среди вероятностной природы возможных состояний системы для дискретных систем:

при условии, ,                                        (1)

где m - число признаков (значений ансамбля), которые может иметь (принять) каждый элемент ансамбля, pi - вероятность появления признака i.

  1. Если подход Хартли справедлив для случая, когда сообщения дискретны и равновероятны, то формула (1) Шеннона позволяет определить среднее количество информации, которое содержится в одном сообщении из множества m не равновероятных сообщений.
  2. Мера К. Шеннона для дискретных систем приемлема для определения энтропии в решении поставленной задачи.

Выбранный подход Шеннона стал основополагающим для разработки метода определения энтропии структурной простоты или сложности системы управления производством как совокупности системообразующих отношений на имеющемся субстрате (сложившейся основе). Основная суть метода заключается в следующем:

  1. Рассматриваемая структура системы управления, состоящая из подразделений (или элементов), отображается в виде графа, в котором вершина отражает наличие в системе подразделения, а ребро - связь, которая определяет наличие отношения между двумя подразделениями.
  2. Составляется список отношений r (например, прямое управление, непосредственное подчинение, косвенное управление, опосредованное подчинение и т.д.) из K наименований: r1, ..., rk, Е, rK. 
  3. Каждому k-му отношению приписывается несколько дуг с единичной экстенсиональной длиной lij, где i-j - дуга графа.
  4. Для каждой вершины графа формируется массив отношений, состоящий из экстенсиональных длин.
  5. Используя данный массив, определяется величина вероятности пребывания элемента i в k-м отношении по выражению: pik = lik/li, где li - суммарная длина, lik - фактическая экстенсиональная длина отношения rk элемента i.
  6. На основе подхода К. Шеннона определяется энтропия, приходящаяся на одно отношение rk и один элемент: . Энтропия по k отношениям, приходящаяся на элемент, определяется суммированием: . Общая энтропия системы управления для всех M массивов, имеющая отношение к структуре, вычисляется по формуле:

.                                                                (2)

Величина H по (2) рассматривалась как мера сложности. Обратное значение этой величины является мерой структурной простоты. Рассматривая несколько вариантов систем управления для одной структуры, определив величины H для каждого варианта, можно судить о его сложности. Вариант системы, у которого мера максимальна, является максимально сложным. Дополнительно заметим, что эксперименты по реализации данного метода на конкретных примерах в работе не рассматривались.

Третий раздел содержит описание свойств, математическую модель  описания энтропии различных состояний технической системы и метод её нахождения с учетом геометрического обобщения статистических данных.

В начале раздела представлены предпосылки к созданию метода определения энтропии с учетом геометрического обобщения данных. На примере показано, что мера Шеннона не может претендовать на полный учет всех факторов, поскольку не позволяет учесть вариацию значений содержащихся в ансамбле данных. Устранение недостатка возможно через реализацию нового подхода к понятию вероятностного пространства стохастических данных, которое должно быть снабжено геометрической структурой путем введения расстояния между элементарными событиями (исходами). Процедура построения вероятностного пространства близости данных, обусловленное  наличием рандомизированного расстояния между значениями событий, получила применение в настоящей работе для определения геометризованной энтропии.

Поскольку на основе структуры технической системы возможно определение меры её упорядоченности, потребовалась разработка модели. Она  описывает свойства и выражения для определения энтропии (как меры степени неопределенности), когда состояния элементов системы рассматриваются как независимые, совместные и возникающие при определенных условиях. В модели предприятие рассматривается как техническая система обеспечивающая производство продукции с наличием структуры, состоящей из элементов. Отличительной особенностью модели (в отличие от уже существующих) является то, что каждый элемент может находиться в одном из двух состояний (исходов): первое - выполнение и перевыполнение планового задания (далее выполнение); второе Ц  невыполнение или недовыполнение планового задания (далее невыполнение).

Значения вероятностей каждого из состояний предлагается получать расчетным путем исходя из опытной эксплуатации системы, либо на основе статистических данных.

Краткое содержание модели. Рассматривая факт нахождения элемента в двух состояниях с вероятностью р выполнения задания и q невыполнения задания можно получить энтропию:

, при условии p + q = 1.                        (3)

Чтобы реализовать выражение (3) в общем виде, согласно теории определения меры информации, выделены свойства, свидетельствующие о том, что энтропия:

  1. является величиной вещественной и неотрицательной так как всегда 0 р 1, то log p 0  и, следовательно, - р log p 0;
  2. ограничена из-за наличия условия: p + q = 1;
  3. будет равна нулю, когда заранее известен исход опыта (p = 1 и q = 0, и наоборот: p = 0, q = 1);
  4. максимальна, если оба состояния элемента равновероятны, то есть когда p = q = 0,5;
  5. для бинарных (двоичных) сообщений может изменяться от нуля до единицы (см. п.1);
  6. достигает максимума, равного единице, при p = q = 0,5.

Опираясь на свойства и особенности применения, энтропия необходима для определения степени неопределенности сложных структур (лсоставных опытов), представляющих собой серии следующих друг за другом испытаний, отраженных в ансамблях данных. Для простейшей системы из двух элементов и , когда элементы в системе функционируют независимо, либо их состояния взаимообусловлены модель предусматривает получение различного рода энтропий:

1. Энтропия элементов функционирующих независимо. Условие о независимости функционирования элементов формально, так как в технической системе большинство из них связано между собой как структурно, так и функционально. Рассматривая выполнение и невыполнение заданий элементами системы в качестве опытов и , для каждого из них фиксируется по два исхода с вероятностями p и q. Для такого обобщенного опыта выполняется правило сложения энтропий:

H(+) = H() + H().                                                                (4)

В развернутом виде энтропия (4) для двух независимо функционирующих элементов записывается следующим образом:

при условии pi+qi=1,                (5)

где  pi - вероятность  выполнения задания i-м элементом системы.

Для n независимо функционирующих элементов:

.                                        (6)

2. Совместная энтропия. Практически все элементы в технической системе взаимосвязаны, поэтому события таких элементов являются совместными. Модель содержит математическое описание в получении энтропии совместного появления для двух статистически зависимых элементов (опытов) и :

, при  ,         (7)

где символы i и j означают, соответственно, порядковые номера исходов.

Совместная энтропия по (7) является мерой неопределенности или мерой разнообразия состояний системы. С ростом числа элементов и, следовательно, совместных состояний, энтропия увеличивается, достигая своего максимума при условии, что вероятности всех совместных состояний одинаковы. На основании свойств, совместная энтропия служит мерой свободы системы: чем больше энтропия, тем больше состояний доступно системе, тем больше у нее степеней свободы.

Выражения для определения совместной энтропии можно применить тогда, когда техническая система рассматривается с позиции неопределенности её разнообразных состояний с тем, чтобы иметь возможность сравнивать их между собой.

3. Условная энтропия. В процессе анализа функционирования технической системы результат одних событий (действий) может полностью определяться результатом второго события . В этом случае энтропия не может быть определена как сумма энтропий H() и H(), поскольку после появления события событие уже не будет содержать никакой неопределенности. Предполагается, что энтропия сложного опыта из и будет равна энтропии первого опыта , а не сумме энтропий опытов и .

Дано математическое описание получения условной энтропии сложного опыта из и , которая в общем виде определяется как

H(/) = H() + H(B/),                                                                (8)

где H(B/) = p() H(/)  +  p() H(/).

Выражение (8) соотносится с правилом сложения энтропий. Средняя условная энтропия H(/), выполнение которой не предполагает заранее известным исход , глубоко отражает взаимосвязь между элементами и .

Свойства и математические выражения энтропии (4)-(8) содержащихся в модели являются основой для разработки методов определения меры упорядоченности технической системы, когда её элементы могут находиться в различных вероятностных состояниях.

Опираясь на предпосылки к созданию методов определения энтропии, в работе рассмотрены возможности её определения с учетом геометризованного расстояния между значениями статистических данных.

Геометризованная энтропия. Известно, что в основе энтропийного подхода вычисления информации лежит формула Шеннона (1) для дискретных систем, которая позволяет измерять информацию количественно только при наличии вероятностных свойств сообщений. Все иные свойства, такие как величина параметров, полезность, принадлежность и пр. не принимаются в расчет. Устранение данного недостатка рассматривается в диссертационной работе посредством введения в формулу Шеннона расстояния между двумя значениями  из ансамбля данных. Суть его в следующем. При определении энтропии случайного распределения показателей кроме рандомизированной меры вероятности р, вводится симметричная неотрицательная вещественнозначная функция (xi,xj) от пар исходов x на основном множестве вероятностного ансамбля как рандоминизированное расстояние . Оно подчиняется естественному условию и ограниченно сверху единицей: Значение определяется по выражению: .

В качестве априорной меры неопределенности дискретного вероятностного ансамбля с расстоянием, принята геометризованная энтропия, определяемая по формуле, в битах

при условии ,                 (9)

получившей название В-энтропия (латинская буква В является началом фамилии ученого - Больцман). Здесь - расстояние между значениями событий i и j.

Опираясь на условие о независимости состояний рассматриваемого элемента и системы в целом, выделены свойства присущие В-энтропии:

  1. является величиной вещественной и неотрицательной так как всегда 0 р 1 и ;
  2. ограниченна в пределах 0 В 1;
  3. будет равна нулю, если все (когда в ансамбле из m данных для всех значений выполняется условие: xi = xj);
  4. переходит в уравнение Шеннона при и ;
  5. достигает максимума (В = 1), , p1 = p2 =,Е, pi =,Е, = pM и когда множество {xi} разделено на два равных подмножества с постоянными значениями xi в каждом.

В работе представлены примеры вычисления по формуле Шеннона (1) и В-энтропии (9), результаты сопоставлены между собой.

Наличие свойств, сопоставление и анализ расчетов показали присутствие существенной разницы в значениях энтропий. В-энтропия обладает возможностями учета не только исходов, но и соотношений  между значениями для пар исходов.

Для расчета неопределенности информации в прикладных задачах использование формулы В-энтропии оправданно с точки зрения получения точных оценок. В-энтропия, по сути, является критерием для отбора качественной системы прогнозирования. Её значение является мерой несовпадения фактических и запланированных параметров. 

Четвертый раздел содержит модель, алгоритм, программу и результаты определения энтропии (с учетом геометрического обобщения данных) применительно к задаче сопоставлении прогнозных и фактических показателей.

Модель определения энтропии. Отклонения прогнозных от фактических значений для фиксированных моментов времени несут в себе вероятностную природу флуктуаций. Разности этих значений (исходы) представляют собой множество X = {x1, x2,Е, xi,Е, xm} состоящее из m элементов. На данном множестве задается распределение вероятностей p(x) если каждому исходу xi поставлено в соответствие число p(xi) такое, что для всех i = 1, 2, Е, m должно быть p(xi) 0, p(xi) = 1. Множество X вместе с заданным на нём распределением вероятностей является дискретным вероятностным ансамблем или дискретным ансамблем {X, p(xi)}. В развернутом виде дискретный ансамбль данных с m возможными состояниями (разностями):

.                                (10)

Поскольку вероятности рi не равны между собой, то естественным считается требование: мера неопределенности должна быть непрерывной функцией вероятностей рi (i=1, 2, Е, m) элементов дискретного ансамбля. Удовлетворяющая этому требованию мера является энтропией:

.                                                        (11)

В вероятностном ансамбле (10) энтропия Н(X) позволяет измерять информацию количественно, а так же является априорной мерой неопределенности выбора.

Имея результаты Н(X) для различных соотношений прогнозных и фактических значений можно судить о мере неопределенности выбора вариантов прогноза или степени отклонения параметров от стандартных значений. В последнем случае значения xi множества X распределены по времени - xi(t), определяемые величины p(xi) также связаны со временем - p(xi,t). Опираясь на свойства очевиден факт: если вероятности рi будут равны между собой (что маловероятно), Н(X) примет максимальное значение.

В случае больших по размерам ансамблей данных модель предусматривает процедуру построения гистограммы, на основе которой определяются вероятности состояний. При этом диапазон варьирования переменной х выбирается в зависимости от требований, предъявляемых к измеряемой величине.

Представленная формула (11) соответствует классической формуле Шеннона определения энтропии через вероятностные свойства отклонений параметров. Для расчета энтропии с учетом геометрического обобщения параметров востребована формула (9).

Алгоритм определения энтропии (реализованный на ЭВМ) является составной частью упомянутой выше модели, предусматривает реализацию задачи о выборе по (9)-(11) и состоит из последовательности шагов:

Шаг 1. Предварительная подготовка входных данных для их автоматической загрузки.

Шаг 2. Выбор интервала на дискретном ансамбле данных и определение разностей между фактическими и прогнозируемыми параметрами.

Шаг 3. Определение шага квантования переменной (разностей).

Шаг 4. Группировка значений переменной для каждого шага квантования, определение частоты попаданий на выделенные шаги и определение вероятностей.

Шаг 5. Выбор способа расчета меры неопределенности по формулам Шеннона или В-энтропии. Её определение для каждого из m возможных состояний и в совокупности по всему ансамблю или выбранному интервалу. При расчете В-энтропии дополнительно определяется все возможные расстояния между значениями событий

Шаг 6. Вывод результатов в графической и аналитической форме для анализа.

Шаг 7. Сохранение полученных результатов.

Для автоматизации обработки данных выполнен анализ программных средств. В качестве базовой технологией реализации программы выбрана платформа Microsoft .NET и язык C# среды разработки - Microsoft Visual Studio 2010.

Разработано программное обеспечение, включающее в себя ряд блоков: аналитический; формирования и обработки данных; взаимодействия клиент-сервер; визуализации данных. Программное обеспечение позволяет пользователю:  строить графики прогнозных и фактических показателей, графики их разностей; гистограммы распределения разностей; графики значений энтропий по Шеннону и В-энтропии; выбирать шаги квантования; хранить и обращаться к данным как в компьютере, так и на сервере; распечатывать результаты и др.

Практическая реализация алгоритма и программного обеспечения определения энтропии касалась решения задачи сопоставления прогнозных и фактических показателей для энергосбытовых компаний, приобретающих на оптовом рынке электроэнергию. Предварительно на сутки вперед компания формирует план-прогноз на покупку электрической мощности на каждый час предстоящих суток. От степени достоверности (соответствия) прогнозных параметров фактическим данным зависит величина штрафных санкций, предъявляемых к энергосбытовой компании со стороны оптового рынка энергии (мощности). Тем самым выбор в пользу более качественной системы прогнозирования позволяет компании избежать риска ошибки при составлении прогнозов.

На предприятии Энергосбыт (г. Абакан) имеется сложившаяся система прогнозирования на сутки вперед. Была взята выборка (из 720 единиц за 30 суток) включающая в себя фактические значения о почасовом электропотреблении.

С целью выбора качественной системы прогнозирования рассматривались возможности использования таких методов и технологий как нейросетевой метод, SPSS и Statistica. Применение каждого из них позволило получить прогнозные значения электропотребления на сутки вперед. Сопоставительная их с фактическими данными получены значения (абсолютной, среднеквадратичной и относительной) погрешностей. Применив  разработанную программу для ЭВМ, по каждому из рассматриваемых систем прогнозирования определены значения энтропии по Шеннону и В-энтропии.

Полученные значения энтропий и погрешностей явились основанием для сопоставления методов прогнозирования между собой (табл. 1)..

Сопоставление методов прогнозирования

Таблица 1

  Оценки

Методы и технол.

Средняя квадратичная погрешность, МВт*ч

Средняя относительная погрешность, %

Энтропия по Шеннону, бит

В-энтропия, бит

Система прогнозирования

предприятия Энергосбыт

0,12

3,10

2,66

0,04

Нейросетевой метод

0,23

5,69

3,50

0,14

SPSS экспертное построение моделей

0,07

1,48

1,95

0,01

SPSS экспоненциальное сглаживание

0,11

2,33

2,48

0,03

Statistica

0,17

4,17

2,99

0,06

Максимальная величина

-

100

7,39

1,0

Как видно из табл. 1, сопоставляя значения энтропий и погрешностей, подтверждается гипотеза о применимости метода определения меры неопределенности для выбора эффективного количественного метода прогнозирования.

Предложенный алгоритм определения энтропии может быть полезен не только для сопоставления прогнозных, но и плановых показателей с фактическими данными, что позволит судить о степени подготовленности того или иного плана.

ОСНОВНЫЕ ВЫВОДЫ ПО РАБОТЕ

Решая задачу определения меры неопределенности информации в задаче выбора прогнозных решений, получены следующие основные результаты:

  1. Рассмотрены основополагающие аспекты выработки прогнозных решений в их увязке с понятием неопределенность информации, которое является важнейшим фактором при построении моделей принятия решений с минимальным риском.
  2. Анализ классических методов прогнозирования и обработки данных показал необходимость их модернизации, создания и применения новых методов, алгоритмов и программ ЭВМ, результативность которых повысится за счет возможностей измерения неопределенности информации.
  3. Рассмотрены теоретические положения об измерениях показателей, а также перспективы применения новых возможностей в определении количества информации при решении задачи оценки результатов прогноза. В отличие от используемого ранее понятия лизмерение, показана важность понятия неопределенность информации при сопоставлении прогнозных параметров с нормативными (фактическими) параметрами.
  4. Показана необходимость применения энтропийного подхода, позволяющего определять (измерять) информацию, содержащуюся в исследуемом объекте относительно объектов, с которыми он  взаимодействует. Выделены классические подходы Хартли и Шеннона в определении меры информации. Показана важность и возможности применения каждого из них к задаче определения энтропии результатов прогнозирования.
  5. Разработан метод определения энтропийной меры структурной сложности (простоты) системы управления производственным процессом Полученные величины энтропии позволяют судить о сложности каждого из рассматриваемых структурных вариантов системы управления.
  6. Для определения меры упорядоченности технической системы выделены различные вероятностные состояния её элементов (к которым отнесены выполнение и невыполнение планового задания), рассмотрены свойства и получены математические выкладки определения энтропии. Полученные результаты могут послужить основой для разработки методов определения энтропии состояния технических систем, в которых элементная структура изменяется под воздействием вероятностных факторов.
  7. Показано, что при создании информационных технологий обработки данных и определения энтропии, необходим новый подход к понятию вероятностного пространства стохастических данных, которое должно быть снабжено геометрической структурой путем введения расстояния между элементарными событиями (исходами).
  8. Рассмотрена математическая модель геометрического обобщения энтропии (В-энтропии). На основе данной модели выделены свойства В-энтропии и разработан алгоритм, учитывающий при определении энтропии (по сравнению с подходом Шеннона) разность между значениями рассматриваемых статистических данных.
  9. Разработано программное обеспечение определения информационной энтропии по Шеннону и В-энтропии, включающее в себя набор визуальных компонент, технологию привязки данных к элементам пользовательского интерфейса и гибкий механизм настройки отображения элементов интерфейса.
  10. Применительно к деятельности предприятия Энергосбыт (г. Абакан) выполнена задача прогнозирования потребления электроэнергии различными методами. Сопоставительная оценка отклонений прогнозных показателей от фактических и определение значений информационной энтропии позволили выбрать наиболее качественный метод прогнозирования.
  11. Результаты исследований внедрены в учебный процесс подготовки студентов информационных специальностей/направлений в Хакасском государственном университете им. Н. Ф. Катанова.

СПИСОК ПУБЛИКАЦИЙ АВТОРА ПО ТЕМЕ ДИССЕРТАЦИИ

Статьи опубликованные в журналах по перечню ВАК

  1. Хрусталев В.И., Дулесов А.С., Семенова М.Ю. Свойства энтропии технической системы // Фундаментальные исследования № 8, 2011. -С. 631-637
  2. Хрусталев В.И., Дулесов А.С., Швец С.В. Применение формулы Шеннона и геометрического обобщения для определения энтропии // Перспективы науки № 3(05) 2010. - C. 94-98
  3. Хрусталев В.И., Дулесова Н.В. Совершенствование системы управления производством: определение энтропийной меры ее субстрактно-структурной сложности // Перспективы науки № 8(10) 2010. - C. 33-37
  4. Хрусталев В. И., Дулесов А.С.Определение энтропии как меры информации при сопоставлении прогнозных и фактических показателей предприятия // Современные проблемы науки и образования, № 1, 2012. (Электронный журнал) URL: www.science-education.ru/101-5290 (дата обращения: 17.01.2012).

Монографии

5. Хрусталев В.И., Дулесов А.С. Неопределенность информации в задаче прогнозирования // Информационные технологии: приоритетные направления развития: монография. - Книга 7. - Новосибирск, 2012. - С. 97-112

Другие публикации

  1. Хрусталев В.И., Дулесов А.С., Карпушева Т.В. Информационные взаимосвязи в технических системах и оценка количества информации // Матер. III Всероссийской научно-практической конференции Научное творчество XXI века с международным участием, Красноярск, 2010.
  2. Хрусталев В.И. Определение энтропии с учетом геометрического обобщения сложного ансамбля данных // Матер. 6-ой международной научно-практической конференции: Глобальный научный потенциал, Тамбов, 2010.
  3. Хрусталев В.И., Дулесова Н.В. В-энтропия сложного ансамбля данных инвестиционного проекта // Матер. 2-ой международной научно-практической конференции: Роль науки в устойчивом развитии общества, Тамбов, 2010.
  4. Хрусталев В.И., Дулесов А.С. Неопределенность в системе измерений прогнозируемых параметров // Сборник трудов SWorld. Материалы международной научно-практической конференции Современные проблемы и пути их решения в науке, транспорте, производстве и образовании '2011. - Выпуск 4. Том 5. - Одесса: Черноморье, 2011. С.38-41.

Свидетельства о регистрации электронного ресурса

  1. Вычисление энтропии ансамбля данных / Хрусталев В.И., Коняев А.А. // Регистрационный номер в ФАП:аPR11042, Дата регистрации в ФАП:а2011-06-14
  2. Хрусталев В. И. Определение меры неопределенности информации по Шеннону.  Свидетельство о государственной регистрации программы для ЭВМ №2012610018. Зарегистрировано в Реестре программ для ЭВМ 10 января 2012.
  3. Хрусталев В. И. Вычисление энтропии с учетом геометрического обобщения данных. Свидетельство о государственной регистрации программы для ЭВМ №2012610848. Зарегистрировано в Реестре программ для ЭВМ 10 мая 2012.

Хрусталев Виталий Игоревич

Мера неопределенности информации в задаче выбора

прогнозных решений

Автореферат диссертации на соискание ученой степени

кандидата технических наук

  Авторефераты по всем темам  >>  Авторефераты по техническим специальностям