Информационное обеспечение процесса управления социально-экономическими системами мезоуровня: теория, методология, инструментарий

Вид материалаАвтореферат диссертации

Содержание


Пятая глава
Когнитивное моделирование.
Рисунок 4 – Укрупненная схема G1 регионального механизма АПК
Рисунок 5 – Когнитивная карта G2 «Взаимодействие производственной
Рисунок 6 – Когнитивная карта G3 «Рынок труда в АПК»
Исследование модели G2.
Исследование модели G3.
Исследование модели G4.
Рисунок 8– Импульсные процессы для когнитивной карты G2
Подобный материал:
1   2   3   4   5
третьей главе «Концептуальные подходы применения классических методов анализа структурированных данных при управлении в социально-экономических системах» проведено изучение проблемы применимости классических и современных подходов к экономико-статистическому моделированию СЭС: рассмотрены проблемы получения данных в СЭС и точности их измерений; выявлены особенности применения современных методов статистического моделирования, связанные с необходимостью выполнения ряда априорных предпосылок относительно исходных данных и описывающих их моделей; рассмотрены практические аспекты использования статистических моделей, связанные с выполнением условий применимости.

При выделении в когнитивной модели концептов, которые можно описать структурированными данными, представленными в виде таблиц количественно-качественных признаков небольшого объема, используются статистические и эконометрические методы, проблемы использования которых обычно основываются на неправильном применении методов анализа данных, в первую очередь – некорректном понимании измерений в СЭС и применении не адекватных методов.

Классический подход, реализуемый математической статистикой, утверждает, что любое наблюдение можно представить как

,

где – наблюдаемое i-е значение переменной X, – точное i-е значение переменной X, – случайная ошибка (погрешность).

Причем обычно предполагается, что ε – это случайная величина, имеющая нормальный закон распределения. Существует мнение, что неопределенность (случайность, нечеткость, неточность), имеющая место при измерениях, вызвана недостатком информации. Проведенные исследования показали, что кроме этого могут рассматриваться и другие неопределенности: принципиальная, сгенерированная большим числом объектов, порожденная высокой платой за определенность, порожденная субъектами рынка из-за недостатка опыта или знаний, связанная с ограничениями во времени или пространстве параметров, вызванная поведением среды или противника.

Также можно выделить внешнюю, вызванную влиянием экзогенных переменных (экология, внешняя политика государства и т. д.), внутреннюю, вызванную влиянием субъекта (средства, ресурсы, квалификация кадров) и структурную неопределенность, характеризующуюся степенью «достоверности» модели поведения объекта.

Таким образом, неопределенность – это характерная черта СЭС.

В настоящее время существует несколько источников исходных данных для эконометрического исследования: 1) данные баз и банков, витрин и хранилищ данных, которые автоматически пополняются; 2) данные статистической отчетности; 3) данные, получаемые путем экспертного опроса.

Рациональный подход к изучению исходных данных должен основываться на учете проявления различных источников ошибок.

Решение проблем точности данных в настоящей работе предлагается рассматривать с той точки зрения, что они (данные) представляют собой информационную модель изучаемой системы и, фактически, являются одной из возможных проекций признакового пространства, характеризующего функционирование объекта и внешнюю среду. Поэтому необходимо изучать свойства объекта (системы) на основании этой модели, предполагая ту или иную природу данных.

Выбор только одной из точек зрения обусловливает целый ряд априорных предположений, которые существенно влияют на результаты моделирования. Так, в настоящее время имеется возможность сбора информации о деятельности предприятий, центров занятости населения и т. д. Утверждение о вероятностной природе данных приводит к соответствующей теории. Другие предположения приведут к другим теориям. Значит, необходимо рассматривать несколько априорных предположений и проверять их согласование с практикой.

Пусть в результате ежегодных наблюдений за некоторым социально-экономическим объектом, например, сельхозорганизациями Краснодарского края, отмечается ряд переменных xj – для i-го предприятия это будут наблюдения xij. Таким образом, все наблюдения – исходные статистические данные – можно представить в виде так называемых панелей (матриц), строки которых соответствуют объектам, а столбцы – наблюдениям:

.

Если T1n = (t1, t2, … ,tn) – вектор-строка, обозначающая n лет наблюдений, то исходные данные с помощью произведения Кронекера можно представить в виде блочной матрицы размерности : .

Графически произведение Кронекера в данном случае можно представить как трехмерный куб.

Проведенные исследования позволили выделить в соответствии с многомерным представлением данных пять классов задач:

1. Рассмотрение срезов куба в пространстве и во времени. Отсюда практически все методы многомерного статистического анализа (прикладной статистики) ориентируются на решение трёх типов задач:

выявление сходства между объектами – строками матрицы (одномерная классификация объектов – простая или комбинированная группировка; многомерная классификация – кластерный и дискриминантный анализ);

анализ взаимодействия между признаками – столбцами матрицы (дисперсионный анализ, корреляционно-регрессионный анализ, ковариационный анализ, факторный и компонентный анализ, путевой анализ и т. д.);

выявление закономерностей (трендов, сезонностей, циклов) изменения признаков предприятия – элементов xij во времени (анализ одномерных и многомерных временных рядов).

2. Применение оператора векторизации, преобразующего матрицу в вектор, позволяет получить матрицу размерности , которую можно представить в виде модели ковариационного анализа.

3. Рассмотрение моделей панельных данных, предполагающих изучение зависимостей и в пространстве, и во времени.

4. Представление данных в виде многомерной модели OLAP-куба с возможностями свёртки (обобщения одного или нескольких измерений и агрегирования соответствующих показателей); развёртки (получения подробной информации об одном или нескольких измерениях); расщепления и разрезания (развёртка на один уровень вниз по одному или нескольким измерениям для ограниченного количества элементов); построения кросс-таблиц, кросс-диаграмм, что для небольших объёмов информации доступно в Excel.

5. Представление данных в виде пространственной базы с привязкой к некоторой базовой системе координат (например, земной поверхности) и использование в географических информационных системах (ГИС) для решения задач визуализации (нанесения информации на географическую карту в виде различных векторных слоёв с информацией о земельных участках, экологическом районировании, почвах, социальных, экономических показателях и т. д.), тематического поиска, анализа местоположения, топографического анализа, анализа потоков (связность, кратчайший путь), пространственного анализа (поиск шаблонов, центров, автокорреляций), измерения (расстояний, периметра, очертания, направления).

Цель решения задач выявления сходства между объектами, анализа взаимодействия между признаками (в пространстве и во времени), выявления закономерностей – получение описания объектов в виде конечных формул для решения задач описания и анализа.

Опыт авторских исследований применения рассмотренных выше эконометрических моделей (подходы 1–3) показывает, что часто они неадекватно описывают реальную социально-экономическую ситуацию. Под адекватностью эконометрической модели мы понимаем достижение целей моделирования (получение моделей, объясняющих имеющиеся данные, моделей для прогнозирования и управления).

Таким образом, в настоящее время общая цель методов анализа данных – выявление знаний на основе свёртки имеющейся информации (в виде формул, таблиц, графиков) для решения прикладных задач: анализа и объяснения особенностей функционирования изучаемой системы, управления, прогнозирования. При этом практические задачи интерпретируются как проблемы разведочного анализа данных, сводящиеся к первичной обработке и визуализации, исследованию и построению зависимостей, классификации и снижению размерности. В последние десятилетия в связи с развитием информационных технологий (ИТ) к ним добавились задачи поиска ассоциаций, последовательностей, паттернов в данных и т. д. Сегодня решение задач построения моделей на основе статистической информации основывается на нескольких основных подходах:

1) вероятностном – обычно с предположением нормальности распределения изучаемых величин (математическая статистика);

2) геометрическом – данные не имеют вероятностной природы и образуют в многомерном пространстве структуры с определенными свойствами;

3) содержательном, предполагающем достижение целей моделирования.

Первые два подхода реализуются в прикладной статистике, третий – в интеллектуальном анализе данных. И первый, и второй подходы постулируют тот факт, что имеет место некоторая модель, обычно линейная, и наша цель – найти для неё оптимальные в определенном смысле параметры. Методы интеллектуального анализа с помощью нейронных сетей, методов эволюционного программирования и других методов машинного обучения итеративно подбирают модель, в определённом смысле наилучшим образом описывающую исходные данные. Следует отметить, что анализ данных – это процесс движения по спирали: от простых методов к более сложным. И если простая (детерминированная, вероятностная) модель позволяет решать наши задачи (анализа, прогнозирования, управления), нет смысла искать более сложные методы.

Подавляющее большинство методов прикладной статистики и эконометрики, используемых экономистами для решения тех или иных задач, первоначально было разработано для конкретных прикладных задач с выполнением ряда априорных условий. Рассмотрение основных аспектов применения ряда методов многомерного статистического анализа и прикладной статистики показало, что практически все классические методы анализа данных изоморфны задаче параметрической идентификации, в которой вид изучаемой модели (обычно линейный) известен.

Считается, что для математического аппарата не важна природа данных, и это позволяет решать различные по смыслу задачи. Однако явления и процессы в социально-экономических системах столь сложны и уникальны в первую очередь из-за влияния социальных, политических и природно-климатических условий, поэтому известные методы прикладной статистики и эконометрики не вполне отражают реальные процессы. В первую очередь это касается априорного предположения о линейности связей, нормальности распределения исходных данных и т. д.

Применение методов прикладной статистики и эконометрики на современном этапе сводится к поиску состоятельных, несмещённых и эффективных оценок априори предполагаемых линейных моделей. Решение этих внутриматематических задач зачастую не позволяет решать практические задачи (прогнозирования, управления, описания механизма функционирования). Именно поэтому используемые методы часто не адекватны изучаемым экономистами явлениям.

Общий вывод из анализа концептуальных условий применимости (для решения проблем управления в СЭС) методов прикладной статистики заключается в констатации ограниченной возможности их использования из-за ряда априорных предположений (линейность моделей, вероятностная или геометрическая природа данных и т. д.), применение обусловливается практическим приложением результатов. Процесс построения модели изучаемого экономического явления должен быть циклическим (рисунок 2) – необходимо соблюдать принципы множественности математических моделей и соответствующих гипотез до достижения приемлемого практического результата.

В четвертой главе «Перспективы использования информационных систем анализа структурированных данных в СЭС для повышения эффективности управления и перехода к экономике «знаний» рассмотрены современные направления интеллектуального анализа структурированных данных: представлены возможности и ограничения использования систем статистического анализа данных; на основании формулировки «новой парадигмы» в анализе данных обосновано использование систем интеллектуального анализа данных для поддержки принятия управленческих решений в СЭС, основанных на извлечении знаний в базах данных.

Создание базы данных и её заполнение – это первый шаг к обработке и анализу данных, целью которого обычно является выявление закономерностей в данных для решения задач прогнозирования и повышения эффективности управления изучаемым объектом. Проведенное исследование показало, что для адекватного решения задач анализа необходимо рассмотреть объект в целом, выявить существующие проблемы или вопросы, на которые мы хотим получить ответ в результате анализа (постановка целей, задач и основных гипотез исследования); выявить те факторы, которые, по нашему мнению, могут способствовать решению наших задач. При этом необходимо учитывать следующее.

1. Анализ описательных статистик, сравнения средних по выборочным данным, например, о рынке труда и занятости населения должен выполняться при условии, что нам известны значения этих характеристик в районе, крае и в стране в целом, т. е. актуализация знаний о генеральной совокупности по выборке необходима для обеспечения надёжного анализа.

2. Импорт переменных из базы данных, приводящий к получению таблиц для анализа и построения зависимостей (или задач классификации и снижения размерности), должен предваряться построением семантических сетей (когнитивных карт), содержащих в явном или скрытом виде гипотезу, которую необходимо подтвердить или опровергнуть в результате анализа.

3. Для адекватного применения методов анализа данных необходимо иметь представление о характере переменных, используемых в анализе. Разработка методологии и системы показателей отображаемого объекта предполагает профессиональное (экономическое, агрономическое и т. д.) изучение сущности задач и может составлять специальную область исследования (например, опытное дело или социально-экономическая статистика рынка труда в сельском хозяйстве и т. д.).

Средства обработки часто включают в табличные процессоры и базы данных, но реальный (и более достоверный) анализ лучше проводить в специализированных пакетах. Существуют профессиональные программы, реализующие системный подход к анализу данных и включающие методы Data Mining. Наиболее известные программные продукты: SAS Enterprise Miner, SPSS Clementine, STATISTICA Data Miner, PolyAnalyst, Deductor. В настоящее время интерфейс большинства программных продуктов соответствует идеологии Windows – имеет интуитивно понятный графически ориентированный подход (результаты анализа представляются в виде дерева, узлы которого – папки с графиками, таблицами результатов анализа, моделями). Практически во всех системах доступны методы визуализации и разведочного анализа в базах и хранилищах данных, методы построения конкретных моделей для формулировки научных или практических выводов.

В системах добычи данных основное внимание уделяется поиску решений, на основе которых можно было бы строить достоверные прогнозы, сценарии и т. д. Сейчас говорят о когнитивной (< гр. gnosis – знание, учение) революции – смене научной парадигмы, произошедшей в 50–60-х гг. ХХ в., проникающей во все области науки. В когнитологии преобладает содержательный подход к изучению знаний; критерием качества когнитивных теорий является их практическая реализация.

Следует отметить, что подобное развитие идей анализа данных косвенно связано с теоремой К. Гёделя о неполноте формальной арифметики, доказанной в 1931 г. Суть ее заключается в том, что любая математическая теория, аксиоматизированная некоторым образом неполна, т. е. в ней существуют положения, которые нельзя ни доказать, ни опровергнуть, оставаясь в рамках этой теории. В связи с этим в 60-е гг. ХХ в. Стаффорд Бир предложил расширить теорию с помощью внешних дополнений, соответствующих целям моделирования («принцип внешних дополнений»), например, построение наилучшей модели прогноза или модели управления. Таким образом, анализ данных об объекте (системе) должен основываться не на индуктивных положениях, составляющих системы, а на дедуктивных особенностях их взаимодействия, что и предполагается при системном подходе.

Результаты функционирования СЭС в настоящее время отражаются в базах данных различных департаментов, государственных, коммерческих структур, служб статистики и т. д. Однако практически эти данные рассматриваются только в разрезе средних значений показателей, всевозможных относительных величин и индексов. Отсутствуют примеры применения современных информационных технологий (ИТ) применительно к извлечению знаний в СЭС для поддержки принятия управленческих решений. Между тем согласно современным представлениям данные содержат знания о внутренних связях и соотношениях между показателями функционирования СЭС.

Применительно к анализу больших объёмов данных различают два класса систем интеллектуального анализа данных: системы класса Data Mining и KDD. Отличительной чертой систем интеллектуального анализа данных является тот факт, что анализ данных проводится с помощью методов машинного обучения (эволюционного программирования, нейронных сетей, деревьев решений и т. д.). При расширении классов решаемых задач к ним примыкают системы нечёткой логики, когнитивных карт и т. д.

Среди российских разработчиков известно два основных продукта класса Data Mining: PolyAnalyst и Deductor. Обе системы фактически являются рабочим местом аналитика, занимающегося анализом данных большого объёма.

Системы ИАД в настоящее время преимущественно используются в бизнесе. Между тем очевидна возможность использования этих систем при решении задач управления в СЭС. Основные предпосылки этого заключаются в возможности использования современных информационных технологий – использования сценариев анализа, включающих создание хранилища данных, загрузку в него информации, извлечение и очистку данных (ETL), интеллектуальный анализ данных, создание отчетов для конечного пользователя (ЛПР).

Изучение современных систем ИАД показало, что:

– все системы ориентированы на извлечение информации из табличных данных (как числовых, так и текстовых) и превращение её в знания, необходимые для управления и принятия решений;

– практически все технологии анализа основываются на теориях 60-х гг. ХХ в., которые относили к методам разведочного анализа данных (прикладной статистики), кибернетики, теории искусственного и машинного интеллекта и computer science;

– в отличие от классических моделей статистики и эконометрики вид изучаемых связей и зависимостей не задаётся априори, а подбирается компьютером итеративно в целях наилучшего описания данных, таким образом, решается задача непараметрической идентификации объекта;

– в качестве критериев адекватности обычно используются (несмотря на частые утверждения об абсолютной независимости от теории вероятностей и математической статистики) формальные вероятностные методы;

– основной целью использования перечисленных выше систем является получение информации для объективного анализа (содержательно-целевой подход). Если формальные методы основываются на идее достижения некоторого критерия, например, F-Фишера (дисперсионный анализ), то содержательные методы предполагают достижение целей моделирования (получение модели для прогноза, управления и т. д.).

Таким образом, все (или почти все) классы систем анализа данных позволяют решать одни задачи, но делают это с помощью разных подходов и позволяют объективно анализировать сложные системы, характеризующиеся структурированной (слабоструктурированной) информацией. Использование методов ИАД обосновывается «новой парадигмой» в анализе данных, соответствующей принципам научного подхода к изучаемым объектам, основанного на знаниях, предположительно содержащихся в данных. Исходные структурированные данные – это информационная модель объекта, описание которой может основываться на трех подходах: вероятностном, геометрическом и когнитивном (основанном на знаниях – экспертных либо содержащихся в данных). В качестве альтернативных средств могут использоваться системы Deductor, PolyAnalyst и Statistica. Преимуществом подобного рассмотрения является возможность построения моделей, опирающихся на различные априорные предположения о природе данных, что согласуется с методологией, предложенной во второй главе.

Пятая глава «Моделирование сложных СЭС на примере АПК и рынка труда Краснодарского края» – посвящена практическому применению разработанной методологии исследования СЭС для поддержки принятия управленческих решений: получены когнитивные модели АПК Краснодарского края и его подсистем, реализующие иерархическое описание региональной системы АПК; проведено статистическое моделирование данных производства продукции растениеводства и рынка труда; получено многомерное описание данных службы занятости в виде куба OLAP; с использованием методов эволюционного программирования проведен интеллектуальный анализ данных службы занятости. Все это позволило осуществить системный подход к изучению объекта в виде описаний, использующих различные априорные предпосылки.

(1) Когнитивное моделирование.

Для формализации процесса анализа социально-экономического состояния Краснодарского края, проектирования и анализа возможных сценариев развития АПК и влияния на них рынка труда был разработан комплекс когнитивных карт (рисунки 4–7).

Для построения укрупненной когнитивной карты АПК Краснодарского края были использованы: модель функционирования региональной экономики Гранберга, методики, предложенные в главе 2, теоретические сведения по сельскому хозяйству, экспертные и статистические данные по Краснодарскому краю.

Если представить схему регионального механизма Гранберга в виде многомерной структуры, в которой измерениями являются концепты, то фактически мы получим многомерный куб.

Рассмотрим срез этого куба по измерению «Производство» (V2) в смысле «Агропромышленный комплекс». На основе этого была получена укрупнённая схема АПК в структуре регионального социально-экономического механизма (рисунок 4).

Качественное свойство АПК региона – множественность (полиструктурность) структурной организации отражается укрупнённой схемой взаимосвязанных основных блоков: «Производственная сфера АПК», «Природная среда», «Занятость», «Население». Схема на рисунке 4 является когнитивной картой в простейшей форме – в форме ориентированного графа.

При разработке когнитивной карты учитывались требования системного подхода к изучению сложных систем – выбор значимых блоков и факторов (показателей состояния АПК), определение направления и силы взаимосвязи блоков и привязки оценки состояния к единому периоду времени.

Блоки обозначены как вершины Vi, i = 1,2,…,9. Эти блоки характеризуются векторами параметров – основных показателей АПК по Краснодарскому краю (рисунок 4).




Рисунок 4 – Укрупненная схема G1 регионального механизма АПК

Краснодарского края (адаптировано автором)


Нумерация связей введена для того, чтобы отдельно можно было охарактеризовать их силу: W – слабая, M – средняя, S – сильная. В экономике современной России сущность и сила связей между элементами регионального механизма и внешней экономической средой (федеральные регулирующие системы, межрегиональный и внешнеэкономический обмен, население) изменяются непрерывно.

Укрупнённая схема АПК в региональной социально-экономической системе позволяет разработать целый комплекс когнитивных карт для отдельных подсистем. В соответствии с задачами диссертационной работы были разработаны некоторые из них: G2 – «Взаимодействие производственной и непроизводственной сфер производства продукции растениеводства»,
G2 = 1-V12, Eij >; G3 – «Рынок труда в АПК», G = 1-V9,Eij >; G4 – «Схема работы службы занятости населения», G4 = 0-V9, Eij> (рисунки 5–7).



Рисунок 5 – Когнитивная карта G2 «Взаимодействие производственной

и непроизводственной сфер производства продукции растениеводства»

(разработано автором)


В соответствии с разработанной методологией были проведены следующие этапы когнитивного моделирования: исследование структурных особенностей, путей и циклов когнитивной карты, анализ устойчивости системы, импульсное моделирование и сценарный анализ. Получены следующие основные результаты.




Рисунок 6 – Когнитивная карта G3 «Рынок труда в АПК»

(разработано автором)





Рисунок 7 – Когнитивная карта G4

«Схема работы службы занятости населения» (разработано автором)


Исследование модели G2. Решение характеристического уравнения матрицы инциденций AG2 – нахождение вектора собственных чисел и определение максимального из них по модулю числа М дали результат:

max{M = (1,09; 1,05; 1,05; 0,01; 0,01;0,251;0,251;0,125;0;0;0;0;0)}=1,09, это дает основание заключить, что система неустойчива ни по возмущению, ни по начальному значению. Циклов 26, из них с отрицательной обратной связью 8, следовательно, система также и структурно неустойчива.

Исследование модели G3. Решение характеристического уравнения матрицы инциденций AG3 – нахождение вектора собственных чисел и определение максимального из них по модулю числа М:

max{M = (0; 0,613; 0,613; 0,469; 0,469; 0; 0; 0; 0)}=0,613 – дает основание заключить, что система устойчива по возмущению и по начальному значению. Циклов 14, из них с отрицательной обратной связью 8, следовательно, система структурно неустойчива.

Исследование модели G4. Решение характеристического уравнения матрицы инциденций AG4 – нахождение вектора собственных чисел и определение максимального из них по модулю числа М:

max{M = (1,14; 1,14; 1,04; 0,166; 0; 0; 0; 0; 0)}=1,14 – дает основание заключить, что система неустойчива ни по возмущению, ни по начальному значению.

Имеется два цикла: V9→V5→V6→V9, V9→V7→V6→V9. Первый являются циклом положительной обратной связи, второй – отрицательной обратной связи, следовательно, структурно система устойчива.

Проанализируем пути для безработных: 1) наличие высшего образования дает 15 возможных путей трудоустройства, из них 14 с положительной обратной связью; 2) наличие среднего профессионального образования – десять возможных путей трудоустройства, из них семь с положительной обратной связью; 3) наличие начального профобразования дает 15 возможных путей трудоустройства, из них 14 с положительной обратной связью; 4) отсутствие образования – 17 возможных путей трудоустройства, из них десять с положительной обратной связью. Таким образом, наибольшие шансы получить работу в СЗ у лиц без образования и с высшим профессиональным образованием.

Проанализируем импульсные процессы в механизме, отображенном на когнитивной карте. Моделирование проводилось на основании формул (2)–(6), реализованных в программе ПС КМ. В целях оценки возможных управляющих воздействий, а также возможных стратегий развития было проведено импульсное моделирование. Выбор вершин и совокупностей вершин, в которые вносились импульсные воздействия, определялся на основании экспертных предложений и анализа симплициальных структур.

Сценарий № 1. Импульс поступает в одну вершину V3 – затраты, видно, что при этом происходит улучшение продовольственной безопасности, увеличение реализованной продукции, что положительно сказывается на качестве жизни населения (см. рисунок 8).




G2: при qv3=1; qv1=-1, qv2=1

Рисунок 8– Импульсные процессы для когнитивной карты G2

(получено по результатам исследований автором)

Сценарий № 2. Импульсы поступают в две вершины: V1-финансы -1 и V2-инвестиции +1. Из рисунка 8 видно, что несмотря на инвестиции, нехватка финансов отрицательно влияет практически на все индикаторы. (Сценарный анализ для когнитивных карт G3-G4 показал, что государственная политика, работа службы занятости положительно влияют на спрос и предложение рабочей силы, а так же на уровень жизни населения и отрицательно на безработицу и т. д.)

(2) Статистический анализ данных в АПК.

1. Важнейшей задачей в сельском хозяйстве является оценка влияния затрат на производство продукции и урожайность. В нашем случае рассматривалось 547 сельскохозяйственных предприятий, из которых 169 принадлежат северной и центральной зонам Краснодарского края – основным производителям зерновых. Рассматривались следующие факторы: затраты на 1га – x1 (тыс. руб.); оплата труда на 1га (тыс.руб.) – x2; затраты на семена на 1га (тыс. руб.) – x3; затраты на удобрения на 1 га (тыс. руб.) – x4; затраты на ГСМ на 1 га (тыс.руб.) – x5; амортизация (тыс. руб.) – x6; урожайность ц/га – y.

Регрессионный анализ с использованием Statistica 6.1 показал, что линейная модель объясняет всего 16,2 % вариации урожайности и кроме свободного члена и затрат на удобрения на 1 га других значимых переменных нет. Результаты пошаговой регрессии, несмотря значимость факторов, включенных в модель, объясняют всего 13 % вариации урожайности. Использование кусочно-линейной регрессии с использованием квази-ньютоновского метода оптимизации позволило получить следующую модель (R2=0,707):

y = (30.358 + 0.582x1 +0.207 x2 -1.694x3 + 1.726x4 - 0.002x5 + 3.932x6)* (y <= 47.199) + (45.686 +1.206x1 + 1.828x2 + 1.029x3 - 0.225x4 - 0.015x5 + -0.885)*(y > 47.199 ).

Поиск законов (в системе PolyAnalyst) позволил найти правило
(R2 =0,4346):

Урожайность = (58.9852 *"Оплата труда на 1га"*"затраты на 1га"*"затраты на 1га"*if(NewVar,1,0.761038)+120.481*"Оплата труда на 1га"*"затраты на 1га")/("Оплата труда на 1га"*"затраты на 1га"*"затраты на 1га"+25.472 *"Оплата труда на 1га"+0.0620379 *"затраты на 1га"*"затраты на 1га").

Регрессия в Statistica и аналогичные средства в системе PolyAnalyst взаимно дополняют друг друга в описании изучаемого процесса. Рассмотрение данных с двух альтернативных точек зрения позволяет лучше вникнуть в суть проблемы. Потенциально с помощью этих моделей (и им подобных) можно прогнозировать урожайность в разные моменты времени или тенденцию к росту или спаду урожайности. Это необходимо для оценки государственными органами потенциальных возможностей сельского хозяйства, полученные модели могут с успехом использоваться в северной и центральной зонах Краснодарского края.

2. Практически при проведении полевого опыта часто регистрируют целый ряд сопутствующих неконтролируемых переменных, меняющихся при повторении опыта – это элементы погодных условий на разных стадиях развития растений, а также элементы структуры урожая. Так, в многолетнем многофакторном эксперименте в ст. Ленинградской Краснодарского края фиксировались в разные периоды вегетации климатические факторы X1-X18:

а) содержание влаги в 0–30-сантиметровом слое почвы: X1 –на период посева, X2 – на период возобновления весенней вегетации, X3 – на период выхода в трубку, X4 – на период колошения, X5 – на период полной спелости;

б) содержание влаги в 0–100-сантиметровом слое почвы: X6 – на период посева, X7 – на период возобновления весенней вегетации, X8 – на период выхода в трубку, X9 – на период колошения, X10 – на период полной спелости;

в) количество осадков X11 – за с/х год VIII–VII, X12 – за IX–XI – период осенней вегетации, X13 – за IV–VI – период весенне-летней вегетации, X14 – за V–VI – период от колошения до созревания;

г) гидротермический коэффициент X15 – на период посева, всходов, X16 – на период возобновления весенней вегетации, X17 – на период выхода в трубку, колошения, X18 – на период колошения, восковой спелости, X19 – на период восковой спелости.

Перечисленные выше климатические факторы, переменные Xs – ковариаты, наблюдались на фоне двухфакторного иерархического опыта: фактор B-доза внесения удобрений «сгруппирован» внутри главного фактора A-предшественник. Фактор А наблюдался на пяти уровнях: эспарцет, озимая пшеница, подсолнечник, кукуруза, озимая пшеница. Фактор B наблюдался на трех уровнях: без удобрений, средняя доза NPK, органоминеральная система. Опыт проводился с 1979 по 1998 гг., результаты опытных данных были объединены в одну таблицу, годовые данные полевого опыта использовались в качестве повторений (по 20 повторений для каждого сочетания предшественника и дозы внесения удобрений), расчеты проводились с использованием многолетней средней.

С использованием системы Statistica 6.1 была получена модель, в общем, объясняющая 70,5 % вариации урожайности (множественный коэффициент корреляции R равен 0.84 и является значимым при уровне значимости менее 0,05). В полученной модели значимы все факторы, кроме X12, X16, X18.

Анализ показал, что наибольшую долю влияния на урожайность дает доза внесения удобрений, затем предшественник и их взаимодействие. Затем согласно доле влияния содержание влаги в 0–100-сантиметровом слое почвы на период полной спелости; количество осадков за с/х год VIII-VII; X9; X7; X13; X15.

Полученная модель ковариационного анализа может с успехом использоваться в северной зоне Краснодарского края, но сама идеология применения ковариационного анализа для обработки данных многолетних многофакторных опытов, конечно, применима везде. Необходимость подобных моделей подтверждается опытом развития аграрной науки как у нас в стране, так и за рубежом.

(3) Статистический анализ данных службы занятости населения.

Характеристика данных. Источником данных для анализа являлась база данных, основанная на карточках учёта лиц, обратившихся в государственную службу занятости одного из районов Краснодарского края. Всего рассматривалось свыше 250 признаков. Нами были выбраны социально-демографические признаки: пол, дата рождения, образование, а также профессионально-квалификационные характеристики: общий стаж, профессии (по образованию, первая–четвертая профессии, последняя профессия), средний размер оплаты труда за последний год. На основании перечисленных выше переменных были сформированы следующие переменные: возраст на момент закрытия карты, число профессий, число дней до трудоустройства.

Кроме того, рассматривались причины закрытия карты, категории незанятости. База данных до 2007 г. формировалась только с учётом лиц, добровольно обратившихся за содействием в поиске работы. С 2007 г. в базе данных стали учитываться и лица, обратившиеся в СЗ за консультацией. Поэтому исследование проводилось лишь для безработных, которые обратились в СЗ с 1.01.2004 по 31.12.2006 г. В этот период, несмотря на некоторые изменения в трудовом законодательстве, средний приток безработных в СЗ не изменялся. При изучении молодёжного сегмента рынка труда на основании данных службы занятости нами была рассмотрена молодёжь в трёх возрастных группах (16–19, 20–24 и 25–29 лет, как наиболее близких друг другу. В первой группе, как правило, нет профессий, вторая группа находится в процессе получения профессии и третья группа – это лица, уже получившие образование и имеющие несколько профессий. За исследуемый период в районной СЗ получил статус безработного 10441 человек, из них лица в возрасте 16–29 лет – 4390 человек. Временной промежуток анализа – от даты постановки на учёт до даты закрытия карточки.

Последние полтора–два года политика государства ориентирована не на социальную стабилизацию в обществе, как это было в начале 90-х гг. (выплата пособий по безработице), а на обеспечение занятости населения – то есть найти работу теперь более выгодно, чем жить на пособие по безработице. С 2004 по 2006 гг. наибольшее число дней до трудоустройства возрастает для мужчин по всем возрастным категориям, а также для женщин первой возрастной категории. Для мужчин второй и третьей возрастной категорий наибольшее число дней до трудоустройства уменьшается. Если для первой возрастной категории (16–19 лет) в отношении мужчин и женщин число дней до трудоустройства примерно одинаково, то для второй категории (20–24 года) трудоустройство женщин было более длительным в 3,2; 4,1; 1,7 раз в 2004–2006 гг. соответственно. Для третьей возрастной категории длительность трудоустройства женщин превышала в 5,1; 3,9; 1,9 раза в 2004–2006 гг. соответственно. Продолжительность безработицы в среднем составляла в 2004 г. – 44,2 дня, в 2005 г. – 33,7 дней и в 2006 г.– 53,6 дня. Для лиц интеллектуального труда, работников финансовой сферы, потерявших работу в связи с сокращениями и банкротством организаций, число вакансий стабильно меньше потребности в них. Дополнительные вакансии предлагались, прежде всего, для лиц рабочих профессий. Таким образом, в течение всего периода 2004–2006 гг. наблюдался дисбаланс между спросом и предложением рабочих мест.

Применение рангового коэффициента корреляции Спирмена показало, что в исходных данных нет значимых корреляций (превышающих 0,6).

Факторный анализ показал, что существует два фактора, которые объясняют свыше 53,8% общей дисперсии в 2004 г., 59,12% и 45,2% соответственно в 2005 и 2006 гг. Вращение факторов показывает, что такими факторами могут быть: число дней до трудоустройства и категории занятости в 2004 г., группы молодёжи и образование в 2005 и в 2006 гг. Для оценки достоверности разделения изучаемого множества на классы применялся дискриминантный анализ исходных данных, который показал, что три группы молодёжи достаточно хорошо различимы. Матрица классификации показывает, что 98,9 % данных классифицированы правильно.

Вероятностный анализ перехода в различные временные интервалы при пребывании на учёте в центре занятости в состоянии регистрируемой безработицы и оценку «риска» сняться с учёта в качестве безработного проведен нами с помощью оценок Каплана-Мейера. Анализировались данные за три года (2004–2006 гг.). Методы анализа выживаемости не описывают адекватно имеющиеся данные. Если исключить из анализа безработных, получивших работу в первые 9–11 дней, то оставшиеся данные достаточно хорошо описываются распределением Вейбулла, для которого нет значимого отклонения от наблюдаемых значений при оценивании параметров по минимуму суммы взвешенных квадратов (таблица 1).

Таблица 1 – Оценки параметров модели Вейбулла Веса:

1=1., 2=1./V,3=N(I)*H(I)2





Лямбда

Стд.Ош.

Гамма

Дисперс.

Стд.

Ош.

Ковар.

Хи-квадр

сс

p

Вес 1

0,00019

0,00029

1,65

0,07

0,27

-0,0008

10,24

9,00

0,33

Вес 2

0,00119

0,00014

1,34

0,04

0,2

-0,0003

4,595

9,00

0,87

Вес 3

0,00312

0,00399

1,16

0,05

0,21

-0,0008

3,174

9,00

0,96