Сердюк А. М., Останина Н. В., Кузнецова Е. М., Череменко А. Н., Босых Ю. С., Брязкало В. В., Олейник И. Л

Вид материалаДокументы

Содержание


КРИТИЧЕСКИЙ АНАЛИЗ ПРАКТИКИ ИСПОЛЬЗОВАНИЯ РЕГРЕССИОННОГО АНАЛИЗА В ЭКОЛОГО-ГИГИЕНИЧЕСКИХ ИССЛЕДОВАНИЯХ Русакова Л.Т..
Подобный материал:
1   ...   30   31   32   33   34   35   36   37   38

КРИТИЧЕСКИЙ АНАЛИЗ ПРАКТИКИ ИСПОЛЬЗОВАНИЯ РЕГРЕССИОННОГО АНАЛИЗА В ЭКОЛОГО-ГИГИЕНИЧЕСКИХ ИССЛЕДОВАНИЯХ

Русакова Л.Т..

Украина, г. Киев, Институт гигиены и медицинской экологии АМН Украины


В работе дан краткий критический анализ публикаций, посвящен­ных проблеме выявления изменения состояния здоровья в результате действия факторов окружающей среды методами классического регрессионного анализа. Были проанализированы работы по данному направлению, опубликованные в журнале «Гигиена и санитария», а также материалы квалификационных научных работ по специальности «гигиена» за период с 1990 по 2000 год. Особое внимание в данном исследовании уделялось проблеме корректного использования математического аппарата при анализе результатов эколого – гигиенических исследований. Были выявлены и обоснованы наиболее типичные негативные моменты в процессе математической обработки результатов. Были предложены модифицированные методики математического анализа результатов эколого-гигиенических исследований с применением стандартных программных средств.

Как правило, при обработке результатов натурных эколого-гигиенических исследований с целью установления характера совместного влияния факторов на показатель состояния здоровья и расчета прогнозов используется классический линейный многофакторный анализ. Применение линейного регрессионного анализа для решения такой задачи вполне правомочно. В общем случае негативное внешнее воздействие на показатель биосистемы описывается нелинейной математической моделью экспоненциального или S-образного вида. В натурных исследованиях допустимо применение линейных математических моделей, которые являются частным случаем разложения в ряд Тейлора нелинейных функций в предположении низкоуровневого воздействия в окрестности нулевого приближения параметров [1]. Кроме этого, наличие компьютерных средств (Statistica, Excel, …) позволяет достаточно легко строить многофакторные линейные регрессионные модели лицам без базового математического образования. Однако использование стандартного программного обеспечения для описания зависимостей системы «негативное воздействие - здоровье» без предварительной адаптации приводит к некоторым погрешностям в описании зависимости и, следовательно, выводов, которые вытекают из некорректного анализа этой зависимости.

Известно, что метод множественной линейной рег­рессии применяется прежде всего для расчета прогнозного значения независимой переменной по функциональной количественной модели. Как правило, выявление вида зависимости и ее предметная трактовка параметров математической модели не входит в задачу такого рода исследований.

Между тем в ряде работ делаются попытки применения методов классической множественной линейной регрессии для анализа связи между за­болеваемостью и уровнями загрязнения отдельными вредными факторами и решения таких задач, как ранжирование факторов по сте­пени их влияния на здоровье.

В работе [2], например, рассматривается влияние загрязнения ат­мосферного воздуха на заболеваемость детей, проживаю­щих в крупном промышленном городе, с использовани­ем методов множественной регрессии. Для характеристики общего уровня загрязнения окружающей среды в работе были использованы про­бы воздуха в 9 точках наблюдения, расположенных на различном расстоянии от промышленных предприятий. В качестве показателей здоровья детей использована заболеваемость по обращаемости за 5 лет и данные по некото­рым нозологическим формам. Объем выборки данных исследований достаточно большой - 1500 детей. К сожалению, некачественно проведенная математическая обработка качественной информации по системе «среда - здоровье» не дала возможности получить математически обоснованные и подтвержденные выводы.

В работе построена модель множественной линейной регрессии для таких показателей заболеваемости как обращаемость (Y1), ОРИ - острые респираторные инфекции (Y2) , бронхит ( У3) и вирусный гепатит (У4 ) в зависимо­сти от содержания в атмосфере пяти загрязняющих ве­ществ в воздухе: сернистый ангидрид (X1); окись азота (X2); окись углерода (X3); сероводород (X4); формальдегид (X5). Уровни загрязнителей представлены концентрациями, которые выражались в мг/м3.

В результате обработки данных были получены следующие уравнения многофакторной регрессии:

У1 = 20,20X1 – 1,45 X2 - 4,99 X3 + 9,71 X4 + 8,37X5+ 212,74;

(1)

Y2 = 2,25 X1 - 0,30X2, + 0,67 X3- 0,016X4- 0,19X5+ 11,61;

(2)

Y3 = 1,09 X1 - 1,04 X2 + 0,08 X3+0,31 X4,+ 0,44- Х,+ 2,8;

(3)

Y4 = 13,63 X1 + 7,28 X2 + 0,50 X3+ 9,67 X4, +2,19X5 + 54,6;

(4)

При анализе зависимости (1) авторы утверждают, что на основании изучения парных связей между заболеваемостью и воздействующими факторами под­тверждена значимость влияния химических веществ в следующей последовательности: сероводород X4, серни­стый ангидрид X1 и т. д. Из текста статьи невозможно по­нять, каким образом получена данная последователь­ность, однако представленная модель эту гипотезу не подтверждает. Гипотезы, которые легли в основу данного выводы, могут быть разнообразными, например, на основе парных коэффициентов корреля­ции, коэффициентов уравнений однофакторной регрессии. Однако факты, подтверждающие данный вывод, отсутствуют.

Совсем по-другому авторы осуществляют анализ урав­нения (2) для показателей заболеваемости ОРИ. При установлении значимости влияния отдельного фактора внимание акцентируется на абсолютной величине этого коэффи­циента в многофакторной модели. Выдвигается гипотеза: чем больше коэффициент, тем сильнее, по мнению авторов, его влияние на заболеваемость. В результате получается, что сероводород, который по значимости влияния на У1 нахо­дился на 1-м месте, не влияет на У2. Однако хорошо из­вестно, что для детей дошкольного возраста, которые изу­чаются в данной работе, заболеваемость ОРИ составляет значи­тельную долю общей заболеваемости У1. Это дает возможность предположить, что внешнее вредное воздействие на изменение таких показателей здоровья, как обращаемость (Y1) и острые респираторные инфекции, оказывают идентичные факторы окружающей среды.

Обращает на себя внимание величина свободного члена, которая значительно варьируется в предложенных моделях. Это противоречит гипотезе о весомом вкладе в изучаемую заболеваемость неучтенных показателей химической, физической природы, а также экономических и социальных факторов. При отсутствии изучаемого внешнего вредного воздействия прогнозируемая по уравнению (1) заболеваемость составляет 212 случаев на 1000 детей в год. Этому факту достаточно сложно дать осмысленное объяснение. Еще сложнее найти разумную смысловую трактовку фоновому уровню заболеваемости, отраженному в моделях (3) – (5) величиной свободного члена, значение которого варьируется в пределах от 3 до 55 случаев на 1000 детей в год. Было бы разумно предположить, что уровни фоновой заболеваемости в предложенных зависимостях не будут достоверно отличаться.

Таким образом, можно предположить, что модели вида (1) — (5) не работают в области малых значений внешних воздействий. Кроме того, остается открытым вопрос диапазона уровней воздействующих факторов, при котором данные модели имеют право на существование. Проведенные математические модели еще раз подтверждают, что методами классического регрессионного анализа может быть получено достаточно точное функциональное описание, результаты которого обладают высокой прогностической способностью. Однако попытки придать осмысленную трактовку параметров этих зависимостей крайне сомнительны.

Следующий негативный момент применения классической многофакторной регрессии – обязательное наличие отрицательных значений параметров модели. Особо следует отметить наличие отрицательных ко­эффициентов в уравнениях (1—4), которые не поддаются осмысленной трактовке. Представленные результаты свидетельствуют, что увеличение концентрации загряз­нителя (например, окиси азота) снижает общую заболе­ваемость, также частоту возникновения ОРИ и брон­хитов. Все это является, по нашему мнению, следствием некорректного применения данного метода.

Существует ряд работ, в которых решение задачи влияния факторов окружающей среды на здоровья населения также проводится методами регрессионного анали­за. Так, в работе [3] мето­дами множественной линейной регрессии оценивалось влияние водной химической нагрузки и загрязнения ат­мосферного воздуха на здоровье населения крупного го­рода. При этом изучались такие нозологические формы, как холецистит, бронхит, эк­зема и др. Для оценки влияния конкретных загрязни­телей на здоровье построены уравнения регрессии для загрязнителей, взятых в кратностях превышения ПДК. Этот момент представляется положительным, поскольку позволяет внешнее воздействие представлять в безразмерных одномасштабных эквивалентах.

В данном исследовании приоритетные загрязнители представляли следующую последовательность: взвешенные вещества, железо, фенол, марганец, никель, хром, нефтепродукты и трудноокисляемые органические вещества в питьевой воде. Однако, из текста статьи непонятно, каким об­разом и по какому критерию оценивалась приоритет­ность влияния отдельного загрязнителя на здоровье. По нашему мнению, это невозможно сделать только по результатам параметров уравнений классической множественной регрессии. В исследовании следует отметить низкое значения коэффициента детер­минации, который дает возможность предполагать, что только 13% дисперсии показателя здоровья объясняются изучаемыми вредными факторами, остальные же 87% отражают случайные ошибки и неучтенные в уравнении регрессии воздействия.

Кроме того, как и в работе [2], уравнения регрес­сии в работе [3] содержат отрицательные коэффициенты, которые не имеют осмысленного объяснения.

В работе [4] анализируются зависимости детской за­болеваемости (болезни крови, системы кровообращения, язва желудка и двенадцатиперстной кишки) от различ­ных факторов, в том числе и от загрязнения окружающей среды. В уравнениях регрессии, которые определены в работе, как и в других вышеупомянутых работах, встречаются отрица­тельные коэффициенты (зависимость числа случаев за­болевания язвой желудка и двенадцатиперстной кишки от концентрации свинца в почве); очень малые, а иногда и отрицательные, значения свободного члена. Все это свидетельствуют об ограниченной области применения уравнений регрессии.

В работе [5] проведены исследования состояния здо­ровья детей в промышленном городе в зависимости от состояния окружающей среды. Построены модели множественной рег­рессии для 17 классов болезней, включая травмы, ушибы и отравления, в зависимости от концентрации 6 загряз­няющих веществ (окислы серы, аммиак, пыль, серни­стый газ, окись углерода и двуокись азота). Для загрязняющих веществ представленный набор данных оставляет открытыми вопрос оценки по ним коэффициентов регрессии. В приведенных в статье примерах, как и в пре­дыдущих работах, уравнения множественной регрессии "заболеваемость — загрязнения" содержат отрицатель­ные коэффициенты и резко отличающиеся друг от друга фоновые уровни заболеваемости.

В работе [5] подтверждается очевидная абсурдность отрицательных коэффициентов регрессии в задачах выявления изменения заболеваемости от загрязнения окружающей среды. В работе при­водятся причины появления отрицательных коэффици­ентов: несовпадение временных периодов измерений загрязнения и заболеваний, возможный нелинейный характер этой зависимости и пр.

Не оспаривая правомочности подобного объяснения, хотелось бы подчеркнуть более фундаментальную причину появления отрицательных коэффициентов — невозможность учета в классическом многофакторном регрессионном анализе направленности действия факторов, возможности установления определенного фонового уровня заболеваемости.

К сожалению, более сложные варианты построения многофакторной модели «среда - здоровье», такие как метод наименьших квадратов с ограничением на параметры, метод проекции градиента также не дают качественных результатов в данной области применения. Положительным моментов их использования можно считать учтенную направленность вредного внешнего воздействия, высокую прогностическую способность. К негативным моментом применения этих подходов можно отнести резкое достоверное изменение фонового уровня в зависимости от количества факторов в модели и некоторые сложности в расчете параметров модели.

Таким образом, рассмотренные примеры показывают, что примене­ние методов классического множественного регрессионного анализа к задачам опре­деления изменения заболеваемости под действием факторов окружающей среды встречает серьезные трудности, предметное содержание задачи оказывается в противоречии с назначением мето­да. Попытки придать предметный смысл коэффициентам регрессии, фоновому уровню заболеваемости некорректны. Методы расчет вклада вредного воздействия фактора в изменение здоровья только по результатам классической многофакторной модели крайне дискутабельны. В результате неадекватного применения математического метода получаются необоснованные и недостоверные выводы, которые вытекают из неправомочных закономерностей, и также подвержены критике.

По нашему мнению, для решения задач данного типа можно было бы использовать модифицированный метод построения многофакторной регрессионной модели с фиксацией направленности действия факторов [6], проводить анализ влияния вредного внешнего воздействия при наличии их тесной корреляционной зависимости по интегральному показателю [7], представлять вредное воздействие в безразмерных одномасштабных эквивалентах измерения [7, 8].

Summary


A brief critical analysis of the publications devoted to a problem of revealing of change of a state of health as a result of action of factors of an environment by methods classical of the analysis is given presented in the work. Works on the given direction published in magazine « Hygiene and Sanitary », and of qualifying scientific works materials also on a speciality "hygiene" for the period with 1990 for 2000 have been analysed. A special attention was paid to the problem on the correct use of mathematical apparatus at the result analysis of the ecological and hygienic researches. The most typical negative moments have been revealed and proved at mathematical processing of the results. The modified techniques for the mathematical analysis of the results of ecological and hygienic research with application of standard software have been offered.