Сердюк А. М., Останина Н. В., Кузнецова Е. М., Череменко А. Н., Босых Ю. С., Брязкало В. В., Олейник И. Л
Вид материала | Документы |
СодержаниеКРИТИЧЕСКИЙ АНАЛИЗ ПРАКТИКИ ИСПОЛЬЗОВАНИЯ РЕГРЕССИОННОГО АНАЛИЗА В ЭКОЛОГО-ГИГИЕНИЧЕСКИХ ИССЛЕДОВАНИЯХ Русакова Л.Т.. |
- В. О. Сердюк основи анатомії та фізіології тварин, 1509.76kb.
- М. И. Кузнецова букварь: методический комментарий к урок, 6117.76kb.
- В. А. Федосеев Публикуется по изданию: Михайлов Б. В., Сердюк А. И., Федосеев, 1752.72kb.
- Госдума РФ мониторинг сми 2 августа 2007, 1558kb.
- Кузнецова Наталья Вячеславовна учебно-методический комплекс, 371.04kb.
- Кузнецова Нина Владимировна методические рекомендации, 625.25kb.
- Коньков Николай Леонидович, Останина Людмила Васильевна. 2008 @ тгпи им. Д. И. Менделеева,, 389.81kb.
- С. П. Пуденко Актуализация наследия и идей П. Г. Кузнецова в 2000-е годы, 129.95kb.
- Алексей Николаевич Арбузов Иркутская история, 1933.82kb.
- Всероссийский заочный финансово-экономический институт Кафедра права, 189.78kb.
КРИТИЧЕСКИЙ АНАЛИЗ ПРАКТИКИ ИСПОЛЬЗОВАНИЯ РЕГРЕССИОННОГО АНАЛИЗА В ЭКОЛОГО-ГИГИЕНИЧЕСКИХ ИССЛЕДОВАНИЯХ
Русакова Л.Т..
Украина, г. Киев, Институт гигиены и медицинской экологии АМН Украины
В работе дан краткий критический анализ публикаций, посвященных проблеме выявления изменения состояния здоровья в результате действия факторов окружающей среды методами классического регрессионного анализа. Были проанализированы работы по данному направлению, опубликованные в журнале «Гигиена и санитария», а также материалы квалификационных научных работ по специальности «гигиена» за период с 1990 по 2000 год. Особое внимание в данном исследовании уделялось проблеме корректного использования математического аппарата при анализе результатов эколого – гигиенических исследований. Были выявлены и обоснованы наиболее типичные негативные моменты в процессе математической обработки результатов. Были предложены модифицированные методики математического анализа результатов эколого-гигиенических исследований с применением стандартных программных средств.
Как правило, при обработке результатов натурных эколого-гигиенических исследований с целью установления характера совместного влияния факторов на показатель состояния здоровья и расчета прогнозов используется классический линейный многофакторный анализ. Применение линейного регрессионного анализа для решения такой задачи вполне правомочно. В общем случае негативное внешнее воздействие на показатель биосистемы описывается нелинейной математической моделью экспоненциального или S-образного вида. В натурных исследованиях допустимо применение линейных математических моделей, которые являются частным случаем разложения в ряд Тейлора нелинейных функций в предположении низкоуровневого воздействия в окрестности нулевого приближения параметров [1]. Кроме этого, наличие компьютерных средств (Statistica, Excel, …) позволяет достаточно легко строить многофакторные линейные регрессионные модели лицам без базового математического образования. Однако использование стандартного программного обеспечения для описания зависимостей системы «негативное воздействие - здоровье» без предварительной адаптации приводит к некоторым погрешностям в описании зависимости и, следовательно, выводов, которые вытекают из некорректного анализа этой зависимости.
Известно, что метод множественной линейной регрессии применяется прежде всего для расчета прогнозного значения независимой переменной по функциональной количественной модели. Как правило, выявление вида зависимости и ее предметная трактовка параметров математической модели не входит в задачу такого рода исследований.
Между тем в ряде работ делаются попытки применения методов классической множественной линейной регрессии для анализа связи между заболеваемостью и уровнями загрязнения отдельными вредными факторами и решения таких задач, как ранжирование факторов по степени их влияния на здоровье.
В работе [2], например, рассматривается влияние загрязнения атмосферного воздуха на заболеваемость детей, проживающих в крупном промышленном городе, с использованием методов множественной регрессии. Для характеристики общего уровня загрязнения окружающей среды в работе были использованы пробы воздуха в 9 точках наблюдения, расположенных на различном расстоянии от промышленных предприятий. В качестве показателей здоровья детей использована заболеваемость по обращаемости за 5 лет и данные по некоторым нозологическим формам. Объем выборки данных исследований достаточно большой - 1500 детей. К сожалению, некачественно проведенная математическая обработка качественной информации по системе «среда - здоровье» не дала возможности получить математически обоснованные и подтвержденные выводы.
В работе построена модель множественной линейной регрессии для таких показателей заболеваемости как обращаемость (Y1), ОРИ - острые респираторные инфекции (Y2) , бронхит ( У3) и вирусный гепатит (У4 ) в зависимости от содержания в атмосфере пяти загрязняющих веществ в воздухе: сернистый ангидрид (X1); окись азота (X2); окись углерода (X3); сероводород (X4); формальдегид (X5). Уровни загрязнителей представлены концентрациями, которые выражались в мг/м3.
В результате обработки данных были получены следующие уравнения многофакторной регрессии:
У1 = 20,20X1 – 1,45 X2 - 4,99 X3 + 9,71 X4 + 8,37X5+ 212,74; | (1) |
Y2 = 2,25 X1 - 0,30X2, + 0,67 X3- 0,016X4- 0,19X5+ 11,61; | (2) |
Y3 = 1,09 X1 - 1,04 X2 + 0,08 X3+0,31 X4,+ 0,44- Х,+ 2,8; | (3) |
Y4 = 13,63 X1 + 7,28 X2 + 0,50 X3+ 9,67 X4, +2,19X5 + 54,6; | (4) |
При анализе зависимости (1) авторы утверждают, что на основании изучения парных связей между заболеваемостью и воздействующими факторами подтверждена значимость влияния химических веществ в следующей последовательности: сероводород X4, сернистый ангидрид X1 и т. д. Из текста статьи невозможно понять, каким образом получена данная последовательность, однако представленная модель эту гипотезу не подтверждает. Гипотезы, которые легли в основу данного выводы, могут быть разнообразными, например, на основе парных коэффициентов корреляции, коэффициентов уравнений однофакторной регрессии. Однако факты, подтверждающие данный вывод, отсутствуют.
Совсем по-другому авторы осуществляют анализ уравнения (2) для показателей заболеваемости ОРИ. При установлении значимости влияния отдельного фактора внимание акцентируется на абсолютной величине этого коэффициента в многофакторной модели. Выдвигается гипотеза: чем больше коэффициент, тем сильнее, по мнению авторов, его влияние на заболеваемость. В результате получается, что сероводород, который по значимости влияния на У1 находился на 1-м месте, не влияет на У2. Однако хорошо известно, что для детей дошкольного возраста, которые изучаются в данной работе, заболеваемость ОРИ составляет значительную долю общей заболеваемости У1. Это дает возможность предположить, что внешнее вредное воздействие на изменение таких показателей здоровья, как обращаемость (Y1) и острые респираторные инфекции, оказывают идентичные факторы окружающей среды.
Обращает на себя внимание величина свободного члена, которая значительно варьируется в предложенных моделях. Это противоречит гипотезе о весомом вкладе в изучаемую заболеваемость неучтенных показателей химической, физической природы, а также экономических и социальных факторов. При отсутствии изучаемого внешнего вредного воздействия прогнозируемая по уравнению (1) заболеваемость составляет 212 случаев на 1000 детей в год. Этому факту достаточно сложно дать осмысленное объяснение. Еще сложнее найти разумную смысловую трактовку фоновому уровню заболеваемости, отраженному в моделях (3) – (5) величиной свободного члена, значение которого варьируется в пределах от 3 до 55 случаев на 1000 детей в год. Было бы разумно предположить, что уровни фоновой заболеваемости в предложенных зависимостях не будут достоверно отличаться.
Таким образом, можно предположить, что модели вида (1) — (5) не работают в области малых значений внешних воздействий. Кроме того, остается открытым вопрос диапазона уровней воздействующих факторов, при котором данные модели имеют право на существование. Проведенные математические модели еще раз подтверждают, что методами классического регрессионного анализа может быть получено достаточно точное функциональное описание, результаты которого обладают высокой прогностической способностью. Однако попытки придать осмысленную трактовку параметров этих зависимостей крайне сомнительны.
Следующий негативный момент применения классической многофакторной регрессии – обязательное наличие отрицательных значений параметров модели. Особо следует отметить наличие отрицательных коэффициентов в уравнениях (1—4), которые не поддаются осмысленной трактовке. Представленные результаты свидетельствуют, что увеличение концентрации загрязнителя (например, окиси азота) снижает общую заболеваемость, также частоту возникновения ОРИ и бронхитов. Все это является, по нашему мнению, следствием некорректного применения данного метода.
Существует ряд работ, в которых решение задачи влияния факторов окружающей среды на здоровья населения также проводится методами регрессионного анализа. Так, в работе [3] методами множественной линейной регрессии оценивалось влияние водной химической нагрузки и загрязнения атмосферного воздуха на здоровье населения крупного города. При этом изучались такие нозологические формы, как холецистит, бронхит, экзема и др. Для оценки влияния конкретных загрязнителей на здоровье построены уравнения регрессии для загрязнителей, взятых в кратностях превышения ПДК. Этот момент представляется положительным, поскольку позволяет внешнее воздействие представлять в безразмерных одномасштабных эквивалентах.
В данном исследовании приоритетные загрязнители представляли следующую последовательность: взвешенные вещества, железо, фенол, марганец, никель, хром, нефтепродукты и трудноокисляемые органические вещества в питьевой воде. Однако, из текста статьи непонятно, каким образом и по какому критерию оценивалась приоритетность влияния отдельного загрязнителя на здоровье. По нашему мнению, это невозможно сделать только по результатам параметров уравнений классической множественной регрессии. В исследовании следует отметить низкое значения коэффициента детерминации, который дает возможность предполагать, что только 13% дисперсии показателя здоровья объясняются изучаемыми вредными факторами, остальные же 87% отражают случайные ошибки и неучтенные в уравнении регрессии воздействия.
Кроме того, как и в работе [2], уравнения регрессии в работе [3] содержат отрицательные коэффициенты, которые не имеют осмысленного объяснения.
В работе [4] анализируются зависимости детской заболеваемости (болезни крови, системы кровообращения, язва желудка и двенадцатиперстной кишки) от различных факторов, в том числе и от загрязнения окружающей среды. В уравнениях регрессии, которые определены в работе, как и в других вышеупомянутых работах, встречаются отрицательные коэффициенты (зависимость числа случаев заболевания язвой желудка и двенадцатиперстной кишки от концентрации свинца в почве); очень малые, а иногда и отрицательные, значения свободного члена. Все это свидетельствуют об ограниченной области применения уравнений регрессии.
В работе [5] проведены исследования состояния здоровья детей в промышленном городе в зависимости от состояния окружающей среды. Построены модели множественной регрессии для 17 классов болезней, включая травмы, ушибы и отравления, в зависимости от концентрации 6 загрязняющих веществ (окислы серы, аммиак, пыль, сернистый газ, окись углерода и двуокись азота). Для загрязняющих веществ представленный набор данных оставляет открытыми вопрос оценки по ним коэффициентов регрессии. В приведенных в статье примерах, как и в предыдущих работах, уравнения множественной регрессии "заболеваемость — загрязнения" содержат отрицательные коэффициенты и резко отличающиеся друг от друга фоновые уровни заболеваемости.
В работе [5] подтверждается очевидная абсурдность отрицательных коэффициентов регрессии в задачах выявления изменения заболеваемости от загрязнения окружающей среды. В работе приводятся причины появления отрицательных коэффициентов: несовпадение временных периодов измерений загрязнения и заболеваний, возможный нелинейный характер этой зависимости и пр.
Не оспаривая правомочности подобного объяснения, хотелось бы подчеркнуть более фундаментальную причину появления отрицательных коэффициентов — невозможность учета в классическом многофакторном регрессионном анализе направленности действия факторов, возможности установления определенного фонового уровня заболеваемости.
К сожалению, более сложные варианты построения многофакторной модели «среда - здоровье», такие как метод наименьших квадратов с ограничением на параметры, метод проекции градиента также не дают качественных результатов в данной области применения. Положительным моментов их использования можно считать учтенную направленность вредного внешнего воздействия, высокую прогностическую способность. К негативным моментом применения этих подходов можно отнести резкое достоверное изменение фонового уровня в зависимости от количества факторов в модели и некоторые сложности в расчете параметров модели.
Таким образом, рассмотренные примеры показывают, что применение методов классического множественного регрессионного анализа к задачам определения изменения заболеваемости под действием факторов окружающей среды встречает серьезные трудности, предметное содержание задачи оказывается в противоречии с назначением метода. Попытки придать предметный смысл коэффициентам регрессии, фоновому уровню заболеваемости некорректны. Методы расчет вклада вредного воздействия фактора в изменение здоровья только по результатам классической многофакторной модели крайне дискутабельны. В результате неадекватного применения математического метода получаются необоснованные и недостоверные выводы, которые вытекают из неправомочных закономерностей, и также подвержены критике.
По нашему мнению, для решения задач данного типа можно было бы использовать модифицированный метод построения многофакторной регрессионной модели с фиксацией направленности действия факторов [6], проводить анализ влияния вредного внешнего воздействия при наличии их тесной корреляционной зависимости по интегральному показателю [7], представлять вредное воздействие в безразмерных одномасштабных эквивалентах измерения [7, 8].
Summary
A brief critical analysis of the publications devoted to a problem of revealing of change of a state of health as a result of action of factors of an environment by methods classical of the analysis is given presented in the work. Works on the given direction published in magazine « Hygiene and Sanitary », and of qualifying scientific works materials also on a speciality "hygiene" for the period with 1990 for 2000 have been analysed. A special attention was paid to the problem on the correct use of mathematical apparatus at the result analysis of the ecological and hygienic researches. The most typical negative moments have been revealed and proved at mathematical processing of the results. The modified techniques for the mathematical analysis of the results of ecological and hygienic research with application of standard software have been offered.