Сердюк А. М., Останина Н. В., Кузнецова Е. М., Череменко А. Н., Босых Ю. С., Брязкало В. В., Олейник И. Л

Вид материалаДокументы

Содержание


МАТЕМАТИЧЕСКИЕ АСПЕКТЫ АНАЛИЗА ДАННЫХ В МЕДИКО-ЭКОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ Антомонов М. Ю.
Подобный материал:
1   2   3   4   5   6   7   8   9   ...   38

МАТЕМАТИЧЕСКИЕ АСПЕКТЫ АНАЛИЗА ДАННЫХ В МЕДИКО-ЭКОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ

Антомонов М. Ю.

Украина, Киев, институт гигиены и медицинской экологии им. А.Н. Марзеева АМНУ


Исследование действия вредных факторов окружающей среды на состояние здоровья продолжает оставаться одной из наиболее актуальных научных проблем современности. Любые медико - экологические исследования сопровождаются регистрацией многочисленных и разнообразных данных, характеризующих как состояние здоровья исследуемых контингентов населения либо отдельных индивидуумов, так и выраженность факторов окружающей и производственной среды, потенциально влияющих на здоровье человека. В этих данных заключена исходная информация, которая после математической обработки и дальнейшего анализа должна дать возможность получить содержательные научные выводы, решающие поставленные перед исследователем задачи. Таким образом, этап математической обработки является обязательным в структуре научного исследования и от качества его реализации зависит эффективность самого исследования.

Задачи, связанные с математическим и информационным анализом данных, возникают на всех этапах медико – экологических исследований: получения информации, ее представления, математической обработки, собственно содержательного научного анализа и представления результатов исследования.

Математический и содержательный анализ - это наиболее «наукоемкий» этап обработки данных. Задачи медико – экологических исследований можно классифицировать по разному. Но с точки зрения математической обработки они, на наш взгляд, сводятся к следующим основным направлениям:

Анализ информативности показателей состояния (Y) биосистем (здоровья) и значимости воздействующих (здоровье формирующих) факторов (X). Эта задача может быть решена с помощью методов корреляционного, дисперсионного или регрессионного анализа.

Установление взаимосвязи между всеми воздействующими факторами (X) и между показателями состояния биосистемы (Y) порознь. Для решения этой задачи могут быть использованы методы корреляционного анализа или анализа таблиц сопряженности.

Установление зависимости изменения показателей состояния биосистемы (здоровья) от действия внешних факторов. При этом с помощью методов регрессионного анализа строятся математические модели типа «воздействие(Х) - эффект(У)». Для описания раздельного (изолированного) действия используются однофакторные модели, для совместного действия – многофакторные.

Установление динамических зависимостей типа Х(t), Y(t), Y(X, t), Y(X(t)), которое выполняется с помощью регрессионных методов или методов сглаживания динамических графиков.

Расчет прогноза изменения состояния биосистем (здоровья) при изменении выраженности и времени действия внешних факторов, который осуществляется на основании построенных регрессионных моделей.

Оценка вклада факторов в изменение показателей состояния биосистемы (здоровья) в предположении их исключительного действия. Для этого используются методы корреляционного анализа (расчет коэффициентов детерминации).

Расчет «рисков» при раздельном и совместном действии факторов и составление ранжированных по значимости рядов воздействующих факторов с помощью таблиц сопряженности или вероятностных методов.

Определение долевого вклада факторов в изменение показателей состояния биосистемы (здоровья) в общей совокупности регистрируемых факторов в предположении их совместного действия, которое осуществляется с помощью дисперсионного анализа.

Расчет локальных (региональных, половых, возрастных и т. д.) «норм» показателей биосистем (расчет «стандартов здоровья»), выполняемый на основании построенных регрессионных моделей.

Формирование интегральных характеристик совокупности воздействующих факторов (качества окружающей среды) и совокупности характеристик состояния биосистем (здоровья населения) и также совместных X - Y (медико - экологических) оценок. При этом могут быть задействованы самые разнообразные математические подходы и приемы.

Многокритериальный и многофакторный расчет критических уровней факторов, потенциально не способных вызвать изменение состояния биосистем (ухудшение здоровья на популяционном уровне), то есть «подпорогов» и уровней, достоверно такое изменение вызывающих («порогов»), который выполняется с помощью построенных регрессионных моделей различного уровня сложности.

Решение этих задач зависит это 1) от технической и программной базы, 2) от соответствия математических средств типам данных, 3) от адекватности выбранных математических методов задаче исследования и 4) от уровня квалификации исследователя.

Специализированные пакеты являются адекватными для решения конкретных задач. Это различные программы для токсикологических, генетических, эпидемиологических исследований. Естественно, что чем более универсальными являются программы, тем они менее адекватны для использования в конкретных исследованиях. Для решения большинства перечисленных выше задач вполне адекватными являются пакеты SAS, SPSS, STATISTICA и Statgraphics. Оригинальные отечественные разработки как правило, слабо востребованы по причинам кадровой неподготовленности и отсутствия социального заказа. Кроме того, большинство задач медико-экологических исследований можно решать с помощью стандартных импортных статистических пакетов. Поэтому более целесообразно внедрять не программные, а методические разработки, которые могут быть реализованы с помощью разнообразных программных средств.

Качество решения задач медико – экологических исследований в значительной степени зависит от соответствия математических средств типам (шкалам) данных и от адекватности выбранных математических методов задачам исследования.

В математической статистике принято разграничивать любые переменные на четыре типа шкал: номинальную (наименований), ранговую (порядковую), интервалов и отношений (абсолютную). Как самостоятельный тип можно выделить бинарные данные, которые хотя и относятся к шкале наименований, но к ним можно применять целый ряд самостоятельных методов обработки.

При совместном рассмотрении данных, измеренных в разных шкалах, с ними можно выполнять различные преобразования, переводящие все данные в одну шкалу. Переход от более грубой, «качественной» шкалы к шкале более высокого – «количественного» характера («оцифровка») не всегда корректен и достаточно сложен. Обратный переход можно выполнять всегда, но часто это приводит к значительной потере информации. Для перехода от одной шкалы к другой необходимо выйти за границы понятий (классификации, оценки измерения), принятых в исходной шкале, и, используя некое дополнительное знание, по-другому оценить, измерить, квалифицировать тот же самый объект.

Для конструирования комплексной балльной оценки объекта (субъекта) исследования необходимо выполнить следующие операции: составить максимально полный перечень всех значимых признаков (как качественных, так и количественных); для количественных признаков – установить диапазон их “нормального“ изменения, выбрать функцию перевода в баллы, определить масштабы изменения признаков по их значимости для всего объекта (субъекта); для качественных признаков – определить число градаций, на которые признак будут разделяться, установить критерии принадлежности к каждой градации; определить количество баллов, соответствующее значимости каждой градации; рассчитать комплексную оценку путем сложения всех баллов.

После введения балльной шкалы необходимо провести ее верификацию. Для чего проверяется соответствие балльной оценки реальных (или модельных) объектов (субъектов) их вербальному описанию и их комплексной экспертной оценке (насколько похоже на правду то что получилось в результате расчетов). Для проверки рекомендуется выбирать контрастные или “эталонные“ объекты (субъекты). Если соответствия экспертной оценке нет, выполняется уточнение всей композиции.

Многие статистические процедуры разработаны для случаев, когда часть переменных измерена в одной шкале, а часть - в другой. Типичным примером является обычный дисперсионный анализ, в котором факторы измеряются в номинальной шкале, в соответствующие их комбинациям отклики - в шкале отношений. Статистические критерии, как правило, используются для объектов, один из признаков которых измерен в дихотомической шкале («опыт – контроль»), а другие - в шкале отношений или рангов.

Каждому типу данных соответствует своя статистическая техника. Так, для переменных, измеренных в номинальной шкале, можно использовать 2 - критерий для проверки их взаимосвязи по таблицам сопряженности. Для бинарных данных используется процентный анализ. Для них разработаны разнообразные математические методы во всех разделах математической статистики, вплоть до достаточно сложных методов многомерного количественного анализа. Порядковой шкале отвечают методы, основанные на использовании рангов (ранговая корреляция, непараметрические критерии для проверки гипотез и т. п.). Для интервальной шкалы, а тем более шкалы отношений, может быть использован весь арсенал статистических методов.

С другой стороны, для каждой из задач исследования существуют определенные математические методы и подходы.

Критерии различия, как правило, используются для выявления достоверности влияния того или иного фактора (или его градаций) на показатели здоровья.

Дисперсионный анализ может быть использован для установления самого факта изменения показателей здоровья при действии неблагоприятных факторов среды, количественной оценки долевого вклада этого влияния в общей совокупности всех других потенциально действующих факторов.

Корреляционный анализ используется для оценки взаимозависимости (связности) воздействующих факторов или показателей состояния здоровья, для оценки информативности факторов и значимости показателей здоровья, взаимного сопоставления (ранжирования) степени влияния факторов на показатели здоровья.

Регрессионный (однофакторный и многофакторный) анализ используется для описания зависимости показателей здоровья от уровней или времени действия факторов среды, сопоставления их значимости (по бета-коэффициентам), расчета прогнозов и «критических» уровней их действия.

Таким образом, математические методы достаточно жестко увязывается и с типом данных и с задачами исследования. Математический аппарат должен быть адекватным задаче исследования и корректным к типу данных. Если такого совпадения не наблюдается, необходимо либо преобразовывать данные, переводя их в другой тип, либо корректировать задачи исследования, ограничивая их возможностями данных. В противном случае применение математического аппарата нельзя считать корректным, а следовательно, выводы, полученные с его помощью, являются недостоверными.

Summary


Possible types of the data received as a result of scientific research and variants of their mutual transformation are considered. Ways of disposal of dimension and standardization for quantitative variables are stated. The technique of construction of a mark estimation for the complex description of objects and subjects of hygienic research is offered. The example of designing of such mark estimation is considered.