«Методы статистической обработки данных»
Вид материала | Документы |
- Классификация математических методов статистической обработки, 53.46kb.
- Учебная программа дисциплины Методология и методы психолого-педагогических исследований, 490.85kb.
- Программа дисциплины «Методы обработки экспериментальных данных», 318.77kb.
- Математические методы в психологии для направления подготовки бакалавра по направлению, 33.43kb.
- Методы математической обработки данных в иммуноферментном анализе. Часть, 551.25kb.
- Методы анализа данных, 17.8kb.
- Интерактивная работа с данными на языке idl, 935.01kb.
- Рабочей программы дисциплины Структуры и алгоритмы обработки данных по направлению, 21.62kb.
- Компьютерные методы обработки результатов анкетирования, 97.23kb.
- Методы математической обработки данных в иммуноферментном анализе. Часть II. Сравнительная, 251.05kb.
«Методы статистической обработки данных»
I. Относительные величины
Абсолютные числа отражают количественную сторону явлений, действительности. В большинстве случаев абсолютные величины интересны сами по себе, характеризуя, например, численность населения, число рождений, прирост населения, число врачей, число больничных коек или поликлинических посещений, случаи некоторых инфекционных заболеваний. Абсолютные числа показывают массовость или единичность явления. Кроме того, абсолютные числа необходимы для оперативного руководства и планирования в здравоохранении. Из абсолютного числа рождений исходят при планировании родильных коек, из численности населения - при расчетах числа больничных коек, из абсолютного числа больничных коек или поликлинических посещений исходят при расчетах необходимого медицинского персонала.
Однако в большинстве случаев ряды абсолютных чисел недостаточны, а иногда и совершенно не пригодны для сравнения. Нельзя судить по абсолютному числу заболеваний или случаев смерти в различных городах или в отдельные годы о размерах заболеваемости и смертности, так как это число может быть обусловлено различиями в численном и возрастном составе населения. Поэтому прибегают к вычислению относительных величин - показатели и коэффициенты. Показатели и коэффициенты отличаются друг от друга тем, что показатели выражаются в процентах, промилле и т. д., то есть отношение тех или иных величин умножается на 100, 1000, 10 000 и т. д. Коэффициенты - это простое соотношение тех или иных величин, они ни на что не умножаются.
Наиболее часто в санитарной статистике используют следующие относительные величины:
1. Относительные величины частоты или интенсивные показатели.
2. Относительные величины распределения или экстенсивные показатели.
3. Относительные величины наглядности.
4. Относительные величины соотношения.
5. Относительные величины динамики или показатели динамического ряда.
1. Интенсивные показатели.
Интенсивные показатели используются в тех случаях, когда необходимо оценить распространенность изучаемого явления в среде, с которой оно связано. Иными словами относительные величины частоты отвечают на вопрос, как часто встречается изучаемое явление в той среде, в которой оно происходит. Относительные величины частоты можно рассчитывать на различные основания - на 100, 1000, 10 000 и т. д.
Методика вычисления интенсивных показателей проводится на основании пропорции:
Относительная величина частоты | = | Абсолютная величина явления х 100 (1000, 10 000 и т.д.) |
Абсолютная величина среды |
Типичными интенсивными показателями являются показатели рождаемости, смертности, заболеваемости в тех или иных группах людей и в определенное время.
Пример: Вычислить показатели заболеваемости работающих острыми респираторными инфекциями, если в отчетном году зарегистрировано 512 заболеваний. Численность работающих на предприятии 1676 человек.
-
512 х 100
=
30,6
1676
2.Экстенсивные показатели.
Относительные величины распределения используются в тех случаях, когда необходимо количественно характеризовать распределение целого на составляющие его части. Иными словами, относительные величины распределения отвечают на вопрос о том, какую долю (%) среди всего явления в целом, принимаемого за 100%, занимает его любая составная часть.
Методика определения относительных величин распределения проводится на основе элементарной пропорции:
Абсолютная величина изучаемого явления – 100%
Величина любой составной части явления – Х%.
Отсюда относительная величина распределения Х:
-
Х
=
Абсолютная величина любой составной части явления х 100
Абсолютная величина всего изучаемого явления
Пример:
Распределение инфекционных заболеваний рабочих предприятия
по видам болезней
Диагноз заболевания | Абсолютное количество случаев | Относительные величины распределения (структура) в % |
Грипп | 95 | 27,3 |
Ангина | 37 | 9,3 |
Другие ОРВИ | 142 | 35,5 |
Дизентерия | 5 | 1,2 |
Энтерит | 12 | 3,0 |
Инфекционный гепатит | 4 | 1,0 |
Прочие инфекционные б-ни | 105 | 26,3 |
Всего | 400 | 100,0 |
Методика расчета:
-
Х
=
95 х 100
=
27,3
400
Экстенсивный показатель характеризует долю какой-то части изучаемого явления в общей совокупности и ничего не говорит о величине этой части.
Экстенсивными показателями можно характеризовать распределение родившихся по полу, росту, весу; распределение умерших по возрасту, полу и причинам смерти; распределение больных по нозологическим формам, по срокам госпитализации; состав населения по полу и возрасту. В некоторых случаях возможно применение только экстенсивных показателей, например, формула элементов белой крови.
Характерной чертой экстенсивных показателей является их взаимосвязанность, вызывающая автоматизм сдвигов, так как их сумма всегда составляет 100%. Так, при изучении структуры заболеваемости, доля какого-нибудь отдельного заболевания может возрасти:
а) при подлинном его росте, т.е. при увеличении абсолютных величин и интенсивного показателя;
б) при одном и том же уровне – если число других заболеваний в этот период снизилось;
в) при снижении уровня данного заболевания, если уменьшение числа других заболеваний происходило более быстрым темпом.
Делать выводы об интенсивности явления в разных совокупностях на основании их долей нельзя.
3. Относительные величины наглядности
Относительные величины наглядности применяются в тех случаях, когда необходимо в наглядном виде сопоставить несколько однородных абсолютных или производных величин, не являющихся частями целого.
Методика вычисления относительных величин наглядности заключается в том, что одна из сравниваемых величин принимается за 100, а остальные величины с помощью обычной пропорции пересчитываются в показателях по отношению к этому числу.
Пример: Выразить в показателях наглядности динамику заболеваемости ангинами в коллективе. Численность коллектива практически не менялась.
Годы | 1991 | 1992 | 1993 | 1994 | 1995 | 1996 | 1997 |
Абсолютное число больных | 127 | 109 | 120 | 112 | 99 | 113 | 102 |
Принимая число заболевших в 1991 году за 100%, выразим остальные члены ряда в долях базисной величины:
-
127
-
100%
Х
=
109 х 100
=
85,8%
109
-
Х%
127
Получим следующие данные:
Годы | 1991 | 1992 | 1993 | 1994 | 1995 | 1996 | 1997 |
Показатель наглядности (в % к 1991 году) | | 86 | 94 | 88 | 78 | 89 | 80 |
Показатели наглядности дают возможность продемонстрировать направленность, тенденцию динамических сдвигов и изменений в изучаемом процессе (в сторону уменьшения или увеличения).
4. Относительные величины соотношения
Относительные величины соотношения используются в тех случаях, когда необходимо сопоставить изучаемое явление со средой, с которой оно не связано генетически, т.е. оценить соотношение независимых друг от друга явления и среды, объединенных между собой только логически, по смыслу. Примером применения величины соотношения могут служить показатели обеспеченности населения врачами, больничными койками и т.д. Методика расчета относительных величин соотношения аналогична методике расчета интенсивных показателей, однако интенсивный показатель характеризует частоту явлений, происходящих в данной среде; относительные же величины соотношения отражают соотношение двух явлений, между собой генетически не связанных.
Пример: Рассчитать обеспеченность населения Удмуртской Республики больничными койками (на 10 000 населения). Количество коек на 01.01.2000 г. – 20277, численность населения (по подчинению) – 1 586 000 человек.
-
Х
=
20277 х 10 000
=
127,8
1 586 000
5. Относительные величины динамики
Относительные величины динамики применяют при анализе динамических рядов.
Динамический ряд – это ряд чисел или однородных статистических величин, показывающих изменения явления во времени.
Различают три основных типа динамических рядов в зависимости от составляющих его величин:
Динамические ряды, построенные из абсолютных величин (численность населения в различные годы или периоды, количество больничных коек);
- Динамические ряды, представленные относительными величинами (рождаемость, смертность, летальность);
- Динамические ряды, состоящие из средних величин (показатели физического развития, средняя длительность пребывания на койке, средняя длительность лечения).
Динамические ряды в зависимости от сроков, какие они отражают, делятся на моментные и интервальные. Моментные динамические ряды строятся из статистических величин, относящихся к одной определенной дате (численность населения на 1 января). Интервальные динамические ряды строятся из величин, учтенных не на одну дату, а за определенный отрезок времени (за неделю, месяц, год, десятилетие).
Динамический ряд, как правило, позволяет проследить основную закономерность явления – его снижение или увеличение – уровни динамического ряда изменяются последовательно. Иногда эта последовательность нарушается, уровни динамического ряда значительно колеблются, выявить основную закономерность затруднительно.
Приемы выравнивания уровней динамического ряда:
Укрупнение интервала;
- Вычисление групповой средней;
- Вычисление скользящей средней.
Укрупнение интервала производят путем суммирования данных за ряд смежных периодов.
Динамика числа родившихся в Удмуртской Республике за 1999 год
Месяцы | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
Число родившихся | 1114 | 1282 | 1513 | 1373 | 1307 | 1727 | 1323 | 1380 | 1278 | 1210 | 1258 | 1309 |
По кварталам | 3909 | 4406 | 3981 | 3777 |
Помесячное число родившихся то увеличивается, то уменьшается. После укрупнения интервалов по кварталам года выявляется определенная закономерность: наибольшее число родившихся приходится на летне-осенний период.
Вычисление групповой средней для каждого укрупненного периода производят следующим образом: суммируют смежные уровни соседних периодов, а затем полученную сумму делят на число слагаемых.
Динамика % расхождений клинических и патологоанатомических
диагнозов по Н-больнице
Годы | 1992 | 1993 | 1994 | 1995 | 1996 | 1997 | 1998 | 1999 |
% расхождения диагнозов | 12,0 | 10,8 | 9,0 | 10,2 | 9,2 | 9,6 | 9,5 | 8,9 |
Групповая средняя | 11,4 | 9,6 | 9,4 | 9,2 |
Для уровней этого динамического ряда характерны волнообразные колебания. Выравнивание ряда путем вычисления групповой средней выявило четкую тенденцию к постепенному снижению процента расхождений диагнозов в Н-больнице.
Скользящая средняя вычисляется как средняя величина из данного уровня и двух соседних с ним.
Годы | 1992 | 1993 | 1994 | 1995 | 1996 | 1997 | 1998 | 1999 |
% расхождения диагноза | 12,0 | 10,8 | 9,0 | 10,2 | 9,2 | 9,6 | 9,5 | 8,9 |
Скользящая средняя | - | 10,6 | 10,0 | 9,5 | 9,5 | 9,4 | 9,3 | - |
Пример расчета для 1993 года: (12,0+10,9+9,0):3=10,6
Уровни показателей частоты расхождения клинических и патологоанатомических диагнозов в Н-больнице ежегодно колебались. Ряд, выровненный с помощью скользящей средней, выявляет четкую тенденцию: постепенное уменьшение частоты расхождения диагнозов.
Для анализа динамических рядов используют следующие показатели:
Абсолютный прирост (или убыль);
- Темп прироста (убыли);
- Темп роста;
- Абсолютное значение одного процента прироста (убыли).
Методика расчета показателей:
Абсолютный прирост – разность уровней данного года и предыдущего.
Например, для 1993 года: 10,8-12,0=-1,2
- Темп прироста – процентное отношение абсолютного прироста % к предыдущему уровню.
Например, для 1993 года:
-
1,2 х 100
=
10,0%
12,0
- Темп роста – процентное отношение последующего уровня к предыдущему уровню.
Например, для 1993 года:
-
10,8 х 100
=
90,0%
12,0
- Абсолютное значение одного процента прироста (убыли) – отношение абсолютного прироста к темпу прироста.
Например, для 1993 года:
-
1,2
=
0,12
10,0
При пользовании относительными величинами могут встречаться некоторые ошибки, о которых следует упомянуть с целью их предупреждения. Наиболее частым и серьезным является смешение интенсивных и экстенсивных показателей. Не рекомендуется производить манипуляции и преобразования с относительными числами, так как они могут происходить из различных оснований. Приведем такой элементарный пример.
Летальность по больнице и трем отделениям
Отделение больницы | Лечилось | Умерло | Летальность,% |
1 отделение | 1000 | 30 | 3,0 |
2 отделение | 1500 | 30 | 2,0 |
3 отделение | 300 | 21 | 7,0 |
Всего по больнице | 2800 | 81 | 2,9 |
При неправильном подсчете складывают данные последней графы (3+2+7), полученную сумму делят на число слагаемых (3) и получают завышенный показатель – 4,0.
Для получения суммарного показателя нужно пользоваться абсолютными числами лечившихся и умерших:
-
(30+30+21) х 100
=
2,9
(1000+15000+300)
II. Средние величины
Средние величины представляют собой тип производных величин, находящих очень широкое применение в санитарной статистике, наряду с такими производными величинами, статистические показатели и коэффициенты. Средние величины имеют в статистике исключительно важное значение. Средняя величина является сводной – например, средний рост, средний вес, средняя длительность пребывания больного на койке. Величина характеризуется одним числом, выражающим весь ряд наблюдений.
Основными направлениями их использования являются:
Характеристика физического развития – рост, вес, окружность груди, динамометрия.
- Характеристика состояния медицинской помощи населению – средняя длительность пребывания больного на койке, среднее число дней работы койки в году, среднее число посещений на одного жителя в год.
- Характеристика санитарно-эпидемического состояния – средняя площадь или кубатура на одного человека, средние нормы потребления белков.
- Характеристика демографических процессов – средняя продолжительность предстоящей жизни, средняя численность населения, средний возраст умерших.
- Характеристика физиологических сдвигов – температура, уровень артериального давления, среднее время реакции на раздражитель).
И коэффициенты и средние величины представляют собой вероятностные величины и вместе с тем между ними существуют значительные различия:
Коэффициенты характеризуют признак, встретившийся только у некоторой части коллектива, т.е. альтернативный признак, который может наступить, но может и не наступить (рождение, смерть, заболевание, инвалидность). Средние величины охватывают признаки, присущие всем членам коллектива, но в разной степени (вес, рост, дни лечения) – этим признаком обладают все исследуемые.
- Коэффициенты применяются для измерения качественных (описательных) признаков. При средних речь идет об отличиях в числовых размерах признака, а не о факте его наличия или отсутствия.
Основное достоинство средних величин – это их типичность; средняя сразу ориентирует и дает общую характеристику явления. В связи с этим необходимы два условия для вычисления средних: а) однородность совокупности, б) достаточное число наблюдений. Искомые закономерности можно выявить, исследуя не всю генеральную совокупность, а только часть ее. Эта часть – выборочная совокупность – должна быть репрезентативна, т.е. представительна по отношению к генеральной совокупность по количеству и качеству.
Виды средних величин, которыми пользуются в санитарно-статистической практике:
Средняя арифметическая;
- Мода;
- Медиана;
- Средняя прогрессивная.
В результате исследования, как правило, имеется большое число количественных характеристик изучаемых признаков. Для выявления распределения количественного признака в совокупности необходимо построить вариационный ряд – ряд чисел количественного признака, расположенные в ранговом порядке – по порядку, обычно от меньшего к большему. Вариационные ряды бывают простые и сгруппированные. В медицинской статистике приняты следующие условные обозначения:
V – варианты, числовые значения признака;
Р – частота признака, т.е. сколько раз встречается данная варианта;
n – сумма всех частот (общее число всех вариант).
Средняя арифметическая – наиболее употребительная и часто встречающаяся величина. Обозначается средняя арифметическая буквой М от латинского слова Media. Средняя арифметическая может быть простая и взвешенная. Примером средней арифметической простой может служить результат измерения веса 6 лиц. Сумма этих измерений (59, 60, 61, 62, 63 и 64 кг), равная 369 кг, деленная на, и дает среднюю величину веса – 61,5 кг.
Таким образом, средняя арифметическая простая получается как сумма величин (вариант), деленная на их число.
-
М простая
=
ЕV
n
Среднюю арифметическую простую можно вычислить лишь в тех случаях, когда каждая величина (варианта) представлена единичным наблюдением. В том ряду, где частоты не равны единице и не равны между собой, простая средняя неприменима; здесь надо вычислить среднюю арифметическую взвешенную, которая получается как сумма произведений вариант н соответствующие частоты, деленная на общее число наблюдений.
Пример № 1:
Распределение больных по срокам лечения
-
Число дней лечения, V
Число больных, P
V x P
13
1
13
14
2
28
17
2
34
18
5
90
20
4
80
22
8
176
23
5
115
25
2
50
32
2
64
38
2
76
33
726
Каждая варианта умножается на свою частоту. Формула средней арифметической выразится следующим образом:
-
М взвешенная
=
Е V x P
n
М взвешенная = 726 : 33 = 22 дня.
Средняя арифметическая по способу моментов вычисляется для сруппированного вариационного ряда при большом числе наблюдений и отсутствии счетной техники для упрощения вычислений.
-
М по способу моментов
=
A + i E VaP
n
A – условная средняя арифметическая,
а=(V-A) / i – отклонение (отличие) каждой варианты от условной средней в интервалах,
i EaP / n – первый момент средней арифметической (среднее отклонение всех вариант ряда от условной средней),
i – интервал в группе (в сгруппированном вариационном ряде).
Медиана (обозначается буквами Ме) – это срединная центральная варианта, делящая вариационный ряд пополам на две равные части.
Таким образом, медиана находится на центральном месте, от которого отстоит одинаковое число и больших, и меньших вариант. Нахождение медианы в простом, несгруппированном ряду производится очень легко, особенно если число наблюдений нечетное. Так в примере № 1, где число наблюдений составляет 33, медианой будет 17-я по счету, так как в обе стороны от нее отстоит по 16 наблюдений. Путем простого отсчета убеждаемся, что значение 17-й величины составляет 22, и, следовательно, медиана равна 22 дням.
В ряду с четным числом наблюдений в центре находятся две величины. Иногда они одинаковы по своему значению, и тогда не возникает затруднений в приближенном определении медианы; если же числовые значения величин различны, то за медиану принимается их полусумма.
Мода (обозначаемая Мо) – чаще всего встречающаяся или наиболее часто повторяющаяся величина. Возвращаясь к нашему примеру, видно, что варианта с наибольшим количеством частот (8) равняется 22. Мода составляет 22 дня, т.е. фактически не отличается от медианы и средней арифметической данного ряда.
Совпадение средней арифметической, моды и медианы не является случайным. Объяснение этого кроется в том, что данный ряд является симметричным, т.е. теоретически правильным. Преобладающее большинство рядов, с которыми встречается врач на практике, является симметричными или нормальными рядами. Поэтому для большинства вариационных рядов нет необходимости вычислять другие средние величины, кроме средней арифметической. Именно поэтому средняя арифметическая всегда является наиболее употребительной и чаще всего применяется в санитарной статистике. Прибегать к медиане и моде приходится при наличии асимметричных рядов.
Следующим видом средних величин, подлежащих нашему рассмотрению, является средняя прогрессивная. Средняя прогрессивная имеет огромное значение в экономической статистике. Методика получения средней прогрессивной заключается в том, что ее вычисляют не для всего круга объектов, а только для передовых. Границей, разделяющей совокупность, служит средняя арифметическая. Средняя прогрессивная – это средняя той части совокупности, варианты которой превышают среднюю всей совокупности.
Рассмотрим методику расчета средней прогрессивной на следующем примере.
Средняя прогрессивная и методика ее вычисления
Число дней работы койки в году | Середина интервала | Число коек | Произведение числа дней на число коек |
281-290 | 285 | 5 | 1425 |
291-300 | 295 | 8 | 2360 |
301-310 | 305 | 17 | 5185 |
311-320 | 315 | 25 | 7875 |
321-330 | 325 | 30 | 9750 |
331-340 | 335 | 10 | 3350 |
341-350 | 345 | 5 | 1725 |
Итого | - | 100 | 31670 |
Средняя арифметическая: 31670 : 100 = 316,7 дня.
Число коек, работающих свыше 316,7 дней в году: 30 + 10 + 5 = 45.
Данные койки отработали: 9750 + 3350 + 1725 = 14825 дней.
Средняя прогрессивная: 14825 : 45 = 329,4 дня.
Применение средней прогрессивной требует известной осторожности, так как увеличение нагрузок (увеличение нагрузки врача или занятости койки) может сказаться на качестве лечения.
Средние арифметические величины имеют довольно часто ограниченное значение, так как не отражают степень рассеянности признака.
III. Стандартизация показателей
Метод применяется при сравнении показателей здоровья различных по составу групп населения (по полу, возрасту и другим признакам).
Суть метода состоит в исключении влияния на общий показатель разного состава совокупностей по одному, двум или более признакам. Существует прямой, косвенный и обратный метод стандартизации.
Суть прямого метода состоит в вычислении общих интенсивных показателей в одинаковых по составу совокупностях, для чего рассчитываются частные показатели в сравниваемых группах, по которым судят об их истинном соотношении в исследуемых совокупностях; предполагают, что сравниваемые совокупности одинаковы, т.е. стандартны по составу.
За стандарт принимают средний состав обеих групп, или одну из сравниваемых групп, или какую-то третью группу, близкую к сравниваемым.
Рассчитывают условные величины в каждой группе стандарта и общие стандартизованные показатели, которые тоже являются условными, гипотетическими.
Вывод делают примерно по следующей схеме: если соотношение стандартизованных показателей получается иное, чем реальных, то мы делаем вывод о том, что на уровень реальных показателей влияет факт разного состава сравниваемых совокупностей по стандартизуемому признаку. И наоборот, если стандартизованные показатели повторяют соотношение реальных, то мы делаем вывод о том, что на уровень реальных показателей факт разного состава по стандартизуемому признаку не влияет.
Прямой метод стандартизации.
Распределение больных и умерших по отделениям больниц А и Б (данные условные).
Расчет:
Летальность А: 40 х 100 : 1000 = 4,0
Летальность Б: 38 х 100 : 1000 = 3,8
Отделение | Больница А | Больница Б | Стандарт больных | Больница А | Больница Б | ||||
Число больных | Из них умерло | Число больных | Из них умерло | Летальность, % | Умрет на стандарт | Летальность, % | Умрет на стандарт | ||
Терапевтическое | 600 | 30 | 200 | 12 | 400 | 5,0 | 20 | 6,0 | 24 |
Хирургическое | 300 | 6 | 700 | 21 | 500 | 2,0 | 10 | 3,0 | 15 |
Инфекционное | 100 | 4 | 100 | 5 | 100 | 4,0 | 4 | 5,0 | 5 |
Всего | 1000 | 40 | 1000 | 38 | 1000 | 4,0 | 34 | 3,8 | 44 |
Летальность | 4,0% | | 3,8% | | Стандартизованный показатель летальности | | 3,4% | | 4,4 |
Стандарт больных:
Терапевтическое отделение: (600 + 200) : 2 = 400 и т.д.
Рассчитываем показатель летальности по каждому отделению, а далее сколько больных умрет на выбранный стандарт. Последний этап: расчет стандартизованного показателя летальности.