Стентон Гланц Медико-биологическая Электронная книга Primer of BIOSTATISTICS FOURTH EDITION Stanton A. Glantz, Ph.D. ...
-- [ Страница 3 ] --Расчет чувствительности Ч важнейшая составная часть пла нирования медицинских исследований. Теперь, познакомившись с наиболее важным фактором, определяющим чувствительность, мы готовы решить эту задачу.
Как определить чувствительность критерия?
На рис. 6.9 чувствительность критерия Стьюдента представле на как функция от параметра нецентральности = / при уров не значимости = 0,05. Четыре кривые соответствуют четырем объемам выборок.
Подразумевается, что выборки имеют равный объем. Что де лать, если это не так? Если вы обратились к рис. 6.9 при плани ровании исследования (что весьма разумно), то нужно учесть следующее. При заданной общей численности обследованных именно равная численность групп обеспечивает максимальную чувствительность. Значит, равную численность групп и следу ет запланировать. Если же вы решили рассчитать чувствитель ность после проведения исследования, когда, не найдя статис тически-значимых различий, вы хотите определить, в какой сте пени это можно считать доказательством отсутствия эффекта, Ч тогда следует принять численность обеих групп равной мень шей из них. Такой расчет даст несколько заниженную оценку чувствительности, но убережет вас от излишнего оптимизма.
Применим кривые с рис. 6.9 к примеру с диуретиком (см.
рис. 6.1). Мы хотим вычислить чувствительность критерия Стью дента при уровне значимости = 0,05. Стандартное отклонение равно 200 мл. Какова вероятность выявить увеличение суточного диуреза на 200 мл?
= = =1.
Численность контрольной и экспериментальной групп рав на десяти. Выбираем на рис. 6.9 соответствующую кривую и находим, что чувствительность критерия равна 0,55.
До сих пор мы говорили о чувствительности критерия Стью 178 ГЛАВА Рис. 6.8. Чувствительность критерия Стьюдента как функция от объема выбо рок при величине различий 200 мл, уровне значимости = 0,05 и стандартном отклонении = 200 мл. При объеме выборок 10 человек чувствительность со ставляет 0,55.
ЧТО ЗНАЧИТ НЕЗНАЧИМО: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ дента. Можно рассчитать чувствительность и других критери ев. Определяется она теми же самыми факторами, но ход вы числений будет несколько иным.
Галотан и морфин при операциях на открытом сердце В гл. 4 мы сравнили сердечный индекс при галотановой и морфиновой анестезии (см. табл. 4.2) и не нашли статисти чески значимых различий. (Напомним, что сердечный индекс Ч это отношение минутного объема сердца к площади по верхности тела.) Однако группы были малы Ч 9 и 16 чело век. Средняя величина сердечного индекса в группе галотана равнялась 2,08 л/мин/м2;
в группе морфина 1,75 л/мин/м2, то есть на 16% меньше. Даже если бы различия были статисти чески значимыми, вряд ли столь небольшая разница представ ляла бы какой-либо практический интерес.
Поэтому поставим вопрос так: какова была вероятность вы явить разницу в 25%? Объединенная оценка дисперсии s2 = 0,89, значит, стандартное отклонение равно 0,94 л/мин/м2. Двадцать пять процентов от 2,08 л/мин/м2 Ч это 0,52 л/мин/м2.
Тем самым, 0, = = = 0,553.
0, Поскольку численности групп не совпадают, для оценки чув ствительности выберем меньшую из них Ч 9. Из рис. 6.9 сле дует, что в таком случае чувствительность критерия Ч 0,16.
Шансы выявить даже 25% различия были весьма малы.
Подведем итоги.
Х Чувствительность критерия есть вероятность отвергнуть лож ную гипотезу об отсутствии различий.
Х На чувствительность критерия влияет уровень значимости:
чем меньше, тем ниже чувствительность.
Х Чем больше величина эффекта, тем больше чувствитель ность.
Х Чем больше объем выборки, тем больше чувствительность.
Х Для разных критериев чувствительность вычисляется по-раз ному.
180 ГЛАВА Рис. 6.9. Чувствительность критерия Стьюдента в зависимости от параметра не центральности при уровне значимости = 0,05 для разных объемов выборок n.
Параметр нецентральности Ч это отношение величины различий к стандартному отклонению в совокупности: = /. Пунктирные линии показывают, как пользо ваться графиками. Если, например, величина различий = 200 мл, стандартное отклонение = 200 мл, то = 1. Для объема выборок n = 10 чувствительность составляет 0,55. При = 0,55 и n = 9 чувствительность Ч всего лишь 0,16.
ЧТО ЗНАЧИТ НЕЗНАЧИМО: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ ЧУВСТВИТЕЛЬНОСТЬ ДИСПЕРСИОННОГО АНАЛИЗА Чувствительность дисперсионного анализа* определяется теми же факторами, что чувствительность критерия Стьюдента, по хож и способ ее вычисления. Для расчета нам понадобятся сле дующие данные: число групп, их численность, уровень значи мости и величина различий. Что понимать под величиной раз личий, если число групп больше двух? В качестве величины различий используют минимальную величину различий меж ду любыми двумя группами. Параметр нецентральности рас считывают по формуле:
n =, 2k где Ч стандартное отклонение в совокупности, k Ч число групп, n Ч численность каждой из них**. Есть другой способ, несколько более сложный. Если i, Ч среднее в i-й труппе, то - ) (i =, k где i = k есть среднее по всем группам.
Определив параметр нецентральности, и зная межгрупповое число степеней свободы = k - 1, чувствительность находят меж по графикам, где она представлена как функция от параметра нецентральности. На рис. 6.10 изображены графики для = 2, меж графики для других значений вы найдете в приложении Б.
меж * Во вводном курсе этот раздел можно пропустить без ущерба для понимания последующего материала.
** Численность групп предполагается равной. Как и в случае критерия Стьюдента, именно равная численность групп обеспечивает макси мальную чувствительность при заданной общей численности обсле дованных.
182 ГЛАВА Те же графики можно использовать и для определения чис ленности групп, обеспечивающей необходимую чувствитель ность. Это сложнее, чем в случае критерия Стьюдента, так как теперь n входит и в параметр нецентральности, и в выражение для числа степеней свободы. Поэтому значение n приходится вну подбирать путем последовательного приближения. Сначала вы произвольно выбираете начальное значение n и вычисляете чув ствительность. В зависимости от найденного значения чувстви тельности вы изменяете n, после чего повторяете вычисление.
Эта процедура повторяется до тех пор, пока значение чувстви тельности не окажется достаточно близким к нужному.
БЕГ И МЕНСТРУАЦИИ Чтобы получше разобраться с тем, как вычислить чувствитель ность и объем выборки при дисперсионном анализе, обратимся к примеру с влиянием бега на частоту менструаций, который мы разбирали в гл. 3 (рис. 3.9). Сейчас нас интересует, какова вероят ность выявить различие в одну менструацию в год ( = 1). Число групп k = 3;
стандартное отклонение = 2. Численность каждой из групп n = 26. Уровень значимости выбираем: = 0,05. Найдем параметр нецентральности:
1 ==1,04.
2 2 Межгрупповое число степеней свободы = k - 1 = 3 - 1 = меж и внутригрупповое = k(n - 1) =3(26 - 1) = 75. По рис. 6. вну находим, что чувствительность составит около 0,30.
Результат обескураживающий, что вообще характерно для рас четов чувствительности. Положим, нам хотелось бы иметь чув ствительность равной 0,80. Какая численность групп нужна для этого? В том, что объем n = 26 слишком мал, мы только что убе дились. Из рис. 6.10 мы видим, что параметр нецентральности должен быть приблизительно равен 2. Для n = 26 он близок к 1.
Значит, численность групп должна быть такой, чтобы параметр нецентральности увеличился вдвое. При вычислении из чис ленности групп n извлекается квадратный корень, поэтому чиc ЧТО ЗНАЧИТ НЕЗНАЧИМО: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ Рис. 6.10. Чувствительность дисперсионного анализа как функция от парамет ра нецентральности при уровне значимости = 0,05 и межгрупповом числе степеней свободы = 2. В приложении Б вы найдете аналогичные графики меж для других значений и.
меж E. S. Pearson, H. O. Hartley. Charts for power function for analysis of variance tests, derived from the non-central F distribution. Biometrika, 38:112Ц130,.
184 ГЛАВА ленность групп должна увеличиться в 22 = 4 раза. Таким обра зом, нужно, чтобы в каждую из групп входило по 100 человек.
Тогда 1 == 2, 2 2 и = k(n - 1) = 3(100 - 1) = 297. По рис. 6.10 находим, что в вну этом случае чувствительность составит 0,88, то есть даже боль ше, чем мы хотели. Поскольку стандартное отклонение может оказаться больше, чем мы думали, некоторый избыток чувстви телности нам не помешает, однако резонно спросить, где же и на какие средства мы наберем такие группы. Нельзя ли хоть не много сократить их численность? Попробуем n = 75. Тогда 1 ==1, 2 2 и = 3(75 - 1) = 222. Рис. 6.10 показывает, что теперь чув вну ствительность равна 0,80.
Таким образом, для того чтобы при уровне значимости = 0,05 с вероятностью 80% обнаружить в трех группах разли чие в одну менструацию в год, когда стандартное отклонение пред положительно составляет 2 менструации в год, нужно набрать группы по 75 человек.
ЧУВСТВИТЕЛЬНОСТЬ ТАБЛИЦ СОПРЯЖЕННОСТИ* Графиками с рис. 6.10 (и из приложения Б) можно воспользоваться для нахождения чувствительности и объема выборки при работе с таблицами сопряженности**. Сначала нужно решить, какое ми нимальное различие вы хотели бы обнаружить. В случае таблиц сопряженности это означает, что вам нужно заполнить клетки не * Во вводном курсе этот раздел можно опустить.
** Таблицу сопряженности 22 можно рассматривать как задачу сравнения двух долей. Как в этом случае вычислить чувствительность и объем вы борки, вы поймете, решив задачу 6.6. Более подробно этот вопрос изло жен в работе: A. F Feinstem. Clinical biostatistics. Mosby, St. Louis, 1977.
ЧТО ЗНАЧИТ НЕЗНАЧИМО: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ Таблица 6.2. Обозначения, используемые при вычислении чув ствительности критерия p11 p12 R p21 p22 R p31 p32 R C1 С2 1, которыми долями. В таблице 6.2 приведены обозначения, ис пользуемые при вычислении чувствительности таблицы сопря женности, для примера взята таблица 32. Здесь рij Ч доля в i-й строке j-го столбца, например р11 Ч доля всех наблюдений в левой верхней клетке, p12 Ч доля наблюдений в правой верхней клетке, и так далее. Сумма всех долей составляет 1. Суммы по строкам обозначаются Ri, по столбцам Ч Сj. Параметр нецент ральности задается формулой pij - RiCj () N =, r ( -1 c -1 +1 RiCj )( ) где r Ч число строк, с Ч число столбцов и N Ч общее число наблюдений. Зная значение и число степеней свободы = вну и = (r - 1)(с - 1), чувствительность можно определить по меж кривым с рис. 6.10.
Для нахождения объема выборки, при котором достигается тре буемая чувствительность, воспользуемся обратной процеду рой. Именно, сначала по рис. 6.10 найдем значение параметра не центральности для заданной чувствительности и числа степеней свободы = (r - 1)(с - 1) и =. А теперь найдем объем вы меж вну борки, разрешив приведенную выше формулу относительно N:
r -1 c -1 + ( )( ).
N = pij - RiCj () RCj i Бег и менструации Дейл и соавт. изучали не только то, как занятия бегом влияют на частоту менструаций, но и то, какая доля женщин обращалась к 186 ГЛАВА врачу. (Этот пример мы подробно рассмотрели в гл. 5, см. табл.
5.5.) Допустим, мы хотим выявить различия не меньшие, чем в табл. 6.3. Уровень значимости = 0,05, общее число обследо ванных N = 165. Расссчитаем сначала сумму pij - RiCj 0,025 - 0,250 0,350 () () =+ RCj 0,250 0, i 0, ( - 0,250 0,650 0,100 - 0,300 0, ) () +++ 0,250 0,650 0,300 0, 0, ( - 0,300 0,650 0,225 - 0,450 0, ) () +++ 0,300 0,650 0,450 0, 0, ( - 0,450 0, ) += 0,114.
0,450 0, Тогда = 0,114 = 2,50.
( -1 2 -1 + )( ) По рис 6.10 находим, что для = 2,50 при = (r - 1)(с - 1) = меж = (3 - 1)(2 - 1) = 2 и = степенях свободы и уровне значимо вну сти = 0,05 чувствительность равна 0,98.
ПРАКТИЧЕСКИЕ ТРУДНОСТИ Нетрудно рассчитать чувствительность критерия задним чис лом, когда и стандартное отклонение, и величина эффекта уже известны. К сожалению, мы не знаем эти параметры, когда пла нируем исследование. Стандартное отклонение можно пример но оценить по литературным данным или проведя предвари тельное исследование. Величину эффекта узнать заранее невоз можно (обычно ее оценка и является целью исследования). По этому при расчете чувствительности нужно указать минималь ную величину эффекта, которую мы хотим выявить. Немногие решаются поведать миру о том, какова же эта величина, поэто ЧТО ЗНАЧИТ НЕЗНАЧИМО: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ Таблица 6.3. Предполагаемые доли женщин, обращавшихся к врачу по поводу нерегулярности менструаци Обращались к врачу Группа Да Нет Всего Контроль 0,025 0,225 0, Физкультурницы 0,100 0,200 0. Спортсменки 0,225 0,225 0, Всего 0,350 0,650 1, му чувствительность очень редко рассчитывают заранее. Меж ду тем делать это совершенно необходимо: иначе мы рискуем проводить исследования, заведомо обреченные на неуспех.
Если после проведения исследования эффект обнаружен, то чувствительность уже неважна. В противном случае Ч если эф фекта не выявлено Ч она приобретает первостепенное значе ние. В самом деле, если мы не обнаружили статистически зна чимых различий при чувствительности 80%, то с высокой веро ятностью можно утверждать, что различий действительно нет.
Иными словами, мы получили отрицательный результат. Если же чувствительность составляла 25%, то мы просто не получи ли никакого результата. Обычно данные, необходимые для оп ределения чувствительности, содержатся в статье, поэтому чи татель может сам провести расчет.
ЗАЧЕМ ВЫЧИСЛЯТЬ ЧУВСТВИТЕЛЬНОСТЬ?
Ранее, в 4 гл., мы разобрали распространенную ошибку, состоя щую в многократном применении критерия Стьюдента. В тер минах этой главы можно сказать, что многократное применение критерия Стьюдента увеличивает ошибку I рода. На практике же это означает, что нам сообщают о статистически значимых раз личиях там, где их в действительности нет. Теперь, познако мившись с методами определения чувствительности критерия и убедившись, насколько малой она нередко оказывается, мы мо жем судить о причинах этого явления. Многие исследования не имели бы никаких шансов на успех, если бы завершались одним единственным сравнением. Конечно, проще сравнить группы по целому ряду лабораторных показателей, чем сделать числен 188 ГЛАВА ность групп достаточной для выявления разницы в летальнос ти. С другой стороны, пренебрежение оценкой чувствительно сти приводит к тому, что во вполне корректно (в остальном) про веденном исследовании клинически значимый эффект остается невыявленным из-за слишком малой численности групп.
Теперь мы получили достаточное представление о чувстви тельности, чтобы избежать этих ловушек. Мы узнали о том, как можно оценить чувствительность критерия по данным, приве денным в публикации, и как самому вычислить нужный объем выборок, чтобы обнаружить эффект заданной величины. Резуль таты таких вычислений часто разочаровывают, поскольку ока зывается, что численность групп должна быть огромной (осо бенно в сравнении с тем обычно небольшим числом больных, которые участвуют в клинических исследованиях)*. Как бы то ни было, мы должны отдавать себе отчет в ограниченности на ших возможностей. Однако заведомо несостоятельные иссле дования все же проводятся. Вряд ли авторы сознательно замал чивают недостаток чувствительности, рассчитывая, что благо даря эффекту множественных сравнений что-нибудь найдет ся. На самом деле большинство из них просто никогда ничего не слышали о чувствительности критериев.
Фрейман и соавт.** изучили 71 публикацию*** по результатам контролируемых испытаний, проведенных в 1960Ч1977 гг., в ко торых исследуемый метод лечения не дал статистически значимо го (Р < 0,05) улучшения исхода. Лишь в 20% работ численность групп была достаточной, чтобы обнаружить снижение частоты неблагоприятных исходов (смерть, осложнение и т. п.) на 25% с * По данным Р. А. и С. У. Флетчеров (R. A. Fletcher, S. W. Fletcher. Clinical research in general medical journals: a 30-year perspective. N. Engl. J. Med., 301:180Ч183, 1979), изучавших работы, опубликованные в Journal of the American Medical Association, Lancet и New England Journal of Medicine, в период с 1946 по 1976 г. медиана численности группы составляла от до 36 человек.
** J. A. Freiman, Т. С. Chalmers, H. Smith Jr., R. R. Kuebler. The importance of beta, the type II error and sample size in the design and interpretation of the randomized controlled trial. N. Engl. J. Med., 299:690Ч694, 1978.
*** В журналах Lancet, New England Journal of Medicine, Journal of the American Medical Association.
ЧТО ЗНАЧИТ НЕЗНАЧИМО: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ вероятностью 50%. Только в одной статье говорилось, что уро вень значимости и чувствительность были определены до нача ла исследования, 14 статей содержали указания на желатель ность большей численности групп.
Пятнадцать лет спустя аналогичное исследование провели Моэр и соавт., рассмотрев публикации по результатам контро лируемых испытаний в тех же журналах за 1990 г. Число публи каций по этой теме по сравнению с 1975 г. возросло вдвое, одна ко доля отрицательных результатов осталась прежней Ч около 27%. Доля исследований, обеспечивающих достаточную чувст вительность, оказалась примерно той же, что и в работе Фрей мана и соавт., однако расчет численности групп обнаружен уже в трети статей. Итак, некоторый прогресс налицо, хотя ситуа ция все же оставляет желать лучшего. Как и во всем, что касает ся применения статистических методов, полностью полагаться на авторов пока нельзя. Прежде чем принять вывод о неэффектив ности того или иного метода лечения, читателю следует само стоятельно оценить чувствительность примененного критерия.
Что же все-таки делать с работами, не обнаружившими эф фекта из-за недостаточной численности групп*? Нужно ли мах * Необходимость заранее определять численность групп ставит ис следователей перед нелегким выбором: мириться с высоким риском не получить результат или проводить дорогостоящее широкомас штабное исследование. Эта проблема в значительной мере снимается методами последовательного анализа. При последовательном ана лизе численность групп не определяется заранее: вместо этого боль ных включают в исследование по одному. Дождавшись наступления того или иного исхода, выбирают одно из трех: 1) принять гипотезу об отсутствии эффекта, 2) отвергнуть гипотезу либо 3) включить еще одного больного. Последовательный анализ обычно обеспечивает те же величины и, что и обычные методы, при меньшей численности групп. Применять на каждом шаге критерий Стьюдента было бы не правильно: из-за эффекта множественных сравнений мы получили бы чрезмерно лоптимистическое значение Р. Последовательный анализ требует применения специальных методов оценки статистической значимости, которые изложены в главе Sequential analysis книги W.
J. Dixon, F. J. Massey. Introduction to Statistical Analysis, McGraw-Hill, New York, 1969.
190 ГЛАВА нуть рукой на полученные результаты или из них можно извлечь нечто полезное? Оказывается, можно. Для этого следует отка заться от альтернативной логики лэффект есть Ч эффекта нет и вместо этого оценить величину эффекта и степень неопределен ности этой опенки, то есть рассчитать доверительный интервал, чем мы и займемся в следующей главе.
ЗАДАЧИ 6.1. Используя данные табл. 4.2, вычислите чувствительность критерия Стьюдента, способного обнаружить 50% различие на илучшего сердечного индекса между галотановой и морфино вой анестезией.
6.2. По тем же данным определите, какова должна быть чис ленность групп, чтобы с вероятностью 80% обнаружить 25% различие в наилучшем сердечном индексе.
6.3. Используя данные табл. 4.2, определите чувствитель ность критерия Стьюдента для выявления изменения среднего артериального давления и общего периферического сосудисто го сопротивления на 25%.
6.4. В задаче 3.5 мы не обнаружили влияния внутривенного введения тетрагидроканнабинолов на антибактериальную за щиту у крыс. Допустим, минимальное снижение, которое мы хотим выявить, составляет 20%, уровень значимости = 0,05.
Какова чувствительность критерия Стьюдента?
6.5. По тем же данным определите, какой должна быть чис ленность групп, чтобы обеспечить выявление снижения анти бактериальной защиты на 20% с вероятностью 90% (уровень значимости = 0,05).
6.6. Какой должна быть численность групп, чтобы с вероят ностью 90% обнаруживать снижение летальности с 90 до 30%.
Уровень значимости = 0,05. При решении вам пригодятся таб личные значения стандартного нормального распределения (табл. 6.4).
6.7. Используя данные из задачи 3.2, найдите вероятность обнаружить снижение максимальной объемной скорости середи ны выдоха на 0,25 л/с при уровне значимости = 0,05.
ЧТО ЗНАЧИТ НЕЗНАЧИМО: ЧУВСТВИТЕЛЬНОСТЬ КРИТЕРИЯ Таблица 6.4. Процентили стандартного нормального распреде ления Отклонение z от среднего Площадь Площадь (в стандартных отклонениях) слева от z справа от z Ц2,5 0,0062 0, Ц2,4 0,0082 0, Ц2,3 0,0107 0, Ц2,2 0,0139 0, Ц2,1 0,0179 0, Ц2,0 0,0228 0, Ц1,9 0,0287 0, Ц1,8 0,0359 0, Ц1,7 0,0446 0, Ц1,6 0,0548 0, Ц1,5 0,0668 0, Ц1,4 0,0808 0, Ц1,3 0,0968 0, Ц1,2 0,1151 0, Ц1,1 0,1357 0, Ц1,0 0,1587 0, Ц0,9 0,1841 0, Ц0,8 0,2119 0, Ц0,7 0,2420 0, Ц0,6 0,2743 0, Ц0,5 0,3085 0, Ц0,4 0,3446 0, Ц0,3 0,3821 0, Ц0,2 0,4207 0, Ц0,1 0,4602 0, 0,0 0,5000 0, 0,1 0,5398 0, 0,2 0,5793 0, 0,3 0,6179 0, 0,4 0,6554 0, 0,5 0,6975 0, 0,6 0,7267 0, 0,7 0,7580 0, 192 ГЛАВА Таблица 6.4. Окончание Отклонение z от среднего Площадь Площадь (в стандартных отклонениях) слева от z справа от z 0,8 0,7881 0, 0,9 0,8159 0, 1,0 0,8413 0, 1,1 0,8643 0, 1,2 0,8849 0, 1,3 0,9032 0, 1,4 0,9192 0, 1,5 0,9332 0, 1,6 0,9452 0, 1,7 0,9554 0, 1,8 0,9641 0, 1,9 0,9713 0, 2,0 0,9772 0, 2,1 0,9821 0, 2,2 0,9861 0, 2,3 0,9893 0, 2,4 0,9918 0, 2,5 0,9938 0, 6.8. Используя данные из задачи 3.3, найдите вероятность обнаружить увеличение уровня липопротеидов высокой плот ности на 5 и 10 мг%. Уровень значимости = 0,05.
6.9. По тем же данным определите, какой должна быть чис ленность групп, чтобы изменение в 5 мг% можно было обна ружить с вероятностью 80% при уровне значимости = 0,05.
6.10. В задаче 5.4 сравнивали частоту рецидивов инфекции мочевых путей после короткого курса того или иного антибак териального препарата. Допустим, минимальные различия, кото рые мы хотим выявить, таковы: в группах ампициллина и три метоприма/сулъфаметоксазола рецидив наступает у двух третей девочек, в группе цефалексина Ч у одной трети. Какой была бы чувствительность таблицы сопряженности при численности групп, указанной в задаче 5.4? Уровень значимости = 0,05.
6.11. Каким должен быть объем выборки, чтобы в задаче 6. чувствительность составила 80%?
Глава Доверительные интервалы До сих пор мы занимались в основном нахождением различий между группами, не слишком интересуясь величиной этих раз личий. Мы формулировали нулевую гипотезу, то есть предпола гали, что экспериментальные группы Ч это просто две случай ные выборки из одной и той же совокупности. Затем мы оцени вали вероятность получить наблюдаемые различия при усло вии, что нулевая гипотеза верна. Если эта вероятность была мала, мы отвергали нулевую гипотезу и делали вывод, что различия статистически значимы. При таком подходе мы всегда получаем только качественный результат: либо отклоняем нулевую гипо тезу, либо не отклоняем, либо признаем различия статистически значимыми, либо не признаем. Количественная оценка различий от нас ускользает. Между тем, как мы выяснили в предыдущей главе, вероятность выявления различий зависит не только от их величины, но и от численности групп. Сколь угодно малые раз личия при достаточно большой численности групп могут ока заться статистически значимыми, или, как пишут в диссертаци 194 ГЛАВА ях, высоко достоверными. При этом речь может идти о разнице в несколько миллиметров ртутного столба.
Характеристика, которая дополняет и даже заменяет каче ственное суждение (значимоЧнезначимо), Ч это доверитель ный интервал. В гл. 2 мы уже встречались с этим понятием, хотя и не применяли этот термин. Тогда мы выяснили, что ис тинное среднее в 95% случаев лежит на расстоянии не больше двух ошибок среднего от выборочного среднего. Промежуток длиной в четыре ошибки среднего Ч это и есть 95% довери тельный интервал. Смысл доверительного интервала из этого примера достаточно ясен: мы не знаем точно, чему равна неко торая величина, но можем указать интервал, в котором она на ходится (с заданной вероятностью). В этой главе мы научимся определять доверительные интервалы для разных величин, в том числе для разности средних (величины эффекта) и доли. Мы покажем, что доверительный интервал можно использовать вме сто обычных критериев значимости*. Доверительные интерва лы используют также для определения границ нормы лабора торного показателя.
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ РАЗНОСТИ СРЕДНИХ В гл. 4 мы определили критерий Стьюдента как Разность выборочных средних t =.
Стандартная ошибка разности выборочных средних Вычислив t, его сравнивают с критическим значением t для заданного уровня значимости. Для двух случайных выборок из одной совокупности вероятность получить значение t, по абсо лютной величине превышающее t, весьма мала (а именно, не превышает ;
напомним, что уровень значимости Ч это мак симальная приемлемая вероятность ошибочно признать суще ствование различий там, где их нет). Поэтому, получив боль * Существует мнение, что только доверительные интервалы и нужно ис пользовать. Эта точка зрения кратко изложена в работе: К. J. Rothman. A show of confidence. N. Engl. J. Med., 299:1362Ч1363, 1978.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ шое значение t, мы делаем вывод о статистической значимос ти различий.
Для случайных выборок, извлеченных из одной совокупно сти, распределение всех возможных значений t (распределение Стьюдента) симметрично относительно среднего, равного нулю (см. рис. 4.5). Если же выборки извлечены из двух совокупнос тей с разными средними, то распределение всех возможных значений t будет иметь среднее, отличное от нуля (см. рис. 6.3 и 6.5).
Формулу для t можно видоизменить так, чтобы распределе ние t было всегда симметрично относительно нуля:
Разность выборочных средних - Разность истинных средних.
t = Стандартная ошибка разности выборочных средних Заметим, что если обе выборки извлечены из одной совокуп ности, то разность истинных средних равна нулю и в этом слу чае новая формула совпадает с предыдущей.
Вот математическая запись новой формулы:
X1 - X2 - ( - ).
() t = sX - X Поскольку истинных средних (то есть средних по совокупно сти) мы не знаем, то и вычислить значение t по этой формуле мы не можем. Но эта формула и не предназначена для нахождения t.
Она позволяет сделать другое Ч оценить разность 1 - 2, то есть истинную величину различий. Для этого вместо вычисления t выберем его подходящее значение и, подставив в формулу, вы числим величину 1 - 2. Как выбрать подходящее значение?
По определению 100 процентов всех возможных значений t расположены левее Цt или правее +t. Остальные 100(1 - ) процентов значений t попадают в интервал от Цt до +t. Напри мер, 95% значений t находится в интервале от Цt0,05 до +t0,05. (Кри тические значения t, в частности t0,05, можно найти по табл. 4.1.) Значит, в 100(1 - ) процентах всех случаев X1 - X2 -( - ) () -t < +t.
sX - X 196 ГЛАВА Преобразуя это неравенство, получаем X1 - X2 - tsX - X2 < 1 - 2 < X1 - X2 + tsX - X.
() () 1 1 Таким образом, разность истинных средних отличается от разности выборочных средних менее чем на произведение t и стандартной ошибки разности выборочных средних. Это нера венство задает доверительный интервал для разности средних 1 - 2. К примеру, 95% доверительный интервал для разности средних определяется неравенством X1 - X2 - t0,05sX - X2 < 1 - 2 < X1 - X2 + t0,05sX - X2.
() () 1 В этот интервал разность истинных средних попадет в 95% случаев.
Этот способ определения доверительного интервала, как и критерий Стыодента, на котором он основан, можно применять только тогда, когда совокупность имеет хотя бы приближенно нормальное распределение*.
Эффективный диуретик На рис. 6.1 показан суточный диурез в совокупности из 200 чело век после приема плацебо (рис. 6.1 А) и диуретика (рис. 6.1Б).
Средний диурез при приеме плацебо составил п = 1200мл, при приеме диуретика Ч д = 1400 мл. Таким образом, препарат уве личивает суточный диурез на д - п = 1400 - 1200 = 200 мл. Как обычно, исследователь вынужден довольствоваться выборками, по которым он и оценивает величину эффекта. На рис. 6.1 поми мо известных нам, но не исследователю, данных по совокупнос ти приведены данные, полученные по двум выборкам, в каждую из которых входило по 10 человек. В контрольной группе сред ний диурез составил 1180 мл, а в группе, получавшей диуретик, Ч 1400 мл. Среднее увеличение диуреза в данном опыте:
XД - XП =1400 -1180 = 220 мл.
Как и всякая выборочная оценка, подверженная влиянию * Доверительные интервалы можно определять и в случае множественных сравнений. Подробнее об этом см.: J. H. Zar. Biostatistical analysis, 2nd ed, Prentice-Hall, Englewood Cliff, N. J., 1984, p. 191-192, 195.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ случая, эта величина отличается от истинного увеличения су точного диуреза, равного 200 мл. И если бы мы, основываясь на выборочных данных, сказали, что препарат увеличивает суточный диурез в среднем на 220 мл, то упустили бы из виду неопределенность, присущую выборочной оценке. Правильнее будет рассчитать доверительный интервал Ч он покажет не одно число, скорее всего не совпадающее с истинным, а диапазон чисел, куда истинное попадает почти наверняка (например, с вероятностью 95%).
Вычислим сначала объединенную оценку дисперсии. По ней мы сможем найти стандартную ошибку разности средних. Стан дартные отклонения у принимавших диуретик и плацебо соста вили соответственно 245 и 144 мл. В обеих группах было по человек. Объединенная оценка дисперсии 2 s2 = sД - sП = 2452 +1442 = 2012.
( ) () Стандартная ошибка разности средних s2 s2 2012 sX - XП = + = + = 89,9.
Д nД nП 10 Для определения 95% доверительного интервала найдем по табл. 4.1 значение t0,05. Объем каждой из выборок n = 10. Поэтому число степеней свободы = 2(n - 1) = 2(10 - 1) = 18. Соответствую щее табличное значение t0,05 равно 2,101.
Теперь можно вычислить 95% доверительный интервал для среднего изменения диуреза:
XД - XП - t0,05sX - XП < Д - П < XД - XП + t0,05sX - XП.
() () Д Д то есть 220 - 2,10189,9 < Д - П < 220 + 2,10189, и окончательно:
31 <Д -П < 409.
Таким образом, 95% доверительный интервал среднего изме нения диуреза составляет 31Ч409 мл. Иными словами, выбо 198 ГЛАВА ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ рочные данные позволяют с 95% надежностью утверждать, что препарат увеличивает диурез более чем на 31 мл, но менее чем на 409 мл. Как и следовало ожидать, истинное значение 200 мл находится в этом интервале.
Первый из рассчитанных нами доверительных интервалов изображен на рис. 7.1А.
Другие выборки Понятно, что в нашем распоряжении могли оказаться совершенно другие выборки. Ранее мы видели, что разные выборки дают раз ные оценки среднего и стандартного отклонения. Точно так же по разным выборкам мы будем получать разные доверительные интервалы. (И не удивительно Ч ведь доверительный интервал рассчитывают по среднему и стандартному отклонению.) Мы вычислили интервал по выборкам с рис 6.1. Для другой пары выборок Ч например с рис. 6.2 Ч доверительный интервал бу дет другим. Вычислим его.
Суточный диурез в группе плацебо составил в среднем 1216 мл, а в группе, получавшей диуретик, Ч 1368 мл. Стандартные откло нения Ч 97 и 263 мл соответственно. Увеличение среднего диуре за при приеме препарата XД - XП = 1368 - 1216 = 152 мл. Находим объединенную оценку дисперсии:
s2 = 972 + 2632 = () Рис. 7.1. Новый взгляд на испытания диуретика. А. 95% доверительный интервал изменения диуреза, вычисленный по данным с рис. 6.1 В. Интервал содержит ис тинную величину изменения (+200 мл) и не содержит нуля. Последнее говорит о том, что изменение диуреза статистически значимо. Б. Такой же доверительный интервал, вычисленный по данным с рис. 6.2В. Он тоже содержит истинную вели чину изменения диуреза, но он содержит также и ноль: статистически значимого изменения диуреза не выявлено. В. Еще сорок восемь 95% доверительных интерва лов для пар выборок, извлеченных из той же пары совокупностей (рис. 6.1 А и Б).
Теперь у нас в общей сложности 50 доверительных интервалов. Из них 3 не содер жат истинного значения и 27 не содержат нуля. Если бы мы построили 95% довери тельные интервалы по всем возможным парам выборок, то доля не содержащих ис тинного значения составила бы 5%, а доля не содержащих нуля - 55%, что соответ ствует чувствительности критерия.
200 ГЛАВА и стандартную ошибку разности средних:
1982 sX - XП = + = 89.
Д 10 Тогда 95% доверительный интервал для среднего изменения суточного диуреза:
152 - 2,10189 < Д - П <152 + 2,10189, -35 < Д - П < 339.
Этот интервал (рис. 7.1 Б) отличается от полученного ранее.
Однако и он содержит истинное среднее увеличение диуреза Ч 200 мл. Если бы в нашем распоряжении была только выборка с рис. 6.2, мы бы сказали, что на 95% уверены в том, что препарат увеличивает средний диурез на величину, меньшую 339 и боль шую Ц35 мл. Заметьте, на сей раз доверительный интервал вклю чает и отрицательные значения. Тем самым, выборочные дан ные не противоречат тому, что диуретик в действительности может уменьшать диурез. Значение этого интересного обстоя тельства мы разберем позже, когда будем обсуждать использова ние доверительных интервалов для проверки гипотез.
Пока что мы определили доверительные интервалы для двух пар выборок из совокупности, изображенной на рис. 6.1. На са мом деле число возможных пар выборок превышает 1027. На рис.
7.1В показаны 95% доверительные интервалы для 48 из них. Те перь у нас в общей сложности 50 доверительных интервалов. Еще раз убедившись, что разные выборки дают разные доверительные интервалы, заметим, что большинство из них Ч точнее 47 из Ч содержат истинное значение, показанное на рис. 7.1 верти кальной пунктирной линией. Если бы мы перебрали все возмож ные выборки, то доля 95% доверительных интервалов, содержа щих истинное значение, составила бы в точности 95%.
ИНТЕРВАЛ ШИРЕ Ч ДОВЕРИЯ БОЛЬШЕ Мы только что убедились, что 95% доверительный интервал мо жет и не содержать истинного значения, однако, как правило, он ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ его содержит Ч а именно, в 95% случаев. Вообще, истинное значение содержат k процентов k-процентных доверительных интервалов. Иными словами, k Ч это вероятность того, что интервал содержит истинное значение. От этой вероятности k зависит ширина интервала. Взглянем еще раз на рис. 7.1. Если мы хотим, чтобы больше интервалов перекрывало истинное значение, нам придется их расширить. Чем больше k, тем шире k-процентный доверительный интервал. Для примера вычис лим, в дополнение к 95%, еще и 90 и 99% доверительные интер валы для двух выборок с рис. 6.1. Разность средних и стандар тная ошибка разности средних у нас уже есть, осталось только по табл. 4.1 найти новые значения t (по-прежнему число сте пеней свободы = 18).
Для 90% доверительного интервала находим t0,01 = 1,734.
Тогда:
220 -1,73489,9 < Д - П < 220 +1,73489,9, 64 <Д -П < 376.
По сравнению с 95%, 90% доверительный интервал более уз кий (рис. 7.2). Неужели волшебным образом наши знания о ве личине д - п стали более точными? Разумеется, нет. Сужение доверительного интервала досталось нам ценой снижения веро ятности того, что он действительно содержит истинное значение.
Для вычисления 99% доверительного интервала находим в табл. 4.1 критическое значение t0,01 = 2,878. Тогда интервал име ет вид 220 - 2,87889,9 < Д - П < 220 + 2,87889,9, то есть -36 < Д - П < 478.
Это самый широкий доверительный интервал из трех изобра женных на рис. 7.2.
Подведем итоги. Приводя k-процентный доверительный ин тервал, мы сообщаем, во-первых, в каких пределах находится истинное значение неизвестной нам величины и, во-вторых Ч с какой вероятностью k. Например, говоря: л95% доверительный 202 ГЛАВА Рис. 7.2. Три доверительных интервала одной и той же разности средних (см. рис. 6.1).
99% доверительный интервал самый широкий, 90% Ч самый узкий. Истинная разность средних (изменение суточного диуреза) показана вертикальной пунктирной линией.
интервал 31Ч409 мл, имеют в виду следующее: Вероятность того, что истинное значение лежит в пределах 31Ч409 мл, со ставляет 95%. Не исключено, к сожалению, что вам не повезет и истинное значение окажется вне доверительного интервала.
С 95% доверительными интервалами такое случается в 5% слу чаев. Желая застраховаться от подобной ошибки, вы можете рассчитать 99% доверительный интервал. Однако учтите, что он окажется шире 95% доверительного интервала. Вообще, чем больше k (вероятность того, что доверительный интервал со держит истинное значение), тем больше ширина интервала.
ПРОВЕРКА ГИПОТЕЗ С ПОМОЩЬЮ ДОВЕРИТЕЛЬНЫХ ИНТЕРВАЛОВ Доверительные интервалы можно использовать для оценки ста тистической значимости различий. Это и не удивительно, ведь нахождение доверительного интервала имеет общую базу с тра ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ диционными методами проверки гипотез. И там и тут мы встре чаем разность выборочных средних, ее стандартную ошибку и распределение Стьюдента.
Истинная разность средних может находиться в любой точке доверительного интервала, поэтому если доверительный интер вал содержит ноль, то мы не можем отвергнуть возможность того, что д - п = 0, то есть нулевую гипотезу. С другой стороны, нахо ждение истинной разности средних вне доверительного интервала маловероятно. Поэтому, если доверительный интервал не со держит нуля, справедливость нулевой гипотезы о равенстве сред них маловероятна. Можно сформулировать следующее правило.
Если 100(1 - )-процентный доверительный интервал раз ности средних не содержит нуля, то различия статистически значимы (Р < );
напротив, если этот интервал содержит ноль, то различия статистически не значимы (Р > ).
Применим это правило к двум только что рассмотренным при мерам. На рис. 7.1 А 95% доверительный интервал не содержит нуля, поэтому, как и при использовании критерия Стьюдента, мы заключаем, что препарат увеличивает диурез (уровень значимос ти = 0,05). Напротив, 95% доверительный интервал на рис. 7.1Б содержит ноль. Значит, в данном случае мы не можем отвергнуть гипотезу об отсутствии эффекта. К такому же выводу мы при шли раньше, используя критерий Стьюдента.
Из пятидесяти 95% доверительных интервалов на рис. 7.1 два дцать три содержат ноль. Следовательно, 23/50 = 44% соответст вующих выборок не дают оснований говорить о статистически значимых различиях (то есть о наличии эффекта) при уровне зна чимости 1 - 0,95 = 0,05. Если бы в нашем распоряжении были все возможные доверительные интервалы, мы увидели бы, что 45% из них содержат ноль. Это значит, что в 45% случаев мы не смо жем отвергнуть гипотезу об отсутствии эффекта, то есть совер шим ошибку II рода. Следовательно, как и прежде (см. рис. 6.4), = 0,45, а чувствительность критерия равна 1 - 0,45 = 0,55.
Говоря о статистически значимых различиях, всегда полезно привести еще и доверительный интервал Ч это даст возможность судить о величине эффекта. Если статистическая значимость об наружена благодаря большому объему выборки, а не величине эф фекта, доверительный интервал укажет на это. Другими cловами, 204 ГЛАВА использование доверительных интервалов позволяет среди ста тистически значимых эффектов выделить те, которые сами по себе слишком слабы, чтобы иметь клиническое значение.
Предположим, мы должны оценить эффективность гипотензив ного препарата. Мы набираем две группы по 100 человеке каждой Ч контрольную, которой даем плацебо, и экспериментальную, кото рой даем препарат. Пусть в экспериментальной группе диастоли ческое давление составило в среднем = 81 мм рт.ст. (стандартное Xэ отклонение 11 мм рт. ст.), а в контрольной Ч = 85 мм рт. ст.
Xк (стандартное отклонение 9 мм рт. ст.). Для оценки статистической значимости различий воспользуемся критерием Стьюдента.
Объединенная оценка дисперсии составляет s2 = 112 + 92 =102, ( ) откуда Xэ - Xк 81- t == = -2,83.
sX - Xк 102 э + 100 Это значение по абсолютной величине больше критическо го значения t0,01 = 2,601 для уровня значимости 0,01 и числа степе ней свободы = 2(n - 1) = 198 (см. табл. 4.1). Таким образом, снижение диастолического артериального давления статисти чески значимо (Р < 0,01).
Мы обнаружили статистически значимый эффект. Но какова его клиническая значимость? Вычислим 95% доверительный ин тервал для разности средних. Так как при 198 степенях свободы t0,05 равно 1,972 (см. табл. 4.1), доверительный интервал имеет вид -4 -1,9721,41< э - к < -4 +1,9721,41, то есть -6,8 < э - к < -1, Таким образом, с вероятностью 95% препарат снижает арте риальное давление на 1,2Ч6,8 мм рт. ст. Этот эффект невелик, особенно если сравнить его со стандартными отклонениями (9 и ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ 11 мм рт. ст.). Итак, гипотензивный эффект выражен слабо, а его статистическая значимость обусловлена исключительно боль шой численностью групп.
Приведенный пример наглядно показывает, почему, знакомясь с исследованием эффективности того или иного препарата, важ но знать не только уровень значимости, но и величину эффекта.
Авторы публикаций редко балуют читателя доверительными ин тервалами, но обычно все же указывают численность групп, сред ние величины и их стандартные ошибки. В таких случаях нужно самостоятельно рассчитать стандартные отклонения (произведе ние стандартной ошибки среднего на квадратный корень из чис ленности группы) и построить доверительный интервал. Этого часто достаточно, чтобы понять, имеет исследование сугубо ака демическую или еще и практическую ценность.
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ СРЕДНЕГО Продолжим рассматривать разнообразные применения довери тельных интервалов. Найдем доверительный интервал для средне го. Определив выборочное среднее X, мы понимаем, разумеет ся, что это всего лишь выборочная оценка истинного среднего , которое, впрочем, скорее всего находится где-то поблизости. Где-то поблизости можно охарактеризовать количественно, то есть ука зать интервал, в котором с заданной вероятностью k находится истинное среднее. Это и будет k-процентный доверительный интервал для среднего.
Приближенный способ вычисления этого интервала изложен в гл. 2: примерно в 95% случаев выборочное среднее уклоняется от истинного не более чем на две стандартные ошибки среднего.
Осталось внести некоторые уточнения.
Ранее мы выяснили, что величина Разность выборочных средних - Разность истинных средних.
t = Стандартная ошибка разности выборочных средних подчиняется распределению Стьюдента. Можно показать, что 206 ГЛАВА Выборочное среднее - Истинное среднее t = Стандартная ошибка среднего также подчиняется распределению Стьюдента. Математичес.
кая запись для последней величины выглядит так:
X - t =.
sX Дальнейший вывод аналогичен выводу доверительного ин тервала для разности истинных средних. Опустив промежуточ ные этапы, приведем формулу 100(1 - )-процентного довери тельного интервала для среднего:
X - tsX < X + tsX, где t Ч критическое значение t для уровня значимости и чис ла степеней свободы = n - 1 (n Ч объем выборки).
Смысл доверительного интервала для среднего совершенно аналогичен смыслу доверительного интервала для разности средних. Приводя k-процентный доверительный интервал сред него, мы утверждаем, что вероятность того, что истинное сред нее находится в этом интервале, равна k. Иными словами, если получить все возможные выборки из некоторой совокупности и для каждой рассчитать k-процентный доверительный интервал, то доля интервалов, содержащих среднее по совокупности (ис тинное среднее), составит k.
Вычислить доверительный интервал несложно, однако Ч ес ли объем выборки достаточно велик Ч можно пользоваться и приведенным выше правилом двух стандартных ошибок. Для выборок, имеющих объем от 20 и выше, t0,05 приблизительно рав но 2 (см. табл. 4.1), и мы получим достаточно точный результат.
Если же объем выборки меньше 20, доверительный интервал ока жется зауженным, а наше представление о точности, с какой мы можем судить об истинном среднем, Ч преувеличенным.
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ РАЗНОСТИ ДОЛЕЙ Изложенные способы вычисления доверительных интервалов ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ нетрудно приспособить для разности долей. В гл. 5 мы определи ли критерий z как Разность выборочных долей z = Стандартная ошибка разности выборочных долей Величина z имеет приблизительно нормальное распределе ние;
в гл. 5 мы использовали z для проверки гипотезы о равенстве двух выборочных долей (или, что то же самое, для оценки ста тистической значимости различий выборочных долей). Можно показать, что даже если в совокупностях, из которых извлечены выборки, доли различны, то отношение Разность выборочных долей - Разность истинных долей z = Стандартная ошибка разности выборочных долей приближенно следует нормальному распределению Ч при усло вии, что объемы выборок достаточно велики.
Если р1, и р2 Ч истинные доли в каждой из совокупностей, а p1 и p2 Ч выборочные оценки этих долей, то p ( - p2 p1 - p )-( ).
z = sp - p В 100(1 - ) процентах случаев z по абсолютной величине не превышает z, то есть p ( - p2 p1 - p )-( ) -z < z.
sp - p Преобразовав это неравенство, мы получим формулу для 100(1 - )-процентного интервала для разности истинных долей:
p ( - p2 zp - p2 < p1 - p2 < p1 - p2 + zp - p2.
) ( ) 1 Как вы помните, распределение Стьюдента с увеличением числа степеней свободы стремится к нормальному. Поэтому z можно найти в табл. 4.1 Ч в строке, соответствующей беско нечному числу степеней свободы.
Чаще всего используют 95% доверительный интервал, в этом случае z = z0,05 = 1,96.
208 ГЛАВА Галотан и морфин: операционная летальность В гл. 5 мы сравнивали операционную летальность при галота новой и морфиновой анестезии и не нашли статистически зна чимых различий. Посмотрим, каков 95% доверительный интер вал для различия летальностей.
В группе галотана умерли 8 оперированных из 61, доля умер ших = 8/61 = 0,13. В группе морфина умерли 10 из 67, = 0,15.
p1 p Разность долей равна p1 - p2 = 0,13 - 0,15 = Ц0,02. Объединенная оценка доли 8 + p == 0, 61+ и стандартная ошибка разности p - p2 = p 1- p + = ( ) 1 n1 n = 0,14 1- 0,14 + = 0,062 = 6,2%.
( ) 1 61 Тем самым, 95% доверительный интервал для различия ле тальности имеет вид:
p ( - p2 z0,05p - p2 < p1 - p2 < p1 - p2 + z0,05p - p2, ) ( ) 1 то есть Ц0,020 - 1,960 0,062 < p1 - p2 < Ц0,020 + 1,960 0, и окончательно -0,142 < p1 - p2 < 0,102.
Итак, с вероятностью 95% можно утверждать, что истинная величина различия попадает в интервал между Ц14,2 и 10,2%.
Вычисленный доверительный интервал содержит ноль, поэто му различия летальности статистически не значимы*.
* При использовании поправки Йейтса нужно раздвинуть границы довери тельного интервала, соответственно уменьшив нижнюю и увеличив верх нюю на величину (1/n1 + 1/n2)/2.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ Тромбоз шунта у больных на гемодиализе В гл. 5 мы рассмотрели влияние аспирина на риск тромбоза шунта у больных на гемодиализе. Доля больных с тромбозом в группе плацебо составила 72%, а в группе, получавшей аспирин, Ч 32%.
Мы уже убедились, что это различие статистически значимо.
Однако мы не можем утверждать, что ласпирин снижает риск тром боза на 40%, Ч правильнее будет указать доверительный интер вал для снижения риска. Стандартную ошибку разности долей мы уже рассчитали в гл. 5, она составляет 0,15. Поэтому 95% до верительный интервал для истинной разности долей имеет вид 0,40 - 1,96 0,15 < pп - pa < 0,40 + 1,96 0,15, то есть 0,11 < pп - pa < 0,69.
Таким образом, в вероятностью 95% можно утверждать, что прием аспирина снижает риск тромбоза на величину от 11 до 69%.
Отрицателен ли лотрицательный результат?
В гл. 6 мы познакомились со статьей Фреймана и соавт. Они рас смотрели 71 медицинскую публикацию, в которых исследуемый метод лечения не дал статистически значимого снижения часто ты неблагоприятных исходов (под неблагоприятным исходом в разных статьях понимали смерть, осложнения и т. п.). Фрейман и соавт. обнаружили, что в большинстве работ численность групп была слишком мала, чтобы обеспечить достаточную чувствитель ность. Неужели столь огромный труд пропал даром? Попробуем получить из этих работ хоть какую-то информацию.
На рис. 7.3 представлены 90% доверительные интервалы ве личины эффекта (разность долей неблагоприятных исходов в кон трольной и экспериментальной группах). Статистически зна чимых различий не было выявлено ни в одном случае, поэтому все они содержат ноль. Посмотрим на верхнюю границу довери тельных интервалов. Можно заметить, что во многих случаях она отличается от нуля всего на несколько процентов. Иными слова ми, с вероятностью 90% мы можем утверждать, что эффект, если и существует, весьма незначителен. Дальнейшие исследования 210 ГЛАВА Рис. 7.3. 90% доверительные интервалы величины эффекта в 71 клиническом испы тании. Здесь величина эффекта Ч это разность долей больных с неблагоприятным исходом в контрольной и экспериментальной группах. Поскольку статистически зна чимого эффекта не было выявлено ни в одном случае, все доверительные интерва лы содержат ноль. Видно, что некоторые доверительные интервалы довольно силь но смещены в сторону положительных значений Ч возможно, при большем числе больных различия достигли бы статистической значимости. В других случаях верх няя граница интервала превышает ноль всего на несколько процентов. Можно сде лать вывод, что если соответствующие методы лечения и дают эффект, то очень незначительный.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ соответствующих методов лечения вряд ли перспективны. Верх няя граница некоторых интервалов простирается до 30% и даже до 40%. Напомним, что с вероятностью 90% мы можем утвер ждать, что истинная величина находится внутри доверительного интервала, но где именно Ч определить невозможно. Поэтому не исключено, что соответствующие методы лечения все же эф фективны и при большей численности групп это удалось бы до казать. Если мы решим повторить испытание, то при его плани ровании стоит учесть полученные оценки. Было бы неразумно, например, рассчитывать чувствительность и численность групп, полагая, что величина эффекта достигнет 50%.
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ДОЛИ Если объем выборки достаточно велик, то доверительный ин тервал для доли можно приближенно вычислить, используя нор мальное распределение*.
Когда выборка мала (а в медицинских исследованиях так оно обычно и бывает), приближение нормальным распределе нием недопустимо. В таких случаях приходится вычислять точные значения доверительных интервалов, используя бино миальное распределение. Чтобы не обременять читателя вы числительными тонкостями, мы чуть позже приведем графи ческий способ нахождения доверительных интервалов по ма лым выборкам. Заметим, что при оценке долей по выборкам небольшого объема расчет доверительного интервала особен но желателен. Причина в том, что, если выборка мала, измене ние признака даже у одного из ее членов приведет к резкому изменению долей.
Наблюдаемая доля - Истинная доля z = Стандартная ошибка долей Итак, при достаточно большом объеме выборки величина приближенно следует нормальному распределению (см.
табл. 6.4).
* Как говорилось в гл. 5, для этого нужно, чтобы и пр и п(1 - р) были боль ше 5 (здесь n Ч объем выборки, р Ч доля).
212 ГЛАВА Математическая запись для z:
p - p z =.
sp Отсюда уже знакомым способом получаем формулу для 100(1 - )-процентного доверительного интервала для истин ной доли:
p - sp < p < p - sp.
Доля статей, содержащих статистические ошибки Как видно из рис. 1.3, доля статей с ошибками в применении статистических методов за последние несколько десятков лет составляет 40Ч60%. Глядя на график, можно подумать, что доля эта с годами снижается. Однако рассмотрены были далеко не все статьи, поэтому точки Ч это всего лишь оценки истинной доли. Построим 95% доверительный интервал для последней точки Ч может быть, наше впечатление изменится.
Последняя точка соответствует периоду с января по март 1976 г.
Из оригинальных статей, опубликованных в этот период, С. Гор и соавт.* рассмотрели 77, статистические ошибки были обнару жены в 32. Выборочная доля составляет p = 32/77 = 0,42, ее стандартная ошибка 0,42 1- 0, ( ) sp == 0,056.
Тогда 95% доверительный интервал имеет вид 0,42 - 1,96 0,056 < p < 0,42 + 1,96 0,056, то есть 0,31 < p < 0,53.
В этот интервал попадают обе оценки, сделанные в 60-х го * S. M. Gore, I. G. Jones, E. С. Rytter. Misuse of statistical methods: critical assessment of articles in BMJ from January to March 1976. Br. Med. J., l(6053):85Ц87, 1977.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ дах. Вряд ли это позволяет утверждать, что ситуация меняется к лучшему.
Ошибки плодят ошибки. Авторы обзоров, опираясь на невер ные данные оригинальных статей, делают неверные выводы, которые воспринимаются читателями как последнее слово меди цинской науки. Насколько широко распространено это явление?
На несостоятельные данные оригинальных статей опирались авторы 5 из 62 обзорных статей, рассмотренных Гор. Таким образом, p = = 0,081, 0,081 1- 0, () sp == 0,035.
Тогда 95% доверительный интервал для доли обзорных ста тей, содержащих необоснованные выводы, имеет вид:
0,081 - 1,960 0,035 < p < 0,081 + 1,960 0,035.
То есть это интервал от 1,2 до 15%.
Точные доверительные интервалы для долей Часто объем выборки или наблюденная доля слишком малы, чтобы использовать приближение с помощью нормального рас пределения*. В подобных случаях следует воспользоваться точ ным распределением. Это так называемое биномиальное распре деление. Оно чрезвычайно важно для медицинских исследова * Причина, позволившая нам (в этой главе и гл. 5) использовать нор мальное распределение вместо биномиального, состоит в том, что с ростом объема выборки биномиальное распределение стремится к нормальному. Это следует из сформулированной в гл. 2 централь ной предельной теоремы. Более подробное изложение можно найти в: W. J. Dixon, F. J. Massey. Introduction to statistical analysis, McGraw Нill, New York, 1983, sec. 13Ц5, Binomial distribution: proportion, и В. W. Broun, Jr., M. Hollander. Statistics: a biomedical introduction, Wiley, New York, 1977, Chap. 7, Statistical Inference for Dichotomous Variable.
214 ГЛАВА Рис. 7.4. 95% доверительные интервалы для долей, вычисленные на основании бино миального распределения. Найдите на горизонтальной оси точку, соответствующую выборочной доле. Проведите через эту точку вертикальную линию. Границы довери тельного интервала Ч это вертикальные координаты точек пересечения этой линии с парой кривых, соответствующих объему выборки n.
ний, в которых часто приходится иметь дело с редкими события ми и выборками малого объема.
Сначала покажем, к чему приводит неправомерное использо вание метода, основанного на нормальном распределении. Рас смотрим пример, в котором пр < 5, то есть нарушено одно из условий применимости нормального распределения. Испытывая новый препарат, мы дали его 30 добровольцам, и, к счастью, ни у ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ одного из них препарат не оказал побочного действия. Выбо рочная оценка риска побочного действия p = = 0%.
Вряд ли можно на этом основании гарантировать, что препа рат никогда не окажет побочного действия. Чтобы получить бо лее реалистичную оценку, вычислим 95% доверительный интер вал для р.
Какие результаты даст расчет, основанный на использовании нормального распределения? Имеем, поэтому p = p 1- p 0 1- ( ) ( ) sp == = 0.
n Тем самым, 95% доверительный интервал состоит из единст венной точки Ч нуля. Возможно, это неплохо для рекламы ново го препарата, но, увы, противоречит здравому смыслу.
Обратимся теперь к рис. 7.4. Чтобы определить доверитель ный интервал, основанный на биномиальном распределении, нужно сначала найти на горизонтальной оси точку, соответст вующую выборочной доле p. Затем нужно провести из нее пер пендикуляр и посмотреть, где его пересекает пара кривых, по меченных числом, равным объему выборки. Вертикальные ко ординаты точек пересечения Ч это и есть границы 95% довери тельного интервала. В нашем примере p = 0 и п = 30. Нижняя граница доверительного интервала Ч 0, верхняя Ч около 0,1.
Тем самым с вероятностью 95% мы можем утверждать, что риск побочного действия не превысит 10%.
Предположим, что в одном случае из 30 препарат все-таки оказал побочное действие. Тогда p = 1/30 = 0,033 и 0,033 1- 0, () sp == 0,033.
Используя нормальное приближение, мы получили бы 0,033 - 1,96 0,033 < р < 0,033 + 1,96 0,033, то есть 216 ГЛАВА Ц0,032 < р < 0,098.
Понятно, что ни в каком случае доля не может быть отрица тельной величиной, хотя величина интервала, как окажется, оп ределена правильно.
Какой интервал даст биномиальное распределение? По рис. 7. находим, что это интервал от 0 до примерно 0,13. Обратите вни мание, что он не сильно отличается от интервала, найденного для p = 0. Так и должно быть, ведь различие между отсутствием ос ложнений и одним осложнением весьма незначительно.
Заметьте, что чем меньше объем выборки, тем сильнее он влияет на величину доверительного интервала. Предположим, мы бы дали препарат не 30, а 10 добровольцам. Тогда нижний предел 95% доверительного интервала, конечно, остался бы ну лем, но верхний был бы уже не 13, а 33%.
ДОВЕРИТЕЛЬНЫЙ ИНТЕРВАЛ ДЛЯ ЗНАЧЕНИЙ* До сих пор нас интересовали доверительные интервалы для тех или иных параметров распределения, например среднего или доли р. Нередко, однако, нужен доверительный интервал для самих значений измеряемого признака. Например, мы хотим оце нить диапазон, в который будет попадать 95% всех значений.
Особенно часто подобные задачи возникают при определении границ нормы какого-нибудь лабораторного показателя. Обыч но доверительный интервал значений определяют как выбороч ное среднее плюс-минус два стандартных отклонения. Если мы имеем дело с нормальным распределением и объем выборки достаточно велик (больше 100 человек), то правило двух стан дартных отклонений дает верный результат. Как быть, если в нашем распоряжении не 100, а менее двух десятков человек, что довольно типично для клинических исследований? Разумеет ся, об определении границ нормы по столь малой выборке нечего и думать. Тем не менее оценку доверительного интервала можно получить и тут. Однако от правила двух стандартных отклонений * Описанные ниже методы применимы только к данным, приближенно под чиняющимся нормальному распределению.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ Рис. 7.5. 95% доверительные интервалы для роста марсиан, вычисленные по трем выборкам с рис. 2.6. А. В качестве доверительного интервала использо вали среднюю величину плюс-минус два стандартных отклонения. Результат оставляет желать лучшего: два интервала из трех не покрывают истинного ин тервала, заключающего 95% значений. Б. Доверительные интервалы опреде лили как среднее плюс-минус произведение К0,05 на стандартное отклонение.
Ситуация улучшилась Ч теперь истинный интервал покрывают два интервала.
придется отказаться: при малых выборках интервал получается слишком узким.
Рассмотрим пример. На рис. 2.6 представлены распределе ние по росту всех 200 ныне живущих марсиан, а также три слу чайные выборки по 10 марсиан в каждой. Рост 95% всех марси ан лежит в пределах от 31 до 49 см. Средний рост марсианина Ч 40 см, стандартное отклонение Ч 5 см. Три выборки, изоб раженные в нижней части рисунка, дают следующие оценки среднего роста: 41,5, 36 и 40 см. Выборочные стандартные от клонения Ч соответственно 3,8, 5 и 5 см. Применим к этим вы борочным оценкам правило двух стандартных отклонений. По лученные доверительные интервалы изображены на рис. 7.5А.
Как видим, в двух из трех случаев интервалы не покрывают 95% всех членов совокупности.
Причина, в общем, понятна. Выборочное среднее и выбо 218 ГЛАВА рочное стандартное отклонение Ч не более чем оценки истинно го среднего и стандартного отклонения. Точность этих оценок при малом объеме выборок невелика. Ошибка в оценке одного параметра накладывается на ошибку в оценке другого Ч в ре зультате шансы получить правильный результат и вовсе низки.
Рассмотрим выборку на рис. 2.6В. Нам повезло Ч оценка стан дартного отклонения совпала с истинным его значением 5 см.
Однако оценка среднего оказалась заниженной Ч 36 см вместо 40 см. Поэтому интервал смещен относительно истинного сред него и накрывает менее 95% всех значений.
Учитывая приблизительность оценок по выборкам небольшого объема, нужно брать интервал, более широкий, чем плюс-минус два стандартных отклонения (при выборках большого объема та кая страховка не нужна). Этот интервал вычисляют по формуле X - Ks < X < X + Ks, где Ч выборочное среднее, s Ч выборочное стандартное от X клонение, а К Ч коэффициент, который зависит от доли f чле нов совокупности, которые должны попасть в доверительный интервал, от вероятности того, что они действительно туда попа ли 1 - и от объема выборки п. Этот коэффициент играет при мерно ту же роль, что t или z. Для вычисления 95% довери тельного интервала нужно определить К0,05;
зависимость К0,05 от объема выборки для различных значений f показана на рис. 7.6.
Заметим, что К больше, чем t (как t больше, чем z), по скольку учитывает не только значение среднего, но и неопреде ленность оценок среднего и стандартного отклонения*.
При объеме выборки от 5 до 25, типичном для медицинских исследований, К должен быть существенно больше двух. Если бы в рассматриваемом случае мы взяли интервал в плюс-минус два стандартных отклонения от среднего, то он покрыл бы за метно менее 95% совокупности. На рис. 7.5Б изображены 95% доверительные интервалы для роста 95% членов совокупности * Вывод формулы для К, показывающий его связь с доверительными ин тервалами для среднего и стандартного отклонения, можно найти, на пример, в работе: А. Е. Lewis, Biostatistics, Reinhold, New York, 1966, Chap. 12. Tolerance limits and indices of discrimination.
ДОВЕРИТЕЛЬНЫЕ ИНТЕРВАЛЫ Рис. 7.6. Коэффициент К0,05 зависит от объема выборки и от доли членов совокупности f, которые должны попадать в 95% доверительный интервал.
марсиан, построенные по трем выборкам с рис. 2.6. Теперь все три интервала покрывают не менее 95% членов совокупности.
Применение правила двух стандартных отклонений к выбор кам небольшого объема приводит к зауживанию доверительно го интервала значений. Упомянем еще об одной распространен ной ошибке. Как говорилось в гл. 2, многие путают стандарт ную ошибку среднего со стандартным отклонением. Найдя ин тервал выборочное среднее плюс-минус две стандартные ошиб ки среднего, они уверены, что в него попадет 95% совокупно сти (тогда как на самом деле 95% составляет вероятность, что в интервал попадет среднее по совокупности). В результате ин тервал допустимых значений оказывается еще более зауженным.
ЗАДАЧИ 7.1. По данным из задачи 2.6 найдите 90 и 95% доверитель ные интервалы для среднего числа авторов статей, опублико ванных в медицинских журналах за 1946, 1956, 1966 и 1976 гг.
7.2. Ранее (задача 3.1) мы познакомились с исследованием 220 ГЛАВА Ч. ОТХерлихи и Г. Мак-Дональда (С. OТHerlihy, H. MacDonald.
Influence of preinduction prostaglandin E2 vaginal gel on cervical ripening and labor. Obstet. Gynecol., 54:708Ч710, 1979). Как выяснилось, гель с простагландином Е2 сокращает продолжи тельность родов. Позволяет ли он избежать кесарева сечения?
В группе, получавшей гель с простагландином Е2, кесарево се чение потребовалось 15% женщин, в контрольной группе Ч 23,9%. В обеих группах было по 21 женщине. Найдите 95 % доверительные интервалы для доли рожениц, которым требу ется кесарево сечение в обеих группах. Найдите 95% довери тельный интервал для разности долей. Можно ли утверждать, что простагландин снижает вероятность кесарева сечения?
7.3. По данным задачи 3.1 найдите 95% доверительный ин тервал для разности средней продолжительности родов у полу чавших гель с простагландином Е2 и получавших плацебо. Поз воляет ли вычисленный доверительный интервал утверждать, что различия статистически значимы?
7.4. По данным задачи 5.1 найдите 95% доверительные интер валы для долей больных, которые не чувствовали боли при вклю ченном и выключенном приборе. Можно ли по этим интервалам оценить статистическую значимость различий?
7.5. Поданным задачи 3.2 найдите 95% доверительные интер валы для каждой из групп. В чем заключаются различия между группами?
7.6. По данным задачи 5.6 найдите 95% доверительные интер валы для доли работ, где данные были получены до планиро вания исследования.
7.7. По данным задачи 2.2 найдите 95% доверительные интер валы для 90 и 95% значений. Результаты представьте на одном рисунке с исходными данными.
Глава Анализ зависимостей Самый первый из рассмотренных нами примеров (рис. 1.2) был посвящен вопросу об эффективности диуретика. Пяти людям дали разные дозы препарата, измерили диурез и увидели, что чем больше доза, тем больше диурез. В дальнейшем оказалось, что этот результат не отражает реальной картины и что никакой связи между дозой и диурезом на самом деле нет. Тогда мы еще не знали о методах анализа зависимостей. Им посвящена эта глава. Мы узнаем, как с помощью уравнения регрессии выра зить связь между дозой диуретика и диурезом (так называемый регрессионный анализ) и как с помощью коэффициента корре ляции измерить силу этой связи.
Подобно тому как мы поступали в предыдущих главах, рас смотрим сначала уравнение регрессии для совокупности, а затем выясним, как оценивать его параметры по выборке. В гл. 3 и 4 мы брали нормально распределенную совокупность, находили па раметры распределения (среднее и стандартное отклонение ), затем находили выборочные оценки этих параметров (X и s) и 222 ГЛАВА использовали их для оценки значимости различий между группа ми, например получавших препарат и не получавших. Теперь мы также будем иметь дело с нормально распределенной совокуп ностью, но группа будет только одна. Интересовать же нас будет связь между двумя количественными признаками, характеризую щими членов этой группы, например между дозой препарата и эффектом, ростом и весом. Мы ограничимся случаем линейной зависимости двух переменных*.
Сколько весит марсианин?
Итак, начнем с совокупности. Совокупность марсиан нами уже достаточно хорошо изучена, особенно что касается роста. Но ведь мы их еще и взвешивали! Разберемся, как связаны вес и рост. Вы, конечно, помните, что на Марсе живет 200 марсиан. В гл. 2 мы обнаружили, что их рост подчиняется нормальному распределению со средним = 40 см и стандартным отклоне нием = 5 см. Оказывается, что вес марсиан тоже подчиняется нормальному распределению с параметрами = 12г и =2,5г.
Но самое замечательное, что отчетливо видно на рис. 8.1, Ч это зависимость веса от роста. Как правило, чем больше рост марсиани на, тем больше вес, причем эта зависимость линейна.
Посмотрим, сколько весят марсиане, чей рост равен 32 см.
Таких марсиан четверо, а их вес равен соответственно 7,1;
7,8;
8,3 и 8,8 г. Таким образом, средний вес марсиан ростом 32 см равен 8 г. Восемь марсиан ростом 46 см весят 13,7;
14,5;
14,8;
15,0;
15,1;
15,2;
15,3 и 15,8 г. Их средний вес 15 г. Если для каж дого значения роста мы подсчитаем соответствующий ему сред ний вес, то окажется, что найденные значения лежат на прямой линии, как изображено на рис. 8.2.
Теперь, выбрав какой-то рост, мы всегда сможем примерно определить вес марсианина этого роста. Точнее, мы сможем оп * Линейная зависимость у от х определяется формулой у = + х. Воз можна нелинейная зависимость, например у = + х2. Возможна и мно жественная зависимость, когда определяющих признаков более одно го, например у = + х + z. Она рассматривается в книге S. Glantz, В.
Slinker. Primer of applied regression and analysis of variance. McGraw Нill, New York, 1990.
АНАЛИЗ ЗАВИСИМОСТЕЙ Рис. 8.1. Рост и вес марсиан. Как известно, число обитателей Марса составляет 200;
каждый из них был измерен и взвешен, результат нанесен на график в виде кружка.
Распределение марсиан по росту и по весу нормально. Более того, средний вес марсиан определенного роста связан с ростом линейной зависимостью;
разброс значений веса для всех ростов одинаков. Чтобы к совокупности можно было применить регрессион ный анализ, она должна обладать всеми этими свойствами.
224 ГЛАВА Рис. 8.2. Если рассчитать средний вес марсиан разного роста и нанести полученные значения на график, окажется, что они образуют прямую линию. Иначе говоря, средний вес марсиан линейно зависит от роста.
АНАЛИЗ ЗАВИСИМОСТЕЙ ределить средний вес марсиан этого роста, поскольку для каждо го роста существует определенный разброс веса. Разброс этот, кстати, можно оценить, рассчитав стандартное отклонение веса для каждого роста. Оказывается, какой бы рост мы ни взяли, стандартное отклонение веса составит 1 г, что заметно меньше стандартного отклонения веса для всей, не разделенной по ве сам, совокупности марсиан.
УРАВНЕНИЕ РЕГРЕССИИ Прежде чем перейти к обобщению этих закономерностей, да дим несколько определений. В уравнении регрессии одна из переменных, х, называется независимой переменной, а другая, у, Ч зависимой. Набор значений у, соответствующих определенно му значению х, обозначим у|х.
В примере с марсианами рост мы будем рассматривать как независимую переменную, а вес Ч как зависимую. Понятно, что это не означает, что одна переменная действительно определяет другую. Просто по значению одного признака мы предсказываем значение второго. В условиях эксперимента мы произвольно ме няем независимую переменную и смотрим, как меняется зави симая. При этом речь действительно идет о зависимости, то есть о причинной связи. В прочих же случаях выявление статисти ческой связи двух переменных указывает на возможность причин ной связи, но не доказывает ее. Разобраться в причинах и следст виях вообще невозможно чисто статистическими методами. Не обходимо, в частности, найти биологический механизм, порож дающий выявленную связь. Например, эпидемиологические дан ные о связи пассивного курения с заболеваемостью ишемичес кой болезнью сердца еще не доказывают, что пассивное курение способствует развитию ИБС. Может быть, и то и другое Ч след ствие какой-либо неизвестной причины, например нервной об становки в рабочем коллективе. Однако экспериментальные дан ные* о том, что пассивное курение и отдельные компоненты та * О том, как анализировать совокупность эпидемиологических и экс периментальных данных для выявления причинных связей, можно прочесть в работах: S. A. Glantz, W. W. Parmley. Passive smoking and 226 ГЛАВА бачного дыма вызывают поражение сердца у лабораторных жи вотных, говорят в пользу именно причинной связи.
Вернемся к нашим марсианам. Для каждого значения неза висимой переменной х (в нашем примере это рост) рассчитаем среднее значение зависимой переменной у (вес). Это среднее в точке х обозначим y|x. Тогда обнаруженная нами линейная за висимость описывается уравнением y|x = + x.
Здесь Ч значение у в точке х = 0 (коэффициент сдвига), Ч коэффициент наклона*. В нашем примере при увеличении роста на 1 см средний вес увеличивается на 0,5 г, поэтому =0,5. Хотя представить марсиан весом Ц8 г не легче, чем ростом 0 см, тем не менее для прямой с рис. 8.2 имеем = Ц8 г. Таким образом, пря мая средних (для каждого роста) весов задается формулой y|x = Ц8 + 0,5x.
Теперь посмотрим, как распределены веса марсиан одного роста. В данном случае это нормальное распределение со сред ним y|x и стандартным отклонением y|x. Но этого еще недоста точно для применения методов, которые мы рассмотрим ниже.
Помимо нормальности распределения требуется, чтобы y|x было одинаковым для разных х. Иначе говоря разброс значений зависи мой случайной переменной у должен быть неизменным при лю бом значении независимой переменной х. В нашем примере это условие выполняется.
Итак, значения переменных должны удовлетворять следую щим условиям.
Х Среднее значение y|x линейно зависит от х.
Х Для любого значения х значения у|х распределены нормально.
Х Стандартное отклонение y|x одинаково при всех значениях х.
Функция, задающая зависимость y|x от х, определяется па heart disease: epidemiology, physiology, and biochemistry. Circulation, 83:1Ч12,1991 и S. A. Glantz, W. W. Parmley. Passive smoking and heart disease: mechanisms and risk. JAMA, 273:1047Ч1053, 1995.
* Эти обозначения совпадают с обозначениями ошибок I и II рода. Будем надеятся. что это не породит путаницы.
АНАЛИЗ ЗАВИСИМОСТЕЙ раметрами и. Разброс значений у|х в точке х задается стандартным отклонением y|x. Оценим эти параметры.
ОЦЕНКА ПАРАМЕТРОВ УРАВНЕНИЯ РЕГРЕСИИ ПО ВЫБОРКЕ В реальной жизни редко удается получить данные обо всей сово купности, и исследователю приходится довольствоваться вы борками. Допустим, мы располагали бы данными не о всех мар сианах, а только о десяти. На рис. 8.ЗА они показаны черными кружками среди 190 своих собратьев. На рис. 8.3Б данные пока заны так, как их видит исследователь, изучивший эту выборку.
Что можно сказать о совокупности, основываясь на этих выбо рочных данных?
Похоже, что в этом случае исследователю повезло. Зависи мость веса от роста в выборке выглядит примерно так же, как и в совокупности в целом. Но ведь выборка может вводить в заблуждение. Вспомним пример с рис. 1.2. В выборке из 5 чело век диурез отчетливо увеличивался с ростом дозы препарата (рис 1.2А), тогда как на самом деле никакой зависимости не было (рис 1.2Б). Какова вероятность ошибочного заключения? Как мы скоро увидим, эта задача сводится к оценке параметров урав нения регрессии и по выборке.
Метод наименьших квадратов Сейчас нам предстоит оценить параметры уравнения регрессии и. Обозначим их выборочные оценки соответственно а и b.
Найти наилучшие оценки этих параметров Ч это то же самое, что провести наилучшую прямую через имеющиеся точки, по скольку у =а + bх Ч это уравнение прямой. Какую прямую счи тать наилучшей? Посмотрим на рис. 8.4. На нем изображены прямые. Прямая I явно не годится Ч все точки оказались по одну сторону от нее. Прямая II немного лучше, она хотя бы пересекает область, где находятся наши точки. Однако она слишком круто устремляется вверх. Какая из прямых III и IV является лучшей, сказать трудно. Почему прямая II кажется лучше прямой I, а прямая III Ч лучше прямой II? Очевидно, прямая тем лучше, 228 ГЛАВА Рис. 8.3. А. Случайная выборка объемом 10 из совокупности марсиан.
АНАЛИЗ ЗАВИСИМОСТЕЙ Рис. 8.3. Б. Такой эта выборка представляется исследователю, который не может на блюдать всю совокупность.
230 ГЛАВА чем ближе она ко всем точкам выборки. Иными словами, лучше та прямая, относительно которой разброс точек минимален.
С оценкой разброса мы уже сталкивались в гл. 2. Там мы использовали средний квадрат отклонения от среднего. Посту пим аналогичным образом. Определим расстояние по вертика ли от каждой точки до прямой (рис. 8.5). Возведем полученные величины в квадрат и сложим. Возведение в квадрат потребова лось, чтобы отклонения, равные по абсолютной величине, но разные по знаку, вносили один и тот же вклад.
Сумма квадратов отклонений от прямой IV меньше, чем от прямой III. Следовательно, прямая IV лучше представляет зави симость у от х. Более того, можно доказать, что для прямой IV сумма квадратов отклонений выборочных значений зависимой переменной минимальна. Способ нахождения линии, сумма квад ратов расстояний от которой до всех точек выборки минимальна, называется методом наименьших квадратов, саму линию мы будем называть прямой регрессии. Здесь мы не будем останавли ваться на выводе формул* и сообщим сразу результат.
Напомним, что мы ищем параметры уравнения регрессии:
= a + bx.
Тогда коэффициент сдвига X - X XY ( )( ) ( )( ) Y a = n X - X ( ) ( ) и коэффициент наклона n XY X ( )-( )( ), Y b = n X - X ( ) ( ) где X и Y Ч значения независимой и зависимой переменных у п членов выборки**.
* Интересующихся выводом этих формул отсылаем к книге: S. A. Glantz.
Mathematics for biomedical applications. University of California Press, Berkely, 1979, pp. 322Ц325.
** Вычисления можно упростить, если сначала вычислить b, а уже потом найти а по формуле a = Y - bX, где и X Ч выборочные средние для Y переменных у и х.
АНАЛИЗ ЗАВИСИМОСТЕЙ Рис. 8.4. Провести прямую через десять точек можно по-разному. Прямые I и II явно не годятся, прямые III и IV выглядят лучше.
232 ГЛАВА Рис. 8.5. Найдем расстояние по вертикали от каждой точки до прямой III (А) и IV (Б).
Сумма квадратов расстояний до прямой IV меньше, чем до прямой III. Рядом с прямой IV серым цветом показана линия средних с рис. 8.2. Как видим, прямые достаточно близки.
АНАЛИЗ ЗАВИСИМОСТЕЙ Рис. 8.5. Окончание 234 ГЛАВА Таблица. 8.1. Расчет параметров уравнения регрессии XY Х XY 31 7,8 961 241, 32 8,3 1024 265, 33 7,6 1089 250, 34 9,1 1156 309, 35 9,6 1225 336, 35 9,8 1225 343, 40 11,8 1600 472, 41 12,1 1681 496, 42 14,7 1764 617, 46 13,0 2116 598, 369 103,8 13841 3930, Рассчитаем параметры уравнения регрессии для нашей вы борки из 10 марсиан. Вспомогательные величины для вычисле ний приведены в табл. 8.1. Объем выборки п = 10, X = 369, Y = 103,8, X2 =13841 и XY = 3930,1. Подставим эти числа в формулы для коэффициентов регрессии:
103,813841- 369 3930, a == -6, 1013841- и 10 3930,1- 369103, b == 0,44.
1013841- Таким образом, прямая регрессии имеет вид:
=-6,0 + 0,44x.
Именно это уравнение задает прямую IV.
Разброс значений вокруг прямой регрессии Мы получили а и b Ч оценки коэффициентов регрессии и.
Хорошо бы получить также оценку разброса значений вокруг прямой регрессии. При каждом значении X стандартное откло нение постоянно и равно y|x. Выборочной оценкой y|x служит АНАЛИЗ ЗАВИСИМОСТЕЙ ) Y -(a + bX, sy|x = n - где а + bХ Ч значение уравнения регрессии в точке X, Y - (а + bХ) Ч расстояние от точки до прямой регрессии, обоз начает суммирование квадратов этих расстояний. Не будем объ яснять, почему сумма квадратов отклонений должна быть поде лена на п - 2, а не на п или п - 1. Скажем только, что причина аналогична той, по которой в оценке стандартного отклонения делитель равен п - 1.
Величина sy|x называется остаточным стандартным откло нением (соответственно, называется остаточной диспер s y|x сией). Связь sy|x со стандартными отклонениями SY и sX зависи мой и независимой переменных определяется формулой n - 2 sy|x = sY - b2sX.
() n - Для рассмотренной нами выборки sX = 5,0, sY = 2,4. Тогда sy|x = 2,42 - 0,442 5,02 =1,02.
() Как видим, оценка sy|x оказалась близкой к истинному зна чению y|x, равному 1,0 г.
Стандартные ошибки коэффициентов регрессии Подобно тому как выборочное среднее Ч это оценка истинного среднего (среднего по совокупности), так и выборочные пара метры уравнения регрессии a и b Ч не более чем оценки истин ных коэффициентов регрессии и. Разные выборки дают раз ные оценки среднего Ч точно так же разные выборки будут да вать разные оценки коэффициентов регрессии. Для выборки с рис. 8.3 мы получили значения а = Ц6,0 и b = 0,44. Рассмотрим другую выборку из той же совокупности (рис. 8.6А). На рис. 8.6Б эта выборка показана такой, какой ее видит исследователь. Об щая закономерность осталась прежней Ч высокие марсиане ве 236 ГЛАВА Рис. 8.6. А. Еще одна случайная выборка объемом 10 из совокупности марсиан. Марси ане, попавшие в выборку, помечены точками.
АНАЛИЗ ЗАВИСИМОСТЕЙ Рис. 8.6. Б. Линия регрессии, рассчитанная по этой выборке, несколько отличается от полученной ранее (см. рис. 8.5Б). Серым показана линия средних с рис. 8.2.
238 ГЛАВА сят больше низкорослых. Однако, рассчитав коэффициенты ре грессии, получим а = Ц4,0 г и b = 0,38 г/см.
Если построить все возможные выборки по 10 марсиан в каж дой, получится совокупность всех значений а и b. Их средние равны и, а стандартные отклонения Ч и. Эти стандарт ные отклонения называются стандартными ошибками коэффи циентов регрессии. Стандартные ошибки коэффициентов рег рессии, подобно стандартной ошибке среднего или доли, ис пользуются при проверке гипотез и вычислении доверительных интервалов. Выборочные оценки для и обозначаются со ответственно sa и sb и вычисляются по следующим формулам*:
1 X sa = sy|x + n n -1 sX ( ) и sy|x sb =.
sX n - Для выборки с рис. 8.3Б имеем:
1 36, sa =1,02 + = 2, 10 10 -1 5, ( ) и 1 1, sb == 0,068.
5, 10 - Стандартные ошибки коэффициентов регрессии использу ются аналогично стандартной ошибке среднего Ч для нахожде ния доверительных интервалов и проверки гипотез.
* Вывод формул для стандартных ошибок коэффициентов регрессии мож но найти в большинстве учебников статистики. См., например, J. Neter and W. Wasserman. Applied statistical models. Irwin, Home-wood, III., 1974, chap. 3, Inferences in regression analysis.
АНАЛИЗ ЗАВИСИМОСТЕЙ Есть ли зависимость?
Помня о досадном недоразумении с диуретиком из гл. 1 (см.
рис. 1.2), исследователь вправе спросить: как убедиться, что за висимость действительно существует? Иными словами, как по выборочным данным определить вероятность Р нулевой гипоте зы о том, что коэффициент наклона = 0*?
Совокупность всех выборочных значений коэффициента на клона b приближенно подчиняется нормальному распределению.
Поэтому можно воспользоваться критерием Стьюдента, анало гично тому, как мы пользовались им в гл. 4 для проверки гипоте зы относительно среднего. В общем виде критерий Стьюдента можно определить как:
Выборочная оценка - Истинная величина t =.
Стандартная ошибка выборочной оценки Для оценки коэффициента наклона:
b t =.
sb Оценить вероятность гипотезы о равенстве = 0 можно дву мя способами.
Приравняв к нулю, имеем b t =.
sb Теперь по табл. 4.1 найдем t Ч критическое значение t для вы бранного уровня значимости и числа степеней свободы = п - 2.
Если полученное значение t по абсолютной величине превосхо дит t, то Р <, то есть зависимость статистически значима.
Потренируемся на марсианах. Для выборки с рис. 8.3Б мы на шли b = 0,44 и sb = 0,068 Тогда t = 0,44/0,068 = 6,47. Объем выбор ки равен 10. Положим уровень значимости равным 0,001. В табл.
4.1 для этого уровня значимости и числа степеней свободы * Речь идет исключительно о линейной зависимости. Как мы вскоре уви дим, зависимость может быть и нелинейной;
в таком случае излагаемый способ даст неправильный результат.
240 ГЛАВА = 10 - 2 = 8 находим критическое значение t = 5,041. По скольку t > t, гипотезу об отсутствии зависимости веса от рос та следует отвергнуть.
Конечно, как и всегда при проверке гипотез, это заключение может оказаться ложным (опять-таки вспоминается злополуч ный диуретик из гл. 1). Но вероятность совершить эту ошибку не превышает 0,001.
Второй способ основан на использовании доверительных ин тервалов. 100(1 - )-процентный доверительный интервал для имеет вид b - tsb < b + tsb.
Рассчитаем 95% доверительный интервал. Число степеней свободы = 10 - 2 = 8. По таблице 4.1 находим t0,05 = 2,306.
Выборочные значения b = 0,44 и sb = 0,068. Следовательно, доверительный интервал для :
0,44 - 2,306 0,068 < 0,44 + 2,306 0,068, 0,28 < 0,60.
Поскольку ноль в этот интервал не попадает, вероятность то го, что = 0, меньше 5%.
Если рассчитать 99,9% доверительный интервал, можно убе диться, что и он не содержит нуля. Вывод, полученный выше при использовании критерия Стьюдента, как и следовало ожи дать, совпадает с полученным с помощью доверительного ин тервала. Заметим, что истинное значение = 0,5 попадает в доверительный интервал.
Можно вычислить доверительный интервал и для коэффици ента. Например, 95% доверительный интервал имеет вид:
a - t0,05sa < a + t0,05sa, то есть -6,0 - 2,306 2,53 < -6,0 + 2,306 2,53, -11,8 < -0,17.
Интервал покрывает истинное значение = Ц8 г.
АНАЛИЗ ЗАВИСИМОСТЕЙ Следующим этапом будет построение доверительной области для линии регрессии и значений зависимой переменной.
Доверительная область для линии регрессии Обычно мы не знаем истинных величин коэффициентов регрес сии и. Нам известны только их оценки а и b. Иначе говоря, истинная прямая регрессии может пройти выше или ниже, быть более крутой или пологой, чем построенная по выборочным данным. Мы вычислили доверительные интервалы для коэффи циентов регрессии. Можно вычислить доверительную область и для самой линии регрессии. На рис. 8.7А показана 95% довери тельная область для выборки с рис. 8.3. Как видим, это доволь но узкая полоса, которая несколько расширяется при крайних значениях х.
Мы знаем, что при любом значении независимой перемен ной х соответствующие значения зависимой переменной у рас пределены нормально. Средним является значение уравнения регрессии. Неопределенность его оценки характеризуется стандартной ошибкой регрессии:
x - X ( ) s = sy|x +.
n n -1 sX ( ) В отличие от стандартных ошибок, с которыми мы имели s дело до сих пор, при разных х принимает разные значения:
чем дальше х от выборочного среднего X, тем она больше.
Теперь можно вычислить 100(1 - )-процентный доверитель ный интервал для значения уравнения регрессии в точке х:
- ts < y < + ts, где t Ч критическое значение с = n - 2 степенями свободы, а Ч значение уравнения регрессии в точке х:
= a + bx.
Итак, мы получили уравнение для кривых, ограничивающих доверительную область линии регрессии (см. рис. 8.3). С задан ной вероятностью, обычно 95%, можно утверждать, что истин 242 ГЛАВА Рис. 8.7. А. 95% доверительная область для линии регрессии (по выборке с рис. 8.3).
ная линия находится где-то внутри этой области. Обратите вни мание, что три точки из десяти оказались вне доверительной области. Это совершенно естественно, поскольку речь идет о доверительной области линии регресии, а не самих значений (доверительная область для значений гораздо шире).
Авторы медицинских публикаций нередко приводят довери тельную область линии регрессии и говорят о ней так, как будто это Ч доверительная область значений. Это примерно то же са мое, что выдавать стандартную ошибку среднего за характеристику разброса значений, путая ее со стандартным отклонением. Напри мер, из рис. 8.7А видно, что средний вес марсиан ростом 40 см с вероятностью 95% окажется между 11,0 и 12,5 г Ч из этого АНАЛИЗ ЗАВИСИМОСТЕЙ Рис. 8.7. Б. 95% доверительная область для значений. Если мы хотим определить вес марсианина по его росту, нам следует воспользоваться именно этой доверительной областью.
вовсе не следует, что в этих пределах окажется вес 95% марси ан такого роста.
Теперь займемся доверительной областью для значений зави симой переменной.
Доверительная область для значений Разброс значений складывается из разброса значений вокруг линии регресии и неопределенности положения самой этой ли нии. Характеристикой разброса значений вокруг линии регрессии является остаточное стандартное отклонение sy|x, а неопределен 244 ГЛАВА ности положения линии регрессии Ч стандартная ошибка рег рессии s. Дисперсия суммы двух величин равна сумме диспер сий, поэтому 2 sY = s|x + sy.
Подставив в эту формулу выражение для s из предыдущего раздела, получим:
x - X ( ) sY = sy|x 1+ +.
n n -1 sX ( ) Тогда 100(1 - )-процентный доверительный интервал для зависимой переменной - tsY < y < + tsY.
Заметьте, что входящие в это неравенство величины и sY зависят от х.
На рис. 8.7Б изображена полученная по этой формуле 95% доверительная область для значений зависимой переменной. В эту область попадет 95% всех возможных значений веса марси ан любого роста. Например, с вероятностью 95% можно утвер ждать, что любой 40-сантиметровый марсианин весит от 9,5 до 14,0г.
СРАВНЕНИЕ ДВУХ ЛИНИЙ РЕГРЕССИИ Часто требуется сравнить линии регрессии, рассчитанные по двум выборкам. Это можно сделать тремя способами.
Х Сравнить коэффициенты наклона b, Х Сравнить коэффициенты сдвига a.
Х Сравнить линии в целом.
В первых двух случаях следует воспользоваться критерием Стьюдента. Если нужно проверить, значимо ли различие в на клоне двух прямых регрессии, критерий Стьюдента t вычисляет ся по формуле:
АНАЛИЗ ЗАВИСИМОСТЕЙ b1 - b t =, sb -b sb -b где b1 - b2 Ч разность коэффициентов наклона, a Ч ее стан дартная ошибка. Затем вычисленное t сравним, как обычно, с кри тическим значением t, имеющим (n - 2) + (n - 2) = n1 + n2 - степени свободы.
Если обе регрессии оценены по одинаковому числу наблюде ний, то стандартная ошибка разности 2 sb -b2 = sb + sb.
1 1 Если же объемы выборок различны, следует воспользовать ся объединенной оценкой остаточной дисперсии (она аналогична объединенной оценке дисперсии, приведенной в гл. 4):
n1 ( - 2 sy|x + n2 - 2 sy|x ) ( ) sy|x =.
общ n1 + n2 - sb -b Тогда формула для принимает вид s2 s y|xобщ y|xобщ sb -b2 =+.
n1 ( -1 sx n2 -1 sx ) ( ) Можно сравнить и коэффициенты сдвига a1 и а2. В этом случае a1 - a t =.
sa -a Здесь 2 sa -a2 = sa + sa, 1 1 когда обе регрессии вычислены по одинаковому числу точек.
При неодинаковом числе точек следует воспользоваться объеди ненной оценкой дисперсии так же, как это было сделано выше.
Перейдем к сравнению двух линий регресии в целом. Срав нить две линии регрессии Ч значит оценить вероятность нуле 246 ГЛАВА вой гипотезы о совпадении линий*. Напомним, что коэффици енты регрессии вычисляются так, чтобы разброс точек вокруг линии регрессии был минимален. Разброс этот характеризуется остаточной дисперсией : чем меньше остаточная дисперсия, sy|x тем лучше прямая регрессии соответствует имеющимся точкам.
Воспользуемся этим показателем для оценки результатов тако го мысленного эксперимента. Объединим обе выборки в одну и построим для нее линию регрессии. Если линии регрессии для двух выборок близки, остаточная дисперсия при этом существен но не изменится. И наоборот, если они различаются, то совпа дение точек и линии ухудшится и остаточная дисперсия возрас тет. Порядок действий таков.
Х Построить прямую регресии для каждой из выборок.
2 sy|x sy|x Х По остаточным дисперсиям и каждой из регрессий 1 вычислить объединенную оценку остаточной дисперсии.
sy|x общ Х Объединить обе выборки. Построить прямую регрессии для получившейся выборки и вычислить остаточную дисперсию sy|x.
един Х Вычислить выигрыш от использования двух раздельных регрессий. Мерой выигрыша служит величина:
n1 + n2 2 n1 + n2 ( - 2 sy|x -( - 4 sy|x ) ) 2 един общ sy|x =.
в sy|x Х По s2 и вычислить критерий F:
y|xв общ s y|xв F =.
s y|xобщ Х Сравнить вычисленное значение с критическим значением F для числа степеней свободы = 2 и = n1 + n2 - 4. Если меж вну полученное значение больше критического, то гипотеза о совпадении линий регрессии должна быть отклонена.
* Методы, предназначенные для сравнения более чем двух линий регрессии, описаны в книге: J. H. Zar. Biostatistical analysis. 2nd ed. Prentice-Hall.
Englewood Cliffs. N. J.. 1984.
АНАЛИЗ ЗАВИСИМОСТЕЙ Рис. 8.8. Зависимость мышечной силы от мышечной массы. Здоровые обозначены круж ками, больные ревматоидным артритом Ч квадратиками. Одинакова ли зависимость у больных и здоровых?
Мышечная сила при ревматоидном артрите Причины ограниченной подвижности при ревматоидном артрите разнообразны: болезненность суставов, их тугоподвижность, атрофия мышц. Каков вклад каждого из этих факторов? Пыта ясь ответить на этот вопрос, П. С. Хелливелл и С. Джексон* исследовали, в частности, связь между мышечной массой и си лой. В исследовании приняли участие 25 больных ревматоид ным артритом (1-я группа) и 25 здоровых (2-я группа). Рассчи тывали площадь поперечного сечения предплечья и ручным динамометром определяли силу сжатия кисти. Результат пока зан на рис. 8.8. Кружки Ч результаты здоровых, квадратики Ч больных ревматоидным артритом.
На рис. 8.9А представлены те же наблюдения, что и на рис.
8.8, и кроме того, две построенные по ним линии регрессии.
Проверим, есть ли значимое различие между линиями регрес * P. S. Helliwell, S. Jackson. Relationship between weakness and muscle wasting in rheumatoid arthritis. Ann. Rheum. Dis., 53:726Ч728, 1994.
248 ГЛАВА Рис. 8.9. А. Построим линии регрессии для каждой из групп и оценим разброс точек относительно этих линий. Б. Объединим группы и найдем линию регрес сии для получившейся группы. Если разброс точек относительно этой линии зна чительно превышает разброс относительно двух отдельных линий, то различия линий следует считать значимыми.
АНАЛИЗ ЗАВИСИМОСТЕЙ Таблица 8.2. Зависимость силы сжатия кисти от мышечной массы Объединенная 1-я группа 2-я группа группа Численность группы 25 25 Коэффициенты регрессии сдвиг а(sa) 3,3(22,4) Ц7,3(25,3) Ц23,1(50,5) наклон b(sb) 2,41(0,702) 10,19(0,789) 6,39(1,579) Остаточное стандартное отклонение sx|y 40,5 45,7 129, сии. Параметры уравнений регрессии и остаточные стандарт ные отклонения указаны в табл. 8.2. Вычислим объединенную оценку остаточной дисперсии n1 ( - 2 sy|x + n2 - 2 sy|x ) ( ) sy|x =, общ n1 + n2 - s где n1 и n2 Ч численность 1-й и 2-й групп, и Ч соответст s2 y|x y|x вующие остаточные дисперсии. Тогда ( - 2 40,52 + 25 - 2 45, ) ( ) sy|x ==1864.
общ 25 + 25 - Теперь объединим группы и найдем уравнение регрессии для получившейся группы. Опустим вычисления, результат приве ден в табл. 8.2. Линия регрессии изображена на рис. 8.9Б. Оста точная дисперсия единой регрессии = 129,12 = 16667. Вы sy|x един игрыш от использования раздельных регрессий:
n1 + n2 2 n1 + n2 ( - 2 sy|x -( - 4 sy|x ) ) 2 един общ sy|x == в 25 + 25 25 + ( - 2 16667 -( - 4 ) ) == 357136.
Значение F:
sy|x в F = = =191,596.
s2 y|xобщ 250 ГЛАВА Критическое значение F при уровне значимости = 0,011 и числе степеней свободы = 2 и = 25 + 25 - 4 равно 5,10, то меж вну есть гораздо меньше полученного нами. Таким образом, у здо ро вых людей сила сжатия зависит от размера предплечья иначе чем у больных артритом.
В чем заключается отличие? Сравним коэффициенты регрес сий. Начнем с коэффициента сдвига а.
2 sa -a2 = sa + sa = 22,42 + 25,32 = 33,8.
1 1 Тогда 3, ) a1 - a2 -(-7, t = = = 0,314.
sa -a2 33, При уровне значимости = 0,05 при числе степеней свобо ды = n1 + п2 - 4 = 46 критическое значение t равно 2,013.
Поскольку полученное нами значение t меньше критического, заключаем, что между а1 и а2 нет значимого различия.
При сравнении коэффициентов наклона получим t = 7,367, что больше критического. Итак, линии регрессии различаются наклоном, который круче в группе здоровых.
КОРРЕЛЯЦИЯ Регрессионный анализ позволяет оценить, как одна переменная зависит от другой и каков разброс значений зависимой перемен ной вокруг прямой, определяющей зависимость. Эти оценки и соответствующие доверительные интервалы позволяют пред сказать значение зависимой переменной и определить точность этого предсказания. Результаты регрессионного анализа можно представить только в достаточно сложной цифровой или гра фической форме. Однако нас часто интересует не предсказание значения одной переменной по значению другой, а просто ха рактеристика тесноты (силы) связи между ними, при этом выра женная одним числом.
Эта характеристика называется коэффициентом корреляции, обычно ее обозначают буквой r. Коэффициент корреляции МО АНАЛИЗ ЗАВИСИМОСТЕЙ РИС. 8.10. Чем теснее связь между переменными, тем ближе абсолютная величина ко эффициента корреляции к 1.
жет принимать значения от Ц1 до +1. Знак коэффициента корре ляции показывает направление связи (прямая или обратная), а абсолютная величина Ч тесноту связи. Коэффициент, равный Ц1, определяет столь же жесткую связь, что и равный 1. В отсутст вие связи коэффициент корреляции равен нулю.
На рис. 8.10 приведены примеры зависимостей и соответст вующие им значения r. Мы рассмотрим два коэффициента кор реляции.
Коэффициент корреляции Пирсона предназначен для описа ния линейной связи количественных признаков;
как и регресси 252 ГЛАВА онный анализ, он требует нормальности распределения. Когда говорят просто о коэффициенте корреляции, почти всегда име ют в виду коэффициент корреляции Пирсона, именно так мы и будем поступать.
Коэффициент ранговой корреляции Спирмена можно использо вать, когда связь нелинейна Ч и не только для количественных, но и для порядковых признаков. Это непараметрический метод, он не требует какого-либо определенного типа распределения.
О количественных, качественных и порядковых признаках мы уже говорили в гл. 5. Количественные признаки Ч это обыч ные числовые данные, такие, как рост, вес, температура. Зна чения количественного признака можно сравнить между собой и сказать, какое из них больше, на сколько и во сколько раз. На пример, если один марсианин весит 15 г, а другой 10, то первый тяжелее второго и в полтора раза и на 5 г. Значения порядкового признака тоже можно сравнить, сказав, какое из них больше, но нельзя сказать, ни на сколько, ни во сколько раз. В медицине порядковые признаки встречаются довольно часто. Например, результаты исследования влагалищного мазка по Папаниколау оценивают по такой шкале: 1) норма, 2) легкая дисплазия, 3) умеренная дисплазия, 4) тяжелая дисплазия, 5) рак in situ. И ко личественные, и порядковые признаки можно расположить по порядку Ч на этом общем свойстве основана большая группа непараметрических критериев, к которым относится и коэффи циент ранговой корреляции Спирмена. С другими непараметри ческими критериями мы познакомимся в гл. 10.
Коэффициент корреляции Пирсона И все же, почему для описания тесноты связи нельзя воспользо ваться регрессионным анализом? В качестве меры тесноты связи можно было бы использовать остаточное стандартное отклоне ние. Однако если поменять местами зависимую и независимую переменные, то остаточное стандартное отклонение, как и дру гие показатели регрессионного анализа, будет иным. Взглянем на рис. 8.11. По известной нам выборке из 10 марсиан построены две линии регрессии. В одном случае вес Ч зависимая перемен ная, во втором Ч независимая. Линии регрессии заметно разли АНАЛИЗ ЗАВИСИМОСТЕЙ Рис. 8.11. Если поменять местами х и у, уравнение регрессии получится другим, а коэф фициент корреляции останется прежним.
254 ГЛАВА чаются. Получается, что связь роста с весом одна, а веса с рос том Ч другая. Асимметричность регрессионного анализа Ч вот что мешает непосредственно использовать его для характери стики силы связи. Коэффициент корреляции, хотя его идея вы текает из регрессионного анализа, свободен от этого недостат ка. Приводим формулу.
X - X Y - Y ( )( ) r =, X - X Y - Y ( ) ( ) X где и Y Ч средние значения переменных X и Y. Выражение для r симметрично Чпоменяв местами X и Y, мы получим ту же величину. Коэффициент корреляции принимает значения от Ц1 до +1. Чем теснее связь, тем больше абсолютная величина коэффициента корреляции. Знак показывает направление свя зи. При r > 0 говорят о прямой корреляции (с увеличением од ной переменной другая также возрастает), при r < 0 Ч об обрат ной (с увеличением одной переменной другая уменьшается). Вер немся к рис. 8.10. На рис. 8.10А изображена максимально силь ная прямая корреляция: r = +1. На рис. 8.10Б Ч максимально сильная обратная корреляция: r = Ц1. На рис. 8.10В корреляция прямая, тоже достаточно сильная: r = 0,8. Наконец, на рис. 8.10Г какая-либо связь между признаками отсутствует: r = 0.
Возьмем пример с 10 марсианами, который мы уже рассматрива ли с точки зрения регрессионного анализа. Вычислим коэффици ент корреляции. Исходные данные и промежуточные результаты вы числений приведены в табл. 8.3. Объем выборки n = 10, средний рост X = n = 369 10 = 36,9 и вес Y = n = 103,8 10 = 10,38.
X Y Находим (XЦ X )(YЦY ) = 99,9, (XЦ X )2 = 224,8, (Y ЦY )2 = 51,9.
Подставим полученные значения в формулу для коэффици ента корреляции:
99, r == 0,925.
224,8 51, Величина r близка к 1, что говорит о тесной связи роста и веса. Чтобы лучше представить себе, какой коэффициент корреля ции следует считать большим, а какой незначительным, взгляни АНАЛИЗ ЗАВИСИМОСТЕЙ Таблица 8.3. Вычисление коэффициента корреляции X Y Х - X Y ЦY X )(Y ЦY ) (Х - X )2 (Y ЦY ) (X - 31 7,8 Ц5,9 Ц2,6 15,3 34,8 6, 32 8,3 Ц4,9 Ц2,1 10,3 24,0 4, 33 7,6 Ц3,9 Ц2,8 10,9 15,2 7, 34 9,1 Ц2,9 Ц1,3 3,8 8,4 1, 35 9,6 Ц1,9 Ц0,8 1,5 3,6 0, 35 9,8 Ц1,9 Ц0,6 1,1 3,6 0, 40 11,8 3,1 1,4 4,3 9,6 2, 41 12,1 4,1 1,7 7,0 16,8 2, 42 14,7 5,1 4,3 22,0 26,0 18, 46 13,0 9,1 2,6 23,7 82,8 6, 369 103,8 0,0 0,2 99,9 224,8 51, те на табл. 8.4 Ч в ней приведены коэффициенты корреляции для примеров, которые мы разбирали ранее.
Связь регрессии и корреляции Все примеры коэффициентов корреляции (табл. 8.4) мы перво начально использовали для построения линий регрессии. Дей ствительно, между коэффициентом корреляции и параметрами регрессионного анализа существует тесная связь, которую мы сейчас продемонстрируем. Разные способы представления ко эффициента корреляции, которые мы при этом получим, позво лят лучше понять смысл этого показателя.
Вспомним, что уравнение регрессии строится так, чтобы ми нимизировать сумму квадратов отклонений от линии регрессии.
Таблица 8.4. Примеры корреляций Пример Коэффициент Объем корреляции r выборки п Рост и вес марсиан (рис. 8.7) 0,925 Сила сжатия кисти и мышечная масса у 0,938 здоровых (рис. 8.9А) Сила сжатия кисти и мышечная масса, 0,581 объединенная группа (рис. 8.9Б) 256 ГЛАВА Обозначим эту минимальную сумму квадратов Sост (эту вели чину называют остаточной суммой квадратов). Сумму квадра тов отклонений значений зависимой переменной Y от ее сред Y него обозначим Sобщ. Тогда:
Sост r2 =1-.
Sобщ Величина r2 называется коэффициентом детерминации Ч это просто квадрат коэффициента корреляции. Коэффициент де терминации показывает силу связи, но не ее направленность.
Из приведенной формулы видно, что если значения зависи мой переменной лежат на прямой регрессии, то Sост = 0, и тем самым r = +1 или r = Ц1, то есть существует линейная связь зависимой и независимой переменной. По любому значению независимой переменной можно совершенно точно предсказать значение зависимой переменной. Напротив, если переменные вообще не связаны между собой, то Sост = Sобщ. Тогда r = 0.
Видно также, что коэффициент детерминации равен той доле общей дисперсии Sобщ, которая обусловлена или, как говорят, объясняется линейной регрессией*.
Остаточная сумма квадратов Sост связана с остаточной дис персией соотношением Sост = (п - 2), а общая сумма квад sy|x s y|x ратов Sобщ с дисперсией соотношением Sобщ = (п - 1). В s2 s y y таком случае sy|x n - r2 =1-.
n -1 sy Эта формула позволяет судить о зависимости коэффициента корреляции от доли остаточной дисперсии в полной дисперсии s2 s. Чем эта доля меньше, тем больше (по абсолютной ве y|x y личине) коэффициент корреляции, и наоборот.
Мы убедились, что коэффициент корреляции отражает тес ноту линейной связи переменных. Однако если речь идет о пред сказании значения одной переменной по значению другой, на * Следует помнить, что в статистике слова лобусловлена и лобъясняется не обязательно означают причинную связь.
АНАЛИЗ ЗАВИСИМОСТЕЙ коэффициент корреляции не следует слишком полагаться. На пример, данным на рис. 8.7 соответствует весьма высокий коэф фициент корреляции (r = 0,92), однако ширина доверительной области значений показывает, что неопределенность предсказа ния довольно значительна. Поэтому даже при большом коэффи циенте корреляции обязательно вычислите доверительную об ласть значений.
И под конец приведем соотношение коэффициента корреля ции и коэффициента наклона прямой регрессии b:
sX r = b, sY где b Ч коэффициент наклона прямой регрессии, sX и sY Ч стан дартные отклонения переменных.
Если не брать во внимание случай sX = 0, то коэффициент корреляции равен нулю тогда и только тогда, когда b = 0. Этим фактом мы сейчас и воспользуемся для оценки статистической значимости корреляции.
Статистическая значимость корреляции Поскольку из b = 0 следует r = 0, гипотеза об отсутствии корреля ции равнозначна гипотезе о нулевом наклоне прямой регрес сии. Поэтому для оценки статистической значимости корреля ции можно воспользоваться уже известной нам формулой для оценки статистической значимости отличия b от нуля:
b t =.
sb Здесь число степеней свободы = n - 2. Однако если коэф фициент корреляции уже вычислен, удобнее воспользоваться формулой:
r t =.
1- r n - Число степеней свободы здесь также = п - 2.
258 ГЛАВА При внешнем несходстве двух формул для t, они тождест венны. Действительно, из того, что sy|x n - r2 =1-, n -1 sy следует n - s2 = 1- r2 sY.
( ) y|x n - Подставив значение в формулу для стандартной ошибки sy|x sy|x sb =, sx n - получим sY 1- r sb =.
sX n - С другой стороны, поскольку sX r = b, sY имеем sY b = r.
sX Теперь подставим выражения для sb и b в формулу t = b sb.
Получим:
sY r sX r t ==.
sY 1- r2 1- r.
sX n - 2 n - АНАЛИЗ ЗАВИСИМОСТЕЙ Животный жир и рак молочной железы В опытах на лабораторных животных показано, что высокое со держание животного жира в рационе повышает риск рака мо лочной железы. Наблюдается ли эта зависимость у людей? К.
Кэррол* собрал данные о потреблении животных жиров и смертности от рака молочной железы по 39 странам. Результат представлен на рис. 8.12А. Коэффициент корреляции между потреблением животных жиров и смертностью от рака молоч ной железы оказался равен 0,90. Оценим статистическую зна чимость корреляции.
0, t ==12,56.
1- 0, 39 - Критическое значение t0,001 при числе степеней свободы = 39 - 2 = 37 равно 3,574, то есть меньше полученного нами. Та ким образом, при уровне значимости 0,001 можно утверждать, что существует корреляция между потреблением животных жи ров и смертностью от рака молочной железы.
Теперь проверим, связана ли смертность с потреблением рас тительных жиров? Соответствующие данные приведены на рис.
8.12Б. Коэффициент корреляции равен 0,15. Тогда 0, t == 0,92.
1- 0, 39 - Даже при уровне значимости 0,10 вычисленное значение t меньше критического. Корреляция статистически не значима.
Таким образом, риск рака молочной железы статистически значимо связан с потреблением животных, но не растительных жиров. Значит ли это, что животный жир способствует развитию рака молочной железы? Пока нет. Ведь обе рассматриваемые пе ременные могут зависеть от какой-то третьей. В обсервацион * К. К. Carroll. Experimental evidence of dietary factors and hormone-dependent cancers. Cancer Res., 35:3375Ч3383,1975.
260 ГЛАВА Рис. 8.12. Смертность от рака молочной железы и потребление жиров на душу населе ния в разных странах. А. Потребление животных жиров. Б. Потребление растительных жиров. Связь смертности с потреблением животных жиров достаточно отчетлива, чего не скажешь о связи с потреблением растительных жиров.
АНАЛИЗ ЗАВИСИМОСТЕЙ ном исследовании, каковым является работа Кэррола, такую возможность отвергнуть нельзя*. Однако экспериментальные данные, о которых мы упомянули выше, Ч сильный аргумент в пользу именно причинно-следственной связи.
Вообще истолкование результатов регрессионного и корре ляционного анализа зависит от того, в каком исследовании были получены данные Ч обсервационном или экспериментальном.
Если мы обнаружили связь переменных в обсервационном ис следовании, то это не значит, что одна из них влияет на другую.
Возможно, их согласованные изменения Ч результат действия какого-то неизвестного нам фактора. В экспериментальном ис следовании, произвольно меняя одну из переменных, мы мо жем быть уверены, что связь, если она будет выявлена, является причинной. Впрочем, осторожность не помешает и в этом слу чае. В самом деле, трудно менять только одну переменную. Уве личивая содержание жира в рационе, мы либо увеличиваем об щую калорийность, либо снижаем содержание белков и углево дов. Кто поручится, что канцерогенное действие оказывает имен но жир, а не дисбаланс питательных веществ?
КОЭФФИЦИЕНТ РАНГОВОЙ КОРРЕЛЯЦИИ СПИРМЕНА Расчет коэффициента корреляции возможен при тех же услови ях, что и регрессионный анализ. Это прежде всего линейность связи переменных и нормальность распределения. Эти условия выполняются далеко не всегда. Кроме того, в клинических ис следованиях мы часто имеем дело с порядковыми признаками, а к ним ни регрессионный анализ, ни расчет коэффициента кор * Например, исследования показывают, что заболеваемость раком молочной железы связана с уровнем доходов, числом автомобилей и телевизоров в семье. (В. S. Drasar, D. Irving. Environmental factors and cancer of the colon and breast. Br. J. Cancer, 27:167Ч172, 1973.) Ho значит ли это, что, поку пая новый автомобиль, домашняя хозяйка увеличивает риск заболеть ра ком молочной железы? На основании таких данных мы вправе только пред положить, что какой-то фактор, связанный с уровнем жизни, влияет на риск рака молочной железы, но не можем точно указать этот фактор.
262 ГЛАВА реляци, разумеется, неприменим. В подобных случаях следует воспользоваться коэффициентом ранговой корреляции Спирме на*. Это непараметрический метод Ч он не требует нормально сти распределения;
не требует он и линейной зависимости, его можно применять как к количественным, так и к порядковым признакам**.
Идея коэффициента ранговой корреляции Спирмена (его обо значают rs,) проста. Нужно упорядочить данные по возраста нию и заменить реальные значения их рангами. Рангом значе ния называется его номер в упорядоченном ряду. Например, в ряду 1,4, 8, 8, 12 ранг числа 4 равен 2. Затем, беря вместо самих значений их ранги, рассчитывают обычный коэффициент кор реляции Пирсона. Это и будет коэффициент ранговой корреля ции Спирмена. Его можно рассчитать и проще:
d rs =1-, n3 - n где d Ч разность рангов для каждого члена выборки.
Как быть, если в ряду встретятся одинаковые значения? Ска жем, в приведенном примере это две восьмерки. Им следует * Упомянем также коэффициент ранговой корреляции Кендалла, обо значаемый. В отличие от коэффициента ранговой корреляции Спир мена он может быть обобщен для случая нескольких независимых переменных. Заключения, основанные на использовании обоих ко эффициентов, одинаковы, хотя числовые значения коэффициентов не совпадают. О коэффициенте ранговой корреляции Кендалла можно прочесть в книге: S. Siegel, N. J. Castellan Non-parametric statistics for the behavioral sciences (2d ed.). McGraw-Hill, New York, 1988.
** Если параметрические методы, требующие нормального распреде ления, применить к данным с иным типом рапределения, это приве дет к ошибочному заключению. Напротив, непараметрические ме тоды можно смело применять и в случае нормального распределе ния. Однако тогда чувствительность их будет несколько ниже чувст вительности параметрических методов. Что касается коэффициента ранговой корреляции Спирмена, то он и в этом случае проигрывает коэффициенту корреляции Пирсона весьма незначительно.
АНАЛИЗ ЗАВИСИМОСТЕЙ Таблица 8.5. Вычисление коэффициента ранговой корреляции Спирмена Рост Вес Значение, см Ранг Значение, г Ранг Разность рангов 31 1 7,7 2 - 32 2 8,3 3 - 33 3 7,6 1 34 4 9,1 4 35 5,5 9,6 5 0, 35 5,5 9,9 6 Ц0, 40 7 11,8 7 41 8 12,2 8 42 9 14,8 9 46 10 15,0 10 присвоить один и тот же ранг, равный среднему занимаемых ими мест: (3 + 4)/2 = 3,5. Рангом стоящего за ними числа будет 5.
Посмотрим, как вычислить rs для знакомой нам выборки из 10 марсиан (табл. 8.5). Вначале упорядочим по возрастанию зна чения каждой из переменных. Ранг 1 присваивается меньшему значению, 10 Ч большему. Упорядочим марсиан по росту. На 5-м и 6-м месте в нем стоят одинаковые значения. Присвоим им общий ранг (5 + 6)/2 = 5,5. Затем упорядочим марсиан по весу и для каждого марсианина вычислим разность рангов роста и веса.
Наконец, вычислим коэффициент ранговой корреляции Спир мена:
2 2 6 + + 22 + 02 + 0,52 + + 02 + 02 + (- ) (- ) (-0, ) rs =1- = 103 - = 0,96.
Обратимся к таблице 8.6, где приведены критические зна чения коэффициента ранговой корреляции Спирмена для раз ных уровней значимости и объемов выборки. Критическое зна чение для уровня значимости 0,001 и объема выборки n = равно 0,903, что меньше полученного нами. Тем самым, корре ляция статистически значима (Р < 0,001).
264 ГЛАВА Таблица 8.6. Критические значения коэффициента ранговой корреляции Спирмена Уровень значимости n 0,50 0,20 0,10 0,05 0,02 0,01 0,005 0,002 0, 4 0,600 1,000 1, 5 0,500 0,800 0,900 1,000 1, 6 0,371 0,657 0,829 0,886 0,943 1,000 1, 7 0,321 0,571 0,714 0,786 0,893 0,929 0,964 1,000 1, 8 0,310 0,524 0,643 0,738 0,833 0,881 0,905 0,952 0, 9 0,267 0,483 0,600 0,700 0,783 0,833 0,867 0,917 0, 10 0,248 0,455 0,564 0,648 0,745 0,794 0,830 0,879 0, 11 0,236 0,427 0,536 0,618 0,709 0,755 0,800 0,845 0, 12 0,217 0,406 0,503 0,587 0,678 0,727 0,769 0,818 0, 13 0,209 0,385 0,484 0,560 0,648 0,703 0,747 0,791 0, 14 0,200 0,367 0,464 0,538 0,626 0,679 0,723 0,771 0, 15 0,189 0,354 0,446 0,521 0,604 0,654 0,700 0,750 0, 16 0,182 0,341 0,429 0,503 0,582 0,635 0,679 0,729 0, 17 0,176 0,328 0,414 0,485 0,566 0,615 0,662 0,713 0, 18 0,170 0,317 0,401 0,472 0,550 0,600 0,643 0,695 0, 19 0,165 0,309 0,391 0,460 0,535 0,584 0,628 0,677 0, 20 0,161 0,299 0,380 0,447 0,520 0,570 0,612 0,662 0, 21 0,156 0,292 0,370 0,435 0,508 0,556 0,599 0,648 0, 22 0,152 0,284 0,361 0,425 0,496 0,544 0,586 0,634 0, 23 0,148 0,278 0,353 0,415 0,486 0,532 0,573 0,622 0, 24 0,144 0,271 0,344 0,406 0,476 0,521 0,562 0,610 0, 25 0,142 0,265 0,337 0,398 0,466 0,511 0,551 0,598 0, 26 0,138 0,259 0,331 0,390 0,457 0,501 0,541 0,587 0, 27 0,136 0,255 0,324 0,382 0,448 0,491 0,531 0,577 0, 28 0,133 0,250 0,317 0,375 0,440 0,483 0.522 0,567 0, 29 0,130 0,245 0,312 0,368 0,433 0,475 0,513 0,558 0, 30 0,128 0,240 0,306 0,362 0,425 0,467 0,504 0,549 0, 31 0,126 0,236 0,301 0,356 0,418 0,459 0,496 0,541 0, 32 0,124 0,232 0,296 0,350 0,412 0,452 0,489 0,533 0, 33 0,121 0,229 0,291 0,345 0,405 0,446 0,482 0,525 0, 34 0,120 0,225 0,287 0,340 0,399 0,439 0,475 0,517 0, 35 0,118 0,222 0,283 0,335 0,394 0,433 0,468 0,510 0, 36 0,116 0,219 0,279 0,330 0,388 0,427 0,462 0,504 0, 37 0,114 0,216 0,275 0,325 0,383 0,421 0,456 0,497 0, 38 0,113 0,212 0,271 0,321 0,378 0,415 0,450 0,491 0, 39 0,111 0,210 0,267 0,317 0,373 0,410 0,444 0,485 0, 40 0,110 0,207 0,264 0,313 0,368 0,405 0,439 0,479 0, АНАЛИЗ ЗАВИСИМОСТЕЙ Таблица 8.6. Окончание Уровень значимости n 0,50 0,20 0,10 0,05 0,02 0,01 0,005 0,002 0, 41 0,108 0,204 0,261 0,309 0,364 0,400 0,433 0,473 0, 42 0,107 0,202 0,257 0,305 0,359 0,395 0,428 0,468 0, 43 0,105 0,199 0,254 0,301 0,355 0,391 0,423 0,463 0, 44 0,104 0,197 0,251 0,298 0,351 0,386 0,419 0,458 0, 45 0,103 0,194 0,248 0,294 0,347 0,382 0,414 0,453 0, 46 0,102 0,192 0,246 0,291 0,343 0,378 0,410 0,448 0, 47 0,101 0,190 0,243 0,288 0,340 0,374 0,405 0,443 0, 48 0,100 0,188 0,240 0,285 0,336 0,370 0,401 0,439 0, 49 0,098 0,186 0,238 0,282 0,333 0,366 0,397 0,434 0, 50 0,097 0,184 0,235 0,279 0,329 0,363 0,393 0,430 0, Если объем выборки больше 50, нужно применить критерий Стыодента:
rs t = 1- rs n - с числом степеней свободы = n - 2.
В данном случае связь веса и роста можно было установить и без помощи коэффициента ранговой корреляции Спирмена.
Применение обычного коэффициента корреляции, как мы ви дели, приводит к тем же результатам.
Сколько лабораторных анализов нужно врачу?
В первые дни пребывания в больнице больному обычно делают множество дорогостоящих анализов. Все ли из них необходимы?
Шредер с коллегами* попытались, анализируя работу 21 врача, выяснить, существует ли связь между квалификацией врача и стоимостью необходимых ему анализов. Прежде всего, специ альная комиссия оценила квалификацию каждого врача. Каж дому из врачей присвоили ранг от 1 (лучшая квалификация) до * S. A. Schroeder, A. Schliftman, Т. Е. Piemine. Variation among physici ans in use of laboratory tests: relation to quality of care. Med. Care, 12:
709Ц713, 1974.
266 ГЛАВА 21 (худшая квалификация). Затем была подсчитана средняя сто имость анализов, которые потребовались каждому из врачей за первые 3 суток пребывания больного в клинике. Эти данные упорядочили по возрастанию;
наименьшей стоимости присвои ли ранг 1, наибольшей Ч 21.
В результате каждому врачу была присвоена пара рангов Ч ранг по шкале квалификации и ранг по шкале расходов. Эти пары представлены на рис. 8.13. Остается выяснить связь меж ду квалификацией врача и величиной расходов на необходимые ему анализы. Вычислив коэффициент Спирмена, получим все го лишь rs = Ц0,13. Абсолютная величина rs оказалась меньше критического значения даже при уровне значимости = 0, (критическое значение r0,05 = 0,435).
Однако значит ли это, что не существует связи между квали фикацией врача и затратами на анализы? Нет. Связь существу ет, но она не линейная. Присмотревшись к рис. 8.13, можно заме тить, что самыми дешевыми анализы были у лучших и... худ ших врачей. И тем и другим, чтобы уверенно судить о болезни, не требуется много анализов. Причем, похоже, большей уверен ностью отличаются именно худшие специалисты.
Но почему эта связь не была уловлена коэффициентом кор реляции? Исключительно из-за ее нелинейной формы. Ни один из коэффициентов корреляции не сможет уловить зависимость, график которой Ч перевернутая U-образная кривая с рис. 8.13.
Этот пример показьюает, что, прежде чем применять какие либо методы анализа связей, следует примерно определить, ка кой может быть форма зависимости. Лучший способ для этого Ч просто нарисовать график, подобный изображенному на рис. 8.13.
ЧУВСТВИТЕЛЬНОСТЬ КОЭФФИЦИЕНТА КОРРЕЛЯЦИИ Как уже говорилось, из статистической значимости коэффи циента корреляции вытекает статистическая значимость коэф фициента наклона. Ограничимся поэтому вычислением чувст вительности коэффициента корреляции.
Можно показать, что величина АНАЛИЗ ЗАВИСИМОСТЕЙ Рис. 8.13. А. Квалификация врача и стоимость анализов, которые он назначает больно му в первые 3 дня госпитализации. Коэффициент ранговой корреляции Спирмена Ч всего лишь Ц0,13. Можно было бы заключить, что стоимость анализов от квалифика ции никак не зависит. Б. Приглядевшись к данным повнимательнее, можно заметить, что зависимость на самом деле есть, только не линейная, а похожая на перевернутую букву U. Расходы на анализы выше у врачей средней квалификации, у наиболее и наи менее квалифицированных врачей расходы ниже.
268 ГЛАВА 1 1+ r Z = ln 1- 2 r имеет нормальное распределение со стандартным отклонением Z =.
n - Тогда величина Z z = Z в отсутствие корреляции имеет стандартное нормальное рас пределение со средним, равным нулю. Обозначим истинное зна чение коэффициента корреляции (греческая ро). Тогда сред ним значением z будет Z Z, где 1 1+ Z = ln 1-.
Найдем, какой должна быть чувствительность, чтобы по вы борке объемом 10 при уровне значимости 0,05 обнаружить кор реляцию, не меньшую 0,9. На рис. 8.14 приведены два распре деления z Ч для нулевого коэффициента корреляции и истин ного, равного. (Заметьте, насколько этот этот рисунок похож на рис. 6.7.) Чувствительность равна площади под истинной кривой распределения z справа от критического значения z.
Вычислим 1 1+ 1 1+ 0, Z = ln = ln =1, 1- 2 1- 2 0, и Z = = 0,378.
n - Уровню значимости = 0,05 соответствует критическое зна чение z = 1,960. Центром распределения z является Z Z = = 1,472/0,378 = 3,894. От этого центра критическое значение z от АНАЛИЗ ЗАВИСИМОСТЕЙ Рис. 8.14. Чувствительность выявления корреляции = 0,9 при объеме выборки n = и уровне значимости = 0,05.
стоит на 1,960 - 3,894 = Ц1,934 стандартных отклонения. Из табл.
6.4 находим, что площадь части стандартного нормального рас пределения, расположенной правее Ц1,934 стандартного от клонения от центра, составляет примерно 0,97. То есть искомая чувствительность равна 97%.
Итак, чувствительность 1 Ц, необходимая для обнаруже ния корреляции, не меньшей, при уровне значимости и при объеме выборки п равна площади под кривой стандартного нормального распределения правее точки Z z1- = z -.
n - Эта формула для нахождения чувствительности по известно му объему выборки. Если нужно найти объем выборки, при ко тором достигалась бы чувствительность 1 Ц, то, разрешив это уравнение относительно п, получим:
- z1 z n =+ 3.
Z 270 ГЛАВА СРАВНЕНИЕ ДВУХ СПОСОБОВ ИЗМЕРЕНИЯ: МЕТОД БЛЭНДАЧАЛТМАНА Нередко требуется сравнить результаты измерений, выполнен ных двумя методами, ни один из которых не является абсолют но надежным. Например, некий гемодинамический показатель определяли непрямым, неинвазивным, методом. Допустим, изо бретен новый метод, также непрямой. Естественно выяснить, согласуются ли результаты измерений, выполненных старым и новым методами. Или похожий вопрос Ч насколько согласова ны результаты повторных измерений, выполненных одним и тем же методом.
Итак, с помощью двух методов получены две серии измере ний. Казалось бы, ничто не мешает применить регрессионный анализ или рассчитать коэффициент корреляции. Увы, эти, на первый взгляд, очевидные действия могут привести к ложными выводами.
Регрессионный анализ неприменим уже потому, что его ре зультаты зависят от того, какую переменную считать незави симой, а какую зависимой. Тут следует подчеркнуть отличие задачи сравнения двух методов измерения от задачи калибров ки, в которой приближенные измерения сравниваются с некото рым эталоном. Типичный пример калибровки: приготовив ряд растворов известной концентрации, измерить ее исследуемым методом. Здесь регрессионный анализ вполне применим, поскольку эталон Ч достоверно известная концентрация Ч очевидным образом и является независимой переменной. На против, при сравнении результатов двух приближенных мето дов никакого эталона нет.
Что может дать коэффициент корреляции? Положим, он ста тистически значимо отличается от нуля. Но ценен ли этот факт?
Нет, ведь проверялась корреляция измерений одной и той же величины. В этом случае удивления было бы достойно как раз отсутствие значимой корреляции, говорящее о том, что резуль таты, как минимум, одного из методов нимало не схожи с истин ными значениями измеряемого признака. Это практически ис ключено. Кроме того, как мы видели, даже весьма высоким ко АНАЛИЗ ЗАВИСИМОСТЕЙ эффициентам корреляции соответствует довольно значительная неопределенность предсказания зависимой переменной.
Д. Блэнд и Дж. Алтман предложили описательный метод оценки согласованности измерений, выполненных двумя спо собами*. Идея метода очень проста. Для каждой Ч выполнен ной одним и другим способами Ч пары измерений вычислим их разность. Найдем среднюю величину и стандартное откло нение разности. Средняя разность характеризует системати ческое расхождение, а стандартное отклонение Ч степень раз броса результатов. Далее, если в качестве оценки измеряемого признака взять среднее значение пары измерений, то можно определить, зависит ли расхождение от величины признака.
Последнее станет понятнее после того, как мы разберем при мер применения метода БлэндаЧАлтмана.
Два способа оценки митральной регургитации Вспомним схему кровообращения. Из правого желудочка кровь поступает в легкие, где насыщается кислородом. Из легких кровь попадает в левое предсердие, затем Ч в левый желудочек. Отсю да кровь перекачивается по всему телу, снабжая органы кислоро дом, после чего попадает в правое предсердие и вновь в правый желудочек. Митральный клапан, расположенный между левым предсердием и левым желудочком, при сокращении желудочка закрывается и преграждает крови путь обратно в предсердие.
При митральной недостаточности возникает так называемая митральная регургитация: часть крови при сокращении левого желудочка выбрасывается в предсердие. В результате легкие пе реполняются кровью, что затрудняет их работу. Если мит ральная регургитация слишком велика, клапан необходимо за менять искусственным, Ч вот почему ее количественная оценка чрезвычайно важна. Такой оценкой служит фракция регургита ции Ч доля крови, которая при каждом сокращении выбрасыва * Более подробное изложение этой процедуры можно найти в статьях:
D. G. Altman and J. M. Bland. Measurement in medicine: the analysis of method comparison studies. Statistician, 32:307Ч317,1983 и J. M. Bland and D. G. Altman. Statistical methods for assessing agreement between two measures of clinical measurement. Lancet, 1(8476):307Ч310, 1986.
272 ГЛАВА Таблица 8.7. Фракция митральной регургитации по данным ка тетеризации сердца и допплеровского исследования Допплеровское Среднее исследование Катетеризация Разность значение 0,49 0,62 Ц0,13 0, 0,83 0,72 0,11 0, 0,71 0,63 0,08 0, 0,38 0,61 Ц0,23 0, 0,57 0,49 0,08 0, 0,68 0,79 Ц0,11 0, 0,69 0,72 Ц0,03 0, 0,07 0,11 Ц0,04 0, 0,75 0,66 0,09 0, 0,52 0,74 Ц0,22 0, 0,78 0,83 Ц0,05 0, 0,71 0,66 0,05 0, 0,16 0,34 0,18 0, 0,33 0,50 Ц0,17 0, 0,57 0,62 Ц0,05 0, 0,11 0,00 0,11 0, 0,43 0,45 Ц0,02 0, 0,11 0,06 0,05 0, 0,31 0,46 Ц0,15 0, 0,20 0,03 0,17 0, 0,47 0,50 Ц0,03 0, ется из левого желудочка в левое предсердие. В норме фракция регургитации равна нулю;
чем тяжелее митральная недостаточ ность, тем более фракция регургитации приближается к еди нице.
Фракцию регургитации можно определить с помощью ка тетеризации сердца. В левый желудочек вводят катетер, а через него Ч рентгеноконтрастный препарат. Наблюдая за его рас пространением, можно определить, какая доля крови выбра сывается в левое предсердие. Описанный способ трудно назвать приятным, дешевым и безопасным.
Э. Мак-Исаак с соавт. предложили определять фракцию ре АНАЛИЗ ЗАВИСИМОСТЕЙ Рис. 8.15. А. Фракция митральной регургитации при измерении прямым методом и по данным допплеровского исследования. Б. Сравнение результатов по методу БлэндаЧАлтмана.
274 ГЛАВА гургитации с помощью допплеровского исследования*. Этот способ значительно проще и вполне безопасен. Насколько со гласуются оценки, полученные двумя способами? Фракцию ре гургитации обоими способами определили у 21 человека. Ре зультаты приведены на рис. 8.15А и в табл. 8.7. Коэффициент корреляции между измерениями, выполненными обоими спо собами, составил 0,89. Высокое значение коэффициента корре ляции говорит о тесной линейной связи, однако для оценки со гласованности этого недостаточно.
Помимо самих измерений в табл. 8.7 приведены усреднен ные по каждому больному значения фракции регургитации и разности этих долей. На рис. 8.15Б изображены разности долей для каждого усредненного значения. Такое представление позво ляет сделать ряд выводов. Во-первых, средняя разность между измерениями равна всего лишь Ц0,03, что говорит об отсутствии систематического расхождения. Во-вторых, стандартное откло нение разностей составило 0,12, что невелико по сравнению с самими значениями. В-третьих, отсутствует зависимость раз ности измерений от величины фракции регургитации. Таким образом, измерения, полученные обоими способами, хорошо со гласуются друг с другом.
ЗАКЛЮЧЕНИЕ Мы рассмотрели методы, предназначенные для оценки связи между двумя признаками. Успех применения этих методов опре деляется тем, насколько математическая модель, лежащая в их основе, соответствует действительности. Особенно важна фор ма зависимости Ч она должна быть линейной. Поэтому, перед тем как приступить к расчетам, нанесите данные на график Ч это поможет вам правильно выбрать статистический метод (или отказаться от применения любого из них).
* A. I. MacIsaac, I. G. McDonald, R. L. G. Kirsner, S. A. Graham, R. W. Gill Quantification of mitral regurgitation by integrated Doppler backscattei power.
J. Am. Coll. Cardioi, 24:690Ц695, 1994.
АНАЛИЗ ЗАВИСИМОСТЕЙ ЗАДАЧИ 8.1. Постройте графики для приведенных наборов данных.
Найдите для линии регрессии и коэффициенты корреляции.
XYXYXY 30 37 30 37 30 30 47 30 47 30 40 50 40 50 40 40 60 40 60 40 20 25 20 20 35 20 50 62 50 50 72 50 10 10 60 60 Нанесите данные и прямые регрессии на графики. Что в этих трех случаях общего, в чем различия?
8.2. Постройте графики для двух наборов данных. Найдите для каждого линию регрессии и коэффициент корреляции.
XYXY 15 19 20 15 29 20 20 25 30 20 35 30 25 31 40 25 41 40 30 37 40 30 47 40 60 40 50 50 60 60 276 ГЛАВА Нанесите полученные прямые регрессии на графики с исход ными данными. Обсудите результаты.
Pages: | 1 | 2 | 3 | 4 | 5 | Книги, научные публикации