Депрессия: Главные вмешательства в ведении депрессии в первичной и специализированной помощи

Вид материалаДокументы

Содержание


3.4.1. Процесс обзора
3.4.1.1. Разработка фильтров поиска
3.4.1.2. Поиск существующих систематических обзоров
3.4.1.3. Поиск RCTs
3.4.1.4. Выбор исследования
3.4.2. Синтезирование свидетельств
3.4.2.2. Извлечение данных
3.4.3. Выработка утверждений и ранжированных рекомендаций
3.4.3.1. Выработка утверждений
3.4.3.2. Выработка ранжированных рекомендаций
Текст в рамке 1: Схема иерархии свидетельств и ранжирование рекомендаций Типа Уровень свидетельств Ранжир свидетельств
IIa Свидетельства, полученные по крайней мере от одного хорошо-поставленного управляемого исследования без рандомизации B
IIb Свидетельства, полученные по крайней мере от одного другого хорошо поставленного квазиэкспериментального исследования III
IV Свидетельства, полученные из отчетов экспертного комитета или мнений и/или клинического опыта уважаемых органов C
GPP Рекомендуемая хорошая практика на основе клинического опыта GDG NICE
Health Technology Assessment
3.4.4. Метод, использованный для ответа на клинический вопрос в отсутствии соответственно построенных, высококачественных исслед
3.4.4.1. Неофициальный консенсус
Подобный материал:
1   2   3   4   5   6   7   8   9   10

3.4.1. Процесс обзора

Так как большинство клинических вопросов этого стандарта касались вмешательств, большая часть базы свидетельств была взята из рандомизированных управляемых исследований (RCTs) высокого качества. Хотя есть множество трудностей с использованием RCTs для оценки вмешательств в психическом здоровье, этот инструмент исследования остается самым важным методом в установлении эффективности лечения (см. введение к дальнейшим главам для знакомства с более полным обсуждением этой проблемы).

Процесс рецензирования включал в себя:

• Разработку поисковых фильтров

• Поиск существующих систематических обзоров

• Поиск новых RCTs

• Выбор исследований

• Синтезирование свидетельств.


3.4.1.1. Разработка фильтров поиска

Команда рецензентов разрабатывала фильтры поиска для поиска в электронных базах данных, которые объединяли тематические заголовки с фразами свободного текста. Был разработан фильтр для общей темы 'депрессия', который был объединен с конкретными фильтрами для каждого клинического вопроса. Они были также объединены с фильтрами, разработанными для ‘систематических обзоров' или ‘RCTs (или других исследовательских методик при необходимости) (Приложение 7)

3.4.1.2. Поиск существующих систематических обзоров

Команда рецензентов NCCMH предприняла поиск существующих систематических обзоров RCTs, изданных по-английски с 1995 г (произвольная дата отсечки, чтобы уменьшить число найденной библиографии и гарантировать новизну), которые могли бы ответить на клинические вопросы, поставленные GDG. Начальные исследования были предприняты в декабре 2001 г и январе 2002 г, а поиски для обновления проводились каждые два месяца до мая 2002 г. Поиск в PubMed (MEDLINE) был также предпринят, еженедельно, начиная с апреля 2003 г до конца процесса разработки стандарта. Поиск был проведен по следующим базам данных: EMBASE, MEDLINE, PsycINFO, Библиотека Кокрейна, CINAHL, Web of Science.

Систематические обзоры были оценены по качеству и приемлемости (Приложения 8 и 9) до их оценки GDG в отношении уместности для клинического вопроса. Был проведен поиск RCTs, изданных слишком поздно, чтобы быть включенными в выбранные систематические обзоры, начиная за два года до даты публикации рассматриваемого обзора. Там, где авторы указывали даты поиска исследований, команда рецензентов NCCMH предпринимала новый поиск исследований с начала того года. Каждое исследование, включенное в существующий обзор, было подвергнуто такой же проверке качества как и исследования, найденные NCCMH, и данные были вновь извлечены согласно протоколам NCCMH (см. ниже). Там, где существующие обзоры были предприняты, используя программу Review Manager (любая версия), к авторам обращались за получением баз данных, хотя любые использованные данные были проверены для точность. В отношении клинических вопросов, для которых не было найдено систематических обзоров, был предпринят поиск всех уместных свидетельств.

3.4.1.3. Поиск RCTs

По клиническим вопросам из тематических областей Обслуживания и Фармакологии поиск RCTs были предприняты для каждого клинического вопроса индивидуально. Однако, поиск RCT для ответов на клинические вопросы, поставленные тематической группой Психологии был осуществлен совместно. В отношении всех вопросов поиск был проведен по следующим электронным базам данных: EMBASE, MEDLINE, PsycINFO, Библиотека Кокрейна, CINAHL. В отношении фармакологического обзора по затору C-Джона был проведен поиск и в AMED. Кроме того, был проведен ручной поиск в списках литературы всех приемлемых RCTs, а так же в списках свидетельств, представленных заинтересованными ведомствами (Приложение 3). Были опрошены известные эксперты в данной области (см. Приложение 5), определенные на основе библиографий, выявленных ранее, и рекомендаций членов GDG, в отношении еще неопубликованных RCT1. Исследования рассматривались, если были доступны полные отчеты об испытании. Исследования, изданные на других языках, использовались, если мог помочь носитель соответствующего языка.

Если RCT по конкретному клиническому вопросу не были найдены вообще, GDG предпринимала процесс достижения консенсуса (см. Секцию 3.4.6). Будущие стандарты смогут модернизировать и расширить доказательную базу, начиная со свидетельств, собранных, синтезированных и проанализированных для данного стандарта.

3.4.1.4. Выбор исследования

Вся найденная в базах данных библиография была загружена в программу Reference Manager (Менеджер Литературы) и проанализирована, чтобы исключить несоответствующие статьи. Названия исключенных статей перепроверялись вторым рецензентом. Все исследования первичного уровня, включенные после первого просмотра, были приобретены полностью и повторно оценены на приемлемость. Приложение 8 содержит список стандартные критерии включения и исключения. Дополнительные критерии допуска были разработаны, чтобы оценить испытания медикаментов и внесены в список в главе 7. Все приемлемые статьи критически оценивались по методологическому качеству (см. Приложение 10). Допуск каждого исследования был подтвержден по крайней мере одним членом соответствующей тематической группы.

Для некоторых клинических вопросов было необходимо расположить по приоритетам свидетельства с учетом британского контекста. Чтобы сделать этот процесс открытым, члены тематической группы приняли во внимание следующие факторы при оценке свидетельств:

• факторы участников (например, пол, возраст, этническая принадлежность)

• факторы поставщика (например, точность модели, условия, при которых вмешательство было проведено, наличие опытного персонала для реализации процедур)

• культурные факторы (например, различия в стандартной помощи, различия в системе соцобеспечения).


1 Неопубликованные полные отчеты об эксперименте были приняты там, где имелась достаточная информация, чтобы судить о приемлемости и качестве.

Каждая тематическая группа отвечала за то, какие факторы приоритизации были уместны по каждому клиническому вопросу в свете британского контекста, и как они должны модифицировать свои рекомендации.

3.4.2. Синтезирование свидетельств

3.4.2.1. Результаты

Были извлечены показатели по Шкале оценки депрессии Гамильтона (HRSD), Шкале депрессии Монтгомери-Асберга (MADRS) и Опросник по депрессиям Бека (BDI) в конце лечения или последующем наблюдении. Были извлечены как средние показатели конечной точки, так и дихотомизированные данные (число людей, попадающих ниже точки отсечки в отношении ремиссии и/или число участников, снизивших свой балл на 50 %). Кроме того, где возможно, были проведены вспомогательные исследования тяжести депрессии. Поскольку ни одно исследование не дало информацию о начальной тяжести депрессии участников с точки зрения числа симптомов, используя МКБ-классификацию (см. Главу 2), средний балл депрессии на начальном уровне (чаще балл по HRSD) был использован как заместитель меры. Показатели были категоризированы как легкая, умеренная, тяжелая или очень тяжелая согласно критериям Американской Психиатрической Ассоциации. GDG использовала эти категории с осторожностью, имею в виду проблематичный характер этой заместительной меры, в особенности вариации в стандартном отклонении исходных средних показателей. Детали категорий и дальнейшей информации о шкалах оценки депрессии приводятся в Приложении 13.

3.4.2.2. Извлечение данных

Где возможно, данные из всех приемлемых исследований, которые удовлетворяли качественным критериям, были извлечены в форму для извлечения данных (Приложение 11) и вены в Review Manager 4.2 (Cochrane Collaboration, 2003). Где отчеты содержали неполные данные и можно было войти в контакт с первоначальными авторами, запрашивалась дополнительная информация. Там где средняя конечная точка или показатели изменения были извлечены и отчеты не давали стандартные отклонения, использовались стандартные конверсионные формулы (См. Приложение 12).

Различные версии HRSD были стандартизированы, используя метод пропорционирования, предложенный Walsh et al. (2002).

Все дихотомичные результаты были рассчитаны на основание «намерения лечиться» (то есть, на основе принципа ‛если рандомизировано, всегда анализируй’). Это предполагает, что те участники кто прекратили участвовать в исследовании - из любой группы, имели неблагоприятный результат. Эффекты высоких уровней выпадения из исследования (определяемых как больше чем 50 % от участников конкретной группы, выходящих из лечения досрочно) были исследованы с при помощи анализа чувствительности, и исследования исключались из результатов эффективности, если выявлялась возможность систематической погрешности измерения.

Консультация использовалась, чтобы преодолеть трудности с кодированием. Данные от исследований, включенных в существующие систематические обзоры, были извлечены независимо одним рецензентом непосредственно в Менеджера Обзора и проверены вторым рецензентом. Где согласие не могло быть достигнуто, с третьим рецензентом консультировались. Замаскированная оценка (то есть, слепая для журнала, из которого статья пришла, для авторов, учреждения и в отношении величины эффекта) не использовалась, так как было не ясно, уменьшит ли это погрешность измерения (Jadad et al., 1996; Berlin, 2001).

Информация, описывающая каждое исследование, была также извлечена и введена в Менеджера Обзора 4.2. Она использовалось, чтобы составить таблицы свидетельств (см. Приложение 18). Где метаанализ не был адекватен и/или возможен, сообщенные результаты каждого исследования первичного уровня были также представлены в таблицах свидетельств.

3.4.2.3. Метаанализ

Где возможно, использовался метаанализ, чтобы синтезировать данные. Если необходимо, подисследования использовались, чтобы ответить на клинические вопросы, которые не решались в первоначальных исследованиях или обзорах.

GDG давала графическое представление результатов, используя графики, произведенные Менеджером Обзора. Каждый график показал размер эффекта и 95%-ый доверительный интервал (CI) для каждого исследования, а также полное резюме статистики с ее 95 % CI. Диаграммы были организованы так, чтобы показ данных в области слева от ‛линии отсутствия эффекта’ указывал на ‛благоприятный’ результат рассматриваемого лечения2.

2 исключение к этому - обзор амитриптилина, для которого GDG были обеспечены набором данных для существующего систематического обзора (Barbui et al, 2001)

Дихотомичные результаты были представлены как относительные риски (RR) с соответствующим 95 % CI (см. Рисунок 1). Относительный риск (или коэффициент риска) – это отношение уровня лечебных событий к уровню контрольных событий. RR = 1 указывает на отсутствие различий между лечением и контролем. В Рисунке 1 общий RR = 0.73 указывает, что уровень событий (то есть, уровень отсутствия ремиссии), связанных с вмешательством А, составляет ¾ уровня контрольного вмешательства, или другими словами, вмешательство уменьшает уровни отсутствия ремиссии на 27 %. Кроме того, 95 % CI в отношении RR не пересекает ‘линии отстутствия эффекта’, указывая, что это - статистически значимый эффект. CI показывает с 95%-ой уверенностью диапазон, в пределах которого истинный эффект лечения и должен лежать.

Было запланировано вычислить количество, которое необходимо пролечить (number needed to treat = NNT) (или количество, необходимое, чтобы навредить (number needed to harm = NNH)) для дихотомичных результатов со статистически значимым размером эффекта. Однако, когда риск исходного уровня (то есть, уровень событий в контрольной группе (CER)) или длительность последующего наблюдения (followup) изменяется, NNT является плохим резюме эффекта лечения, особенно при низким риске или где CER различается в исследованиях метаанализа (Deeks, 2002). Так как не было возможно вычислить начальный риск для большинства результатов, NNT и NNH не были рассчитаны.

Сплошные результаты были проанализированы как средневзвешенные расхождения (WMD) или стандартизированные средние расхождения (SMD), когда различные меры (или различные версии одно и той же меры) использовались в различных исследованиях, чтобы оценить один и тот же основной эффект (см. Рисунок 2).

Чтобы проверить гетерогенность между исследованиями, были использованы как проверка I2 гетерогенности, так и проверка на гетерогенность по критерию хи-квадрат (p <.10), а также визуальное изучение графиков. IСтатистика I2 описывает соотношение общей вариации в оценках исследования вследствие гетерогенности (Higgins и Thompson, 2002). I2 меньше чем 30 % принята как указывающая на легкую гетерогенность, и модель фикисированных эффектов использовалась, чтобы синтезировать результаты. Это предполагает, что основной эффект – один и тот же (Egger et al., 2001). I2 выше 50 % считалась заметной гетерогенностью. В этом случае делалась попытка объяснить вариацию. Если исследования с гетерогенными результатами оказывались сопоставимыми, использовалась модель случайных эффектов использовалась, чтобы подвести итог результатов (DerSimonian и Laird, 1986). В анализе случайных эффектов гетерогенность учитывается как в ширине доверительного интервала, так и в оценке эффекта лечения. С уменьшением гетерогенности подход случайных эффектов движется асимптотически к модели фиксированных эффектов. I2 = 30 - 50 % был взята как указывающая на умеренную гетерогенность. В этом случае как проверка гетерогенности по критерию хи-квадрат, так и визуальное изучение графика использовались, чтобы решить в пользу фиксированной и случайной модели эффектов.

Чтобы исследовать возможность того, что результаты, включенные в каждый метаанализ, могут страдать погрешностью публикации, данные из включенных исследований вводились (там, где были достаточные данные) в воронкообразный график. Было принято, что асимметрия графика указывает на возможную публикационную погрешность, и исследовалась далее.

3.4.3. Выработка утверждений и ранжированных рекомендаций

Итоговые статистические данные (размеры эффектов = ES) и таблицы свидетельств составили основу для того, чтобы разработать клинические утверждения и рекомендации.

3.4.3.1. Выработка утверждений

Для каждого результата было выработно клиническое утверждение, описывающее найденные свидетельства. Для того, чтобы сделать это, принимались во внимание и статистическое, и клиническое значение (то есть, вероятная польза потребителям услуг) итоговой статистики.

Оценка статистически значимой итоговой статистики

Чтобы оценить клиническую значимость там, где было получено статистически значимое резюме (после контроля гетерогенности) GDG приняла следующее ‘правило большого пальца ’ в дополнение к принятию во внимание испытуемую популяцию и характера результатов:

Для дихотомичных результатов RR = 0.80 или меньше считалось клинически значимым (см. объяснение выше).

Для непрерывных результатов, для которых был рассчитан SMD, средний размер эффекта (-0.5) (Cohen, 1988) или выше считали клинически значимым. Где был рассчитан WMD, эффект по крайней мере-3.0 считали клинически значимым и для BDI, и для HRSD.

Как только устанавливалось клиническое значение, был оценена прочность свидетельств посредством анализа 95 % CI вокруг ES. Для свидетельств уровня 1, где ES был оценен клинически значимым и имел CI полностью в пределах клинически соответствующего диапазона, результат характеризовался как ‛ сильное свидетельство' (S1, Блок-схема 1: Дерева принятия решения по положению стандарта). Для свидетельств не уровня 1 или в случаях, где верхний/нижний предел CI не был клинически значим, результат был охарактеризован как ‛ некоторые свидетельства' (S2).

Где ES был статистически значим, но не клинически значим, и CI исключал значения, считавшиеся клинически значимыми, результат был охарактеризован как ‘вряд ли клинически значим’ (S3). Альтернативно, если CI включал клинически важные значения, результат был охарактеризован как ‘недостаточный, чтобы определить клиническое значение’ (S6).

Оценка статистически незначимой итоговой статистики

Где был получен статистически незначимый ES, GDG рассмотрела испытуемую популяцию, характер результата, размер эффекта и, в частности, CI результата. Если CI был узкий и исключил клинически значимый ES, это отмечалось как указание на свидетельства ‘без клинически значимого различия’ (S4), но где CI был широк, это отмечалось как указание на ‘недостаточные свидетельства, чтобы определить, есть ли клинически значимое различие или нет' (S5).

Чтобы облегчить обеспечение последовательности в производстве и составлении клинических положений, GDG использовала дерево принятия решения по положению (см. блок-схему 1). Блок-схема предназначена, чтобы помочь, но не заменить клиническое суждение.

Блок-схема 1: Дерево принятия решения о положении стандарта

Ведение депрессии (полный стандарт): проект для консультации.


3.4.3.2. Выработка ранжированных рекомендаций

Как только все доказательные положения, касающиеся специфического клинического вопроса, были завершены и согласованы, GDG, связала рекомендации были произведены и ранжированы. Рекомендации были проранжированы от А до C, на основе уровня связанных свидетельств, или описывались как взятые из предыдущего стандарта NICE или оценки технологии (см. Текст в рамке 1).

Текст в рамке 1: Схема иерархии свидетельств и ранжирование рекомендаций Типа Уровень свидетельств Ранжир свидетельств

I Свидетельства, полученные от отдельного рандомизированного управляемого испытания или метаанализа рандомизированных управляемых испытаний. По крайней мере одно рандомизированное управляемое испытание как часть литературы общего хорошего качества и последовательности, обращенные к определенной рекомендации (уровни свидетельств 1) без экстраполяции

IIa Свидетельства, полученные по крайней мере от одного хорошо-поставленного управляемого исследования без рандомизации

B Хорошо поставленные клинические исследования, но отсутствуют рандомизированные клинические испытания по теме рекомендации (уровень свидетельств 2 или 3); или экстраполируемые от свидетельств уровня 1

IIb Свидетельства, полученные по крайней мере от одного другого хорошо поставленного квазиэкспериментального исследования

III Свидетельства, полученные от хорошо поставленных неэкспериментальных описательных исследований, таких как сравнительные исследования, корреляционные исследования и социологические исследования

IV Свидетельства, полученные из отчетов экспертного комитета или мнений и/или клинического опыта уважаемых органов

C Отчеты экспертных комитетов или мнений и/или клинического опыта уважаемых органов (уровень свидетельств IV). Эта оценка указывает, что непосредственно применимые клинические исследования хорошего качества отсутствуют или практически недоступны

GPP Рекомендуемая хорошая практика на основе клинического опыта GDG

NICE Свидетельства из стандарта NICE или оценки технологии

Адаптировано из Eccles, M. & Mason, J. (2001). Как разрабатывать экономически чувствительные стандарты . Health Technology Assessment 5: 8; NHS Executive. Clinical Guidelines: Using Clinical Guidelines to Improve Patient Care Within the NHS. London: 1996.


Ранжирование позволила GDG провести различие между уровнем свидетельств и прочностью соответствующей рекомендации. Возможно, что утверждение свидетельств охватило бы только одну часть области, в которой рекомендация должна была быть сделана, или охватила бы это таким образом, который находился бы в противоречии с другими свидетельствами. Чтобы обеспечить более всесторонние рекомендации, подходящие для людей в Англии и Уэльсе, GDG должна была экстраполировать доступные свидетельства. Это вело к более слабому уровню рекомендации (то есть, B, поскольку данные опирались на свидетельства уровня 1). Кроме того, возможно иметь методологически здравые (уровня 1) свидетельства по области практики, которые имеют небольшую прямую клиническую уместность или имеют такой маленький эффект, что имеют небольшое практическое значение. В этом случае, свидетельства получали более низкую прочность рекомендации (то есть, была потребность в экстраполяции).

Этот процесс также позволил GDG модифицировать рекомендации, основанные на других факторах помимо прочности свидетельств. Такие факторы включают в себя применимость свидетельств целевой группе людей, экономически факторы, ценности рассматриваемой группы и общества, или понимание группой практических проблем (Eccles et al., 1998).

3.4.4. Метод, использованный для ответа на клинический вопрос в отсутствии соответственно построенных, высококачественных исследований

В отсутствии свидетельств уровня 1 (или уровня, который является адекватным вопросу), или там, где GDG имела мнение (на основе предыдущих исследований или знания литературы) что вряд ли будут такие свидетельства, был принят неофициальный процесс достижения консенсуса. Этот процесс сосредоточился на тех вопросах, которые GDG считала приоритетными.

3.4.4.1. Неофициальный консенсус

Отправная точка для этого процесса неофициального консенсуса состояла в том, что член определенной тематической группы определял с помощью систематического рецензента описательный обзор, который наиболее непосредственно касался клинического вопроса. Где это было невозможно, был инициирован краткий обзор последней литературы.

Этот существующий описательный обзор или новый обзор использовались как основание, чтобы начать итеративный процесс для выявления свидетельства более низкого уровня, уместных клиническому вопросу, и выработки письменных утверждений для стандарта. Процесс состоял из ряда шагов:

1. Описание того, что известно о проблемах, касающихся клинического вопроса, было написано одним из членов тематической группы

2. Свидетельства существующего обзора или нового обзора затем были представлены в описательной форме в GDG, и велся поиск дальнейших комментариев о свидетельствах и их уместности к клиническому вопросу

3. На основе обратной связи от GDG, велся поиск дополнительной информаций, которая добавлялась к собранной информации. Она могла включать исследования, которые непосредственно не обращались к клиническому вопросу, но содержали связанные с лечением данные

4. Если в ходе подготовки препарирования сообщения выявлялся значительный объем исследований первичного уровня (адекватно организованных для целей ответа на вопрос), составлялся полный систематический обзор.

5. В то же время, при условии возможного дальнейшего обзора свидетельств, вырабатывался ряд утверждений, которые непосредственно обращались к клиническому вопросу

6. После этого в некоторых случаях, и если это считалось нужным группой разработчиков, отчет посылали назначенным экспертам вне GDG для рецензии и комментария. Информация от этого процесса возвращалась назад к GDG для дальнейшего обсуждения утверждений

7. Затем разрабатывались рекомендации, которые также могли посылаться для дальнейшей внешней рецензии.

8. После этой заключительной стадии комментирования утверждения и рекомендации вновь рассматривались и принимались GDG.