На правах рукописи
Волкова Оксана Анатольевна
ТРАНСЛЯЦИОННО-ЗНАЧИМЫЕ ХАРАКТЕРИСТИКИ
5Т-НЕТРАНСЛИРУЕМЫХ РАЙОНОВ мРНК
ЭУКАРИОТИЧЕСКИХ ГЕНОВ
03.02.07 - Генетика
АВТОРЕФЕРАТ
диссертации на соискание ученой степени
кандидата биологических наук
Новосибирск
2012
Работа выполнена в лаборатории генной инженерии Федерального государственного бюджетного учреждения науки Институте цитологии и генетики Сибирского отделения Российской академии наук г. Новосибирска
НАУЧНЫЙ РУКОВОДИТЕЛЬ: кандидат биологических наук, доцент
Кочетов Алексей Владимирович
ОФИЦИАЛЬНЫЕ ОППОНЕНТЫ: Меркулова Татьяна Ивановна
доктор биологических наук, профессор,
зав. лабораторией регуляции экспрессии генов Федерального государственного бюджетного учреждения науки Института цитологии и
генетики СО РАН, г. Новосибирск
Колесников Николай Николаевич
доктор биологических наук,
ведущий научный сотрудник
Федерального государственного бюджетного учреждения науки Института молекулярной и клеточной биологии СО РАН, Новосибирск
ВЕДУЩЕЕ УЧРЕЖДЕНИЕ: Федеральное государственное бюджетное учреждение науки Институт общей генетики им. Н.И.Вавилова РАН, Москва
Защита диссертации состоится У___Ф_____________2012 г. на утреннем заседании диссертационного совета по защите диссертаций на соискание ученой степени доктора наук Д 003.011.01 в Федеральном государственном бюджетном учреждении науки Институте цитологии и генетики СО РАН, в конференц-зале Института по адресу: 630090, г. Новосибирск, проспект академика Лаврентьева, 10.
Тел. (383)-363-49-06, e-mail: dissov@bionet.nsc.ru.
С диссертацией можно ознакомиться в библиотеке ИЦиГ СО РАН
Автореферат разослан У____Ф__________2012г.
Ученый секретарь
диссертационного совета,
доктор биологических наук Т.М. Хлебодарова
ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫ
Актуальность проблемы.
Известно, что мРНК эукариотических генов различаются по трансляционной активности, то есть по интенсивности синтеза белка в процессе трансляции. Считается, что инициация является лимитирующей стадией процесса трансляции в клетках эукариот. 5Т-нетранслируемая последовательность мРНК (участок между 5Т-концом и началом белок-кодирующей последовательности (БКП)) участвует во взаимодействии с факторами аппарата трансляции и 40S субъединицами рибосом. Известно, что характеристики нуклеотидной последовательности 5Т-НТП оказывают существенное влияние на эффективность инициации трансляции (Kozak, 2005; Kochetov, 2008). Некоторые из таких функционально-значимых характеристик были выявлены: в частности, стабильная вторичная структура и потенциальные стартовые кодоны в районе 5Т-НТП могут ингибировать трансляцию. Показано, что небольшие открытые рамки считывания (upstream ORF, uORF), содержащиеся в составе 5Т-НТП многих эукариотических мРНК, в некоторых случаях играют важную роль в пост-транскрипционном контроле экспрессии соответствующих генов. Однако, в подавляющем большинстве случаев их роль остается не изученной. В целом, имеющаяся информация о структурно-функциональной организации 5Т-НТП, недостаточна. Знание трансляционно-значимых характеристик 5Т-НТП важно для предсказания трансляционной активности мРНК, особенностей контроля экспрессии генов на пост-транскрипционном уровне, а также для предсказания связи между мутациями в этом районе гена и патологическими состояниями.
На момент начала работы имеющиеся в литературе данные о характеристиках 5Т-НТП в основном были получены в экспериментах in vitro, не было известно, существуют ли у 5Т-НТП как у функционального района гена какие-либо общие или таксон-специфические особенности. Кроме этого, не было достаточной информации о структуре сигнала инициации трансляции. Известно, что распознавание триплета AUG в качестве стартового кодона зависит от нуклеотидного окружения (контекста). Считалось, что основную роль выполняют нуклеотиды, расположенные непосредственно перед AUG в 5Т-НТП (5Т-часть контекста). Согласно некоторым экспериментальным данным, эффективность распознавания инициаторного кодона также зависела от нуклеотидов, расположенных непосредственно после AUG (3Т-части контекста, совпадающей с началом БКП). Однако, имеющиеся экспериментальные данные были противоречивы, что не позволяло точно определить полную структуру сигнала инициации трансляции, затрудняло предсказание локализации и эффективности этих сигналов.
Цели и задачи исследования.
Целью работы являлось изучение трансляционно-значимых характеристик нуклеотидных последовательностей 5Т-нетранслируемых районов мРНК генов эукариотических организмов. В рамках работы были поставлены следующие задачи.
1. С помощью компьютерного анализа исследовать контекстные характеристики нуклеотидных последовательностей 5Т-НТП мРНК генов дрожжей, высших растений, насекомых, амфибий, птиц и млекопитающих и определить параметры, связанные с эффективностью инициации трансляции.
2. Исследовать роль нуклеотидов, расположенных непосредственно после кодона AUG (3Т-концевого участка контекста), в функционировании сигнала инициации трансляции в мРНК млекопитающих.
Научная новизна.
Впервые проведен систематический анализ контекстных характеристик, специфических для 5Т-НТП мРНК генов Arabidopsis thaliana, Liliopsida, Drosophila melanogaster, Xenopus laevis, Gallus gallus, Mus musculus, Homo sapiens и Saccharomyces cerevisiae. Обнаружено, что для 5Т-НТП высших растений, насекомых, птиц и животных характерен выраженный дисбаланс в содержании комплементарных нуклеотидов. По-видимому, эта особенность лидерных районов мРНК сформировалась в ходе эволюции и является следствием естественного отбора, направленного на элиминацию стабильных вторичных структур, снижающих эффективность трансляции. Показано, что 5ТНТП эффективно транслируемых мРНК эукариотических организмов характеризуются меньшим размером, отсутствием (или меньшим числом) триплетов AUG, более выраженным дисбалансом в содержании комплементарных нуклеотидов.
Обнаружено, что трансляционно-значимые характеристики uORF (размер, контекст стартового кодона), расположенных в 5ТНТП мРНК генов млекопитающих, птиц, высших растений и насекомых, существенно различаются в зависимости от их расположения в пределах 5ТНТП (локализованные в 5Т-НТП, перекрывающиеся с БКП и сливающиеся с БКП). uORF, локализованные в пределах 5ТНТП, характеризуются небольшими размерами, что позволяет осуществлять трансляцию основной рамки считывания с помощью механизмов сканирования с подтеканием (leaky scanning) и/или реинициации и говорит о регуляторных функциях этого типа лидерных рамок считывания. uORF, перекрывающиеся с БКП, характеризуются значительно большими размерами, что свидетельствует об их неучтенном кодирующем потенциале и более выраженном негативном эффекте на трансляцию основной рамки считывания.
Впервые показано, что существует взаимосвязь между нуклеотидами в -3 и +4 позициях контекста стартового кодона в мРНК млекопитающих: выявлено два устойчивых варианта оптимального контекста: AnnAUGn и GnnAUGG.
Обнаружено существование функциональной взаимосвязи между аминокислотами в N-концевом участке белка и эффективностью инициации трансляции: выявлены устойчивые комбинации нуклеотидов в позиции -3 перед AUG и аминокислотных остатков во второй позиции белков млекопитающих: AnnAUG коррелирует с более частым присутствием во второй позиции белка остатка серина, GnnAUG - аланина и глицина. По-видимому, комбинации определенного нуклеотида в -3 позиции контекста и аминокислотного остатка во второй позиции белка увеличивают эффективность определённых стадий процесса инициации трансляции (предположительно, формирования первой пептидной связи).
Практическая значимость
Выявленные трансляционно-значимые характеристики эукариотических мРНК (дисбаланс в содержании комплементарных нуклеотидов в 5Т-НТП, оптимальные варианты нуклеотидного контекста стартового кодона трансляции (GnnAUGG, AnnAUG), а также потенциальное участие аминокислотных остатков во второй позиции белка в инициации трансляции) могут быть использованы для улучшения существующих методов предсказания трансляционной активности эукариотических мРНК и позиций сайтов инициации трансляции. Полученные данные были использованы для оптимизации сайтов инициации трансляции при планировании генетических конструкций для получения трансгенных растений в лаборатории генной инженерии ИЦиГ СО РАН.
Положения, выносимые на защиту:
- 5ТНТП эффективно транслируемых мРНК генов Arabidopsis thaliana, Liliopsida, Drosophila melanogaster, Xenopus laevis, Gallus gallus, Mus musculus, Homo sapiens и Saccharomyces cerevisiae характеризуются выраженным дисбалансом комплементарных нуклеотидов, небольшими размерами, отсутствием (или небольшим числом) uAUG.
- Характеристики лидерных рамок считывания (uORF) Arabidopsis thaliana, Liliopsida, Drosophila melanogaster, Xenopus laevis, Gallus gallus, Mus musculus, Homo sapiens, расположенных либо в пределах 5ТНТП, либо перекрывающихся с БКП, статистически достоверно различаются, что может свидетельствовать об отличиях в их функциях.
- Оптимальный контекст стартового кодона трансляции в мРНК млекопитающих включает две устойчивые комбинации нуклеотидов в позициях -3 и +4: AnnAUGN, GnnAUGG.
- Эффективность инициации трансляции может зависеть от определенных комбинаций нуклеотида в позиции -3 перед кодоном AUG и аминокислотного остатка, расположенного во второй позиции белка: в частности, AnnAUG коррелирует с более частым присутствием серина, GnnAUG - аланина и глицина.
Апробация работы
Материалы диссертации были представлены на: Международной конференции Генетика в России и мире, Москва, 2006; Translational Control and Non-Coding RNA Meeting, Czech Republic, 2006; Международной молодежной научно-методической конференции Проблемы молекулярной и клеточной биологии Томск, 2007; Moscow Conference on Computational Molecular Biology,Moscow, 2007, 2009, 2011; Conference on Bioinformatics of Genome Regulation and Structure. Novosibirsk, 2000, 2006, 2008, 2010.
Публикации
По теме диссертации опубликовано 16 работ, из них: 6 в рецензируемых журналах (из перечня ВАК), 10 тезисов.
Структура и объем работы
Диссертация включает введение, обзор литературы, материалы и методы, результаты и обсуждение, выводы, список литературы (159 ссылок) и приложение. Работа изложена на 127, включая 9 рисунков и 18 таблиц.
СОДЕРЖАНИЕ РАБОТЫ
Глава 1. Обзор литературы
В обзоре литературы приведены современные данные, описывающие процесс инициации трансляции, способы его регуляции и известные характеристики 5`НТП, способные влиять на эффективность инициации трансляции.
Глава 2. Материалы и методы
Формирование выборок нуклеотидных последовательностей
В ходе работы были использованы несколько вариантов выборок нуклеотидных последовательностей различных функциональных районов генов эукариот, выделенных из банков данных в разное время. Выборки 5ТНТП, БКП и 3ТНТП были выделены из карточек БД EMBL, содержащих информацию о кДНК (соответствующих зрелым мРНК, в скобках приведено число нуклеотидных последовательностей в выборке): Arabidopsis thaliana (13768), Liliopsida (3307), Drosophila melanogaster (2005), Xenopus laevis (8304), Gallus gallus (1212), Mus musculus (16944), Homo sapiens (24144), Saccharomyces cerevisiae (3973). Для выделения нуклеотидных последовательностей 5ТНТП, БКП и 3ТНТП была использована программа ReadSeq ( Дополнительно из базы данных Exon-Intron ( (GenBank, 2005) были выделены выборки 5Т-концевых интронов, а из БД EPD ( - базальных промоторов. Выборки промоторов были дополнены с помощью аннотации статей, доступных на момент проведения работы и содержащих информацию о картировании сайтов инициации транскрипции.
Полученные выборки мРНК были проанализированы на целостность кодирующей части, наличие 5ТНТП и 3ТНТП, очищены от мРНК генов пластид, митохондрий и нуклеотидных последовательностей, содержащих символы, отличные от a, g, t, c. Высокогомологичные (>95%) нуклеотидные последовательности были исключены с помощью программы CleanUp (Grillo et al., 1996).
Методы компьютерного анализа
Компьютерный анализ выборок нуклеотидных последовательностей был проведен с помощью пакета программ MGL (Колпаков и Бабенко, 1997). Дополнительно был разработан набор специальных программ, предназначенных для работы с выборками нуклеотидных последовательностей (картирование uORF, выделение uORF и анализ их контекстных параметров).
Средние частоты встречаемости кодонов в белок-кодирующих последовательностях мРНК эукариот взяты из БД CUTG ( (Nakamura et al., 2000; ExpCUTG). Для оценки способности нуклеотидной последовательности мРНК формировать стабильную вторичную структуру использовали индексы IG/C=|G-C|/(G+C) и IA/U=|A-U|/(A+U). Сходство контекста с консенсусной последовательностью S(b-3,...,b+6) (matching score, далее - вес контекста стартового кодона) рассчитывали как:
+6
S(b-3,...,b6) = ln w(bj,j)
j=-3
где w-частота встречаемости нуклеотида b=A, G, C или U, в j-ой позиции контекста стартового кодона в выборке мРНК соответствующего организма.
Связь между переменными оценивали на основании значений коэффициентов линейной и ранговой корреляции по Пирсону (linear correlation coefficient, rp) и Кендаллу (rank tau coefficient, rk). Достоверность различий между наблюдаемыми (Obs) и ожидаемыми (Exp) значениями встречаемости кодонов и аминокислот в позициях белок-кодирующих и аминокислотных последовательностей оценивали с помощью критерия 2. Достоверность различий между средними позиционными значениями частот нуклеотидов и аминокислотных остатков в выборках мРНК с различными нуклеотидами в позиции -3 перед стартовым кодоном трансляции оценивали с помощью t-теста Стьюдента и U-теста Манна-Уитни.
Глава 3. Результаты и Обсуждение
В рамках диссертационной работы были решены две основные задачи: (1) проведен компьютерный анализ 5Т-НТП мРНК эукариот, направленный на выявление специфических контекстных особенностей, связанных с их функцией в процессе инициации трансляции; (2) исследована структура сигнала инициации трансляции: проведен анализ функциональной роли 3Т-части контекста стартового кодона, расположенной в начале белок-кодирующей последовательности мРНК.
3.1. Трансляционно-значимые характеристики 5ТНТП
Был проведен систематический анализ контекстных характеристик 5Т-НТП (размер, моно- и динуклеотидный состав, потенциал формирования стабильной вторичной структуры, число uAUG и соответствующих им открытых рамок считывания (uORF), а также их характеристик). Для выявления параметров, специфичных для 5Т-НТП (то есть, потенциально важных для инициации трансляции), в анализе также были использованы выборки районов генов эукариот, выполняющих другие функции: 3ТНТП, 5Т-концевых интронов и промоторов. Ниже приведены данные о характеристиках 5Т-НТП, которые могут быть связаны с их трансляционной активностью.
3.1.1 Контекстные особенности эукариотических 5Т-НТП способствуют формированию менее стабильной вторичной структуры
Наличие стабильной вторичной структуры в 5ТНТП может затруднять ее сканирование 40S субъединицами рибосом и соответственно снижать эффективность инициации трансляции (Kozak, 2005). В настоящее время считается, что повышенное содержание G и C коррелирует со способностью нуклеотидной последовательности РНК формировать стабильную вторичную структуру, поскольку комплементарное взаимодействие G-C пар более энергетически выгодно. Однако, ранее на примере мРНК высокоэкспрессирующихся генов млекопитающих было показано, что содержание G+C не полностью отражает потенциал формирования вторичной структуры, поскольку не учитывает возможный дисбаланс в содержании комплементарных нуклеотидов (Kochetov et al., 1998). В ходе исследования нами был проведен сравнительный анализ контекстных характеристик различных функциональных районов мРНК эукариотических генов Liliopsida, A. thaliana, X. laevis, G. gallus, M. musculus, H. sapiens, и S. сerevisiae: промоторов, 5ТНТП, 3ТНТП и интронов. Известно, что эти организмы характеризуются различным содержанием нуклеотидов G+C в геномной ДНК (высокое у животных и птиц, низкое у растений и дрожжей). Неожиданно оказалось, что 5Т-НТП характеризуются даже более высоким содержанием G + C в сравнении с другими функциональными районами мРНК генов (рис.1 - на примере X. laevis).
Считается, что высокая частота нуклеотидов G+C может приводить к формированию более стабильной вторичной структуры, плохо совместимой с эффективной инициацией трансляцией в клетках эукариот (Kozak, 2005). Однако, нами было обнаружено, что у всех проанализированных организмов 5ТНТП характеризовались большим дисбалансом в содержании комплементарных нуклеотидов по сравнению с другими функциональными районами генов.
В частности, доля нуклеотидных последовательностей, у которых содержание комплементарных нуклеотидов было близким (G/C и A/U варьировали от 0.75 до 1.25), в выборке 5Т-НТП была наименьшей (рис. 1) на примере X. laevis). 5Т-НТП также характеризовались более высокими средними значениями индексов IG/C и IA/U (0.2-0.3 против 0.1 у других некодирующих районов генов - чем ближе значение этих индексов к нулю, тем меньше дисбаланс в содержании комплементарных нуклеотидов) (рис. 1). Близкие данные были получены для функциональных районов мРНК генов других эукариот.
Рис. 1. Контекстные характеристики некодирующих районов генов X. laevis: среднее содержание G+C; доля нуклеотидных последовательностей, характеризующихся близким содержанием комплементарных нуклеотидов (G/C, A/U варьируют от 0.75 до 1.25), средние значения индексов IG/C и IA/U (IG/C = |G-C|/(G+C); IA/U = |A-U|/(A+U)); пром - промотор, 5Т-инт - 5Т-концевой интрон.
Можно предположить, что средняя частота нуклеотидов G и C в геномной ДНК зависит от ряда факторов (например, принадлежности к определенной изохоре) и оптимизация эффективности инициации трансляции не может происходить за счет снижения их содержания в 5Т-НТП. Однако, потенциальный негативный эффект высокого содержания G+C в 5ТНТП может компенсироваться за счет дисбаланса в их частотах в индивидуальных последовательностях (G может встречаться значительно реже, чем С, или наоборот). Такой дисбаланс может быть связан с отбором, направленным против формирования стабильных вторичных структур в 5ТНТП. Дисбаланс комплементарных нуклеотидов был ранее показан для 5Т-НТП мРНК высокоэкспрессирующихся генов млекопитающих (Kochetov et al., 1998), однако в рамках данной работы было впервые показано, что этот критерий является район-специфической характеристикой лидерных районов мРНК генов животных, растений и дрожжей (на примере G. gallus, M. musculus, X. laevis, H. sapiens, A. thaliana, Liliopsida и S. сerevisiae).
3.1.2. Встречаемость триплетов AUG в составе различных функциональных районов эукариотических генов.
В рамках модели линейного сканирования считается, что в составе 5Т-НТП эукариотических мРНК не должны содержатся триплеты AUG (upstream AUG, uAUG), поскольку часть рибосом может распознавать их как стартовые кодоны, и это будет снижать эффективность трансляции основной рамки считывания (Kozak, 2005). Нами был проведен сравнительный анализ встречаемости триплетов AUG в разных некодирующих районах генов: мРНК (5ТНТП, 3ТНТП), 5Т-проксимальном интроне, а также в промоторном районе (нетранскрибируемом). Обнаружено, что подавляющее большинство (80-100%) нуклеотидных последовательностей промоторов, 3ТНТП и интронов содержат триплеты AUG (рис. 2), тогда как в 5ТНТП они содержатся значительно реже: от 19% до 48% у разных видов. Эти результаты дополняют и расширяют данные, полученные ранее (Rogozin et al., 2001).
Рис. 2. Доля нуклеотидных последовательностей различных функциональных районов мРНК генов эукариот, содержащих триплеты AUG (5Т-НТП, 3Т-НТП, промоторный район (пром), 5Т-проксимальный интрон (инт))
Частота триплета в нуклеотидной последовательности может зависеть от особенностей нуклеотидного состава. Ожидаемая частота AUG была вычислена по формуле: Exp=A*U*G(L-2), где A, U, G - средние частоты нуклеотидов, L - размер нуклеотидной последовательности. Отношение наблюдаемой частоты AUG к ожидаемой величине (Obs/Exp) варьировало для 5Т-НТП Liliopsida, A. thaliana, X. laevis, S. cerevisiae в пределах 0.4 - 0.6, для 5Т-НТП D. melanogaster, G. gallus, M. musculus, H. sapiens - 0.7 - 0.8 (различия между Obs и Exp статистически достоверны, p<0.05). Величина Obs/Exp для выборок нуклеотидных последовательностей промоторов, 5Т-концевых интронов и 3ТНТП оказалась близкой к единице, что говорит об отсутствии функциональной значимости триплетов AUG в этих районах. По-видимому, сниженное число uAUG по сравнению с ожидаемыми величинами отражает отбор против этих триплетов в ходе эволюции. Однако, лидерные районы значительной части мРНК в выборках содержат uAUG и соответствующие им рамки считывания (uORF). По-видимому, трансляционная структура 5Т-НТП во многих случаях достаточно сложна, и для трансляции таких матриц используются различные механизмы (сканирование с подтеканием, реинициация, IRES) и/или их комбинации.
3.1.3. Взаимосвязь контекстных характеристик 5Т-НТП и эффективности трансляции мРНК
Принятым подходом для выявления функционально - значимых характеристик участков ДНК, РНК или белка является анализ их корреляций с функциональной активностью. Для того, что выявить такие характеристики у 5Т-НТП было необходимо проанализировать их связь с трансляционной активностью соответствующих мРНК. Один из возможных способов получения таких данных - оценка принадлежности клеточных мРНК к различным фракциям полисом с помощью микрочипов или анализ защищенных рибосомами участков мРНК с помощью RNAseq. Однако на момент начала работы такие данные были недоступны (как они недоступны для подавляющего большинства эукариотических организмов в настоящее время). Поэтому, нами были использованы критерии, для которых известно, что они коррелируют с эффективностью трансляции мРНК. Ранее было показано (Kochetov et al., 1998), что трансляционно-значимые характеристики мРНК (контекст старт- и стоп-кодона, размер 5Т-НТП, потенциал формирования вторичной структуры) у выборки высокоэкспрессирующихся генов млекопитающих оптимизированы. Поэтому, вес контекста стартового кодона (отражающий эффективность его распознавания рибосомами) был использован в качестве характеристики, отражающей общую трансляционную активность мРНК. В этом случае в компьютерном анализе должны выявляться статистически достоверные взаимосвязи, являющиеся индикаторами функциональной значимости тех или иных характеристик мРНК, но абсолютная величина коэффициента корреляции может быть невысокой.
Нами был проведен систематический анализ корреляций между весом контекста стартового кодона трансляции и параметрами 5ТНТП мРНК генов эукариотических организмов (моно- и динуклеотидный состав, наличие uAUG и характеристики uORF). Обнаружено, что для всех организмов наблюдается достоверная негативная корреляция между весом контекста стартового кодона и размером 5`НТП, а также числом uAUG. Кроме этого, обнаружена достоверная позитивная корреляция между весом контекста стартового кодона и индексами, отражающими потенциал формирования вторичной структуры (IA/T, IG/C) (таблице 1). Также были найдены корреляции между весом контекста стартового кодона и частотами некоторых нуклеотидов и динуклеотидов в 5ТНТП, однако они были видоспецифичными и в качестве район-специфических характеристик 5Т-НТП мы их не рассматриваем.
Таблица 1. Коэффициенты корреляций по Пирсону (rp) и Кендаллу (rk) между весом контекста стартового кодона БКП (участок -3...+6) и параметрами 5`НТП мРНК (на примере A. thaliana, M. musculus и H. sapiens)*
A. thaliana | M. musculus | H. sapiens | ||||
rp | rk | rp | rk | rp | rk | |
Длина 5ТНТП | -0.19 | -0.12 | -0.14 | -0.10 | -0.18 | -0.13 |
IAU | 0.12 | 0.07 | 0.10 | 0.06 | 0.15 | 0.08 |
IGC | 0.09 | 0.06 | 0.05 | 0.03 | 0.07 | 0.04 |
uAUG | -0.20 | -0.17 | -0.19 | -0.16 | -0.23 | -0.19 |
* уровень значимости p<0.05, достоверные значения выделены полужирным шрифтом
В целом, мРНК с оптимальным контекстом стартового кодона характеризуются более короткими 5`НТП, отсутствием (или меньшим числом) uAUG, и они менее склонны к формированию стабильной вторичной структуры в лидерном районе. Обнаруженные закономерности хорошо укладываются в общую схему инициации трансляции в рамках модели линейного сканирования (Kozak, 2005). Сходные закономерности наблюдались для выборок всех исследованных в данной работе организмов.
3.2. Анализ трансляционно-значимых характеристик uORF в зависимости от их локализации
Известно, что присутствие uAUG (и соответствующих uORF) снижает трансляционную активность эукариотических мРНК, однако для предсказания выраженности их негативного эффекта информации было недостаточно. Нами было выдвинуто предположение о том, что влияние uORF на эффективность трансляции может зависеть от их локализации в пределах мРНК. uORF могут быть классифицированы на три группы в зависимости от их расположения по отношению к аннотированному стартовому кодону (были выбраны 5Т-НТП, содержащие один uAUG; эта упрощенная ситуация достаточно репрезентативна для выявления общих закономерностей) (рис.3).
Согласно модели линейного сканирования, трансляция основной рамки считывания (БКП) в присутствии uORF может осуществляться с помощью механизмов сканирования с подтеканием (leaky scanning) или реинициации трансляции, однако эффективность этих механизмов ограничена. В частности, сканирование с подтеканием возможно, если контекст uAUG субоптимален и часть 40S субъединиц рибосом не распознает его как старт трансляции. Реинициация трансляции заметна в том случае, если размер uORF мал (менее 15 - 20 кодонов) и расстояние между uORF и БКП достаточно велико (более 50 нуклеотидов) (Kozak, 2005; Kochetov, 2008).
Рис. 3. Расположение uORF относительно аннотированной БКП: uORF1 расположена в пределах 5ТНТП и не перекрывается с аннотированным стартовым кодоном; uORF2 расположена не в рамке БКП и перекрывается с ней; uORF3 расположена в той же рамке считывания, что и БКП и сливается с ней (то есть между uAUG и началом БКП нет стоп-кодонов и uORF3 аналогична удлиненной с 5Т-конца БКП).
Нами был проведен анализ взаимосвязи между локализацией uORF и их трансляционно-значимыми свойствами (длина, контекст стартового кодона). Частоты встречаемости каждого типа uORF в мРНК млекопитающих и растений и их параметры представлены в таблице 2, результаты для остальных проанализированных организмов сходны.
Таблица 2. Встречаемость (%) различных типов uORF и их средний размер
Таксон | Объем выборки | uORF в пределах 5ТНТП (uORF1) | uORF перекрывается с БКП (uORF2) | uORF сливается с БКП (uORF3) | ||||
% | Длина | Спейсер* | % | Длина | % | Длина | ||
A. thaliana | 1813 | 83 | 33 | 65 | 16 | 109 | 1 | 178 |
M. musculus | 3127 | 65 | 38 | 77 | 23 | 134 | 11 | 54 |
H. sapiens | 4029 | 69 | 42 | 74 | 21 | 192 | 10 | 60 |
*Спейсер - расстояние между стоп кодоном uORF и стартовым кодоном БКП; uORF1, uORF2, uORF3 соответствуют типам uORF, приведенным на рис. 3.
uORF, расположенные в границах 5ТНТП
Можно видеть, что uORF этого типа в среднем наиболее малы по размеру и наиболее часто встречаются (табл. 2). uAUG часто расположены в неоптимальном контексте (31%-53%) и редко - в оптимальном (4%-21%). Считается, что если контекст uAUG не оптимален, то трансляция нижележащей БКП может осуществляться за счет сканирования с подтеканием, либо комбинации сканирования с подтеканием и реинициации трансляции (вероятно, в некоторых случаях могут использоваться альтернативные механизмы инициации: внутренней инициации трансляции (IRES) или шунтирование потока рибосом, однако в настоящее время нет методов, позволяющих их распознать). Если контекст uAUG оптимален, то трансляция нижележащей БКП может происходить только за счет реиницации трансляции. Известно, что эффективность механизма реинициации существенно увеличивается при уменьшении размера uORF и увеличении расстояния между стоп-кодоном uORF и стартовым кодоном нижележащей БКП (спейсера). Средний размер спейсера составляет 65 - 104 н. у различных видов эукариот (табл. 2), что вполне достаточно для эффективной реинициации (Kozak, 2005). Для проверки возможности использования реинициации трансляции нами был проведен анализ взаимосвязей между размером спейсера и различными параметрами uORF. Впервые было найдено, что существует статистически достоверная негативная корреляция между размером спейсера и весом контекста стоп-кодона uORF для выборок мРНК всех анализируемых организмов (табл. 3, на примере A. thaliana и H. sapiens). Можно допустить, что неоптимальный стоп-кодон увеличивает время, затрачиваемое на терминацию трансляции uORF, что приводит к потере части связанных с рибосомой факторов и требует спейсера большего размера для восстановления трансляционной компетентности.
Таблица 3. Взаимосвязь длины спейсера и веса контекста стоп-кодона uORF
Организм | rp | rk |
A. thaliana | -0.086 (p=0.001) | -0.12 (p<10-10) |
H. sapiens | -0.117 (p<10-8) | -0.09 (p<10-12) |
uORF, перекрывающиеся с нижележащей БКП
Оказалось, что uORF этого типа встречаются значительно реже, чем uORF1 и характеризуются значительно большими средними размерами (табл. 2), а также значительно чаще характеризуются субоптимальным контекстом стартового кодона трансляции (табл. 4). По-видимому, uORF2 оказывают значительно более выраженное негативное влияние на трансляцию основной рамки считывания. Это может быть связано с тем, что в данном случае трансляция БКП возможна только с помощью механизма сканирования с подтеканием. С нашей точки зрения, полученные данные говорят о сложной структурно-функциональной организации этого типа мРНК: uORF2 могут обладать собственным кодирующим потенциалом (поскольку их средний размер варьирует от 100 до 200 нуклеотидов, и с них могут транслироваться небольшие белки), при этом контекст стартового кодона в большинстве случаев субоптимален, что позволяет части рибосом транслировать основную рамку считывания. То есть, с высокой степенью вероятности некоторые из таких мРНК кодируют два функционально-значимых белка.
Таблица 4. Частота uORF (%), у которых стартовый кодон трансляции расположен в наиболее оптимальном (Opt) или наиболее неоптимальном (Sub) контекстах.
Организм | uORF1 | uORF2 | uORF3 | |||
Opt* | Sub** | Opt | Sub | Opt | Sub | |
M. musculus, uAUG M. musculus, CDS | 20 41 | 32 8 | 15 44 | 42 9 | 22 41 | 31 9 |
H. sapiens, uAUG H. sapiens, CDS | 21 35 | 31 10 | 14 45 | 37 10 | 25 43 | 27 10 |
* Opt - оптимальный контекст: A, G в позиции -3 и G в позиции +4
** Sub - субоптимальный контекст: C, U в поз. -3 и A, C, U в позиции +4
uORF, сливающиеся с БКП
В небольшом числе случаев (табл. 2) uAUG расположен в той же рамке считывания, что и нижележащая аннотированная БКП и между ними нет стоп-кодонов (uORF3 на рис. 3). Согласно модели сканирования, если uAUG расположен в оптимальном контексте, то трансляция аннотированной нижележащей БКП невозможна, так как все рибосомы будут инициировать трансляцию на таком uAUG (Kozak, 2005). Если uAUG расположен в субоптимальном контексте, то трансляция будет также инициироваться на нижележащем AUG за счет сканирования с подтеканием. По-видимому, выявленные случаи uORF3 относятся либо к мРНК с неправильно предсказанным стартовым кодоном трансляции, либо к бифункциональным матрицам, с которых считываются две изоформы белка, различающиеся по N-концу (Kochetov, 2008)
3.3. Контекст стартового кодона трансляции в эукариотических мРНК
Несмотря на то, что функциональная значимость контекста стартового кодона AUG хорошо известна, организация этого участка нуклеотидной последовательности исследована недостаточно. Считается, что нуклеотиды в позициях -3 и (в меньшей степени) +4 вокруг AUG являются наиболее важными (оптимальный контекст: RNNAUGG, R = A или G). В то же время, частоты нуклеотидов в других позициях контекста также значительно отличаются от средних (консенсус: GCCGCCRCCAUGGC). Практически не исследована возможность функциональной значимости комбинаций нуклеотидов в различных позициях. К числу малоизученных вопросов также относится функциональная роль нуклеотидов в позициях +4 и +5. Оценки влияния нуклеотидов в этих позициях на распознавание стартового кодона варьируют от существенного (Grunert & Jackson, 1994; Niimura et al., 2003; Nakagawa et al., 2008) и ограниченно значимого (только G в позиции +4; Kozak, 1997) до незначительного (Harkins et al., 2005; Xia et al., 2007). Необходимо отметить, что 3Т-концевой участок контекста стартового кодона расположен в начале БКП и является полифункциональным: на уровне нуклеотидной последовательности он может участвовать в инициации трансляции (контекст кодона AUG), в элонгации трансляции (синонимические кодоны различаются по скорости декодирования), а на уровне соответствующей этим кодонам аминокислотной последовательности - в формировании структуры белка. Таким образом, структурно-функциональная организация этого участка имеет сложный характер, затрудняющий его изучение.
3.3.1. Частота встречаемости аминокислот в N-концевых позициях белков.
Известно, что частоты нуклеотидов в начале БКП отличаются от средних по району, что может быть с их дополнительной функциональной нагрузкой в структуре сигнала инициации трансляции. В свою очередь, это может отражаться на частотах аминокислотных остатков в N-концевых позициях эукариотических белков. На рис. 4 приведены данные об аминокислотных остатках, частота которых в позиции 2 существенно отличается от средней по белку. Можно видеть, что существуют как общие, так и видоспецифические закономерности. Во второй позиции аминокислотной последовательности (АП) Liliopsida, A. thaliana, X. laevis, G. gallus, M. musculus, H. sapiens достоверно перепредставлены аминокислоты: Ala, Glu, Gly, Asp, Ser. Во второй позиции аминокислотной последовательности S.cerevisiae, D. melanogaster достоверно перепредставлены аминокислоты Ser, Ala (Рис. 4).
Рис.4. Аминокислоты, чаще встречающиеся во второй позиции АП (Obs/Exp >1).
Можно отметить, что, за исключением Ser, во второй позиции белков эукариотических организмов достоверно перепредставлены те аминокислоты, кодоны которых начинаются с гуанина (Ala, Glu, Gly, Asp - все, кроме Val). С нашей точки зрения, эта закономерность хорошо согласуется с некоторыми экспериментальными данными, полученными ранее в экспериментах in vitro (Kozak, 1997): G в позиции +4 усиливал эффективность распознавания стартового кодона AUG вне зависимости от нуклеотида, расположенного в позиции +5, за единственным исключением: кроме того случая, когда в позиции +5 был расположен U. Кодоны, соответствующие валину, содержат комбинацию GU в +4 и +5 позициях БКП. По-видимому, тот факт, что Val (кодоны GUN) не встречается во второй позиции белка так же часто, как и другие аминокислоты, кодоны которых начинаются с G, может объясняться тем, что комбинация AUGGUN не усиливает распознавание стартового кодона трансляции и не поддерживается отбором в ходе эволюционного процесса. Таким образом, полученные нами данные позволяют предположить, что этот феномен распространяется на системы трансляции in vivo - причем и у животных, и у растений (эксперименты Kozak (1997) были проведены с использованием лизата ретикулоцитов кролика).
3.3.2. Взаимосвязь между 5Т- и 3Т-участками контекста стартового кодона AUG
Мы предположили, что выборки мРНК с оптимальным (RnnAUG) и субоптимальным (YnnAUG, Y = C или U) 5Т-контекстами стартового кодона могут отличаться по частотам нуклеотидов в позициях +4, +5 и связанным с ними контекстным параметрам (встречаемость кодонов и аминокислот), и эти различия позволят оценить функциональную эффективность сайта инициации трансляции (аналогичный подход был использован ранее: Kochetov, 2005; Kochetov et al., 2008). Для проверки этой гипотезы были сформированы выборки мРНК мыши и человека, содержащие в Ц3 положении различные нуклеотиды, и проведен сравнительный анализ частот нуклеотидов в позициях +4, +5. Результат оказался неожиданным: было найдено, что выборки с оптимальным и неоптимальным 5`-контекстами стартового кодона (RnnAUG и YnnAUG, соответственно) не различаются по частоте содержания G в позиции +4 (в табл. 5 приведена разность позиционных частот нуклеотидов в мРНК человека; можно видеть, что различие между выборками с контекстами стартового кодона RnnAUG (R-3) и YnnAUG (Y-3) составляет 0.013 и статистически недостоверно). Этот результат предполагал либо отсутствие функциональной значимости у нуклеотида в позиции +4, либо гетерогенный характер выборок RnnAUG и YnnAUG по этому признаку. Дальнейший анализ показал, что выборка RnnAUG действительно гетерогенна и мРНК с контекстами стартового кодона GnnAUG и AnnAUG должны рассматриваться независимо. Было обнаружено:
а) Выборки мРНК с вариантом 5Т-контекста GnnAUG характеризуются статистически достоверно более высоким содержанием гуанина в положении +4 в сравнении с выборками с контекстами AnnAUG и YnnAUG (табл. 4). По-видимому, считающийся оптимальным вариантом контекста стартового кодона трансляции GnnAUGn на самом деле требует присутствия гуанина в позиции +4 (GnnAUGG). В то же время, для работы оптимального контекста AnnAUG гуанин в позиции +4 не нужен (мРНК с контекстом AnnAUG содержат G позиции +4 значительно реже, чем мРНК с YnnAUG и GnnAUG). Таким образом, оптимальный контекст RnnAUGG следует рассматривать как комбинацию двух вариантов (GnnAUGG и AnnAUGn).
Таблица 4. Различия между средними частотами нуклеотидов в позициях +4 и +5 выборок мРНК H. sapiens с пурином, аденином, гуанином или пиримидином в позиции -3 контекста AUG (R-3nnAUG, A-3nnAUG, G-3nnAUG, Y-3nnAUG, соответственно)*
R-3 - Y-3 | A-3 - Y-3 | G-3 - Y-3 | A-3 - G-3 | |
AUGNnn, поз. +4 | ||||
A | Ц0.005 | 0.015 | Ц0.0293 | 0.0433 |
G | 0.013 | Ц0.0221 | 0.0553 | Ц0.0773 |
C | Ц0.0313 | Ц0.0323 | Ц0.0303 | Ц0.001 |
U | 0.0233 | 0.0393 | 0.004 | 0.0353 |
AUGnNn, поз. +5 | ||||
A | Ц0.0423 | Ц0.0433 | Ц0.0403 | Ц0.002 |
G | 0.011 | 0.001 | 0.0243 | Ц0.0243 |
C | 0.0653 | 0.0673 | 0.0633 | 0.004 |
U | Ц0.0343 | Ц0.0243 | Ц0.0473 | 0.0223 |
*В таблице приведены значения разности частот нуклеотидов в позициях +4 и +5 между выборками мРНК, содержащими в -3 позиции пурин, пиримидин, аденин или гуанин; отрицательные значения значат, что частота соответствующего нуклеотида в выборке мРНК, содержащей пурин (на примере R-3 - Y-3) в позиции -3 перед AUG, ниже, чем в содержащей пиримидин, положительные значения - соответственно, наоборот.
Уровень значимости (согласно Mann-Whitney U-test) 1, р <0.05; 2, р <0.01; 3, р <0.001; статистически значимые различия (р <0.05) также выделены полужирным шрифтом.
б) Отклонения в частотах встречаемости нуклеотидов в позиции +4 могут частично объясняться функциональной значимостью аминокислот, кодируемых вторым кодоном БКП. В табл. 5 приведены различия в содержании аминокислотных остатков в белках человека, кодируемых мРНК с различными вариантами контекста стартового кодона трансляции (AnnAUG, GnnAUG, YnnAUG). Найдено, что существуют определенные статистически достоверные взаимосвязи между нуклеотидом в позиции -3 (то есть, в некодирующей части мРНК) и предпочтительным использованием некоторых аминокислотных остатков. Можно видеть (табл. 5), что во второй позиции белков, кодируемых мРНК с вариантом контекста AnnAUG, единственной заметно перепредставленной аминокислотой является Ser. Белки человека, кодируемые мРНК с вариантом контекста GnnAUG , достоверно чаще содержат во второй позиции аминокислоты Ala, Glu, Gly и Asp (кодоны которых начинаются с G). При этом Val недопредставлен.
Нами также была сделана оценка частот встречаемости синонимических кодонов во второй позиции БКП, соответствующих наиболее перепредставленным аминокислотам во второй позиции белка (Ser, Ala, Glu). Можно видеть (табл. 6), что в мРНК с вариантом контекста GnnAUG перепредставлены некоторые из синонимических кодонов Ala и Gly - что может говорить о большей значимости гуанина в позиции +4 БКП, но не отвергает гипотезу о важности собственно аминокислотного остатка во второй позиции белка. С другой стороны, в мРНК с вариантом контекста AnnAUG во второй позиции БКП перепредставлены все синонимические кодоны Ser, что определенно говорит о значимости именно аминокислоты как таковой - тем более, что у серина шесть синонимических кодонов с различными нуклеотидами в позиции +4 БКП.
Таблица 5. Различия между средними частотами аминокислотных остатков во второй позиции белков, кодируемых выборками мРНК H.sapiens, у которых в позиции -3 контекста стартового кодона расположены аденин, гуанин или пиримидином (A-3, G-3, Y-3)*
2 поз. белков | A-3-Y-3 | G-3-Y-3 | A-3-G-3 | 2 поз. белков | A-3-Y-3 | G-3-Y-3 | A-3-G-3 |
Ala | 0.014 | 0.0463 | Ц0.0323 | Arg | Ц0.0091 | 0.000 | Ц0.0093 |
Ser | 0.0573 | 0.0273 | 0.0293 | Val | 0.007 | Ц0.007 | 0.0143 |
Glu | Ц0.0303 | Ц0.005 | Ц0.0253 | Met | Ц0.0133 | Ц0.0113 | Ц0.002 |
Gly | 0.003 | 0.0243 | Ц0.0213 | Phe | 0.004 | Ц0.001 | 0.0051 |
Asp | Ц0.0173 | Ц0.003 | Ц0.0133 | Gln | Ц0.004 | Ц0.005 | 0.001 |
Trp | 0.002 | 0.003 | 0.000 | Leu | Ц0.0203 | Ц0.0193 | Ц0.001 |
Pro | 0.000 | Ц0.003 | 0.003 | Cys | Ц0.0062 | Ц0.0093 | 0.003 |
Asn | 0.0102 | Ц0.001 | 0.0113 | His | Ц0.0052 | Ц0.0093 | 0.0042 |
Thr | 0.006 | Ц0.002 | 0.0082 | Ile | Ц0.003 | Ц0.0093 | 0.0063 |
Lys | 0.0081 | Ц0.0102 | 0.0183 | Tyr | Ц0.0052 | Ц0.0062 | 0.001 |
*В таблице приведены значения разности между средними частотами аминокислот во второй позиции белков, кодируемых мРНК, содержащими в -3 позиции аденин, гуанин или пиримидин; отрицательные значения означают (на примере A-3 - G-3), что частота встречаемости соответствующей аминокислоты во второй позиции белков, кодируемых выборкой мРНК AnnAUG ниже, чем в белках, кодируемых выборкой мРНК с вариантом контекста GnnAUG, положительные значения - соответственно, наоборот.
Уровень значимости (согласно Mann-Whitney U-test) 1, р <0.05; 2, р <0.01; 3, р <0.001; статистически значимые различия также выделены полужирным шрифтом.
Таблица 6. Различия между средними частотами синонимических кодонов во второй позиции БКП мРНК H.sapiens с аденином, гуанином или пиримидином в -3 положении контекста стартового кодона (A-3, G-3, Y-3)*
аминокислота | кодон | A-3-Y-3 | G-3-Y-3 | A-3-G-3 |
Ala | GCG | 0.0163 | 0.0283 | -0.0122 |
GCU | -0.003 | -0.003 | 0.000 | |
GCA | 0.005 | 0.002 | 0.003 | |
GCC | -0.005 | 0.0183 | -0.0243 | |
Gly | GGG | 0.003 | 0.0123 | -0.0093 |
GGC | 0.002 | 0.0163 | -0.0143 | |
GGU | -0.002 | -0.0041 | 0.002 | |
GGA | 0.000 | 0.001 | 0.000 | |
Ser | UCG | 0.0163 | 0.0143 | 0.002 |
UCU | 0.0153 | 0.003 | 0.0113 | |
UCA | 0.0051 | -0.001 | 0.0063 | |
UCC | 0.0113 | 0.0061 | 0.0051 | |
AGU | 0.0051 | 0.002 | 0.002 | |
AGC | 0.0051 | 0.003 | 0.002 |
*В таблице приведены значения разности между средними частотами синонимических кодонов во второй позиции БКП между выборками мРНК, содержащими в -3 позиции аденин, гуанин или пиримидин; отрицательные значения означают (на примере A-3 - G-3), что частота встречаемости соответствующего кодона в мРНК с вариантом контекста AnnAUG ниже, чем в мРНК с вариантом контекста GnnAUG, положительные значения - соответственно, наоборот.
Уровень значимости (согласно Mann-Whitney U-test) p < 0.05; статистически значимо различающиеся значения выделены жирным.
Существовала некоторая вероятность, что выборки мРНК с разными вариантами контекста стартового кодона (AnnAUG, GnnAUG, YnnAUG) характеризуются различиями в общей контекстной организации, и выявленные закономерности не имеют отношения к сигналу инициации трансляции. Нами был проведен дополнительный сравнительный анализ этих выборок. Для этого были выбраны три удаленные от N-конца кодона позиции АП (58, 59, 60) и проанализированы различия между частотами нуклеотидов, кодонов и аминокислот в этих позициях между выборками мРНК, содержащими стартовый кодон в контекстах AnnAUG, GnnAUG и YnnAUG. Было показано, что выборки мРНК с различными нуклеотидами в -3 позиции не характеризовались статистически значимыми различиями в частотах аминокислот и соответствующих кодонов, то есть наблюдаемый феномен характерен именно для сайта инициации трансляции и второго кодона БКП.
Таким образом, в рамках диссертационной работы было впервые показано, что существуют устойчивые комбинации нуклеотидов в 5Т- и 3Т-частях контекста стартового кодона, к которым относятся варианты оптимального контекста AnnAUGn и GnnAUGG. Обнаружена статистически достоверная взаимосвязь между вариантом контекста стартового кодона AnnAUG и присутствием аминокислотного остатка серина во второй позиции кодируемых такими мРНК белков. По-видимому, для варианта контекста стартового кодона AnnAUG, конформационные особенности РНК-белкового комплекса на стадии ассоциации субъединиц рибосом и инициации трансляции способствуют более эффективному формированию первой пептидной связи Met-Ser. Это может объяснять наблюдаемые закономерности.
Выводы
1. Показано, что 5Т-нетранслируемые последовательности эукариотических мРНК характеризуются специфической контекстной организацией, способствующей инициации трансляции. Найдено, что мРНК высших растений (A. thaliana, Liliopsida), насекомых (D. melanogaster), птиц (G. gallus), животных (X. laevis, M. musculus, H.sapiens) характеризуются выраженным дисбалансом в содержании комплементарных нуклеотидов, снижающим потенциал формирования стабильной вторичной структуры.
2. Показано, что uORF, расположенные в пределах 5ТНТП и перекрывающиеся с белок-кодирующей последовательностью, различаются по трансляционнman proteins. Proc. 7th Intern. Conf. on Bioinformatics of Genome Regulation and Structure. Novosibirsk, 2010. P.139.
10. Volkova O. A., Kochetov A. V. The mRNA characteristics potentially involved in recognition of non-AUG start codons in yeast mRNAs Proc. Moscow Conference on Computational Molecular Biology, Moscow, 2011, P. 170.
Авторефераты по всем темам >> Авторефераты по биологии