СТРУКТУРООБРАЗУЮЩИЕ МОТИВЫ В ГЕНОМАХ ПРОКАРИОТ: ЗАКОНОМЕРНОСТИ РАСПРЕДЕЛЕНИЯ И ФУКЦИОНАЛЬНОЕ ЗНАЧЕНИЕ 03.01.03 - молекулярная биология Автореферат диссертации на соискание учёной степени кандидата биологических наук Пущино 2012

Авторефераты по всем темам >> Авторефераты по биологии

На правах рукописи

Киселев Сергей Сергеевич СТРУКТУРООБРАЗУЮЩИЕ МОТИВЫ В ГЕНОМАХ ПРОКАРИОТ:

ЗАКОНОМЕРНОСТИ РАСПРЕДЕЛЕНИЯ И ФУКЦИОНАЛЬНОЕ ЗНАЧЕНИЕ 03.01.03 - молекулярная биология

Автореферат диссертации на соискание учёной степени кандидата биологических наук

Пущино 2012

Работа выполнена в Федеральном государственном бюджетном учреждении науки Институте биофизики клетки Российской академии наук и Пущинском государственном естественно-научном институте Научные руководители:

доктор биологических наук, профессор Озолинь Ольга Николаевна доктор физико-математических наук Комаров Владислав Михайлович

Официальные оппоненты:

Железная Людмила Алексеевна - доктор биологических наук, Федеральное государственное бюджетное учреждение науки Институт теоретической и экспериментальной биофизики РАН, главный научный сотрудник лаборатории кристаллофизики и рентгеноструктурных исследований с использованием синхротронного излучения.

Сивожелезов Виктор Семёнович - доктор биологических наук, Федеральное государственное бюджетное учреждение науки Институт биофизики клетки РАН, ведущий научный сотрудник лаборатории молекулярной физиологии клетки.

Ведущая организация: Федеральное государственное бюджетное учреждение науки Институт общей генетики им. Н.И. Вавилова РАН

Защита диссертации состоится л20 декабря 2012 г. в 15 ч. 30 мин. на заседании диссертационного совета Д 002.038.01 при Федеральном государственном бюджетном учреждении науки Институте биофизики клетки Российской академии наук по адресу: 142290, г. Пущино, ул. Институтская, д. 3.

С диссертацией можно ознакомиться в Центральной библиотеке НЦБИ РАН по адресу: 142290, г. Пущино, ул. Институтская, 3.

Автореферат разослан л___ ноября 2012 г.

Учёный секретарь диссертационного света, кандидат биологических наук Смолихина Татьяна Ивановна

Актуальность проблемы. Наиболее быстро развивающимися областями биологии в настоящее время являются геномика и молекулярная биология. На сегодняшний день полностью расшифровано более 1200 геномов прокариот, что предоставляет возможность квалифицированного поиска в них разных функциональных элементов и сравнительного анализа их распространённости в геномах микроорганизмов различных таксономических групп. Кроме генов, кодирующих белки и нетранслируемые РНК, в состав геномов входят элементы, выполняющие разнообразные, не всегда известные функции.

Наиболее изученными из них являются промоторы, сайты связывания регуляторных белков и мобильные генетические элементы. К наименее исследованным, по-видимому, следует отнести недавно обнаруженные промоторные островки, имеющие высокую плотность перекрывающихся промоторов [Shavkunov et al., 2009], а также многочисленные повторяющиеся элементы, в том числе мононуклеотидные треки. Принято считать, что большая часть повторов появилась в результате генетических перестроек и дупликаций, т.е. их совокупность в некоторой степени отражает эволюционный путь конкретного биологического вида. Механизм накопления протяжённых мононуклеотидных треков менее понятен, зато установлено, что poly(dA)n- и poly(dT)n-треки формируют анизотропные изгибы двойной спирали ДНК и, следовательно, являются структурообразующими элементами, важными для пространственной компактизации и адаптивной изомеризации генома. Это указывает на неслучайный характер распределения таких треков в природных ДНК, но целенаправленному исследованию их распределения в геномах посвящено относительно небольшое число работ, выполненных с использованием ограниченного числа природных ДНК.

Целью данной работы был анализ распространения мононуклеотидных повторов (poly(dA)n, poly(dT)n, poly(dG)n, poly(dC)n) в репрезентативной выборке полностью расшифрованных геномов прокариот и оценка их эвристической ценности для поиска регуляторных участков.

Основные задачи:

1. Анализ распространения мононуклеотидных poly(dA)n-, poly(dT)n-, poly(dG)n- и poly(dC)n-треков в геномах прокариот с разным AT/GC-составом.

2. Сравнительный анализ встречаемости мононуклеотидных и смешанных poly(dW)n- и poly(dS)n-треков (W=A=T, S=G=C) в умеренно GC-богатых геномах прокариот.

3. Анализ распределения мононуклеотидных и смешанных треков в кодирующих и некодирующих участках прокариотических геномов.

4. Оценка предсказательного потенциала алгоритма поиска промоторов PlatPromU, учитывающего наличие мононуклеотидных и смешанных A/Tтреков, но игнорирующего консервативные элементы, узнаваемые субъединицами РНК-полимеразы.

5. Анализ распространённости и биологической роли промоторных островков, имеющих высокую плотность потенциальных промоторов.

Научная новизна. Обнаружена общая тенденция преимущественного присутствия мононуклеотидных poly(dA)n/poly(dT)n-треков по сравнению с poly(dG)n/poly(dC)n-треками, которое наблюдается не только в хромосомах с GCсоставом менее 50%, но и в большинстве хромосом с высоким содержанием G/Cпар. Установлено, что межгенные участки бактериальных хромосом обогащены мононуклеотидными poly(dA)n/poly(dT)n-треками и смешанными W-треками, которые, следовательно, можно использовать в качестве дополнительного признака для поиска регуляторных участков в геномах. Разработан новый метод оценки фоновых значений при поиске сигнальных элементов в нуклеотидных последовательностях, который не требует предварительной их аннотации и может быть использован для любых геномов. Впервые установлена высокая чувствительность унифицированной версии алгоритма поиска промоторов PlatPromU, которая позволяет осуществлять поиск промоторов в неохарактеризованных нуклеотидных последовательностях. Впервые установлено, что с промоторных островков, имеющих высокую плотность потенциальных промоторов и низкую способность инициировать продуктивный синтез РНК, идёт синтез коротких олигонуклеотидов. Впервые установлено, что промоторные островки ассоциированы с горизонтально перенесёнными генами, а в их первичной структуре обнаружено высокое содержание структурообразующих мононуклеотидных A/T-треков, появление которых может быть результатом эволюции, направленной на адаптацию чужеродного генетического материала к регуляторным сетям нового хозяина.

Апробация работы. Материалы диссертации были представлены на 13, и 15 международных школах-конференциях молодых учёных Биология - наука XXI века (Пущино, 2009Ц2011), 3 и 4 международных конференциях Математическая биология и биоинформатика (Пущино, 2010, 2012), международной московской конференции по вычислительной молекулярной биологии (Москва, 2011), 2 международной конференции Моделирование нелинейных процессов и систем (Москва, 2011) и на 8 международной конференции по биоинформатике регуляции и структуры геномов и системной биологии (Новосибирск, 2012).

Публикации. По материалам диссертации опубликовано 3 статьи в рецензируемых журналах, 3 статьи в научных сборниках и 7 тезисов.

Объём и структура диссертации. Диссертация состоит из введения, обзора литературы, методической части, изложения полученных результатов и их обсуждения, заключения, выводов, списка публикаций автора и списка цитируемой литературы, включающего ____ источников. Работа изложена на ____ страницах машинописного текста и содержит ___ рисунков и ___ таблиц.

МАТЕРИАЛЫ И МЕТОДЫ Поиск мононуклеотидных и смешанных треков. Для анализа были использованы нуклеотидные последовательности 411 прокариотических геномов, взятые из базы данных GenBank (ftp://ftp.ncbi.nih.gov/genomes/Bacteria/). Для поиска треков использовали программу DNA Tool, любезно предоставленную А.А. Деевым (ИТЭБ РАН). При количественном анализе учитывались треки длиной от 5 нуклеотидов и выше.

Число мононуклеотидных A/T- и G/C-треков в конкретной хромосомной ДНК сравнивали с количеством таких же треков в случайной нуклеотидной последовательности, имеющей AT/GC-состав и длину, аналогичные природной ДНК. В качестве критерия отличия использовали параметр Ri = io /ie, где:

io - наблюдаемое число мононуклеотидных треков в i-ой хромосоме, ie - ожидаемое число таких же треков в случайной последовательности, аналогичной по своему AT/GC-составу и длине i-ой хромосоме.

Значения ie определяли отдельно для каждого из четырёх видов повторов по формуле, предложенной де Вахтером [de Wachter, 1981]:

1,n = pin (1 pi ) (L n 1)(1 pi ) 2, где:

1,n - ожидаемое число треков из n нуклеотидов в последовательности длиной L, pi - частота встречаемости каждого основания в последовательности.

Для сопоставления распределения мононуклеотидных треков и смешанных W- и S-треков было выбрано 57 геномов прокариот, содержащих от 50% до 60% G/C-пар. Кроме степени преобладания W- и S-треков в разных геномах были исследованы особенности их распределения в кодирующих участках генов и межгенных пространствах. Для разбиения генома на кодирующие и некодирующие участки использовали компьютерную программу DNA Tool.

Статистическую достоверность отклонений в числе найденных треков от ожидаемых значений оценивали методом, предложенным Шакла и Сривастава [Shukla, Srivastava, 1985].

Для поиска промоторов в разных геномах были использованы специализированные и унифицированная версии алгоритма PlatProm, который изначально был адаптирован для узнавания 70-зависимых промоторов E. coli [Brok-Volchanski et al., 2006; Ozoline, Deev, 2006]. Для оценки соответствия геномных последовательностей консервативным элементам в участках Ц35, Ц10 и вблизи стартовой точки транскрипции он использует позиционные весовые матрицы, которые отражают контекст нуклеотидных последовательностей, узнаваемых 70 E. coli. Для создания специализированных версий программы эти матрицы в автоматическом режиме были перенастроены на -специфические модули других промоторов. Для этого были использованы обучающие наборы промоторов, взятых из оригинальных статей или из указанных в Табл. компиляций. В унифицированном режиме у алгоритма были отключены позиционные весовые матрицы и для поиска промоторов использовали только каскадные позиционные матрицы, большинство из которых учитывает особые конформационные свойства промоторной ДНК, а также модули, способствующие переходу транскрипционного комплекса к продуктивной инициации. Качество специализированных версий PlatPromA, PlatPromB и PlatPromS оценивали с использованием тестовых компиляций, не перекрывающихся с обучающими наборами. В остальных случаях число известных промоторов было ограничено, поэтому применяли стратегию сменных мишеней (каждый промотор по очереди был тестовым, а остальные входили в обучающий набор). Сквозное сканирование генома, необходимое для определения фонового значения, осуществляли специализированными версиями программы, созданными на основе всех известных промоторов.

Таблица Геномы, использованные для поиска промоторов разными версиями PlatProm GC- Источник Размер Штамм Алгоритм состав, для точек генома, н.п.

% старта Escherichia coli K12 MG16PlatProm-s54 50,8 4639675 RegulonDB (54) Agrobacterium tumefaciens str.

59,4 28415C58 (кольцевая хромосома) Wilms et al., PlatPromA 20Agrobacterium tumefaciens str.

59,3 20755C58 (линейная хромосома) Bacillus subtilis subsp. subtilis str. DBTBS и PlatPromB 43,5 42156168 BsubCyc Corynebacterium glutamicum PlatPromC 53,8 3309401 Эта работа ATCC 130Sharma et Helicobacter pylori 26695 PlatPromH 38,9 16678al., 20Pseudomonas syringae pv. tomato Filiatrault et PlatPromP 58,4 63971str. DC3000 al., 20Salmonella enterica subsp.

PlatPromS 51,8 4857432 Эта работа enterica str. LTVockenhuber Streptomyces coelicolor A3(2) PlatPromSc 72,1 86675et al., 20Предсказательный потенциал разных версий PlatProm оценивали как процент идентифицированных промоторов на разных уровнях достоверности (чувствительность). Значимыми считали показатели промотор-подобия, превышающие фоновое значение на 3, 4 и 5 StD (для E. coli p<0,0014, p<0,00004 и p<0,0000005, соответственно). Промотор считали узнанным, если предсказанная точка инициации транскрипции находилась в диапазоне 5 н.п. от экспериментально картированного старта. Специфичность PlatProm-s54 и PlatPromU (процент ошибочно принятых за промотор непромоторных фрагментов генома E. coli) оценивали с использованием непромоторной компиляции CS1, содержащей 273 нуклеотидных последовательности [Shavkunov et al., 2009].

Генерацию случайных нуклеотидных последовательностей заданного состава и длины осуществляли при помощи ресурса FaBox 1.40 [Villesen, 2007].

Критерии для выявления промоторных островков. Согласно предложенным в работе [Shavkunov et al., 2009] критериям, промоторными островками, выявляемыми специфическими версиями алгоритма PlatProm, считали участки генома протяжённостью от 300 н.п. и более, имеющие, как минимум, 8 потенциальных точек старта на любой нити ДНК в скользящем окне длиной 100 н.п. Потенциальными точками старта считали такие, показатель промотор-подобия которых превышал фоновый уровень на 4 StD.

При поиске лостровков, выявляемых PlatPromU (лсмешанных промоторных островков) использовали аналогичные значения длины скользящего окна и количества находящихся в нём потенциальных точек старта, но пороговой длиной считали минимальную длину смешанного промоторного островка, перекрывающегося с лостровком, выявляемым специфическим алгоритмом.

Транскрипционную активность промоторных островков оценивали с использованием данных прямого секвенирования кДНК [Dornenburg et al., 2010].

Зарегистрированные в этой работе фрагменты РНК (образцы) соотносили с геномной картой E. coli с помощью компьютерной программы RNAMatcher, разработанной В.В. Панюковым (ИМПБ РАН). Эта программа определяет число одинаковых образцов и находит соответствующие им участки генома. Для оценки эффективности продуктивного синтеза были использованы образцы, полностью соответствующие геномной ДНК. В том случае, если они имели несколько соответствий в геноме, их число делилось на число совпадающих сайтов и полученное количество приписывалось каждому их них. Для оценки эффективности абортивного синтеза определяли количество коротких РНК длиной 10Ц11 нуклеотидов. Их находили среди образцов, соответствующих РНК, имеющих на 3Т-конце маркерный адаптер GATCGTGACTG.

Степень ассоциации смешанных промоторных островков с чужеродными генами оценивали с использованием двух наборов генов, появившихся в геноме E. coli в результате горизонтального переноса, согласно Lawrence, Ochman [1998] и Nakamura et al. [2004], а также по перекрыванию с лостровками патогенности, выявленными алгоритмом IslandViewer [Langille, Brinkman, 2009] и нашим алгоритмом GIST (с учётом и без).

Взаимодействие промоторных островков с белком H-NS определяли с использованием данных, полученных в опытах по иммунопреципитации ДНК-белковых комплексов антителами к H-NS [Grainger et al., 2006; Oshima et al., 2006; Kahramanoglou et al., 2011].

РЕЗУЛЬТАТЫ И ИХ ОБСУЖДЕНИЕ 1. Анализ распространения мононуклеотидных poly(dA)n-, poly(dT)n-, poly(dG)n- и poly(dC)n-треков в геномах прокариот с различным нуклеотидным составом.

Для исследования было выбрано 342 бактериальные и 69 архейных хромосом с GC-составом, варьирующим в диапазоне от 16,5% до 74,9%.

Учитывали наличие в них треков длиной от 5 нуклеотидов и выше, т.к. они обладают явно выраженными структурообразующими свойствами, что повышает вероятность их участия в различных биологических процессах.

На Рис. 1 пунктирными линиями показаны ожидаемые зависимости частот встречаемости мононуклеотидных треков от их длины в случайных нуклеотидных последовательностях конкретного размера и GC-состава. В последовательностях с GC-составом <50% poly(dA)n/poly(dT)n-треки должны преобладать над poly(dG)n/poly(dC)n-треками (Рис. 1а), а для геномов с GC-составом >50% ожидается обратная зависимость (Рис. 1б, в). В AТ-богатом геноме B. subtilis (Рис.

1а), так же как и во всех хромосомах с GC-составом <50% poly(dA)n- и poly(dT)nтреков действительно оказалось больше, чем poly(dG)n- и poly(dC)n-треков, а в 108 хромосомах с GC-составом >50% было больше poly(dG)n/poly(dC)n-треков, как, например, у T. thermophilus (Рис. 1б). Но для 81 эубактериальной и архейных хромосом с GC-составом >50% было обнаружено явное преобладание poly(dA)n- и poly(dT)n-повторов, а не poly(dG)n- и poly(dC)nтреков (Рис. 1в). Таким образом, большинство исследованных геномов (74%) характеризуются повышенным содержанием poly(dA)n- и poly(dT)n-треков. Во многих остальных случаях частоты встречаемости этих треков также были выше ожидаемых (Рис. 1б). Поэтому была осуществлена строгая статистическая оценка этого преобладания.

Рис. 1. Распределение мононуклеотидных A/T- и G/C-треков в бактериальных геномах (сплошные линии) и случайных нуклеотидных последовательностях (пунктирные линии) с аналогичным GC-составом и длиной. A/T-треки обозначены синим цветом, G/C-треки Ч лиловым цветом. а) B. subtilis subsp. subtilis str. 168 (GC-состав 43,5%); б) T. thermophilus HB27 (GC-состав 69,4%); в) L. hongkonensis HLHK9 (GC-состав Ч 62,4%).

В качестве критерия отличия частот встречаемости гомонуклеотидных треков в геномных ДНК от случайных нуклеотидных последовательностей использовали величину Ri отражающую отклонение числа конкретных треков в геномных ДНК от их количества в случайных нуклеотидных последовательностях. На Рис. показаны профили распределения R. Видно, что для абсолютного большинства геномов R(A+T) больше 1 (382 хромосомы, т.е. 93%), а R(G+C), наоборот, меньше (294 хромосомы, т.е. 72%). Причём с 95% достоверностью число poly(dA)n/poly(dT)n-треков превышает ожидаемые значения в 93% прокариотических геномов.

Обе гистограммы выявляют наличие максимумов в профилях распределения R. Их расположение свидетельствует о том, что число poly(dA)n/poly(dT)n-треков в исследованных геномных ДНК чаще всего в 2 раза выше их числа в случайных последовательностях, а poly(dG)n/poly(dC)n-треки, наоборот, встречаются в два раза реже.

Рис. 2. Гистограмма распределения 4хромосомных ДНК по коэффициентам R(A+T) (синяя кривая) и R(G+C) (лиловая кривая). Для построения графика использованы интервалы разбиения R=0,2. Пунктирная красная линия соответствует R = 1.

Таким образом, масштабный анализ распространённости мононуклеотидных треков выявил повышенную частоту встречаемости A/T-треков в абсолютном большинстве геномов, что указывает на эволюционное избегание протяженных poly(dG)n/poly(dC)n-треков и особую биологическую роль poly(dA)n/poly(dT)nтреков.

2. Сравнительный анализ встречаемости мононуклеотидных и смешанных W- и S-треков.

Одной из наиболее вероятных биологических функций poly(dA)n/poly(dT)nтреков является структурообразующая, т.к. при n4 они способны формировать анизотропные изгибы в двойной спирали, которые важны для комплексообразования ДНК с различными белками [Kozobay-Avraham et al., 2006], а также для компактизации нуклеоида. Но в таком случае наблюдаемая для мононуклеотидных треков асимметрия должна либо сглаживаться, либо совсем исчезать для смешанных W-треков (W=A=T).

Для проверки данного предположения было выбрано 57 геномов прокариот, содержащих от 50% до 60% G/C-пар, т.е. такие хромосомы, в которых повышенная частота встречаемости A/T-треков не является тривиальной.

Рис. 3. Гистограммы распределения умеренно GC-богатых геномов по R для мононуклеотидных (а) и смешанных (б) треков. Пунктирная красная линия соответствует R = 1.

На Рис. 3а показано распределение выбранных геномов по частоте встречаемости в них мононуклеотидных треков. Несмотря на повышенное содержание в этих геномах G/C-пар, оно отражает ту же закономерность, которая была выявлена для предыдущей выборки (Рис. 2а). Но для смешанных треков никакой асимметрии обнаружено не было (Рис. 3б). Это значит, что эволюционному отбору, по-видимому, подвержены именно мононуклеотидные poly(dA)n- и poly(dT)n-треки, которые имеют целый ряд специфических физикохимических свойств, а не смешанные W-треки.

Однако набор смешанных W-треков, обнаруженных в каждом конкретном геноме, включает и мононуклеотидные poly(dA)n/poly(dT)n-треки, поэтому полное отсутствие асимметрии в распределении W- и S-треков (Рис. 3б) было не совсем ожидаемым. Поскольку общепризнанным является представление о том, что регуляторные участки геномов обогащены A/Т-парами [Yagil et al., 2006], было высказано предположение, что асимметрия для W-треков имеет место только в межгенных участках и маскируется при усреднении на геном.

Поэтому на следующем этапе нами было исследовано распределение мононуклеотидных poly(dA)n/poly(dT)n-треков, а также W- и S-треков отдельно в межгенных и кодирующих последовательностях.

3. Анализ распределения мононуклеотидных треков в кодирующих и некодирующих участках бактериальных геномов.

В качестве оценочного параметра в этом случае использовали модифицированную величину R*, для вычисления которой ожидаемое число треков рассчитывали по приведенной выше формуле, но pi равнялось частоте встречаемости W или S (либо A, T, G и С) в генах или в межгенных участках, а L - суммарной длине кодирующих или некодирующих последовательностей генома. Несмотря на то, что такой подход не является абсолютно строгим (ожидаемое число треков рассчитывается по непрерывной последовательности, а наблюдаемое Ч по фрагментам генома), он, тем не менее, предоставляет возможность оценить характер доминирования исследуемых треков и степень отклонения наблюдаемых частот встречаемости от ожидаемой величины.

Важно также иметь в виду, что нуклеотидный состав межгенных участков и генов обычно отличается от среднего по геному. Поэтому при нормировке на нуклеотидный состав конкретных участков отклонение в содержание A/Ттреков или G/C-треков может проявляться сильнее или слабее, чем при нормировке на геном. В связи с этим мы использовали 2 типа нормировки: на ожидаемое число треков в конкретных последовательностях и на геном.

Вне зависимости от способа нормировки в межгенных участках число мононуклеотидных poly(dA)n/poly(dT)n-треков оказалось существенно больше ожидаемого (при нормировке на геном среднее значение R*(A+T) = 6,47) (Рис. 4а), в то время как обнаруженное число poly(dG)n/poly(dC)n-треков было ниже ожидаемых значений (при нормировке на геном среднее значение R*(G+C) = 0,67) (Рис. 4а). Но частота встречаемости poly(dA)n/poly(dT)n-треков в кодирующих последовательностях тоже отличалась от ожидаемой величины, хотя и в меньшей степени (при нормировке на геном среднее значение R*(A+T) составило 2,45) (Рис. 4б). Поэтому данные, представленные на Рис. 3а, отражают не только явную обогащённость межгенных участков poly(dA)n/poly(dT)n-треками, но и общую тенденцию к их формированию в умеренно GC-богатых геномах.

Число мононуклеотидных poly(dG)n/poly(dC)n-треков в межгенных участках мало отличалось от ожидаемых значений (Рис. 4а), но в генах (Рис. 4б) неожиданно оказалось существенно меньше, чем в среднем по геному (Рис. 3а).

Вполне возможно, что в основе этого избегания лежит повышенный структурный полиморфизм водородного связывания уотсон-криковских G/Cпар по сравнению с A/T-парами [Komarov et al., 1992; Комаров, 1998; Kabanov, Komarov, 2002]. Эволюционное удаление мононуклеотидных G/C-треков, следовательно, должно способствовать структурной гомогенности ДНК.

Другим неблагоприятным свойством мононуклеотидных G/C-треков может быть способность формировать стабильные G-квадруплексы, которые способны существенно нарушать трёхмерную структуру ДНК.

Среднее значение параметра R* для смешанных W- и S-треков в генах (Рис. 5а) практически не отличалось от среднего по геномам (Рис. 3б), а межгенные участки были обогащены W-треками (Рис. 5б), что особенно явно проявлялось при нормировке на геном.

Рис. 4. Гистограммы распределения геномов по R*(A+T) и R*(G+C) в межгенных участках и кодирующих последовательностях. Пунктирная красная линия соответствует R = 1.

Таким образом, проведённый анализ выявил преимущественное присутствие мононуклеотидных poly(dA)n- и poly(dT)n-треков, а также смешанных W-треков в межгенных областях бактериальных геномов.

Следовательно, их наличие можно использовать в качестве дополнительного дискриминационного признака регуляторных участков геномов, важнейшим функциональным элементом которых являются промоторы.

Рис. 5. Гистограммы распределения геномов по R*W и R*S в межгенных участках (а) и кодирующих последовательностях (б) Пунктирной красной линией обозначен R = 1.

На Рис. 6 показан характер распределения poly(dT)4-треков в промоторах, узнаваемых 70. Видно, что они обычно находятся в позициях, фазированных с шагом спирали. Т.к. poly(dT)4-треки изгибают двойную спираль ДНК, это указывает на предпочтительную конфигурацию промоторной ДНК. Наличие и расположение этих треков учитывается каскадными матрицами алгоритма поиска промоторов PlatProm (Рис. 7).

Рис. 6. Распределение poly(dT)4 в тестовом наборе, содержащем 2промоторов, узнаваемых РНКполимеразой E. coli и не использованных для лобучения алгоритма PlatProm. Проведена процедура сглаживания по трём соседним позициям.

Число poly(dА)4-треков на этой же нити ДНК меньше и они обычно находятся в области контакта с -субъединицами РНК-полимеразы и в прилегающей области (Рис. 7). Очень большой вклад в результативность программы вносят W-треки, расположенные с регулярностью 1 и 1,5 витка спирали. Чтобы избежать двойного вклада мононуклеотидных треков (как (А/Т)n и как (W)n), алгоритм учитывает именно эту регулярность, оценивая наличие парных триплетов www(n)7,8www и www(n)13,14www (Рис. 7).

Рис. 7. Схема, отражающая распределение всех элементов, учитываемых алгоритмом PlatProm, относительно стартовой точки транскрипции (позиция 0). Справа указано снижение чувствительности алгоритма при отключении соответствующих модулей, оценённое как суммарное уменьшение процента узнаваемых промоторов на двух уровнях (на 4 и 3StD выше фона). Рисунок взят из публикации [Shavkunov et al., 2009].

Характер распределения www(n)8www в промоторах тестового набора показан на Рис. 8. Видно, что степень превышения фонового уровня для этих элементов выше (до 8 StD), чем для poly(dТ)4 (~5 StD), поэтому отключение их учёта в PlatProm почти так же снижает его эффективность, как и отключение учёта консенсусных элементов (Рис. 7, справа). Независимый вклад в результативность PlatProm вносят гибкие динуклеотиды YR (чаще всего ТА) (Y=C=T, R=A=G), которые способствуют структурной адаптации промоторной ДНК к поверхности фермента. Кроме этого, структурообразующими в промоторах могут быть прямые и инвертированные повторы, которые учитываются алгоритмом, т.к. являются потенциальными мишенями для связывания регуляторных белков, а также могут формировать сдвинутые структуры с выпетливанием однонитевых участков (прямые повторы) или шпильки (инвертированные повторы). Таким образом, в нашем распоряжении был алгоритм, который для поиска промоторов использует не только консенсусные элементы, узнаваемые 70, но и структурные особенности промоторов, причём значительный вклад в результативность программы вносят A/Т-треки.

Рис. 8. Распределение www(n)8www в промоторах тестового набора (см. Рис.

6). Проведена процедура сглаживания по трём соседним позициям.

Из-за структурной консервативности бактериального транскрипционного аппарата распределение структурообразующих модулей в разных промоторах может быть инвариантным. Поэтому их высокая статистическая значимость открывает возможность создания такого алгоритма, который сможет искать промоторы без предварительной информации о контексте их консенсусных элементов. В качестве пробного шага в этом направлении мы оценили способность PlatProm узнавать 54-зависимые промоторы E. coli в том случае, когда учёт консервативных гексануклеотидов и динуклеотидов вблизи стартовой точки и элемента Ц10 был отключен. Выбор этих промоторов был обусловлен тем, что механизм их активации и контекст консервативных элементов сильно отличаются от промоторов, узнаваемых 70 (Рис. 9).

cgcatctcgaaaaatcaaggagttgcaaa actggcacgattttttcatatatgtg aatGtca glnH-p cagatctttataaatcaaaaagataaaaa attggcacgcaaattgtattaacag ttcAgca pspA agcctccgccgtttatgcacttttatcact ggctggcacgaaccctgcaatctaca tttAcag astC-p ttggttagcttgtacatcaacaccaaaataaaactggcaagcatcttgcaatctggt tgtAagt nac ataacttattgaatatattgagttaatcag aatggcatcctttatgcaatatgaaa tgcAatg hyfA atcagtacgttaccaaactattttcttt attggcacagttactgcataatagta accAgtg glmY-p ttatagagtaaaaacaatcagataaaaa actggcacgcaatctgcaattagca agaCatc norV aatttccttaaataacagtaaattaaaa actggcatgatttgtgaatgtatcg gcgCatt hydN aaatctctttaataacaataaattaaaag ttggcacaaaaaatgcttaaagct ggcAtct hycA gacattattcaccgcagggataatcaac actggcacaattattgcttgtagct ggcAata hypA cctacctcccctaacgcttatcgtcgtt tctggcgtaaatcttgcctgcttagactaaatCttt xdhA-p ttatcccgattttcgcgatcgcagccgga gtggcgcaatccctgcaatactta aatCggt ygjG attaaaaaattaagctgcttatttaattt tctggcacgacggttgcaattatca ggaCagc rtcB gtgaatgataacctcgttgctcttaagc tctggcacagttgttgctaccactg aagCgcc rpoH-p aaccgcgccgtatcgaaatcaactaattcc ctaaggccgcctg gcgcggc ctgAcat ibpB gataacgccttttaggggcaatttaaaag ttggcacagatttcgctttatctt tttTacg glnA-p taatatcagggaatgaccccacataaaat gtggcataaaagatgcatactgta gtcGaga fdhF консенсус: ttaaaa ctggca tgcatt A/c консенсус промоторов 70: ttgaca tataat cA Рис. 9. Нуклеотидные последовательности экспериментально картированных 54-зависимых промоторов E. coli (взяты из базы данных RegulonDB (ver. 7.5) [Cama-Gastro et al., 2011]).

Жирным шрифтом выделены консервативные элементы и стартовая точка транскрипции.

4. Распознавание промоторов 54 E. coli разными версиями PlatProm.

Исходная версия алгоритма PlatProm с достоверностью p<0,0014 (3 StD выше фона) обнаружила только 11 промоторов, а с достоверностью p<0,0000005 (5 StD выше фона) всего один (Рис. 10а). Затем с использованием процедуры максимизированного ожидания (последовательные циклы расчёта весовых матриц и выравнивания нуклеотидных последовательностей) весовые матрицы PlatProm были оптимизированы на распознавание доминирующих нуклеотидных пар в области консервативных элементов Ц35 и Ц10. Несмотря на то, что адаптированный алгоритм PlatProm-s54 не учитывал дополнительный консервативный элемент 54-зависимых промоторов CTGGCA в позиции Ц28 (Рис.

9), его чувствительность на втором и третьем пороговом уровнях оказалась выше, чем у исходной версии (Рис. 10а). На Рис. 10б в качестве примера приведён результат сканирования генома E. coli вблизи гена hyfA. Видно, что алгоритм PlatProm-s54 узнал экспериментально картированный старт (красный столбик на среднем графике), а исходная версия программы PlatProm (70) в качестве наиболее вероятного старта предложила позицию, лежащую на 12 н.п. левее.

Рис. 10. а) Способность PlatProm-s54, PlatProm и PlatPromU (указано на рисунке) распознавать 54зависимые промоторы E. coli на разных пороговых уровнях, соответствующих показателям промоторподобия, превышающим фон ( F ) на 3, 4 и 5 StD.

б) Старты транскрипции, предсказанные алгоритмами в 54-зависимом промоторе гена hyfA. Красным цветом отмечена настоящая точка старта.

Затем в исходном алгоритме PlatProm были отключены весовые матрицы, учитывающие вклад консервативных элементов и динуклеотидов вблизи точки старта. Унифицированный таким образом алгоритм PlatPromU распознал промотор гена hyfA, но предложил в качестве наиболее вероятного старта позицию Ц6. Такое отклонение вполне допустимо при тотальном поиске промоторов, тем более что соседние области в диапазоне 500 н.п. не содержали ложноположительных сигналов. Чувствительность PlatPromU оказалась самой высокой на всех трёх пороговых уровнях (Рис. 10а), а в контрольном непромоторном наборе CS1 этот алгоритм нашёл только один потенциальный промотор с p<0,0014, т.е. его специфичность оказалось очень высокой (99,6%). Это значит, что учитываемые каскадными матрицами структурообразующие мотивы, в том числе мононуклеотидные и смешанные А/Т-треки, можно использовать для поиска промоторов других -факторов. Но консервативность транскрипционного аппарата бактерий позволяла также надеяться на возможность использования PlatPromU для поиска промоторов в других бактериальных геномах. Для этого был разработан метод определения фоновых значений показателей промотор-подобия, который не нуждается в предварительной аннотации геномных последовательностей.

5. Разработка метода оценки статистически значимых пороговых значений коэффициента промотор-подобия.

Для адекватной оценки предсказательного потенциала поисковой программы необходимо иметь возможность определения фоновых значений рассчитываемых показателей промотор-подобия в конкретных геномах и их стандартных отклонений. Ранее для этого мы использовали два набора последовательностей.

Один из них состоял из 273 фрагментов кодирующих последовательностей конвергентно транскрибируемых генов E. coli [Shavkunov et al., 2009].

Присутствие функциональных промоторов в таких генах наименее вероятно.

Второй набор содержал 400 случайных последовательностей, имеющих равный с исследуемым геномом AT/GC-состав. Достоинством первой компиляции является её биологическая аутентичность, но для создания такого набора необходимо иметь уже аннотированный геном и не всегда удаётся собрать достаточное для статистического анализа число фрагментов. Случайные последовательности можно получить в любом количестве, но среди них могут оказаться и промоторы, распределение которых в геноме определяется эволюционным отбором.

Поэтому для оценки фонового уровня и характерного для непромоторных ДНК StD был предложен новый способ определения пороговых уровней. Суть его заключается в поиске участков, наименее похожих на промоторную ДНК. В режиме скользящего окна определяли среднее значение коэффициента промоторподобия (F) и StD на фрагменте в 1000 н.п. (средний размер гена). Затем геном разбивали на сегменты равной длины и в каждом из них искали позицию с минимальным F (Fmin), как показано на Рис. 11. Среднее значение Fmin по всему геному (F) считали фоновым уровнем, а среднее значение соответствующих им StD Ч характеристикой его вариабельности в непромоторных участках.

Рис. 11. Поиск непромоторных участков для первых 50000 н.п. хромосомы E. coli KMG1655. Серые столбики соответствуют значениям F для фрагментов длиной в 1000 н.п.

окальные минимумы (Fmin), выявляемые при разбиении последовательности на сегменты длиной 5000 и 10000 н.п. отмечены окружностями и треугольниками, соответственно.

Определённые таким образом StD не проявляли существенной зависимости от плотности сегментации, а величина Fmin закономерно была тем меньше, чем больше размер сегмента (Рис. 11, Табл. 2). Для того чтобы выбрать оптимальный размер сегмента, величины F +4StD, полученные для разной плотности разбиения, сравнивали с аналогичным порогом, рассчитанным для контрольной компиляции CS1 (7,56) и 10 случайных последовательностей, идентичных геному E. coli по размеру и нуклеотидному составу. Наиболее близкими к тщательно подобранному непромоторному набору эти значения оказались при разбиении генома E. coli на сегменты длиной 5000 н.п. (Табл. 2).

Среднее значение F + 4StD для 10 случайных последовательностей было немного выше (7,99), что отражает неслучайное распределение промоторподобных сигналов в геномах и указывает на целесообразность использования натуральных последовательностей для определения пороговых уровней.

Таблица Зависимость значений F и StD от плотности сегментации генома E. coli MG16Размер сегмента StD F + 4StD F (н.п.) 5000 Ц5,41 3,27 7,10000 Ц5,76 3,24 7,20000 Ц6,04 3,21 6,50000 Ц6,35 3,20 6,Таким образом, у нас появился инструмент оценки пороговых уровней для показателей промотор-подобия, рассчитанных разными версиями алгоритма в любом геноме. Для его реализации не нужен специальный набор контрольных ДНК. Это очень удобно, хотя и усложняет определение специфичности (процент ложноположительных сигналов) программы. Поэтому в дальнейшем мы не использовали этот важный параметр для характеристики алгоритмов.

Чтобы частично компенсировать этот недостаток, чувствительность программ (процент узнанных промоторов) оценивали на трёх уровнях достоверности, рассчитанных по конкретному геному. Самый нижний из них превышал фон на 3StD. Он обеспечивал достоверность p<0,0014, т.е. допускал обнаружение ~11200 ложных сигналов в геноме размером 4000000 п.н., или 1 ложный промотор на 357 пар оснований, что вполне приемлемо. Два других обеспечивают достоверность p<0,000034 и p<0,00000034, т.е. предполагают обнаружение всего ~272 - 3 ложных сигналов в таком же геноме, что можно считать пренебрежимо малым.

6. Оценка способности унифицированной и специализированных версий PlatProm распознавать промоторы в геномах с разным GC-составом.

Поскольку основной вклад в показатели промотор-подобия, рассчитанные унифицированным алгоритмом, дают AТ-богатые элементы, нами была оценена эффективность его работы с геномами, имеющими разный GC-состав.

Для этого было выбрано 7 геномов, в которых было картировано достаточное для получения специализированной версии PlatProm число промоторов.

Геном C. glutamicum содержит 53,8% G/C-пар. В нём известно 1негомологичных промоторов, активируемых основным -фактором - SigA. Все они были использованы для построения весовых матриц специализированной версии программы PlatPromC, а оценка её эффективности осуществлялась методом сменных мишеней, как описано выше.

Рис. 12. Сопоставление способности PlatPromC, PlatProm и PlatPromU (указано на графике) распознавать промоторы C. glutamicum на разных уровнях достоверности.

На Рис. 12 показан суммарный результат сравнительного анализа. На первом уровне (p<0,0014) наиболее эффективной оказалась адаптированная программа PlatPromC (серые столбики), с помощью которой удалось узнать 81,6% промоторов, т.е. столько же, сколько на этом пороговом уровне находит PlatProm в тестовом наборе, составленном из промоторов E. coli. Это значит, что каскадные матрицы, которые в PlatPromC остались настроенными на структурно-конформационные свойства промоторов E. coli, равноэффективны и для поиска промоторов C. glutamicum. В сочетании с позиционными весовыми матрицами, отражающими контекст консервативных модулей в промоторах E. coli, они работали хуже (белые столбики). Это соответствует общему представлению о необходимости специфической адаптации алгоритмов поиска промоторов к контексту узнаваемых модулей. Чувствительность PlatPromU, работающей только с каскадными матрицами (чёрные столбики), на первом уровне практически не отличалась от PlatPromC (79,7%), а на более высоких пороговых уровнях даже превышала её. Т.е. унифицированная версия алгоритма эффективно распознаёт SigA-зависимые промоторы в геноме C. glutamicum, который почти не отличается от генома E. coli по GC-составу.

Поскольку большинство модулей, учитываемых PlatPromU, содержат A/Ттреки, была реальная опасность снижения чувствительности программы при работе с AT-богатыми геномами. Таковым, в частности является геном H. pylori (GC-состав 38,9%). В нём картировано 44 промотора основного -фактора (80), которые были использованы для получения адаптированной программы PlatPromH. Оказалось, что на первом уровне все три алгоритма обладали приблизительно равной эффективностью (84,1Ц86,4%). На втором самой лучшей оказалась специфическая версия, узнавшая 54,5% промоторов, а на третьем Ч PlatPromU (25%) (Рис. 13а), чувствительность которой снизилась по сравнению с предыдущими геномами, но незначительно.

На Рис. 13б показаны результаты сканирования генома H. pylori вблизи гена frpB4. Исходная версия программы не распознаёт точку старта, картированную в позиции Ц55 по отношению к ATG-кодону, а PlatPromH и PlatPromU её узнают. При этом все 3 алгоритма предсказывают существование дополнительного старта внутри соседнего гена HP1511. Он находится на допустимом (<650 н.п.) для промоторов расстоянии от начала гена frpB4, поэтому вполне может быть его дополнительным промотором, либо с него начинается синтез укороченной РНК с гена HP1511.

Рис. 13. Способность PlatPromH, PlatProm и PlatPromU (указано на рисунке) узнавать 80зависимые промоторы H. pylori на трёх пороговых уровнях (а) и стартовые точки, предсказанные алгоритмами для гена frpB(серая стрелка) H. pylori (б) Красным цветом обозначена настоящая точка старта. Ось X соответствует ( F + 4 StD).

На Рис. 14 показано распределение промоторов, предсказанных разными версиями программы на геномной карте H. pylori. Около 70% сигналов транскрипции, предсказанных специфической версией программы (PlatPromH), расположены перед кодирующими последовательностями или внутри межгенных областей (Рис. 14, внешний круг). Это столько же, сколько и в случае промоторов, предсказанных PlatProm в геноме E. coli. Доля потенциальных промоторов для антисмысловой и альтернативной транскрипции также оказалась сопоставимой с геномом E. coli [Shavkunov et al., 2009]. Унифицированная программа с той же достоверностью (p<0,00004) предсказывает больше промоторов с внутригенной локализацией (вторая окружность на Рис. 14). Но на более высоком пороговом уровне процент ожидаемых промоторов оказался очень большим (Рис. 14, внутренний круг).

Следовательно, унифицированную версию алгоритма вполне можно использовать для предварительного поиска промоторов в АТ-богатом геноме.

Рис. 14. Классификация предсказанных стартовых точек по расположению в геноме H. pylori (PlatPromH и PlatPromU).

Светло-серым цветом обозначены ожидаемые промоторы, предсказанные в межгенных участках; тёмно-серым - внутригенные промоторы, имеющие смысловую ориентацию, а чёрным - потенциальные промоторы для антисмысловой транскрипции.

Таблица Узнавание промоторов в геномах с разным GC-составом Микроорганизм GC- Доля узнаваемых промоторов, % (число анализируе- состав, Алгоритм 1 уровень 2 уровень 3 уровень мых промоторов) % PlatPromH 86,4 54,5 15,Helicobacter pylori 38,9 PlatProm 84,1 45,5 15,26695 (44) PlatPromU 84,1 50 PlatPromB 90,6 68,5 30,Bacillus subtilis subsp. subtilis str. 143,5 PlatProm 92,8 64,8 30,(349) PlatPromU 86,6 65,1 35,Escherichia coli K12 PlatProm 87,1 57,1 19,50,MG1655 (548) PlatPromU 73,3 52,1 30,PlatPromS 87,1 45,3 14,Salmonella enterica subsp. enterica serovar 51,8 PlatProm 72,7 37,4 10,Typhimurium str. LT2 (210) PlatPromU 86,3 69,1 47,PlatPromC 81,6 50 Corynebacterium glutamicum ATCC 53,8 PlatProm 71,5 34,8 13032 (158) PlatPromU 79,7 59,5 32,PlatPromP 63,5 44,4 23,Pseudomonas syringae pv. tomato str. DC3058,4 PlatProm 71,4 44,4 23,(63) PlatPromU 73 50,8 36,PlatPromA 77,3 54,6 27,Agrobacterium tumefaciens str. C59,3 PlatProm 77,3 45,4 16,(360) PlatPromU 79,4 58,8 39,PlatPromSc 77,1 42,2 9,Streptomyces coelicolor 72,1 PlatProm 77,6 39,1 9,str. A3(2) (192) PlatPromU 71,9 44,3 25,В Табл. 3 приведены суммарные данные для 8 исследованных геномов. На первом уровне достоверности программы имели приблизительно равную чувствительность. На втором - промоторы 5 из 8 геномов эффективнее распознавались PlatPromU, а на третьем - все промоторы лучше распознавались PlatPromU, причём, варьируя в пределах от 25% до 47,5%, чувствительность на этом уровне оказалась практически не зависимой от GC-состава (коэффициент корреляции Пирсона Ц0,05). Самая большая разница в предсказательном потенциале PlatPromU и специфических версий программы была обнаружена для S. enterica LT2 и Str. coelicolor A3(2) (3,3 и 2,7 раз, соответственно) (Табл. 3).

Это, по-видимому, нельзя объяснить малым числом известных промоторов в обучающем наборе, т.к. в обоих случаях их было достаточно. Не исключено, что высокая эффективность PlatPromU на этих геномах обусловлена более высокой ролью структурообразующих элементов в архитектуре промоторной ДНК.

Таким образом, PlatPromU можно использовать для предварительного поиска промоторов в малоизученных геномах даже в том случае, если их GCсостав сильно отличается от 50%. Наиболее разумным при этом может быть использование высокого порогового уровня, который позволит собрать достаточный для построения геном-специфического алгоритма набор родных промоторов при минимальном числе ложных сигналов.

7. Поиск участков генома с высокой плотностью потенциальных промоторов.

Большинство промоторов, предсказываемых различными версиями PlatProm, расположено перед последовательностями генов, кодирующими белки или нетранслируемые РНК (Рис. 14). Но все компьютерные программы поиска промоторов предсказывают их наличие и внутри генов. Это могут быть промоторы для антисмысловых или альтернативных РНК [Shavkunov et al., 2009]. Хотя биологическая роль таких РНК не всегда понятна, их синтез из внутригенных областей подтверждается данными полногеномного скрининга.

Рис. 15. Распределение стартовых точек транскрипции в геномной области E. coli KMG1655, предсказанных PlatProm на обеих нитях ДНК (столбики). Голубыми стрелками показаны кодирующие последовательности генов и направления их транскрипции. X-ось проведена на уровне, превышающем фон на 4 StD. X-ось вставки проведена так, чтобы показать кластер потенциальных точек старта рядом с нормальными промоторами. Красным цветом обозначена настоящая точка старта [Arthur et al., 1987].

Кроме этого, оказалось, что потенциальные сигналы транскрипции в геноме E. coli K12 MG1655 и 9 геномах S. enterica распределены неравномерно.

Совместно с группой Квана из Университета Гонконга была обнаружена повышенная частота их встречаемости в протяжённых участках генома, содержащих гены, приобретённые в результате горизонтального переноса (лгеномных островках). Избыточное число промоторов в таких областях может способствовать экспрессии чужих генов в геноме нового хозяина.

Используя это свойство, китайскими партнёрами был разработан новый алгоритм поиска чужеродной ДНК GIST (Genomic-island Identification by Signals of Transcription), классификационным признаком которого является 5кратное превышение среднего по геному числа потенциальных промоторов в скользящем окне длиной 4000 н.п. В геноме E. coli с его помощью было выявлено 59 геномных островков, а в геномах сальмонелл Ч от 47 до 56.

Более детальный анализ показал, что 40 геномных островков E. coli содержат 59 из 78 выявленных ранее [Shavkunov et al., 2009] относительно коротких участков генома (300Ц1100 н.п.) с аномально высокой плотностью промотор-подобных мест (лпромоторные островки). Они имеют по крайней мере 8 потенциальных точек инициации транскрипции на обеих нитях в скользящем окне 100 н.п. на протяжении как минимум 300 н.п. и средняя частота в них промоторов в 50 раз выше, чем в геноме. На Рис. 15 в качестве примера показан один из лостровков в сравнении с нормальными промоторами. Он полностью покрывает два гена и регуляторную область одного из них. Такую плотность промотор-подобных мест нельзя считать артефактом PlatProm, поскольку другая программа поиска промоторов [Hertz, Stormo, 1996] также выявляет аналогичный кластер в этой области. С кодирующими последовательностями генов перекрываются ещё 18 лостровков, 4 лежат между конвергентными генами, где может начинаться синтез антисмысловых РНК, а находятся в регуляторных участках генов. До последнего времени функциональная роль лостровков была совершенно непонятна. Поэтому очень важно было определить, насколько часто они присутствуют в других геномах.

Для этого было выбрано 3 генома S. enterica, отличающихся по плотности кодирования, а также геномы C. glutamicum, B. subtilis и H. pylori. Во всех случаях сканирование осуществлялось полученными ранее адаптированными версиями алгоритма.

У сальмонелл было выявлено сопоставимое с E. coli число промоторных островков (69 у штамма Paratyphi B SPB7, 74 у Typhi Ty2 и 67 у Arizonae RSK2980) с внутригенной и межгенной локализацией. Но только для 3 из генов, содержащих 1 или 2 внутригенных лостровка, имеются ортологи хотя бы в одном геноме сальмонелл. Большинство генов, фланкирующих межгенные лостровки (61%) также отсутствует в геномах сальмонелл, что указывает на эволюционную нестабильность ассоциированных с лостровками генов.

Только для 10 из 55 межгенных промоторных островков E. coli были найдены последовательности с некоторым подобием геномам сальмонелл (22100% гомологии), причём 7 из них совпадают с полноценными промоторными островками. Все они находятся рядом с гомологичными генами. Кроме этого лостровка были обнаружены перед другими гомологичными генами, первичная структура регуляторных областей которых не похожа или мало похожа на E. coli. Для адекватной экспрессии этих генов, следовательно, важна высокая плотность потенциальных промоторов.

В геноме C. glutamicum был найден ортолог только для 1 (yneN) из генов E. coli, имеющих лостровки внутри кодирующих последовательностей, а среди генов, фланкирующих межгенные лостровки, таких оказалось 9. Это соответствует предположению об эволюционной нестабильности генов, ассоциированных с промоторными островками. При этом в геноме C.

glutamicum было найдено только 11 лостровков и все они оказались расположенными в одном участке генома длиной ~170000 н.п. (красные метки на третьей окружности Рис. 16), который полностью принадлежит профагу CGP3 [Frunzke et al., 2008]. Таким образом, все лостровки появились в геноме C. glutamicum в результате генетической рекомбинации.

У B. subtilis и H. pylori специфическими версиями алгоритмов было обнаружено только по 2 лостровка. В геноме B. subtilis один из них находится в межгенной области ykuV(+)/rok(+) и покрывает регуляторную область гена rok. Этот ген кодирует белок нуклеоида, репрессирующий экспрессию горизонтально перенесённых генов. Он является функциональным аналогом гистоноподобного белка нуклеоида H-NS E. coli и белка Lsr2 GC-богатых микобактерий [Smits, Grossman, 2010]. Второй лостровок находится в профаге SP (в межгенной области sunA(Ц)/sunI(Ц)) [Lazarevich et al., 1999].

Рис. 16. Геномная карта C. glutamicum, отражающая расположение генов на л+ и Ц нитях генома (две внешние окружности);

промоторных островков, выявленных алгоритмами PlatPromC и PlatPromU (ок- ружности 3 и 4, соответственно); обогащённость G/C-парами (окружность 5) и асимметрию в распределении гуанинов и цитидинов на двух нитях (G/C-skew, окружность 6).

Таким образом, количество промоторных островков в геномах разных бактерий сильно различается, причём многие из них находятся в геномных островках или профагах, т.е. в чужеродной ДНК. Поэтому возникло предположение, что промоторные островки могут быть специфически ассоциированы с чужими генами, даже если эти гены не входят в состав протяжённых геномных островков. Детальный анализ показал, что 75 из (или 73 из 78, без учёта данных GIST) лостровков в геноме E. coli находятся в регуляторной области генов, чужеродность которых предсказана разными авторами [Lawrence, Ochman, 1998; Nakamura et al., 2004; Langille, Brinkman, 2009]. Это в 3Ц9 раз больше ожидаемого, что является весомым аргументом в пользу причастности лостровков к ассимиляции чужеродной ДНК.

Однако число лостровков, выявленных специфическим алгоритмом в геноме E. coli значительно меньше, чем число чужеродных генов (у E. coli по оценкам разных авторов от 424 до 1053). Это может быть результатом слишком жёстких критериев, использованных для отбора лостровков. Вполне естественно предположить возможность существования лостровков с разной -специфичностью. Поэтому на следующем этапе было определено количество промоторных островков, выявляемых в разных геномах унифицированной версией алгоритма PlatPromU.

8. Число и функциональные свойства смешанных промоторных островков.

В геноме E. coli K12 MG1655 было найдено 434 смешанных промоторных островка, удовлетворяющих критериям, описанным в разделе Материалы и методы. У S. enterica Ty2 их оказалось 495, что сопоставимо с их количеством в геноме E. coli. У C. glutamicum было найдено 177 смешанных островков, что в 16 раз больше, чем выявлялось специфическим алгоритмом и они распределены по всему геному (Рис. 16, окружность 4). В геноме B. subtilis их оказалось 72, а у H. pylori, по-прежнему, только 2. На Рис. 17 показано перекрывание общего пула потенциально чужих генов E. coli с генами, ассоциированными со смешанными островками и с 351 обычным промотором. Видно, что обычные промоторы, как правило, контролируют синтез родных генов E. coli, а большинство лостровков ассоциировано с чужеродной ДНК, причём около 40% чужих генов связано с лостровками.

Ранее для 78 лостровков, найденных PlatProm, была обнаружена необычная комбинация функциональных свойств. По данным полногеномного скрининга, полученным методом ChIP-on-chip, все они взаимодействуют с РНКполимеразой, но транскрипционная активность на микроматрицах была зарегистрирована только для лостровков [Shavkunov et al., 2009]. Это могло Рис. 17. Степень перекрывания быть следствием того, что лостровки образуют обычных промоторов и только закрытые комплексы с полимеразой, смешанных промоторных островков E. coli (серые неспособные инициировать синтез РНК. Но окружности) с потенциально футпринтинг KMnO4, осуществлённый для чужими генами (пунктир) и лостровков, показал их способность формировать доля чужих генов (точечные транскрипционно-компетентные комплексы с сегменты), ассоциированная с ферментом in vitro, а для 12 лостровков переход в двумя типами промоторов.

открытое состояние был зарегистрирован и in vivo (учтены дивергентные гены и [Shavkunov et al., 2011]. Было высказано предположение, что их транскрипционная активность блокирована на стадии синтеза коротких абортивных продуктов, которые из-за проблем с обратной транскрипцией не могут быть зарегистрированы на микроматрицах. Поэтому для 434 смешанных островков был проведён экспрессионный анализ с использованием данных прямого секвенирования кДНК [Dornenburg et al., 2010], позволяющих оценить количество длинных и коротких РНК-продуктов в общем пуле клеточных РНК (Рис. 18). Его результаты подтверждают низкую эффективность продуктивной инициации для лостровков, выявленных PlatProm (только 7 начинают продуктивный синтез), и свидетельствуют о том, что большинство смешанных островков тоже не инициируют синтез длинных РНК (Сектор A), но во всех случаях был зарегистрирован синтез коротких олигонуклеотидов (Сектор B). Поэтому не исключено, что лостровки являются своеобразными фабриками коротких РНК, которые играют самостоятельную роль в бактериальных клетках, например, праймируют транскрипцию других генов [Goldman et al., 2011].

С другой стороны, обнаруженный характер функциональной активности свидетельствует о целенаправленной репрессии продуктивной транскрипции с лостровков. Такая репрессия может быть результатом взаимодействия нескольких молекул РНК-полимеразы с перекрывающимися промоторами, а также результатом прямой репрессии со стороны гистоноподобного белка нуклеоида H-NS. Этот белок считается специфическим ингибитором горизонтально перенесённых генов и, согласно анализу данных, полученных методом ChIP-on-chip [Grainger et al., 2006; Oshima et al., 2006; Kahramanoglou et al., 2011], связывается с 425 лостровками из 434 (97,9%).

Рис. 18. Распределение функциональных сайтов в геноме E. coli. Внешние окружности 1 и - генная карта штамма. Окружность 3 - относительное число РНК длиной 10-11 н. (а) и н. (б), обнаруженных в результате прямого секвенирования кДНК [Dornenburg et al., 2010] (log10 числа +1). Т.к. не наблюдалось никакой асимметрии в активности лостровков по геному, результаты этого анализа показаны на одной окружности, разделенной на 2 сектора.

Окружность 4 - распределение сайтов связывания РНК-полимеразы, выявленных методом СhIP-on-chip [Reppas et al., 2006] (log2 отношения специфических и контрольных сигналов гибридизации). Красным цветом отмечены продукты и сигналы гибридизации, соответствующие смешанным промоторным островкам.

Итак, нами обнаружено, что промоторные островки, содержащие аномально высокое число потенциальных промоторов, ассоциированы с чужими генами. Это предполагает их участие в ассимиляции чужеродного генетического материала. Предварительный анализ показал, что предполагаемые доноры имеют нормальные промоторы, т.е. лостровки должны формироваться в геноме хозяина после переноса. Они могут обеспечивать супрессию токсичных или бесполезных генов и предоставлять возможность бактериальной популяции выбрать оптимальный промотор для интеграции чужого гена в регуляторные сети нового хозяина. В рамках защищаемой работы важно, что эволюционное давление оказалось направленным на формирование протяжённых АТ-треков, число которых в промоторных островках превышает ожидаемые значения при нормировке на геном и даже при нормировке на АТ-богатые последовательности лостровков в 2,34 и 1,раза, соответственно.

ВЫВОДЫ 1. В хромосомных ДНК прокариот наблюдается общая тенденция преимущественного присутствия мононуклеотидных poly(dA)n/poly(dT)nтреков, которые преобладают над poly(dG)n/poly(dC)n-треками не только в хромосомах с GC-составом менее 50%, но и в большинстве хромосом с высоким содержанием G/C-пар.

2. Установлено, что регуляторные участки геномов обогащены poly(dA)n/poly(dT)n-треками и смешанными W-треками, которые, следовательно, можно использовать в качестве дополнительного дискриминационного признака для поиска этих участков в геномах.

3. Разработан новый метод оценки фоновых значений показателя промотор-подобия в любых геномах, не требующий предварительного картирования в них генов.

4. Впервые установлена высокая чувствительность унифицированной версии алгоритма поиска промоторов PlatPromU, которая позволяет осуществлять поиск промоторов в неохарактеризованных нуклеотидных последовательностях.

5. В пяти бактериальных геномах впервые картированы участки с высокой плотностью потенциальных мест инициации транскрипции (лсмешанные промоторные островки). Установлено, что в геноме E. coli они, как правило, взаимодействуют с РНК-полимеразой и гистоноподобным белком нуклеоида HNS. Показано, что синтез длинных РНК с них идёт хуже, чем в среднем по геному, но лостровки способны эффективно инициировать синтез коротких олигонуклеотидов.

6. Впервые доказана ассоциация смешанных промоторных островков с чужеродной ДНК, что позволяет предположить их участие в процессе адаптации чужих генов к регуляторным сетям нового хозяина.

СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИ Статьи в журналах:

1. Киселев С.С., Комаров В.М., Масулис И.С., Озолинь О.Н. Распределение мононуклеотидных повторов в бактериальных хромосомах: A/T-треки преобладают над G/C-треками // Компьютерные исследования и моделирование. 2010. Т. 2. С. 183Ц187.

2. Киселев С.С., Озолинь О.Н. Структурообразующие модули как индикаторы промоторной ДНК в бактериальных геномах // Математическая биология и биоинформатика. 2011. Т. 6. С. 39Ц52.

3. Huang Q., Cheng X., Cheung M.K., Kiselev S.S., Ozoline O.N., Kwan H.S. Highdensity transcriptional initiation signals underline genomic islands in bacteria // PLoS ONE. 2012. V. 7. Article № e33759.

Статьи в сборниках:

1. Kiselev S.S., Purtov Yu.A., Ozoline O.N. Unified promoter-search algorithm as a novel tool for annotation of bacterial genomes // Доклады 3 международной конференции "Математическая биология и биоинформатика". С. 91Ц92.

2. Kiselev S.S., Ozoline O.N. Computer-based search for promoters within the A/T-rich genome of Helicobacter pylori // Proceedings of the international Moscow conference on computational molecular biology. Moscow. 2011. P. 272Ц273.

3. Озолинь О.Н., Киселев С.С., Панюков В.В. Новые элементы бактериальных геномов - промоторные островки как маркеры чужеродной ДНК // Доклады международной конференции "Математическая биология и биоинформатика".

С. 66Ц67.

Тезисы докладов на конференциях:

1. Киселев С.С., Комаров В.М., Масулис И.С., Озолинь О.Н. Асимметрия в распределении мононуклеотидных повторов в геномах прокариот // Тезисы докладов 13 международной школы-конференции молодых учёных Биология - наука XXI века. Пущино, 2009. С. 22.

2. Киселев С.С., Комаров В.М., Масулис И.С., Озолинь О.Н. В бактериальных хромосомах мононуклеотидные A/T-треки преобладают над G/C-треками // Тезисы докладов 14 международной школы-конференции молодых учёных Биология - наука XXI века. Пущино, 2010. Т. 2. С. 143.

3. Киселев С.С., Комаров В.М., Масулис И.С., Озолинь О.Н. Распределение Wтреков и S-треков в геномах умеренно GC-богатых микроорганизмов // Тезисы докладов 15 международной школы-конференции молодых учёных Биология - наука XXI века. Пущино, 2011. С. 30.

4. Киселев С.С., Озолинь О.Н. Потенциальные антисмысловые РНК в геномах Bacillus subtilis и Corynebacterium glutamicum // Тезисы докладов международной школы-конференции молодых учёных Биология - наука XXI века. Пущино, 2011. С. 8Ц9.

5. Киселев С.С., Комаров В.М., Масулис И.С., Деев А.А., Озолинь О.Н.

Специфика встречаемости смешанных W-треков и S-треков в геномах умеренно GC-богатых микроорганизмов // Фундаментальные физикоматематические проблемы и моделирование технико-технологических систем.

Вып. 14. М., 2011. С. 173Ц174.

6. Shavkunov K.S., Tutukina M.N., Masulis I.S., Panyukov V.V., Kiselev S.S., Deev A.A., Ozoline O.N. Promoter islands as genomic regions with quenched transcription // Abstracts of the eighth international conference on bioinformatics of genome regulation and structure/systems biology. Novosibirsk. 2012. P. 287.

7. Tutukina M.N., Lukyanov V.I., Kiselev S.S., Ozoline O.N. Functional interplay of overlapping promoters, predicted within phoR/brnQ promoter island // Abstracts of the eighth international conference on bioinformatics of genome regulation and structure/systems biology. Novosibirsk. 2012. P. 322.

Авторефераты по всем темам >> Авторефераты по биологии