Инструментальное средство поиска регуляторных мотивов в геномах
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
ях перед совместно регулируемыми генами из одного генома. Одновременное изменение экспрессии генов чаще всего вызвано совместной транскрипционной регуляцией. Таким образом, задачу поиска сайтов связывания транскрипционного фактора можно свести к задаче поиска мотива в наборе последовательностей ДНК. В случае прокариот связывание достигается в большей степени за счет аффинности сайта связывания и транскрипционного фактора, сайты связывания довольно длинные, и, как правило, перед геном присутствует один сайт. Поэтому для поиска таких мотивов чаще используются методики, способные искать один достаточно консервативный сайт, представленный в каждой последовательности. В случае эукариот сайты короткие и вырожденные, и связывание достигается в большей степени за счет большого количества сайтов в последовательности, нежели чем за счет аффинности. Поэтому, в случае эукариот поиск сильно осложняется: искомый мотив определяется как набор не очень консервативных сайтов, которые перепредставлены в исходных последовательностях.
Впоследствии стало известно, что у высших эукариот регуляторные сайты могут образовывать так называемые композиционные элементы (composite elements, CEs) [35], то есть небольшие группы сайтов, характеризующиеся определенным взаиморасположением. Биологические причины, ведущие к такому неслучайному расположению сайтов, понятны: транскрипционные факторы, связываясь с ДНК, также взаимодействуют между собой для достижения нужного влияния на уровень транскрипции [36, 37]. Другими словами, расположение регуляторных сайтов обусловлено трехмерной структурой белкового комплекса, вовлеченного в инициацию транскрипции. В самом простом случае СЕ - это пара сайтов связывания определенных транскрипционных факторов, совместно влияющих на экспрессию гена.
Массовое секвенирование геномов позволило использовать близкородственные геномы для анализа регуляции. Были разработаны алгоритмы, берущие на вход только промоторные участки ортологичных генов и использующие методы межвидового геномного сравнения, или филогенетического футпринтинга [38]. Основная идея этого метода состоит в том, что функциональные элементы в последовательностях ДНК находятся под давлением отбора. Поэтому консервативные сайты в наборе регуляторных областей ортологичных генов скорее всего являются функциональными регуляторными элементами (рис. 8). Для определения таких элементов чаще всего строится множественное выравнивание промоторных областей ортологичных генов, а затем на нем выделяются консервативные участки.
Рис. 8. Применение сравнительной геномики к поиску регуляторных модулей. (а) выравнивание последовательностей далеких видов обнаруживает высоко консервативные некодирующие участки. Диаграммы демонстрируют высокую степень консервативности между последовательностями некодирующих областей перед геном Pax6 из геномов человека, мыши, крысы и рыбы Fugu. (b) Консервативность этого участка выше, чем ожидалось [39]
Позднее были созданы алгоритмы, комбинирующие два основных подхода для поиска мотивов в последовательностях ДНК, применяя их одновременно или по очереди. Авторы утверждают, что такие алгоритмы крайне эффективны, но их использование не всегда возможно из-за отсутствия данных.
Итак, с точки зрения исходных данных, алгоритмы поиска мотивов можно разделить на три основные группы:
1.Алгоритмы, использующие различные наборы последовательностей для поиска в них мотивов.
.Алгоритмы, использующие методы сравнительной геномики для поиска мотивов в промоторных областях ортологичных генов из разных видов.
.Алгоритмы, комбинирующие два подхода.
.3.1 Алгоритмы поиска мотивов в наборе последовательностей
С алгоритмической точки зрения методы поиска мотивов в наборе последовательностей делят на:
.переборные алгоритмы, основанные на словарных техниках
.алгоритмы, использующие различные вероятностные модели.
Переборные алгоритмы обеспечивают нахождение глобального оптимального решения, но при этом на больших выборках работают довольно долгое время. К переборным алгоритмам относятся: Oligo-Analysis [40, 41], YMF [42-44], алгоритмы, использующие суффиксные деревья [45-48], и методы на основе графов [49, 50]
Алгоритмы, применяющие вероятностные модели, хороши тем, что находят приблизительное решение за реальное время. Это позволяет применять их к большим выборкам. Недостатком является то, что такие алгоритмы используют несколько параметров для поиска, которые необходимо подбирать. К сожалению, все вероятностные алгоритмы не гарантируют нахождения лучшего решения, так как используют различные формы локального поиска. К ним относятся: Consensus [51, 52], NestedMICA [53], алгоритмы, использующие метод максимизации ожидания (expectation maximization, EM) [54, 55], алгоритм Gibbs sampling [56, 57] и дополнения к нем.
Переборные алгоритмы, основанные на словарных техниках
Ван Хельден и др. [40] разработали алгоритм поиска мотивов, названный Oligo-Analysis. Данный алгоритм ищет в последовательностях короткие перепредставленные слова - участки, частота встречаемости которых в начальных последовательностях выше соответствующих фоновых частот. Фоновые частоты были рассчитаны для каждого слова из всех последовательностей некодирующих участков геномов дрожжей. Несмотря на общую простоту, алгоритм показал высокую эффективность при поиске мотивов в регуляторных последовательностях дрожжей (Saccharomyces cerevisiae). К сожалению, данный алгоритм можно использов