Главная / Категории / Типы работ

Инструментальное средство поиска регуляторных мотивов в геномах

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



?уирование позиционной весовой матрицы (PWM) сайта связывания фактора транскрипции (TFBS). (а) Выравнивание десяти известных последовательностей TFBS. (b) Подсчет частот появления каждого нуклеотида в каждой позиции сайта (в данном случае величины не нормированы). Эта таблица обычно и называется позиционной весовой матрицей. (с) Для визуализации PWM часто используется диаграмма logo, на которой степень консервативности позиции показана высотой букв

Таким образом, PWM предоставляет достаточно полное описание участка ДНК, с которым способен связываться конкретный белок, и может быть применена при сканировании геномной последовательности для поиска сайтов, дающих достаточно хороший вес. Использование PWM позволяет достаточно эффективно предсказывать сайты связывания белков. Так, например, для 95% сайтов связывания тканеспецифического фактора печени HNF-1, найденных в последовательностях приматов из GenBank [11] с использованием соответствующей PWM и отличающихся наиболее высоким весом, было экспериментально показано связывание с HNF-1 in vitro [12].

На настоящий момент существует две наиболее полные курируемые базы PWM сайтов связывания факторов транскрипции: TRANSFAC [13] и JASPAR [14]. JASPAR содержит значительно меньше данных, при том что каждому транскрипционному фактору соответствует только одна PWM, тогда как TRANSFAC содержит по несколько PWM для некоторых факторов. Кроме этого существует несколько баз данных, содержащих регуляторные области генов (SCPD [15], TRRD [16]), а также недавно созданная база данных UniPROBE [17], которая содержит сайты связывания транскрипционных факторов, полученные с помощью технологии белок-связывающих микрочипов (protein binding microarray, PBM) [18].

Поиск сайтов связывания белков in silico - это только первый шаг к определению действительно функциональных сайтов. Регуляция генов сильно зависит также от структуры хроматина и ДНК-метилирования [19-21]. Большая часть хромосомной ДНК представляет собой компактно упакованный гетерохроматин и вследствие этого изолирована от взаимодействия с транскрипционными факторами. Метилирование ДНК тоже может препятствовать связыванию факторов с определенными участками ДНК, а также влиять на структуру хроматина. Поэтому многие потенциальные сайты, обнаруживаемые при полногеномном поиске без учета этих факторов, не являются функциональными in vivo, хотя они были бы способны связывать определенные транскрипционные факторы, будучи открытыми для взаимодействия.

Следует отметить, что, несмотря на все свои достоинства, PWM все-таки имеет несколько недостатков. Одним из них является то, что стандартная PWM не учитывает взаимное влияние соседних позиций сайта (мононуклеотидная модель). Однако наличие таких зависимостей было показано для некоторых факторов [22-24]. В таких случаях модели более высокого порядка (то есть учитывающие зависимость позиций сайта), например, динуклеотидные PWM, демонстрируют более аккуратное предсказание потенциальных сайтов [24-27].

К тому же, в некоторых случаях только половина (или даже меньше) позиций матрицы обладают достаточно высоким уровнем консервативности, в результате чего эффективность поиска с помощью такой матрицы падает. Иногда такая консервативность PWM отражает специфичность транскрипционного фактора, который сам по себе слабо взаимодействует с ДНК, а точность действия достигается только в контексте соседних сайтов связывания. Тем не менее, в большинстве случаев низкое качество PWM объясняется не свойствами транскрипционного фактора, а, скорее, недостаточно корректным составлением PWM.

Не очень высокое качество PWM может также объясняться малым числом сайтов, известных для данного фактора. В этом случае PWM может не отражать всех возможных вариаций сайтов, вследствие чего при поиске такой матрицей большое количество реальных сайтов не может быть найдено. В таких случаях имеет смысл объединять сайты связывания факторов одного семейства, так как последние часто имеют очень похожую структуру и способ связывания [28]. Кроме того, при недостатке известных сайтов в некоторых случаях можно создавать модели регуляторных элементов, используя информацию о структуре ДНК-белковых взаимодействий. Методы, опирающиеся на информацию такого рода, пока не многочисленны (в основном из-за малого числа расшифрованных структур ДНК-белковых комплексов), однако в последнее время эта область активно развивается [29, 30]. Такие методы позволяют не только предсказать новые регуляторные мотивы [31], но и улучшить качество уже имеющихся PWM [32].

В случае, когда недостаток сайтов восполнить не удается или сайты слишком консервативны, при построении PWM используют искусственный прием размывания матрицы [33]. Для этого часто используются псевдоотсчеты. Простейший вариант псевдоотсчетов - прибавить до нормировки к каждому счетчику нуклеотидов в позиции PWM какую-то величину. Величина псевдоотсчетов обычно выбирается так, чтобы их сумма была пропорциональна , где N - количество последовательностей в выравнивании.

Для оценки качества PWM часто используется энтропийное расстояние (или условное информационное содержание) от фонового распределения частот по формуле Кульбака-Лейбера [34]:

где I - информационное содержание, f (b, j) - наблюдаемая частота нуклеотида b в позиции j, p(b) - фоновая частота нуклеотида b.

1.3 Алгоритмы поиска мотивов

Исторически сложилось, что большинство существующих алгоритмов создано для поиска мотивов в регуляторных област