Инструментальное средство поиска регуляторных мотивов в геномах

Дипломная работа - Компьютеры, программирование

Другие дипломы по предмету Компьютеры, программирование



Инструментальное средство поиска регуляторных мотивов в геномах

Введение

В процессе жизнедеятельности клетки не все гены экспрессируются одновременно. Это достигается за счет регуляции. Понимание механизма регуляции экспрессии генов - важнейшая задача биологии. При изучении регуляции экспрессии на уровне транскрипции важно не только определить белки-регуляторы (транскрипционные факторы), но и участки их связывания с последовательностью ДНК. В настоящее время в открытом доступе находится большое количество секвенированных геномов и данных по экспрессии генов, что позволяет изучать регуляцию путем анализа последовательностей с помощью вычислительных методов. Задача поиска регуляторных мотивов в наборе последовательностей ДНК - классическая задача биоинформатики. К настоящему моменту создано огромное количество алгоритмов поиска мотивов, однако все они имеют свои ограничения, и не существует универсального алгоритма, который решает эту задачу.

Известно, что алгоритмы, комбинирующие различные методы, наиболее эффективны и универсальны. В данной работе мы представляем алгоритм поиска мотивов в последовательностях ДНК, совмещающий словарные техники и методики, использующие скрытые марковские модели (СММ).

Текст работы содержит следующие основные разделы: введение, обзор литературы, материалы и методы, результаты, заключение, выводы и список цитируемой литературы. В литературном обзоре рассматриваются биологические аспекты задачи, а также описывается классификация методов и основные существующие алгоритмы поиска мотивов. В материалах и методах подробно рассказывается об устройстве базового алгоритма и о его модификациях. В результатах описывается тестирование алгоритма на различных данных, а также сравнение его работы с некоторыми другими алгоритмами.

Цель работы

Дополнить разработанный в лаборатории биоинформатики ФББ алгоритм поиска мотивов в нуклеотидных последовательностях возможностью идентификации мотивов сложной структуры с вариабельным спейсером; реализовать эту модификацию на языке программирования высокого уровня; разработать графический интерфейс и веб-ресурс для обеспечения открытого доступа к алгоритму и удобного просмотра результатов.

Задачи

1.На основе существующего алгоритма поиска непалиндромных мотивов определенной длины в последовательностях требуется создать алгоритмы поиска мотивов с более сложной структурой:

a.Палиндром

b.Повтор

c.Инвертированный повтор.

2.Построить схемы скрытых марковских моделей (СММ) для поиска мотивов с более сложной структурой.

3.Реализовать алгоритм с помощью языка программирования Java.

.Протестировать алгоритм на искусственных и реальных данных и сравнить с другими алгоритмами поиска мотивов.

Разработать графический интерфейс и веб-ресурс для обеспечения открытого доступа к алгоритму и удобного просмотра результатов.

1. Обзор литературы

.1 Транскрипционные факторы

.1.1 Общие сведения

Инициация транскрипции - сложный процесс, эффективность которого зависит от того, как устроена последовательность ДНК непосредственно вблизи начала транскрибируемой области (а у эукариот также и в более далеких участках генома - энхансерах и сайленсерах), а также от наличия или отсутствия различных белковых транскрипционных факторов [1].

Факторы транскрипции - белки, которые регулируют транскрипцию путем связывания со специфичными участками ДНК - сайтами связывания. Транскрипционные факторы выполняют свою функцию самостоятельно либо в комплексе с другими белками. Различают репрессорные и активирующие транскрипционные факторы, которые соответственно снижают или повышают константу связывания РНК-полимеразы с регуляторными последовательностями экспрессируемого гена [2].

Определяющая черта факторов транскрипции - наличие в их составе одного или более ДНК-связывающих доменов, которые взаимодействуют с характерными участками ДНК, расположенными в регуляторных областях генов.

Транскрипционные факторы бывают конститутивные (всегда активные в клетке) и активируемые (активны только в определенных условиях). Активируемые в свою очередь разделяют на тканеспецифические (участвуют в развитии организма) и сигнал-зависимые, или рецепторы (требуют внешнего сигнала для активации).

Для функционирования транскрипционных факторов чаще всего необходимо формирование гетеродимерного или гомодимерного комплекса. Например, гетеродимерные комплексы различных ядерных рецепторов с ретиноидным Х рецептором (RXR). Существуют также и гомодимерные комплексы RXR (рис. 1) [3].

Рис. 1. Пример гетеродимера RXR/TR и гомодимера RXR

Образование димеров выгодно, так как за счет способа связывания димера с ДНК и некоторых других особенностей повышается специфичность факторов. К тому же, существуют такие транскрипционные факторы, например ядерный рецептор RXR, для которых количество сайтов связывания больше, чем для многих других, и это помогает поиску сайта с максимальным сродством [4].

В зависимости от того, как части димера расположены друг относительно друга, сайт связывания такого димера с ДНК может представлять собой палиндром, прямой повтор или инвертированный повтор (Таблица 1) [5, 6].

Таблица 1. Типы структур сайтов связывани