Инструментальное средство поиска регуляторных мотивов в геномах
Дипломная работа - Компьютеры, программирование
Другие дипломы по предмету Компьютеры, программирование
симальная длина спейсера, длина искомого сайта, количество допустимых замен между плечами сайта, порог на вес итоговых сайтов, количество генераций случайных последовательностей для расчета фонового распределения, требование о том, что каждый сайт должен иметь хотя бы одну букву C или G, и возможность маскировать области низкой сложности.
Рис. 15. Страница формы
На странице результатов (рис. 16) отображена необходимая информация о мотиве: информационное содержание соответствующей PWM, logo, полученное на ее основе, и список найденных сайтов.
Рис. 16. Страница результатов
3. Результаты
.1 Тестирование на сгенерированных данных
Первый тест состоял из выборок, содержащих 5, 15, 25 или 50 последовательностей, в каждой из которых содержался ровно один искомый сайт. Выборки варьировались по количеству допустимых замен между плечами сайта (от 0 до 3). Для каждого случая было сгенерировано 10 тестовых файлов. Тестирование было проведено для сайтов со структурами типа прямой и инвертированный повтор с вариабельным спейсером.
На рисунке 17 показана доля найденных сайтов в зависимости от количества последовательностей в выборке и уровня допустимых замен. Для случаев прямого и инвертированного повтора гистограммы практически идентичны, поэтому представлена только одна из них. В целом, гистограмма отражает высокую эффективность работы алгоритма на выборках любого объема.
Рис. 17. Результаты тестирования алгоритма на выборках разной. Здесь по оси абiисс отложено количество последовательностей, по оси ординат - средняя по 10 экспериментам доля верно найденных сайтов. Mism - количество допустимых замен между плечами искомых сайтов в начальных данных
Также в процессе данного тестирования было оценено время работы алгоритма (Таблица 2). Технические характеристики компьютера, на котором производилось тестирование: процессор Intel CoreтДв Duo 2.0 ГГц, 3Гб оперативной памяти.
Таблица 2. Время работы алгоритма на выборках разного объема
Величина выборкиВремя работы алгоритма5 последовательностей10-15 сек.15 последовательностей<1 мин.25 последовательностей1-2 мин.50 последовательностей5-6 мин.100 последовательностейОколо 40 мин.200 последовательностейБолее 2 ч.
Во втором тесте оценивалась чувствительность алгоритма относительно количества сайтов в каждой из исходных последовательностей. Начальные выборки состояли из 15 последовательностей длиной 200 нуклеотидов и варьировались по количеству сайтов в каждой последовательности и уровню допустимых замен между плечами сайта. Первая серия выборок содержала по два искомых сайта в каждой последовательности, вторая - по одному, а каждая следующая - на два сайта меньше, чем предыдущая. Каждая серия состояла из 10 сгенерированных выборок
Результаты тестирования (рис. 18 и рис. 19) показали прямую зависимость средней доли найденных сайтов от количества сайтов в последовательности: чем больше сайтов в среднем приходится на последовательность, тем выше доля найденных сайтов.
Рис. 18. Чувствительность алгоритма в зависимости от процентного содержания сайтов в последовательности при поиске прямых повторов. По оси абiисс - доля сайтов в последовательности в процентах. По оси ординат - средняя доля верно найденных сайтов. Mism - количество допустимых замен между плечами искомого сайта
Рис. 19. Чувствительность алгоритма в зависимости от процентного содержания сайтов в последовательности при поиске инвертированных повторов. По оси абiисс - доля сайтов в последовательности в процентах. По оси ординат - средняя доля верно найденных сайтов. Mism - количество допустимых замен между плечами искомого сайта
Тестирование показало высокую эффективность алгоритма. В случае прямых повторов доля найденных сайтов снижается постепенно при уменьшении их количества в последовательности. При этом доля верно найденных сайтов держится выше 0.8 вплоть до 40% сайтов в последовательности. В случае же инвертированных повторов доля найденных сайтов практически равна 1 вплоть до 60% сайтов в последовательности, а затем эффективность резко падает. Такая разница для прямых и инвертированных повторов обусловлена особенностями СММ. Предположим, что в последовательности до или после искомого сайта есть подпоследовательность, похожая на одно из плеч сайта. В таком случае при поиске сайтов типа прямой повтор существует возможность по случайным причинам выбрать сайт, имеющий в качестве одного плеча плечо искомого сайта, а в качестве второго - случайную последовательность. При поиске сайтов типа инвертированный повтор такое невозможно, так как плечи сайта имеют не идентичную, а обратно комплементарную последовательность, и для СММ это будет совершенно другой сайт.
3.2. Тестирование на реальных данных
Алгоритм был применен для поиска сайтов связывания двух транскрипционных факторов в геномах рода Shewanella - MetJ и BirA. Метиониновый репрессор MetJ уменьшает экспрессию метионинового регулона и белков, вовлеченных в синтез S-аденозилметионина. Сайт связывания представляет собой прямой повтор с плечом дины 8 без спейсера. Выборка содержит 62 последовательности длиной около 250 нуклеотидов. Биотиновая голоэнзимная синтетаза, кодируемая геном BirA, отвечает за репрессию биотинового оперона, адсорбцию биотина и удержание его внутри клетки. Сайт связывания представляет собой инвертированный повтор с плечом дины 8 и спейсер