«применение информационных технологий в биохимических исследованиях»

Вид материалаРеферат

Содержание


Обзор литературы 9
Обсуждение результатов 37
Действующий личный сайт в www 47
Перечень сокращений к выпускной работе
Реферат на тему «применение информационных технологий в биохимических исследованиях»
Перечень сокращений к выпускной работе 5
Обзор литературы 9
Обсуждение результатов 37
Действующий личный сайт в www 47
Обзор литературы
Thermus aquaticus
MView позволяет превратить «множественные выровненные» последовательности в «разукрашенные» выходные данные в формате HTML; PHD
Рисунок 6. Правильно заполненная форма запроса.
Рисунок 7. Результаты построения пространственных структур для белков CASP-5 с помощью программы ROSETTA
Рисунок 8. Результаты, полученные при использовании сервера ROBETTA для предсказания структуры белка.
A), внизу экрана располагаются непосредственно смоделированные трехмерные белковые структуры (в данном случае первые 6 из 10 пре
Обсуждение результатов
Список литературы к реферату
Предметный указатель к реферату
Psipred 15, 16, 37, 40
...
Полное содержание
Подобный материал:
  1   2   3



БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ


Выпускная работа по
«Основам информационных технологий»



Магистрантки

биологического факультета

кафедры биохимии

Долгодилиной Елены Викторовны

Руководители:

доцент Кукулянская Татьяна Александровна старший преподаватель

Шешко Сергей Михайлович


Минск – 2009 г

ОГЛАВЛЕНИЕ

ОГЛАВЛЕНИЕ 3

ПЕРЕЧЕНЬ СОКРАЩЕНИЙ К ВЫПУСКНОЙ РАБОТЕ 5

РЕФЕРАТ НА ТЕМУ «ПРИМЕНЕНИЕ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В БИОХИМИЧЕСКИХ ИССЛЕДОВАНИЯХ» 6

ОГЛАВЛЕНИЕ 6

ВВЕДЕНИЕ 7

ОБЗОР ЛИТЕРАТУРЫ 9

1. Особенности структурной организации белков 9

2. Принципы предсказания и моделирования белковых структур 13

2.1 Предсказание вторичной структуры 14

2.2 Моделирование по гомологии 21

1. Автоматическое моделирование подходит в тех случаях, когда имеется достаточно высокая степень сходства между исследуемым белком и белком, выступающим в роли матрицы (образца для сравнения). Как правило, если целевой белок и матрица имеют более 50 % идентичности в последовательностях, то автоматические «выравнивания» последовательностей являются достаточно надежными [12]. 23

2.3 Распознавание фолда 29

1. Белковые структуры, хорошо соответствующие собственным профилям на родственных белках, дают высокий вес сопоставления самих структур этих белков между собой. Профиль является абстрактным свойством семейства, а не только индивидуально белка. 31

2. Когда родственная последовательность плохо соответствует профилю, полученному из экспериментальной структуры этой последовательности, то, по-видимому, в структуре есть ошибка. Позиции, где профиль не соответствует последовательности, могут указывать на область, где находится ошибка [1]. 31

1. Метод для оценки моделей, позволяющий выбрать одну. 32

2. Метод калибровки весов, чтобы можно было понять, на сколько выбранная модель хороша [1]. 32

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ 37

ЗАКЛЮЧЕНИЕ 39

СПИСОК ЛИТЕРАТУРЫ К РЕФЕРАТУ 39

ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ К РЕФЕРАТУ 41

ИНТЕРНЕТ-РЕСУРСЫ В ПРЕДМЕТНОЙ ОБЛАСТИ 42

ДЕЙСТВУЮЩИЙ ЛИЧНЫЙ САЙТ В WWW 47

ГРАФ (КРУГ) НАУЧНЫХ ИНТЕРЕСОВ 48

ПРЕЗЕНТАЦИЯ МАГИСТЕРСКОЙ ДИССЕРТАЦИИ 49

СПИСОК ЛИТЕРАТУРЫ К ВЫПУСКНОЙ РАБОТЕ 52

ПРИЛОЖЕНИЕ 54

1. Как обозначается селектор класса? 54

2. Какая программа предназначена для обработки изображений гелей, фото планшеток, результатов блоттинга ? 54


ПЕРЕЧЕНЬ СОКРАЩЕНИЙ К ВЫПУСКНОЙ РАБОТЕ


CASP

Critical Assessment of Structure Prediction - критическая оценка структурного прогноза)

ЕVА

EVAluation of automatic protein structure prediction servers (серверы по оценки автоматически предсказанных белковых структур)

ExPDB

SWISS MODEL Template library (библиотека матриц SWISS MODEL)

ID PDB

Идентификационный номер в PDB

ID(id)

Идентификационный номер

ID Chain

Идентификационный номер цепи

NMR

Nuclear magnetic resonance

PDB

Protein Data Base (база данных белков)

РЕФЕРАТ НА ТЕМУ «ПРИМЕНЕНИЕ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В БИОХИМИЧЕСКИХ ИССЛЕДОВАНИЯХ»

ОГЛАВЛЕНИЕ

ОГЛАВЛЕНИЕ 3

ПЕРЕЧЕНЬ СОКРАЩЕНИЙ К ВЫПУСКНОЙ РАБОТЕ 5

РЕФЕРАТ НА ТЕМУ «ПРИМЕНЕНИЕ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В БИОХИМИЧЕСКИХ ИССЛЕДОВАНИЯХ» 6

ОГЛАВЛЕНИЕ 6

ВВЕДЕНИЕ 7

ОБЗОР ЛИТЕРАТУРЫ 9

1. Особенности структурной организации белков 9

2. Принципы предсказания и моделирования белковых структур 13

2.1 Предсказание вторичной структуры 14

2.2 Моделирование по гомологии 21

1. Автоматическое моделирование подходит в тех случаях, когда имеется достаточно высокая степень сходства между исследуемым белком и белком, выступающим в роли матрицы (образца для сравнения). Как правило, если целевой белок и матрица имеют более 50 % идентичности в последовательностях, то автоматические «выравнивания» последовательностей являются достаточно надежными [12]. 23

2.3 Распознавание фолда 29

1. Белковые структуры, хорошо соответствующие собственным профилям на родственных белках, дают высокий вес сопоставления самих структур этих белков между собой. Профиль является абстрактным свойством семейства, а не только индивидуально белка. 31

2. Когда родственная последовательность плохо соответствует профилю, полученному из экспериментальной структуры этой последовательности, то, по-видимому, в структуре есть ошибка. Позиции, где профиль не соответствует последовательности, могут указывать на область, где находится ошибка [1]. 31

1. Метод для оценки моделей, позволяющий выбрать одну. 32

2. Метод калибровки весов, чтобы можно было понять, на сколько выбранная модель хороша [1]. 32

ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ 37

ЗАКЛЮЧЕНИЕ 39

СПИСОК ЛИТЕРАТУРЫ К РЕФЕРАТУ 39

ПРЕДМЕТНЫЙ УКАЗАТЕЛЬ К РЕФЕРАТУ 41

ИНТЕРНЕТ-РЕСУРСЫ В ПРЕДМЕТНОЙ ОБЛАСТИ 42

ДЕЙСТВУЮЩИЙ ЛИЧНЫЙ САЙТ В WWW 47

ГРАФ (КРУГ) НАУЧНЫХ ИНТЕРЕСОВ 48

ПРЕЗЕНТАЦИЯ МАГИСТЕРСКОЙ ДИССЕРТАЦИИ 49

СПИСОК ЛИТЕРАТУРЫ К ВЫПУСКНОЙ РАБОТЕ 52

ПРИЛОЖЕНИЕ 54

1. Как обозначается селектор класса? 54

2. Какая программа предназначена для обработки изображений гелей, фото планшеток, результатов блоттинга ? 54


ВВЕДЕНИЕ

Одним из основных объектов исследований в современной биохимии, как и прежде, являются белки. И это неслучайно, поскольку белки выполняют целый ряд важных функций в живых организмах: каталитическую (ферменты); структурную (например, белки цитоскелета, белки межклеточного вещества); защитную (например, белки, участвующие в процессах свёртываемости крови – фибриногены и тромбины, или антитела и белки системы комплимента крови); регуляторную (белки, контролирующие транскрипцию, трансляцию, сплайсинг); сигнальную (например, гормоны, цитокины, факторы роста); транспортную (гемоглобин); запасную (например, белок молока – казеин); информационную (например, фоторецепторы); двигательную (например, динеин, миозин). Белки представляют собой достаточно крупные молекулы. В большинстве случаев лишь малая часть их структуры – функциональный центр – несёт какую-либо функцию, остальная часть существует лишь для того, чтобы создавать и фиксировать пространственные связи между остатками активных центров. Эволюция белков происходит благодаря изменениям в аминокислотной последовательности.

В настоящее время в биохимии, как впрочем, в современной биологии в целом, большое значение приобретают исследования, связанные именно со способностью предсказывать функции не природных, а синтетических белков на основе закономерностей связи между структурой и свойствами белков. Если ранее молекулярные биологи были похожи на астрономов – могли наблюдать объекты получаемые, но не модифицировать их. Сейчас ситуация меняется коренным образом. В лаборатории можно модифицировать нуклеиновые кислоты и белки по желанию, можно изучать их, создавая мутации и наблюдая изменения функций, можно старым белкам придать новые функции, можно пытаться создавать новые белки. Большинство правил о белковой структуре было выведено благодаря наблюдению за природными белками. У природных белков характеристики подчиняются основным принципам физической химии и механизмам белковой эволюции. Синтетические же белки должны подчиняться законам физической химии, но не должны ограничиваться правилами эволюции. Таким образом, происходит становление нового научного направления – белковой инженерии, основной задачей которой является синтез белков с заданными свойствами и функциями на основе обширных накопленных знаний [1].

На данный момент известно более 15000 структур белков. Большинство было получено с помощью методов рентгеновской кристаллографии и ЯМР (NMR). Отсюда пришло понимание отдельных функций индивидуальных белков – например, химическое объяснение каталитической активности ферментов – и главных принципов структурного строения белковых молекул и их формы (укладки белковой цепи) [1].

Целью данной работы является анализ современных информационных технологий, позволяющих предсказать свойства целевых белков на основе особенностей их строения.

Задачи:
  • охарактеризовать подходы, используемые на данном этапе для предсказания структуры белков на основе данных об их аминокислотном составе и некоторых других особенностях строения;
  • рассмотреть программное обеспечение и Internet-серверы, применяемые для моделирования структуры белков;
  • изучить проекты, используемые для сравнения результатов, полученных при применении различного программного обеспечения для предсказания структуры белков;

ОБЗОР ЛИТЕРАТУРЫ

1. Особенности структурной организации белков

Прежде чем перейти непосредственно к рассмотрению программ, предназначенных для предсказания и моделирования белковых структур необходимо остановиться на особенностях структурной организации самих белков.

Выделяют четыре уровня структуры белка:
  • Первичная структура — последовательность аминокислот в полипептидной цепи. Важными особенностями первичной структуры являются консервативные мотивы — сочетания аминокислот, важных для функции белка. Консервативные мотивы сохраняются в процессе эволюции видов, по ним часто удаётся предсказать функцию неизвестного белка [5].
  • Вторичная структура — локальное упорядочивание фрагмента полипептидной цепи, стабилизированное водородными связями и гидрофобными взаимодействиями. Ниже приведены некоторые распространённые типы вторичной структуры белков:
  • α-спирали — плотные витки вокруг длинной оси молекулы, один виток составляют 3,6 аминокислотных остатка, и шаг спирали составляет 0,54 нм (так что на один аминокислотный остаток приходится 0,15 нм), спираль стабилизирована водородными связями между H и O пептидных групп, отстоящих друг от друга на 4 звена. Спираль построена исключительно из одного типа стереоизомеров аминокислот (L). Хотя она может быть как левозакрученной, так и правозакрученной, в белках преобладает правозакрученная. Спираль нарушают электростатические взаимодействия глутаминовой кислоты, лизина, аргинина. Расположенные близко друг к другу остатки аспарагина, серина, треонина и лейцина могут стерически мешать образованию спирали, остатки пролина вызывают изгиб цепи и также нарушают α-спирали.
  • β-листы (складчатые слои) — несколько зигзагообразных полипептидных цепей, в которых водородные связи образуются между относительно удалёнными друг от друга (0,347 нм на аминокислотный остаток) в первичной структуре аминокислотами или разными цепями белка, а не близко расположенными, как имеет место в α-спирали. Эти цепи обычно направлены N-концами в противоположные стороны (антипараллельная ориентация). Для образования β-листов важны небольшие размеры боковых групп аминокислот, преобладают обычно глицин и аланин [5].
  • π-спирали;
  • 310-спирали;
  • неупорядоченные фрагменты;
  • Третичная структура — пространственное строение полипептидной цепи; взаимное расположение элементов вторичной структуры, стабилизированное различными типами взаимодействий. В стабилизации третичной структуры принимают участие:
  • ковалентные связи (между двумя остатками цистеина — дисульфидные мостики);
  • ионные связи между противоположно заряженными боковыми группами аминокислотных остатков;
  • водородные связи;
  • гидрофильно-гидрофобные взаимодействия; при взаимодействии с окружающими молекулами воды белковая молекула "стремится" свернуться так, чтобы неполярные боковые группы аминокислот оказались изолированы от водного раствора, а на поверхности молекулы оказываются полярные гидрофильные боковые группы. Белки разделяют на группы согласно их трёхмерной структуре. Большинство белков относятся к глобулярным: общая форма из молекулы более или менее сферическая. Меньшая часть белков относится к фибриллярным: их молекулы (обычно и надмолекулярные комплексы) в работающем состоянии представляют собой сильно вытянутые волокна. К фибриллярным белкам относятся, например, кератин и коллаген. Среди глобулярных и фибриллярных белков выделяют подгруппы. Например, глобулярный белок триозофосфатизомераза, состоит из восьми α-спиралей, расположенных на внешней поверхности структуры и восьми параллельных β-слоёв внутри структуры. Белки с подобным трёхмерным строением называются αβ-баррелами (от англ. barrel — бочка) [5].
  • Четверичная структура — взаимное расположение нескольких полипептидных цепей в составе единого белкового комплекса. Белковые молекулы, входящие в состав белка с четвертичной структурой, образуются на рибосомах по отдельности и лишь после окончания синтеза образуют общую надмолекулярную структуру (можно считать её и молекулой, если между разными полипептидными цепями, как это нередко бывает, образуются дисульфидные мостики). В состав белка с четвертичной структурой могут входить как идентичные, так и различающиеся полипептидные цепочки. В стабилизации четвертичной структуры принимают участие те же типы взаимодействий, что и в стабилизации третичной [1, 5].

Надмолекулярные белковые комплексы могут состоять из десятков молекул, многие из них сравнимы по размеру с рибосомами и в последние годы часто описываются как органоиды (например, протеасома). Нередко в их состав входят молекулы РНК (например, сплайсосома) [1].

Было доказано, что помимо четырех уровней структурной организации, приведённых выше, удобно использовать и следующие дополнительные уровни:
  • Супервторичные структуры. В белках показана повторяемость взаимодействий между листами и спиралями; супервторичные структуры включают α- спиральные шпильки, β-шпильки и β-α-β-единицу [1].
  • Домены. Многие белки включают несколько компактных единиц в одной цепи, которые могут существовать независимо стабильно. Они называются доменами. В иерархии структур, домены располагаются между супервторичными и третичными структурами белка [1].
  • Модульные белки – многодоменные белки, которые часто содержат много копий близкородственных доменов. Эти домены появляются в различных структурных контекстах, так что различные модульные белки представляют собой мозаику таких доменов [1, 5].

Таким образом, на данный момент уже известны многие, хотя и не все возможные способы укладки белков с известной структурой. Среди белков со сходной укладкой представлены семейства, имеющие достаточно большое количество деталей структур, последовательностей и функций, обусловленное эволюционными взаимоотношениями. Однако и неродственные белки зачастую имеют похожие способы укладки. И именно классификация белковых структур, занимающая одно из центральных мест в современной биоинформатике, является своеобразным мостом между последовательностью и функцией данных макромолекул.

2. Принципы предсказания и моделирования белковых структур

Наблюдение, что каждый белок сворачивается спонтанно в уникальную трехмерную нативную конформацию, приводит к мысли, что Природа имеет некий алгоритм для предсказания пространственной структуры белка из аминокислотной последовательности. Предпринимались некоторые попытки понять этот алгоритм с целью создания эффективной компьютерной программы, которая была бы направлена на решение указанной выше весьма важной и одновременно сложной проблемы [1].

Одни из этих попыток основывались на общих физических принципах. В данном случае реализовывалась попытка воспроизвести межатомные взаимодействия в белках, чтобы вычислить энергию каждой конформации. С вычислительной точки зрения проблема предсказания структуры белка сводится к поиску глобального минимума конформационной энергии. Это подход до сих пор не привел к успеху отчасти потому, что методы минимизации находят локальные минимумы [1,5].

Другие попытки для решения фундаментальной проблемы - предсказания структуры белков по его аминокислотной последовательности - были основаны на упрощениях задачи путем выделения существенных особенностей [1]:
  • Предсказание вторичной структуры белка без укладки ее в про­странственную структуру. В результате получается список сегментов аминокислотной последовательности, для которых предсказано, что они формируют α-спирали или тяжи β-листов.
  • Распознавание фолда: в данной библиотеке известных структур определить, какие из них могут быть наиболее похожими на структуру но­вого белка. Если белок не соответствует ни одному из фолдов библиотеки, то метод также должен это распознать. Результатом является отнесение нашего белка к одному из известных фолдов или утверждение, что такого фолда в библиотеке нет.
  • Моделирование по гомологии: предсказание трехмерной структуры белка на основе известной структуры одного или нескольких гомологичных белков. В результате получается полный список всех координат всех атомов, как главной цепи, так и боковых радикалов. Полнота и качество результатов зависят, прежде всего, от схожести последовательностей. Считается, что если последовательности двух родственных белков имеют 50% или более идентичных остатков в «выравнивании», то они, вероятно, обладают аналогичной конформацией пространственной структуры с вероятностью не менее, чем 90%. Этот метод оказывается весьма продуктивным, а точность предска­зания сравнима с экспериментальной структурой, полученной методами малого разрешения.
  • Предсказание новых фолдов, в том числе и с помощью априорных методов, основанных на знании. В результате получается полный набор координат атомов как минимум для основной цепи и, иногда, для боковых цепей. Модель стремится предсказать способ укладки, но при этом не ожидается, что ее предсказание количественно сравнимо с экспериментальными результатами. Д. Джонс (D. Jones) сравнил различие между априорным моделированием и распознаванием фолда с различием между сочинением и тестированием - выбором ответов из заданного списка на экзамене.

2.1 Предсказание вторичной структуры

Кажется очевидным, что вторичную структуру легче предсказать, чем третичную, и что наиболее точный способ предсказания третичной структуры состоит в нахождении спиралей и листов, с последующим объединением их в фолд (укладку). Независимо от того, верны эти предположения или нет, многие доверяют и следуют им. По аминокислотной последовательности белка с неизвестной структурой делаются предсказания вторичной структуры — отнесение участков последовательности к спиралям или тяжам листов [1].

Так с помощью программы PROF (В. Rost) были достигнуты хорошие результаты в предсказании структуры домена белка репарации MutS из Thermus aquaticus. Для оценки качества предсказания аминокислотные остатки экспе­риментально расшифрованной трехмерной структуры были отнесены к трем категориям (спираль = Н, тяж = Е и другие не были обозначены никакими буквами). Процент остатков, предсказанных правильно, был обозначен как QЗ. Для предсказания Б. Роста величина QЗ составила 81% [1, 7].





Рисунок 1. Результаты предсказания вторичной структуры белка репарации MutS из Thermus aquaticus с использованием программы PROF с сервера РredictProtein.

AA – target protein (целевой белок); Н – спираль (helix), Е – тяжи (strand), отсутствие букв - иная структура.


Аналогичные результаты были получены для этого же белка и с помощью программы PSIPRED [8].




Рисунок 2. Результаты предсказания вторичной структуры белка репарации MutS из Thermus aquaticus с использованием программы PSIPRED с сервера РredictProtein.



AA – target protein (целевой белок), Н – спираль (helix), Е – тяжи (strand), С – иная структура (coiled structure)


Как было установлено позднее при сравнении полученных результатов с экспериментальной структурой, за исключением короткой З10-спирали и незначительных расхождений в позициях начала и конца, элементы вторичной структуры были предсказаны правильно. (Иные схемы оценки, которые осуществляют проверку участков совпадения, менее чувствительны к концевым эффектам.) Качество этого результата очень высоко, но такой результат не редкость. В настоящее время РROF работает в среднем с точностью Q3≈77% [1].

Другие методы предсказания вторичной структуры работают также сравни­тельно хорошо. Наиболее мощные методы предсказания вторичной структуры основаны на нейронных сетях. Нейронные сети — это класс общих вычислительных структур, которые моделируют анатомию и физиологию биологических нервных систем. Они с успехом применяются к широкому спектру задач распознавания образов, классификации и задачам принятия решений [1].

Тип нейронной сети, которая может быть применена к распознаванию вторичной структуры, показан на рисунке 3.