Правила симметрии в записи информации в ДНК международный проект "Геном человека" 1990-2003 г г
Вид материала | Документы |
- Н. К. Янковский Тема лекции: «Геном человека: наука и жизнь», 17.62kb.
- Роль вирусов в жизни человека, 476.23kb.
- Определение: генетический код это система записи информации о последовательности расположения, 51.8kb.
- И. Э. Лалаянц геном человека, 126.67kb.
- Лекция «Генная инженерия», 240.12kb.
- Пупов Данил Владимирович Раздел Введение. Строение молекулы ДНК. История доказательства, 86.42kb.
- Реферат на тему : «Многообразие симметрии в жизни», 122.91kb.
- Репарация ДНК (Часть, 391.42kb.
- Днк наномеханические роботы и вычислительные устройства, 1331.95kb.
- «Кошки и гены», 784.32kb.
ПРАВИЛА СИММЕТРИИ В ЗАПИСИ ИНФОРМАЦИИ В ДНК
Международный проект “Геном человека” – 1990-2003 г.г.
(6 млрд.$). Стартовал проект ENCODE (энциклопедия кодирующих элементов генома). Геном человека состоит из 3-х млрд. пар оснований. Фрагмент записи последовательности (1 млн. страниц текста).
CCTCATTTAGCTCTAGCCCAGTAGAACCACGGCAGAGACTCCCAACA
В ДНК содержится примерно 20-25 тысяч генов, около половины ДНК – многократно повторяющиеся последовательности, кодирующие участки (экзоны) – 2%, интроны – 23%, 75% - межгенная ДНК.
![]() |
Рис. 1. Cпираль Уотсона-Крика |
Исследовались геномы: человека, шимпанзе, мыши, крысы, курицы, рыбы Tetraodon, растения Arabidopsis, C.elegans, дрожжей,
60 бактерий, 30 вирусов.
1. Противоположная полярность цепей ДНК. Запись и считывание оснований на первой нити выполняется слева направо в направлении




Рис. 2. Условная запись двух нитей хромосомы (модель Уотсона-Крика)
Симметрия оснований. На одной нити ДНК выполняются соотношения
n(A) = n (T), n(C) = n(G). (1)
n(i, 1 н.)= n(i, 2 н.),

Вывод: веса двух нитей совпадают.
Симметрия пар оснований из соотношений
n(AC) = n(GT), n(AG) = n(CT)
n(TC) = n(GA), n(TC) = n(CA) (3)
n(AA) = n(TT), n(CC) = n(GG),
или в виде формулы






Пары AT, TA, CG и GC отсутствуют в (3), поскольку они приводят к тавтологии.
n(ij, 1 н.)= n(ij, 2 н.). (5)
Таблица 1
Геном человека
Пары букв | Хромосома 1 | Хромосома 3 | Хромосома 6 | Хромосома 10 | Хромосома 18 |
AA | 21 191 409 | 19 746 023 | 17 083 089 | 12 607 303 | 7 553 856 |
TT | 21 245 312 | 19 772 366 | 17 080 492 | 12 628 305 | 7 560 778 |
AC | 11 189 673 | 9 791 735 | 8 417 550 | 6 641 892 | 3 762 190 |
GT | 11 209 763 | 9 798 222 | 8 411 037 | 6 651 425 | 3 776 890 |
AG | 15 878 823 | 13 482 539 | 11 543 173 | 9 275 834 | 5 136 579 |
CT | 15 904 404 | 13 478 613 | 11 532 563 | 9 286 062 | 5 138 944 |
CA | 16 200 299 | 13 972 734 | 11 983 646 | 9 656 789 | 5 382 301 |
TG | 16 226 750 | 13 970 283 | 11 984 196 | 9 667 666 | 5 401993 |
CC | 12 132 633 | 9 518 322 | 8 128 472 | 7 073 095 | 3 640 163 |
GG | 12 121 539 | 9 520 091 | 8 140 958 | 7 062 604 | 3 647 384 |
GA | 13 313 713 | 11 472 583 | 9 879 809 | 7 851 856 | 4 411 285 |
TC | 13 322 934 | 11 477 596 | 9 862 177 | 7 860 740 | 4 408 666 |
AT | 16 615 348 | 15 646 889 | 13 495 077 | 9 896 788 | 6 012 563 |
TA | 14 169 829 | 13 466 193 | 11 592 344 | 8 305 870 | 5 117 737 |
CG | 2 256 627 | 1 620 941 | 1 473 327 | 1 353 534 | 677 210 |
GC | 9 838 754 | 7 836 943 | 6 709 818 | 5 793 769 | 3 027 601 |
Для любой последовательности без пропусков букв с точностью до единицы выполняются соотношения

= n(iA) + n(iC) + n(iG) + n(iT), (6)
где

Для пар AT, TA получаем связывающее ограничение
n(CA) + n(GA) + n(TA) = n(AC) + n(AG) + n(AT). (7)
Для пар CG и GC – соотношение
n(AC) + n(GC) + n(TC) = n(CA) + n(CG) + n(CT). (8)
Утверждение 1. Из симметрии пар оснований вытекает симметрия оснований.
Симметрия троек оснований. Кодоны (тройки оснований) связаны следующими соотношениями:

где







Таблица 2
Количество кодонов в хромосоме 6 генома человека | |||||||
кодон | число | кодон | число | кодон | число | кодон | число |
AAA | 6 742 017 | TTT | 6 744 661 | CAG | 3 216 761 | CTG | 3 217 346 |
AAC | 2 509 339 | GTT | 2 507 886 | CCA | 2 932 409 | TGG | 2 932 367 |
AAG | 3 412 539 | CTT | 3 407 422 | CCC | 1 980 135 | GGG | 1 986 846 |
AAT | 4 419 198 | ATT | 4 420 523 | CCG | 394 680 | CGG | 396 760 |
ACA | 3 417 383 | TGT | 3 417 331 | CGA | 341 096 | TCG | 340 572 |
ACC | 1 872 766 | GGT | 1 869 465 | CGC | 345 302 | GCG | 346 653 |
ACG | 391 422 | GGT | 390 169 | CTA | 2 226 977 | TAG | 2 227 635 |
ACT | 2 735 979 | AGT | 2 734 072 | CTC | 2 680 818 | GAG | 2 686 241 |
AGA | 3 741 389 | TCT | 3 735 896 | GAA | 3 394 901 | TTC | 3 388 807 |
AGC | 2 242 727 | GCT | 2 239 440 | GAC | 1 533 503 | GTC | 1 532 047 |
AGG | 2 824 985 | CCT | 2 821 248 | GCA | 2 330 699 | TGC | 2 327 157 |
ATA | 3 684 661 | TAT | 3 682 369 | GCC | 1 793 026 | GGC | 1 794 632 |
ATC | 2 260 505 | GAT | 2 265 164 | GGA | 2 490 014 | TCC | 2 482 545 |
ATG | 3 129 388 | CAT | 3 128 346 | GTA | 1 962 626 | TAC | 1 966 011 |
CAA | 3 229 842 | TTG | 3 228 944 | TAA | 3 716 329 | TTA | 3 718 080 |
CAC | 2 408 697 | GTG | 2 408 478 | TCA | 3 303 155 | TGA | 3 307 301 |
Для шести пар (3)

n(AAC) + n(AAG) + n(AAT) = n(CAA) + n(GAA) + n(TAA), (11)
n(ACA)+n(ACC)+n(ACG)+n(ACT)=n(AAC)+n(CAC)+n(GAC)+ n(TAC), (12)
n(AGA)+n(AGC)+n(AGG)+n(AGT)=n(AAG)+n(CAC)+n(GAC)+ n(TAC), (13)
n(CAA)+n(CAC)+n(CAG)+n(CAT)=n(ACA)+n(CCA)+n(GCA)+ n(TCA), (14)
n(CCA) + n(CCG) + n(CCT) = n(ACC) + n(GCC) + n(TCC), (15)
n(GAA)+n(GAC)+n(GAG)+n(GAT)=n(AGA)+n(CGA)+n(GGA)+ n(TGA), (16)
Утверждение 2. Из симметрии троек оснований вытекает симметрия пар оснований.
Из симметрии последовательностей оснований по индукции вытекает симметрия коротких последовательностей.
Поскольку симметрия в записи оснований по нитям в ДНК обнаружена эмпирически и в настоящее время не существует объяснения этого феномена в природе, то важно найти такую модель, которая будет подтверждать симметрию последовательностей оснований на основе симметрии коротких последовательностей.
Утверждение 3. Для модели однородной цепи Маркова симметрия троек оснований вытекает из симметрии оснований и симметрии пар оснований.
Для однородной цепи Маркова оценки вероятностей троек оснований




где



Симметрия для последовательностей оснований подтверждается для модели однородной цепи Маркова и вытекает из симметрии пар оснований.
Утверждение 4. Оценка вероятности последовательности



2. Одинаковая полярность цепей ДНК. Симметрия оснований




Рис 3. Одинаковая полярность нитей ДНК
Поэтому из симметрии оснований нельзя вывести симметрию пар оснований.
Симметрия пар оснований


n(AA)= n(TT), n(CC)= n(GG),
n(AC)= n(TG), n(CA) = n(GT), (18)
n(AG)= n(TC), n(CG) = n(GC),
n(AT)= n(TA), n(CT) = n(GA),
или в виде


Для симметрии (19) два ограничения (7), (8) с учетом (19) трансформируются в одно ограничение
n(CA) + n(GA) = n(AC) + n(AG) . (20)
Симметрия троек оснований



Для симметрии (21) к шести ограничениям (11)–(16) добавляются два ограничения
n(ATC) + n(ATG) + n(ATT) = n(AAT) + n(CAT) + n(GAT), (22)
n(CGA) + n(CGC) + n(CGT) = n(ACG) + n(CCG) + n(TCG). (23)
Для симметрии с одинаковой полярностью нитей ДНК справедливы рассмотренные выше утверждения 1–3.
Для однородной цепи Маркова оценки вероятностей троек оснований




Утверждение 4 записывается следующим образом.
Утверждение




Симметрия вида





Поэтому у ДНК с противоположной полярностью нитей больше степеней свободы, чем у ДНК с одинаковой полярностью, т.е. с точки зрения теории информации модель Уотсона-Крика более эффективна.
3. Генерация случайных последовательностей с симметриями обеих видов. С помощью модели цепей Маркова можно легко сгенерировать случайную последовательность, для которой будет выполняться симметрия вида

Первое основание | Второе основание | |||
A | C | G | T | |
A | 0,3266 | 0,1725 | 0,2448 | 0,2561 |
C | 0,3484 | 0,2610 | 0,0485 | 0,3421 |
G | 0,2864 | 0,2117 | 0,2608 | 0,2412 |
T | 0,2181 | 0,2051 | 0,2498 | 0,3270 |
Таблица 1: Переходные вероятности в цепочках оснований
ijk | ![]() | n(ijk) | ![]() | | ijk | ![]() | n(ijk) | ![]() | |
aaa | ttt | 6931319 | 6953141 | 0,31% | cag | ctg | 3968104 | 3971877 | 0,09% |
aac | gtt | 3659367 | 3667685 | 0,23% | cca | tgg | 4231496 | 4232443 | 0,02% |
aag | ctt | 5196124 | 5202925 | 0,13% | ccc | ggg | 3166451 | 3163597 | 0,09% |
aat | att | 5430603 | 5437075 | 0,12% | ccg | cgg | 588979 | 587592 | 0,24% |
aca | tgt | 3906403 | 3915530 | 0,23% | cga | tcg | 647493 | 646673 | 0,13% |
acc | ggt | 2921470 | 2925418 | 0,13% | cgc | gcg | 478028 | 477042 | 0,21% |
acg | cgt | 543435 | 543016 | 0,08% | cta | tag | 3472066 | 3470901 | 0,03% |
act | agt | 3830137 | 3833597 | 0,09% | ctc | gag | 3261613 | 3263830 | 0,07% |
aga | tct | 4554218 | 4560669 | 0,14% | gaa | ttc | 4353459 | 4362550 | 0,21% |
agc | gct | 3365393 | 3365564 | 0,01% | gac | gtc | 2298885 | 2301870 | 0,13% |
agg | cct | 4145751 | 4152111 | 0,15% | gca | tgc | 3432455 | 3435791 | 0,10% |
ata | tat | 3627798 | 3630628 | 0,08% | gcc | ggc | 2570998 | 2566847 | 0,16% |
atc | gat | 3408799 | 3411769 | 0,09% | gga | tcc | 3473521 | 3480118 | 0,19% |
atg | cat | 4152825 | 4153497 | 0,02% | gta | tac | 2447121 | 2445778 | 0,05% |
caa | ttg | 5298710 | 5310889 | 0,23% | taa | tta | 4633924 | 4634246 | 0,01% |
cac | gtg | 2797415 | 2800885 | 0,12% | tca | tga | 4647372 | 4652712 | 0,11% |
Таблица 2: Статистика по тройкам оснований для цепочек длины 223106 оснований
Количество оснований | Минимальное отклонение ![]() | Максимальное отклонение ![]() | Среднее отклонение ![]() |
20000 | 0,13% | 10,39% | 2,86% |
50000 | 0,03% | 2,86% | 1,14% |
200000 | 0,05% | 2,27% | 0,81% |
106 | 0,02% | 0,91% | 0,29% |
5106 | 0,01% | 0,40% | 0,18% |
223106 | 5,110-3% | 0,31% | 0,13% |
Таблица 3: Статистка по относительной разности числа комплементарных оснований
Первое основание | Второе основание | |||
A | C | G | T | |
A | 0,3266 | 0,1725 | 0,2448 | 0,2561 |
C | 0,3689 | 0,2763 | 0,0514 | 0,3034 |
G | 0,3031 | 0,0514 | 0,2760 | 0,3695 |
T | 0,2557 | 0,2448 | 0,1725 | 0,3270 |
Таблица 4: Новые переходные вероятности в цепочках оснований
ijk | ![]() | n(ijk) | ![]() | | ijk | ![]() | n(ijk) | ![]() | |
aaa | ttt | 7341532 | 7359207 | 0,24% | caa | gtt | 5149990 | 5154109 | 0,08% |
aac | ttg | 3875183 | 3882096 | 0,18% | cac | gtg | 2720083 | 2720158 | 0,00% |
aag | ttc | 5502305 | 5511508 | 0,17% | cag | gtc | 3856752 | 3859271 | 0,07% |
aat | tta | 5752239 | 5752431 | 0,00% | cat | gta | 4034677 | 4036244 | 0,04% |
aca | tgt | 4379729 | 4386669 | 0,16% | cca | ggt | 4354970 | 4352330 | 0,06% |
acc | tgg | 3275634 | 3274232 | 0,04% | ccc | ggg | 3259661 | 3253668 | 0,18% |
acg | tgc | 609760 | 611086 | 0,22% | ccg | ggc | 605309 | 603964 | 0,22% |
act | tga | 3597609 | 3602725 | 0,14% | cct | gga | 3575644 | 3569488 | 0,17% |
aga | tct | 5104466 | 5112922 | 0,17% | cga | gct | 665943 | 664977 | 0,15% |
agc | tcg | 865613 | 865745 | 0,02% | cgc | gcg | 112966 | 112580 | 0,34% |
agg | tcc | 4647487 | 4654703 | 0,16% | cgg | gcc | 604063 | 605586 | 0,25% |
agt | tca | 6220361 | 6216317 | 0,07% | cgt | gca | 810422 | 810486 | 0,01% |
ata | tat | 4503685 | 4506729 | 0,07% | cta | gat | 3311569 | 3313749 | 0,07% |
atc | tag | 4308309 | 4308723 | 0,01% | ctc | gag | 3170599 | 3170147 | 0,01% |
atg | tac | 3039110 | 3035319 | 0,12% | ctg | gac | 2233348 | 2232147 | 0,05% |
att | taa | 5756291 | 5753158 | 0,05% | ctt | gaa | 4235636 | 4226579 | 0,21% |
Таблица 5: Статистика по тройкам оснований для нового типа симметрии в цепочке длиной 223106 оснований
Количество оснований | Минимальное отклонение ![]() | Максимальное отклонение ![]() | Среднее отклонение ![]() |
20000 | 0,08% | 5,30% | 1,95% |
50000 | 0,02% | 5,64% | 1,50% |
200000 | 0,03% | 3,15% | 0,69% |
106 | 0,01% | 1,35% | 0,31% |
5106 | 410-3% | 0,50% | 0,23% |
223106 | 310-3% | 0,34% | 0,12% |
Таблица 6: Статистка по относительной разности числа комплементарных оснований для нового типа симметрии


