Правила симметрии в записи информации в ДНК международный проект "Геном человека" 1990-2003 г г
Вид материала | Документы |
- Н. К. Янковский Тема лекции: «Геном человека: наука и жизнь», 17.62kb.
- Роль вирусов в жизни человека, 476.23kb.
- Определение: генетический код это система записи информации о последовательности расположения, 51.8kb.
- И. Э. Лалаянц геном человека, 126.67kb.
- Лекция «Генная инженерия», 240.12kb.
- Пупов Данил Владимирович Раздел Введение. Строение молекулы ДНК. История доказательства, 86.42kb.
- Реферат на тему : «Многообразие симметрии в жизни», 122.91kb.
- Репарация ДНК (Часть, 391.42kb.
- Днк наномеханические роботы и вычислительные устройства, 1331.95kb.
- «Кошки и гены», 784.32kb.
ПРАВИЛА СИММЕТРИИ В ЗАПИСИ ИНФОРМАЦИИ В ДНК
Международный проект “Геном человека” – 1990-2003 г.г.
(6 млрд.$). Стартовал проект ENCODE (энциклопедия кодирующих элементов генома). Геном человека состоит из 3-х млрд. пар оснований. Фрагмент записи последовательности (1 млн. страниц текста).
CCTCATTTAGCTCTAGCCCAGTAGAACCACGGCAGAGACTCCCAACA
В ДНК содержится примерно 20-25 тысяч генов, около половины ДНК – многократно повторяющиеся последовательности, кодирующие участки (экзоны) – 2%, интроны – 23%, 75% - межгенная ДНК.
![]() |
Рис. 1. Cпираль Уотсона-Крика |
Исследовались геномы: человека, шимпанзе, мыши, крысы, курицы, рыбы Tetraodon, растения Arabidopsis, C.elegans, дрожжей,
60 бактерий, 30 вирусов.
1. Противоположная полярность цепей ДНК. Запись и считывание оснований на первой нити выполняется слева направо в направлении
![](images/167464-nomer-m11a1713.gif)
![](images/167464-nomer-m11a1713.gif)
![](images/167464-nomer-597e9db8.gif)
![](images/167464-nomer-m53d4ecad.gif)
Рис. 2. Условная запись двух нитей хромосомы (модель Уотсона-Крика)
Симметрия оснований. На одной нити ДНК выполняются соотношения
n(A) = n (T), n(C) = n(G). (1)
n(i, 1 н.)= n(i, 2 н.),
![](images/167464-nomer-m23d394f4.gif)
Вывод: веса двух нитей совпадают.
Симметрия пар оснований из соотношений
n(AC) = n(GT), n(AG) = n(CT)
n(TC) = n(GA), n(TC) = n(CA) (3)
n(AA) = n(TT), n(CC) = n(GG),
или в виде формулы
![](images/167464-nomer-5b310e5.gif)
![](images/167464-nomer-26f266bf.gif)
![](images/167464-nomer-2b3fa153.gif)
![](images/167464-nomer-25efe47.gif)
![](images/167464-nomer-568f5ba.gif)
![](images/167464-nomer-m37eb50ca.gif)
Пары AT, TA, CG и GC отсутствуют в (3), поскольку они приводят к тавтологии.
n(ij, 1 н.)= n(ij, 2 н.). (5)
Таблица 1
Геном человека
Пары букв | Хромосома 1 | Хромосома 3 | Хромосома 6 | Хромосома 10 | Хромосома 18 |
AA | 21 191 409 | 19 746 023 | 17 083 089 | 12 607 303 | 7 553 856 |
TT | 21 245 312 | 19 772 366 | 17 080 492 | 12 628 305 | 7 560 778 |
AC | 11 189 673 | 9 791 735 | 8 417 550 | 6 641 892 | 3 762 190 |
GT | 11 209 763 | 9 798 222 | 8 411 037 | 6 651 425 | 3 776 890 |
AG | 15 878 823 | 13 482 539 | 11 543 173 | 9 275 834 | 5 136 579 |
CT | 15 904 404 | 13 478 613 | 11 532 563 | 9 286 062 | 5 138 944 |
CA | 16 200 299 | 13 972 734 | 11 983 646 | 9 656 789 | 5 382 301 |
TG | 16 226 750 | 13 970 283 | 11 984 196 | 9 667 666 | 5 401993 |
CC | 12 132 633 | 9 518 322 | 8 128 472 | 7 073 095 | 3 640 163 |
GG | 12 121 539 | 9 520 091 | 8 140 958 | 7 062 604 | 3 647 384 |
GA | 13 313 713 | 11 472 583 | 9 879 809 | 7 851 856 | 4 411 285 |
TC | 13 322 934 | 11 477 596 | 9 862 177 | 7 860 740 | 4 408 666 |
AT | 16 615 348 | 15 646 889 | 13 495 077 | 9 896 788 | 6 012 563 |
TA | 14 169 829 | 13 466 193 | 11 592 344 | 8 305 870 | 5 117 737 |
CG | 2 256 627 | 1 620 941 | 1 473 327 | 1 353 534 | 677 210 |
GC | 9 838 754 | 7 836 943 | 6 709 818 | 5 793 769 | 3 027 601 |
Для любой последовательности без пропусков букв с точностью до единицы выполняются соотношения
![](images/167464-nomer-5073d474.gif)
= n(iA) + n(iC) + n(iG) + n(iT), (6)
где
![](images/167464-nomer-5fdf6831.gif)
Для пар AT, TA получаем связывающее ограничение
n(CA) + n(GA) + n(TA) = n(AC) + n(AG) + n(AT). (7)
Для пар CG и GC – соотношение
n(AC) + n(GC) + n(TC) = n(CA) + n(CG) + n(CT). (8)
Утверждение 1. Из симметрии пар оснований вытекает симметрия оснований.
Симметрия троек оснований. Кодоны (тройки оснований) связаны следующими соотношениями:
![](images/167464-nomer-m6f8299cf.gif)
где
![](images/167464-nomer-m1f64c6fe.gif)
![](images/167464-nomer-m75727476.gif)
![](images/167464-nomer-m14f0a65e.gif)
![](images/167464-nomer-1e2e2dad.gif)
![](images/167464-nomer-m75727476.gif)
![](images/167464-nomer-m5ef2b20.gif)
![](images/167464-nomer-m5f9a1b32.gif)
Таблица 2
Количество кодонов в хромосоме 6 генома человека | |||||||
кодон | число | кодон | число | кодон | число | кодон | число |
AAA | 6 742 017 | TTT | 6 744 661 | CAG | 3 216 761 | CTG | 3 217 346 |
AAC | 2 509 339 | GTT | 2 507 886 | CCA | 2 932 409 | TGG | 2 932 367 |
AAG | 3 412 539 | CTT | 3 407 422 | CCC | 1 980 135 | GGG | 1 986 846 |
AAT | 4 419 198 | ATT | 4 420 523 | CCG | 394 680 | CGG | 396 760 |
ACA | 3 417 383 | TGT | 3 417 331 | CGA | 341 096 | TCG | 340 572 |
ACC | 1 872 766 | GGT | 1 869 465 | CGC | 345 302 | GCG | 346 653 |
ACG | 391 422 | GGT | 390 169 | CTA | 2 226 977 | TAG | 2 227 635 |
ACT | 2 735 979 | AGT | 2 734 072 | CTC | 2 680 818 | GAG | 2 686 241 |
AGA | 3 741 389 | TCT | 3 735 896 | GAA | 3 394 901 | TTC | 3 388 807 |
AGC | 2 242 727 | GCT | 2 239 440 | GAC | 1 533 503 | GTC | 1 532 047 |
AGG | 2 824 985 | CCT | 2 821 248 | GCA | 2 330 699 | TGC | 2 327 157 |
ATA | 3 684 661 | TAT | 3 682 369 | GCC | 1 793 026 | GGC | 1 794 632 |
ATC | 2 260 505 | GAT | 2 265 164 | GGA | 2 490 014 | TCC | 2 482 545 |
ATG | 3 129 388 | CAT | 3 128 346 | GTA | 1 962 626 | TAC | 1 966 011 |
CAA | 3 229 842 | TTG | 3 228 944 | TAA | 3 716 329 | TTA | 3 718 080 |
CAC | 2 408 697 | GTG | 2 408 478 | TCA | 3 303 155 | TGA | 3 307 301 |
Для шести пар (3)
![](images/167464-nomer-5b310e5.gif)
n(AAC) + n(AAG) + n(AAT) = n(CAA) + n(GAA) + n(TAA), (11)
n(ACA)+n(ACC)+n(ACG)+n(ACT)=n(AAC)+n(CAC)+n(GAC)+ n(TAC), (12)
n(AGA)+n(AGC)+n(AGG)+n(AGT)=n(AAG)+n(CAC)+n(GAC)+ n(TAC), (13)
n(CAA)+n(CAC)+n(CAG)+n(CAT)=n(ACA)+n(CCA)+n(GCA)+ n(TCA), (14)
n(CCA) + n(CCG) + n(CCT) = n(ACC) + n(GCC) + n(TCC), (15)
n(GAA)+n(GAC)+n(GAG)+n(GAT)=n(AGA)+n(CGA)+n(GGA)+ n(TGA), (16)
Утверждение 2. Из симметрии троек оснований вытекает симметрия пар оснований.
Из симметрии последовательностей оснований по индукции вытекает симметрия коротких последовательностей.
Поскольку симметрия в записи оснований по нитям в ДНК обнаружена эмпирически и в настоящее время не существует объяснения этого феномена в природе, то важно найти такую модель, которая будет подтверждать симметрию последовательностей оснований на основе симметрии коротких последовательностей.
Утверждение 3. Для модели однородной цепи Маркова симметрия троек оснований вытекает из симметрии оснований и симметрии пар оснований.
Для однородной цепи Маркова оценки вероятностей троек оснований
![](images/167464-nomer-m75727476.gif)
![](images/167464-nomer-1e2e2dad.gif)
![](images/167464-nomer-6785856d.gif)
![](images/167464-nomer-m6b66c823.gif)
где
![](images/167464-nomer-m785df80d.gif)
![](images/167464-nomer-m75727476.gif)
![](images/167464-nomer-1e2e2dad.gif)
Симметрия для последовательностей оснований подтверждается для модели однородной цепи Маркова и вытекает из симметрии пар оснований.
Утверждение 4. Оценка вероятности последовательности
![](images/167464-nomer-m131dd0bf.gif)
![](images/167464-nomer-7d475f9e.gif)
![](images/167464-nomer-m339efb35.gif)
2. Одинаковая полярность цепей ДНК. Симметрия оснований
![](images/167464-nomer-26865e81.gif)
![](images/167464-nomer-m78e2de60.gif)
![](images/167464-nomer-82e74.gif)
![](images/167464-nomer-e559706.gif)
Рис 3. Одинаковая полярность нитей ДНК
Поэтому из симметрии оснований нельзя вывести симметрию пар оснований.
Симметрия пар оснований
![](images/167464-nomer-m2d685e6b.gif)
![](images/167464-nomer-772c3718.gif)
n(AA)= n(TT), n(CC)= n(GG),
n(AC)= n(TG), n(CA) = n(GT), (18)
n(AG)= n(TC), n(CG) = n(GC),
n(AT)= n(TA), n(CT) = n(GA),
или в виде
![](images/167464-nomer-m477e15fc.gif)
![](images/167464-nomer-bb2a35f.gif)
Для симметрии (19) два ограничения (7), (8) с учетом (19) трансформируются в одно ограничение
n(CA) + n(GA) = n(AC) + n(AG) . (20)
Симметрия троек оснований
![](images/167464-nomer-m5ef2b20.gif)
![](images/167464-nomer-m5f9a1b32.gif)
![](images/167464-nomer-m68138f51.gif)
Для симметрии (21) к шести ограничениям (11)–(16) добавляются два ограничения
n(ATC) + n(ATG) + n(ATT) = n(AAT) + n(CAT) + n(GAT), (22)
n(CGA) + n(CGC) + n(CGT) = n(ACG) + n(CCG) + n(TCG). (23)
Для симметрии с одинаковой полярностью нитей ДНК справедливы рассмотренные выше утверждения 1–3.
Для однородной цепи Маркова оценки вероятностей троек оснований
![](images/167464-nomer-m75727476.gif)
![](images/167464-nomer-m726e90d4.gif)
![](images/167464-nomer-6785856d.gif)
![](images/167464-nomer-m3101e0fe.gif)
Утверждение 4 записывается следующим образом.
Утверждение
![](images/167464-nomer-m4ca5bed2.gif)
![](images/167464-nomer-m131dd0bf.gif)
![](images/167464-nomer-m72f8ba89.gif)
![](images/167464-nomer-m13848bc2.gif)
Симметрия вида
![](images/167464-nomer-1b10e735.gif)
![](images/167464-nomer-m477e15fc.gif)
![](images/167464-nomer-bb2a35f.gif)
![](images/167464-nomer-m68138f51.gif)
![](images/167464-nomer-m6f8299cf.gif)
Поэтому у ДНК с противоположной полярностью нитей больше степеней свободы, чем у ДНК с одинаковой полярностью, т.е. с точки зрения теории информации модель Уотсона-Крика более эффективна.
3. Генерация случайных последовательностей с симметриями обеих видов. С помощью модели цепей Маркова можно легко сгенерировать случайную последовательность, для которой будет выполняться симметрия вида
![](images/167464-nomer-m6f8299cf.gif)
Первое основание | Второе основание | |||
A | C | G | T | |
A | 0,3266 | 0,1725 | 0,2448 | 0,2561 |
C | 0,3484 | 0,2610 | 0,0485 | 0,3421 |
G | 0,2864 | 0,2117 | 0,2608 | 0,2412 |
T | 0,2181 | 0,2051 | 0,2498 | 0,3270 |
Таблица 1: Переходные вероятности в цепочках оснований
ijk | ![]() | n(ijk) | ![]() | | ijk | ![]() | n(ijk) | ![]() | |
aaa | ttt | 6931319 | 6953141 | 0,31% | cag | ctg | 3968104 | 3971877 | 0,09% |
aac | gtt | 3659367 | 3667685 | 0,23% | cca | tgg | 4231496 | 4232443 | 0,02% |
aag | ctt | 5196124 | 5202925 | 0,13% | ccc | ggg | 3166451 | 3163597 | 0,09% |
aat | att | 5430603 | 5437075 | 0,12% | ccg | cgg | 588979 | 587592 | 0,24% |
aca | tgt | 3906403 | 3915530 | 0,23% | cga | tcg | 647493 | 646673 | 0,13% |
acc | ggt | 2921470 | 2925418 | 0,13% | cgc | gcg | 478028 | 477042 | 0,21% |
acg | cgt | 543435 | 543016 | 0,08% | cta | tag | 3472066 | 3470901 | 0,03% |
act | agt | 3830137 | 3833597 | 0,09% | ctc | gag | 3261613 | 3263830 | 0,07% |
aga | tct | 4554218 | 4560669 | 0,14% | gaa | ttc | 4353459 | 4362550 | 0,21% |
agc | gct | 3365393 | 3365564 | 0,01% | gac | gtc | 2298885 | 2301870 | 0,13% |
agg | cct | 4145751 | 4152111 | 0,15% | gca | tgc | 3432455 | 3435791 | 0,10% |
ata | tat | 3627798 | 3630628 | 0,08% | gcc | ggc | 2570998 | 2566847 | 0,16% |
atc | gat | 3408799 | 3411769 | 0,09% | gga | tcc | 3473521 | 3480118 | 0,19% |
atg | cat | 4152825 | 4153497 | 0,02% | gta | tac | 2447121 | 2445778 | 0,05% |
caa | ttg | 5298710 | 5310889 | 0,23% | taa | tta | 4633924 | 4634246 | 0,01% |
cac | gtg | 2797415 | 2800885 | 0,12% | tca | tga | 4647372 | 4652712 | 0,11% |
Таблица 2: Статистика по тройкам оснований для цепочек длины 223106 оснований
Количество оснований | Минимальное отклонение ![]() | Максимальное отклонение ![]() | Среднее отклонение ![]() |
20000 | 0,13% | 10,39% | 2,86% |
50000 | 0,03% | 2,86% | 1,14% |
200000 | 0,05% | 2,27% | 0,81% |
106 | 0,02% | 0,91% | 0,29% |
5106 | 0,01% | 0,40% | 0,18% |
223106 | 5,110-3% | 0,31% | 0,13% |
Таблица 3: Статистка по относительной разности числа комплементарных оснований
Первое основание | Второе основание | |||
A | C | G | T | |
A | 0,3266 | 0,1725 | 0,2448 | 0,2561 |
C | 0,3689 | 0,2763 | 0,0514 | 0,3034 |
G | 0,3031 | 0,0514 | 0,2760 | 0,3695 |
T | 0,2557 | 0,2448 | 0,1725 | 0,3270 |
Таблица 4: Новые переходные вероятности в цепочках оснований
ijk | ![]() | n(ijk) | ![]() | | ijk | ![]() | n(ijk) | ![]() | |
aaa | ttt | 7341532 | 7359207 | 0,24% | caa | gtt | 5149990 | 5154109 | 0,08% |
aac | ttg | 3875183 | 3882096 | 0,18% | cac | gtg | 2720083 | 2720158 | 0,00% |
aag | ttc | 5502305 | 5511508 | 0,17% | cag | gtc | 3856752 | 3859271 | 0,07% |
aat | tta | 5752239 | 5752431 | 0,00% | cat | gta | 4034677 | 4036244 | 0,04% |
aca | tgt | 4379729 | 4386669 | 0,16% | cca | ggt | 4354970 | 4352330 | 0,06% |
acc | tgg | 3275634 | 3274232 | 0,04% | ccc | ggg | 3259661 | 3253668 | 0,18% |
acg | tgc | 609760 | 611086 | 0,22% | ccg | ggc | 605309 | 603964 | 0,22% |
act | tga | 3597609 | 3602725 | 0,14% | cct | gga | 3575644 | 3569488 | 0,17% |
aga | tct | 5104466 | 5112922 | 0,17% | cga | gct | 665943 | 664977 | 0,15% |
agc | tcg | 865613 | 865745 | 0,02% | cgc | gcg | 112966 | 112580 | 0,34% |
agg | tcc | 4647487 | 4654703 | 0,16% | cgg | gcc | 604063 | 605586 | 0,25% |
agt | tca | 6220361 | 6216317 | 0,07% | cgt | gca | 810422 | 810486 | 0,01% |
ata | tat | 4503685 | 4506729 | 0,07% | cta | gat | 3311569 | 3313749 | 0,07% |
atc | tag | 4308309 | 4308723 | 0,01% | ctc | gag | 3170599 | 3170147 | 0,01% |
atg | tac | 3039110 | 3035319 | 0,12% | ctg | gac | 2233348 | 2232147 | 0,05% |
att | taa | 5756291 | 5753158 | 0,05% | ctt | gaa | 4235636 | 4226579 | 0,21% |
Таблица 5: Статистика по тройкам оснований для нового типа симметрии в цепочке длиной 223106 оснований
Количество оснований | Минимальное отклонение ![]() | Максимальное отклонение ![]() | Среднее отклонение ![]() |
20000 | 0,08% | 5,30% | 1,95% |
50000 | 0,02% | 5,64% | 1,50% |
200000 | 0,03% | 3,15% | 0,69% |
106 | 0,01% | 1,35% | 0,31% |
5106 | 410-3% | 0,50% | 0,23% |
223106 | 310-3% | 0,34% | 0,12% |
Таблица 6: Статистка по относительной разности числа комплементарных оснований для нового типа симметрии
![](images/167464-nomer-m4c04bfb9.gif)
![](images/167464-nomer-4058618a.gif)
![](images/167464-nomer-402b9f41.gif)