Читайте данную работу прямо на сайте или скачайте

Скачайте в формате документа WORD


Процессоры нового поколения и перспективы их развития

.

 ш1.1

Intel-совместимыми процессорами.

ров семейства Intel вкратце такова.

процессор фирмы Intel появился в 1970 г.

была

четырехбитных слов. Быстродействие его составляло 8 операций в

секунду.

программируемых калькуляторах с памятью размером в 4 Кбайт.

мог выполнять же 16-битные арифметические операции, имел 1б-раз-

рядную адресную шину и, следовательно, мог адресовать до 64 Кбайт

памяти (2 516 0=65536).

8086 с размером слова в 16 бит (два байта),

мог оперировать уже с 1а

Кбайт),

цессором 8086 комплектовались компьютеры,

IBMа

цессоров стал появившийся в 1982 году процессор 8028б. Он обладал

24-разрядной адресной шиной, мог распоряжаться 16 мегабайтами ад-

ресного пространства и ставился на компьютеры,

PC/AT.

шиной адреса (максимальное адресное пространство - 4 Гбайт),

июне 1988 года - 80386SX,

обладавший 24-разрядной адресной шиной.

появляется микропроцессор 80486DX,

процессора Pentium (оба с 32-разрядной шиной адреса).

фирма Intel представила новый процессор - P6.

было

tium. При этом производство первых версий P6 будет осуществляться

по же отлаженной "Intel" и используемой при производстве послед-

них версий Pentium полупроводниковой технологии (О,6 мкм, З,З В).

Использование

того,

проблем.

ности достигается только за счет всестороннего лучшения микрор-

хитектуры процессора.

зовалась тщательно продуманная и настроенная комбинация различных

рхитектурных методов.

цессорах "больших" компьютеров,

институтами, оставшиеся разработаны инженерами фирмы "Intel". Эта

уникальная комбинация архитектурных особенностей,

tel" определяют словами "динамическое выполнение", позволила пер-

вым кристаллам P6 превзойти первоначально планировавшийся ровень

производительности.

тва х86 выясняется,

микрорхитектурой процессоров Nx586 фирмы NexGen и K5 фирмы

и,

объясняется тем,

же

совместимости с CISC-архитектурой Intel х86.

ная

мять размером 256 кб,

ленной шиной. Такая конструкция должна существенно простить про-

ектирование систем на базе Р6.

массового производства микропроцессор,

ном корпусе.

талл кэш-памяти второго ровня - 15,5 миллионов.а

последняя

ров,

него набора кристаллов памяти.

тической природой. Статическая память в P6 использует шесть тран-

зисторов для запоминания одного бита, в то время как динамической

памяти было бы достаточно одного транзистора на бит.а

память быстрее, но дороже.

больше,

меньше:а

кристалла вместе заключены в керамический корпус с 387 контактами

("dual cavity pin-drid array"). Оба кристалла производятся с при-

менением одной и той же

талл-БиКМОП,

энергии: 20 Вт при частоте 133 Гц.

одном корпусе - облегчение проектирования и производства высокоп-

роизводительныха

тельной системы,

зависита

частности вторичного

компьютеров могут позволить себе соответствующие исследования.а

Р6 вторичный кэш уже настроен на процессора

что облегчает проектирование материнской платы.

Кзш второго уровня связан с процессором специально выделенной ши-

ной шириной 64 бита и работает на той же тактовой частоте,

процессор.

обращались к вторичному кэшу по 64-разрядной шине с той же такто-

вой частотой. Однако с ростом тактовой частоты Pentium для проек-

тировщикова

тоту на материнской плате.

частоты.

частоте 66 Гц (у 90 Гц Pentium - соответственно 60 Гц). Penti-

um использует эту шину как для обращений к вторичному кэшу, так и

для обращения к основной памяти и другим стройствам,

набору чипов PCI.

ричному

Во-первых,

процессора и шины;а

операциями ввода-вывода и связанные с этима

второго ровня полностью отделена от внешней шины,

происходит доступ к

внешняя шина может работать со скоростью,

третьей или одной четвертой от скорости процессора, при этом шина

вторичного кэша работает независимо на полной скорости.

иха

методам повышения

мощных RISC-процессорах. Так, в процессоре Alpha 21164 фирмы "Di-

gital" кэш второго ровня размером 96 кб размещен в ядреа

сора,

водительность кэша за счет величения числа транзисторов на крис-

талле до 9,3 миллиона.

330 SPECint92 при тактовой частоте 300 Гц. Производительность Р6

ниже (по оценкам "Intel" - 200 SPECint92 при тактовой частоте 133

Гц),

водительность для своего потенциального рынка.

учитывать, что, хотя Р6 может оказаться дороже своих конкурентов,

большая часть других процессоров должн

тельным набором чипов памяти и контроллером кэша. Кроме того, для

достижения сравнимой производительности работы

процессоры

размера.

своих процессоров. Это делается с целью довлетворить разнообраз-

ныма

ранства для моделей конкурентов.

вскоре

ченным объемом вторичной кэш-памяти,

кации с внешним расположением вторичного кэша, но при сохраненной

выделенной шине между вторичным кэшом и процессором.

хитектурой достиг впечатляющего ровня производительности.

работать параллельно и выполнять две целочисленные команды за ма-

шинный такт.

команд,

определенным правилам,

мостей типа "запись после чтения".

хода

приводит к уменьшению выполняемой на каждой стадии работы и,

следствие, к уменьшению времени нахождения команды на каждой ста-

дии на 33 процента по сравнению с Pentium.

пользование при производстве P6 той же технологии, что и при про-

изводстве 100 Гц Pentium,

частотой 133 Гц.

ностью к выполнению двух команд за такт, было бы трудно превзойти

без совершенно нового подхода. Примененный в P6 новый подход ст-

раняет жесткую зависимость между традиционными фазами "выборки" и

"выполнения",

эти две фазы соответствует последовательности команд в программе.

Новый подход связан с использованием так называемого пул

и

программы.

две: "диспетчирование/выполнение" и "откат". В результате команды

могут начинать выполняться в произвольном порядке,

свое

программе.

взаимодействующих через пул команд (рис. 1).

твующих через пул команд стройств было принято после тщательного

анализа факторов,

микропроцессоров.

и многих других процессоров,

реальныха

мере. Рассмотрим в качестве примера следующий фрагмент программы,

записанный на некотором словном языке:

загрузки из памяти в регистр r1 - оказалось, что содержимое соот-

ветствующей ячейки памяти отсутствует ва

подходе

того, как данные из ячейки mem[r0] основной памяти будут прочита-

ны через интерфейс шины. Все время ожидания процессор будет прос-

таивать.

росла по меньшей мере в 10 раз,

уменьшилось только на 60 процентов.

ние скорости работы с памятью по отношению к скоростиа

и было той фундаментальной проблемой, которую пришлось решать при

проектировании P6.


ее центра тяжести на разработку высокопроизводительныха

тов, окружающих процессор. Однако массовый выпуск систем, включа-

ющих и высокопроизводительный процессор,

циализированные микросхемы окружения,

щим.

бой силы,

уменьшить

Это решение эффективное,

бенно

кэша второго уровня. P6 проектировался с точки зрения эффективной

реализации целостной вычислительной системы, и требовалось, чтобы

высокая производительность системы в целом достигалась са

зованием дешевой подсистемы памяти.

ти,

чении из него команд,

к памяти, и выполнения до момента завершения команды-тормоза мак-

симума полезной работы. В приведенном в предыдущем разделе приме-

ре процессор не может выполнить команду 2 до

1,

время процессор может выполнить команды 3 и 4,

результата выполнения команды 1. Мы будем называть такое выполне-

ние команд опережающим выполнением.

полнения

поскольку мы должны

только в соответствии с правильным порядком выполнения программы.

Эти результаты хранятся в пуле команд и извлекаются оттуд

нее. Таким образом,

их готовностью к выполнению, вне зависимости от их первоначально-

го порядка в программе,

выполнения команд P6 является машиной,

ных.

например запись в регистры, производится в строгом соответствии с

истинным порядком команд в программе.

занимать достаточно много тактов. Тем временем P6 продолжает опе-

режающее выполнение команд,

обработать,

будет в среднем пять команд перехода,

ки/декодирования должно правильно предсказать для того, чтобы ра-

бота стройства диспетчирования/выполнения не оказалась бесполез-

ной.

"Intel" приводит к интенсивному использованию каждого иза

как следствие, к возникновению множества мнимых зависимостей меж-

ду командами, использующими один и тот же регистр. Поэтому, чтобы

исключить задержку в выполнении команд из-за мнимых зависимостей,

устройство диспетчирования/выполнения работает с дублямиа

ров,

твовать несколько дублей). Реальный набор регистров контролирует-

ся стройством отката,

на состоянии вычислительной системы только после того, как выпол-

ненная команда удаляется из пула команд в соответствии с истинным

порядком команд в программе.

нения может быть описана как оптимальное выполнениеа

основанное на предсказании будущих переходов, анализе графа пото-

ков данных с целью выбора наилучшего порядка исполнения команда

на опережающем выполнении команд в выбранном оптимальном порядке.

чающая кэши и интерфейс с основной памятью.

торое работает в соответствии с исходным порядком команд ва

рамме,

внимания на исходный порядок команд в программе.

устройством,

раммы

ность микрокоманд,

пользователя.

ным"а

выполнение микрокоманд с четом зависимостей по данным иа

ности ресурсов, а также временно сохраняет результаты опережающе-

го выполнения в пуле команд.

ет,

временные результаты опережающего выполнения в постоянное состоя-

ние вычислительной системы.

твом, отвечающим за связь трех вышеупомянутых стройств с внешним

миром.

2-го ровня и поддерживает до 4 параллельныха

Интерфейса

мятью, который происходит с использованием протокола MESI [1].

дующей обработки. Указатель на следующую команду - это индекс кэ-

ш

состоянием процессора и сообщениями о

перехода, поступающими из стройства выполнения целых команд. Бу-

фер переходов с 512 входами используета

(Yeh),

предсказания переходов.


буфер переходов в своих предсказаниях оказался прав (в P6 предус-

мотрены

перехода).

указателе на следующую команду,

чего передает 16 выровненных байтов декодеру. Две строки считыва-

ются из-за того,

границе байта, и поэтому может происходить передача правления на

середину или конец строки кэша. Выполнение этой ступени конвейера

занимает три такта, включая время, необходимое для вращения пред-

выбранных байтов и их подачи на декодеры команд.

команд помечаются.

и

команды. Декодер преобразует команды архитектуры Intel в микроко-

манды-триады (два операнда,

рхитектуры Intel преобразуются ва

требуют четырех микрокоманд,

к микрокоду,

последовательностей микрокоманд.

мые байт-префиксы,

также сложняет работу декодера. Микрокоманды ставятся в очередь,

посылаются в таблицу псевдонимов регистров,

ческие регистры преобразуются в ссылки на физические регистры P6,

после чего каждая из микрокоманд вместе с дополнительной информа-

цией о ее состоянии (статусе) посылается в пул команд. Пул команд

реализован в виде массива контекстно-адресуемой памяти,

мого также буфером переупорядочивания.

манд в зависимости от их статуса.

информацию о доступности операндов микрокоманды и наличии необхо-

димых для ее выполнения вычислительных ресурсов. Если статус мик-

рокоманды показывает, что ее операнды же вычислены и доступны, а

необходимое

также доступно,

манду

ния. Результаты выполнения микрокоманды возвращаются в пул.

пятипортовую распределительную станцию. Структура стройства дис-

петчирования/выполнения показана на рисунке 4.

по

пускная способность - 3 микрокоманды за такт.а

ния

ным":а

определяется только потоками данных и доступностью ресурсов,

какой бы то ни было связи

программе.

является крайне важным для производительности процессора в целом.

Если в каждом такте для каждого ресурса готова к выполнению толь-

ко

готовых к выполнению на данном ресурсе микрокоманд несколько,

какую из них выбрать?а

нить алгоритм "первый пришел - первый обслужен". Идеальным был бы

выбор микрокоманды, выполнение которой привело бы к максимальному

сокращению графа потокова

поскольку

выполнения программы,

рующийа

смежное выполнение смежных микрокоманд.

рехода,

реализованный в буфере переходов, позволяет в большинстве случаев

правильно предсказать,

иногда он все же будет ошибаться.

когда буфер переходов предсказывает переход назад в концеа

до тех пор,

будет предсказываться верно,

тинным, предсказание будет ошибочным.

менен следующий подход.

ной части конвейера ставятся в соответствие адреса

манды и предполагаемый адрес перехода.

реальная ситуация сравнивается с предсказанной. Если они совпада-

ют,

работа оказывается полезной, так как соответствует реальному ходу

программы, а микрокоманда перехода даляется из пула команд.

зошел, или было предсказано отсутствие перехода, в действитель-

ности он состоялся),

статус всех микрокоманд, засланных в пул команд после команды пе-

рехода, чтобы убрать их из пула команд. Правильный адрес перехода

направляется в буфер переходов, который перезапускает весь конве-

йер с нового адреса.

команд: оно ищет микрокоманды, которые же выполнены и могут быть

удалены

выполнения,

вычислительной системы,

Устройство отката должно

микрокоманды, но и далять их из пула команд таким образом, чтобы

изменение состояния вычислительной системы соответствовало перво-

начальному порядку команд в программе. При этом оно должно учиты-

вать и правильно обрабатывать прерывания,

ции,

случаи.

отката считывает пул команд и отыскивает готовые к откатуа

команды;а

быть далены из пула в соответствии с исходным порядком команда

программе.

команд и в регистровый файл отката. стройство отката может обра-

ботать три микрокоманды за такт.

и запись из регистра в память.

блока считываемых данных и регистр-назначение. Команда чтения ко-

дируется одной микрокомандой.

мых данных и сами данные. Поэтому команда записи кодируется двумя

микрокомандами:а

Эти микрокоманды планируются независимо и могута

раллельно; они могут переупорядочиваться в буфере записи.

така

верного предсказания. Разные команды записи никогда не переупоря-

дочиваются

пись,

щих выполнения более ранних команд записи.

порядочения

выводам.

писи,

тельность.

памяти,

водительности.

команды записи может повлечь существенные потери в производитель-

ности.

воляющая командам чтения опережать команды записи и другие коман-

ды чтения.

лительной станции и буфера переупорядочивания. В нем хранятся от-

ложенные команды чтения и записи,

диспетчирование, когда блокирующее словие (зависимость по данным

или недоступность ресурсов) исчезает.


турныха

всегда правильно определяется предстоящая последовательность

манд),

выполнения команд) и опережающее выполнение (предвиденная

довательность

рядке),

tium при использовании той же самой технологии производства.

комбинация методов называется динамическим выполнением.

технологии производства, что даст возможность выпускать процессо-

ры P6 с тактовой частотой ядра свыше 200 Гц.

.

последние

систем на основе процессоров семейства х86а

приложений,

сорных технологий, таких как шины, сетевые технологии, сжатие ви-

деоизображений, флэш-память и средства системного администрирова-

ния.

переноса возможностей, которыми ранее обладали лишь более дорогие

компьютеры,

дусмотрен контроль по четности,

кэша

ния и исправления ошибок. Встроенные в Р6 новые возможности диаг-

ностики

системы.

процессор

более чем 100 переменных процессора или происходящих в нема

тиях,

появление самомодифицирующего кода и так далее. Операционная сис-

тем

деления состояния процессора.

поддержк

отката компьютера в зафиксированное ранее состояние в случае воз-

никновения ошибки.

функциональной избыточности (FRC),

что в P6 предусмотрена возможность построения систем с параллель-

ным выполнением одних и тех же операций двумя процессорами с вза-

имным контролем результатов и сообщением об ошибке в случаеа

хождения.

причине ошибки.

и недорогой способ организации двухпроцессорной работы: ведущий и

ведомый процессоры используют общий кэш и невидимо для приложений

разделяют программу на потоки.

зацию работы могут лишь многопоточные операционные системы.

уровень,

спецификации MPS 1.1.

ричнойа

ветствия для всех подсоединенных к отдельныма

Р6а

нем ровне, а внешняя шина P6 выступает как симметричная мультип-

роцессорная шина.

создавать

тать лицензию на уже

C-bus II.

объединить четыре процессора в мультипроцессорную систему. Четыре

- это предел, обуславливаемый принятой в Р6 логикой арбитража.

тема

систем к каждому процессору подключается выделенныйа

которого

Р6. Таким образом, проектировщики высокопроизводительных серверов

будута

тельные микросхемы статической памяти.

кэша второго уровня в корпусе Р6, что достижимо либо за счет ве-

личения

тюрной технологии производства.

хотята

объединять две или более четырехпроцессорныха

высокоскоростного последовательного соединения память-память. Ре-

лизации таких соединений для PCI ожидаются в этом году.

будута

по меньшей мере 1 Гб жесткий диск, 32 Мб оперативной памяти, мощ-

ные

серверы на Р6.

воляют проектировать на базе Р6 надежные серверы ровня предприя-

тия. лучшенная поддержка симметричной многопроцессорной работы в

сочетании с поддерживающими такую работу версиями OS/2 иа

приведет к построению на Р6 еще более мощных серверов.

ры, однако настольные компьютеры на P6 появятся почти одновремен-

но с ними. Цена первых настольных Р6-компьютеров будет начинаться

с 4 долларов и расти с ростом мощности конфигурации.

размера корпуса Р6, его потребления энергии и рассеиваемого тепла

(требуется активное охлаждение),

явления портативных компьютеров на Р6.

процессоре нового поколения будут разработчики программного обес-

печения

издательские системы,

результатов, статистика, одним словом, те области, которым всегда

недоставало и будет недоставать существующих скоростей.

Р6 являются серверы приложений,

рассылку

тов. Системные серверы и серверы печати не привязаны к конкретно-

му

увеличении мощности.

сравнительно небольшие организации, где на эти системы будет воз-

ложено выполнение самостоятельно разработанных критичных для дея-

тельности организации приложений.

обретать такие системы несколько позднее, после тщательной оценки

и подготовки.

значительно большее число разработанных на заказ программ и стан-

дартного программного обеспечения,

на его совместимость с новыми системами.

частотойа

третьей или одной четверти от этойа

Р6/PCI по имени Orion,

PCI с частотой 33 Гц, но не поддерживающий 64-битовые расширения

PCI.

шинстве

кэша. Для построения основной памяти будут использоваться обычные

60-наносекундные DRAM или,

наборе чипов Intel Triton для Pentium более скоростные EDOа

Стандартной будет конфигурация с 16 Мб оперативной памяти при все

возрастающем числе систем с 32 Мб.

шины EISA/ISA. Однако по мере роста поддержки PCI необходимость в

EISA и ISA будет уменьшаться.

появление предусмотренных в PCI 2.1 мостов PCI-PCI. Главной проб-

лемойа

пень ее нагрузки. Мосты между шинами позволяют работать с большим

числома

ранства.

позволит как избежать использования других шин,

помимо памяти и графики высокоскоростные сетевые интерфейсы (нап-

ример, 100 Мбит/сек Ethernet, FDDI и ATM) и высокоскоростной пос-

ледовательный ввод-вывод.

са

будет включать 2-скоростные или более быстрые CDROM.а

дета

картами-акселераторами с 2-4 Мб памяти.

4-скоростные CD-ROM,

10-100а

диа,

специальных чипов для обработки звука,

жений,

но,

графических акселераторов,

новшеств, допускаемых спецификацией PCI.

tium. Ожидается что в процессоре Р7 будет реализована существенно

отличная от Р6 технология, обеспечивающая прорыв в производитель-

ности при сохранении совместимости с семейством x86.


совместной разработке нового микропроцессора,

планируется на 1997 или 1998 год.

микропроцессора пока известно лишь то,

RISC-технологию и обеспечивать выполнение всего существующего для

процессоров Intelа

обеспечения. Кроме поддержки существующих наборов команд этих се-

мейств, по всей видимости, в Р7 будет введена собственная система

команд.

kard"а

tion word" - очень длинное командное слово).

LIWа

пользуемой в Р6.

сложные команды х86 в более короткие и простые RISC-микрокоманды.

LIW-процессор основывается на компиляторе нового типа,

наоборот,

длинную" команду. Каждая "очень длинная" команда содержит незави-

симые друг от друга операции, которые выполняются параллельно.

рование выполнения команд переносится с аппаратуры на программное

обеспечение. Планирование осуществляет компилятор, и получающийся

в результате компиляции код прикладной программы содержит всю ин-

формацию о порядке выполнения команд.

не разработаны эффективные методы проектирования

ров.

разработанное для VLIW-процессора, придется перекомпилировать при

появлении процессора нового поколения.

многие

kard смогут выпустить жизнеспособный с точкиа

на рынке VLIW-процессор.

Intel, и вряд ли Intel может полностью положиться на неопробован-

ную технологию.

параллельным проектом Р7, основанным на более традиционной техно-

логии, чтобы застраховаться на случай неудачи VLIW-проекта.

х86а

усиление суперскалярности до шести одновременно

манд,

кэша на кристалле процессора,

ройств,

почек выполняемых с опережением команд.

"NexGen" планирует выпуск процессора Nx686 в концеа

утверждает, что его производительность будет в 2-4 раза превосхо-

дить производительность Nx586. "Cyrix" также работает над процес-

сором-преемником М1, но подробностей пока не сообщает.

К5 процессор К6 появится в 1996 году, его массовое производство

начнется в 1997 году. К6 будет изготавливаться по технологии 0,35

мкм и будет содержать около 6,5 миллионов транзисторов. Предпола-

гаемая производитель К6 - 300 SPECint92. В 1997 году AMD планиру-

ета

1998 году. К7 будет изготавливаться по технологии 0,18 мкм; число

транзисторов - 10-15 миллионов.

частоте 400 Гц он достигнета

Наконец, в 2001 году AMD планирует выпуск процессора K8, содержа-

щего 20 миллионов транзисторов и

ность 1 SPECint92 на тактовой частоте 600 Гц.

производят IBM Microelectronics,

son и ряд азиатских фирм.

тался выйти на передовые позиции и не брался за разработку совре-

менного процессора семейства х86,

новейшими процессорами "Intel", AMD, "Cyrix" и NexGen.

.

для первого в мире компьютера производительностью свыше триллиона

операций в секунду. никальная машина предназначена главным обра-

зом для расчетов по ядерной тематике Министерства энергетики США.

ручив ей изготовление нового компьютера, производительность кото-

рого в десять раз превысит аналогичную характеристику самых быст-

рыха

будет становлена в Sandia National Laboratoriesа

лаборатории

Нью-Мексико).

9 микропроцессоров компании Intel следующего поколения,

чивших кодовое название Р6.

компьютерных "строительных кирпичиков", которые Intel представля-

ета

номасштабных параллельных системах, высокопроизводительных серве-

рах, рабочих станциях и настольных компьютерах.

триллионова

твие при работе с важными

энергетики. Машина оснащается системной памятью в 262 Гбайт и бу-

дет сдана в эксплуатацию к концу 1996 года.

ра P6. Теперь он будет называться Pentium Pro.

.