Развитие суперЭВМ - тенденции и перспективы развития суперЭВМ

РАЗВИТИЕ СУПЕРЭВМ - ТЕНДЕНЦИИ И ПЕРСПЕКТИВЫ РАЗВИТИЯ СУПЕР ЭВМ

На сегодняшний день весьма актуальна тема перехода к новым поколениям вычислительных средств, что связано с потребностями решения сложных задач больших размерностей. В то же время не стоит на месте процесс разработки новых видов вооружений, и это тоже требует создания новых, усовершенствованных, вычислительных машин для поддержки их эффективного функционирования. В наше время однопроцессорные вычислительные системы уже не уже не в состоянии решить большинство военно-прикладных задач, так уровень требований к производительности и надежности вычислительных средств, особенно в области решение решения военно-прикладных задач постоянно растёт и теперь как средство повышения производительности вычислительных систем военного назначения наиболее часто используются многопроцессорные вычислительные системы (МВС)

В качестве основных требований, предъявляемых к таким системам, можно выделить следующие:

необходимость высокой производительности для любого алгоритма;
согласование производительности памяти с производительностью вычислительной части;
способность микропроцессоров согласованно работать при непредсказуемых задержках данных от любого источника
машинно-независимое программирование.

Одним из факторов, влияющих на архитектуру высокопроизводительных вычислительных систем, является взаимозависимость архитектуры и алгоритмов задач. Чаще всего наличие этого фактора ведёт к созданию проблемно-ориентированных систем. При этом может быть достигнут наивысший уровень производительности для данного класса задач. Такая взаимозависимость также выступает стимулом для поиска алгоритмов, наилучшим образом соответствующих возможным формам параллелизма на уровне аппаратуры, а, как известно, увеличение степени параллелизма ведёт к увеличению числа логических схем, что сопровождается увеличением физических размеров, в результате чего возрастают задержки сигналов на межсоединениях. А так как для написания программ используются языки высокого уровня, необходимы определенные средства автоматизации процессов распараллеливания и оптимизации программ. В конечном счёте этот фактор приводит к одному из двух результатов:

к снижению тактовой частоты,
к созданию дополнительных логических ступеней и, как следствие, к потере производительности.

Стоит также отметить, что рост числа логических схем также приводит к росту потребляемой энергии и отводимого тепла

К тому же более высокочастотные логические схемы при прочих равных условиях потребляют большую мощность на один вентиль. Результатом является возникновение теплофизического барьера, что обусловлено двумя факторами:

высокой удельной плотностью теплового потока, что требует применения сложных средств отвода тепла
высокой общей мощностью системы, что вызывает необходимость использования сложной системы энергообеспечения и специальных помещений.

Вместе с тем, имеют место подходы, связанные с применением специализированных микропроцессоров, которые ориентированы именно на использование в параллельных системах. В качестве примера можно привести серию транспьютеров фирмы Inmos. Но из-за ограниченного рынка эта серия по производительности резко отстала от универсальных микропроцессоров, таких, как Alpha, Power PC, Pentium

Специализированные микропроцессоры будут иметь полноценную конкурентоспособность только при условии сокращения расходов на проектирование и освоение в производстве. А это, в свою очередь, во многом зависит от производительности инструментальных вычислительных средств, используемых в системах автоматизированного проектирования

Заметим, что аппаратная реализация параллельных подсистем полностью зависит от выбранных микропроцессоров, БИС памяти и других компонентов. На сегодняшний день по экономическим соображениям целесообразно использовать наиболее высокопроизводительные микропроцессоры, разработанные для унипроцессорных машин

Разные вычислительные машины используют различные подходы, направленные на достижение следующих целей:

- максимальная арифметическая производительность процессора;

- эффективность работы операционной системы и удобство общения с ней для программиста;

- эффективность трансляции с языков высокого уровня и исключение написания программ на автокоде;

- эффективность распараллеливания алгоритмов для параллельных архитектур

Однако, в любой машине необходимо в той или иной форме решать все указанные задачи. Отметим, что сначала этого пытались достичь с помощью одного или нескольких одинаковых процессоров

В развитие вычислительных средств всегда вносили наибольший вклад технологические решения. Причём основополагающей характеристикой поколения вычислительных систем была элементная база, так как переход на новую элементную базу хорошо коррелируется с новым уровнем показателей производительности и надежности вычислительных систем

Несколько приостановило поиски принципиально новых архитектурных решений бурное развитие технологии СБИС и разработка последних поколений микропроцессоров, тем не менее становится очевидным, что чисто технологические решения утратили свое монопольное положение

Так, например, в ближайшем будущем заметно возрастает значение проблемы преодоления разрыва между аппаратными средствами и методами программирования. Эта проблема решается чисто архитектурными средствами, при этом роль технологии является косвенной: высокая степень интеграции создает условия для реализации новых архитектурных решений. Также не вызывает недоумения и тот факт, что без кардинальной перестройки архитектурных принципов поддерживать интенсивные темпы развития средств вычислительной техники уже невозможно. Самые оптимистические прогнозы свидетельствуют: тактовые частоты современных и перспективных СБИС могут быть увеличены в обозримом будущем до 5 ГГц

Достигнутая степень интеграции, в свою очередь, позволяет строить параллельные системы, в которых число процессоров может достигать десятков тысяч. В области повышения производительности вычислительных систем резерв технологических решений ограничивается одним порядком. Освоение же массового параллелизма и новых архитектурных решений содержит резерв повышения производительности на несколько порядков

Вообще, в развитии вычислительных средств выделяют три основные проблемы:

- повышение производительности;

- повышение надежности;

- покрытие семантического разрыва

Этапы развития вычислительных средств принято различать по поколениям машин. Характеристика поколения определяется конкретными показателями, отражающими достигнутый уровень в решении трех перечисленных проблем. Поскольку огромный вклад в развитие вычислительных средств всегда принадлежал технологическим решениям, основополагающей характеристикой поколения машин считалась элементная база. И действительно, переход на новую элементную базу хорошо коррелируется с новым уровнем показателей производительности, надежности и сокращения семантического разрыва

В настоящее время актуальным является переход к новым поколениям вычислительных средств: одним из доминируюших направлений развития суперЭВМ можно назвать вычислительные системы c MIMD-параллелизмом на основе матрицы микропроцессоров. Для создания подобных вычислительных систем, состоящих из сотен и тысяч связанных процессоров, потребовалось преодолеть ряд сложных проблем как в программном обеспечении (языки Parallel Pascal, Modula-2, Ada), так и в аппаратных средствах (эффективная коммутационная среда, высокоскоростные средства обмена, мощные микропроцессоры). Элементная база современных выcокопроизводительных систем характеризуется выcокой степенью интеграции (до 3,5 млн. транзисторов на кристалле) и высокими тактовыми частотами (до 600 МГц)

По сложившейся традиции решающая роль отводится технологии производства элементной базы. В то же время становится очевидным, что технологические решения утратили монопольное положение. Так, например, в ближайшей перспективе заметно возрастает значение проблемы покрытия семантического разрыва, что отражается в необходимости создания высокосложных программных продуктов и требует кардинального снижения трудоемкотси программирования. Эта проблема решается преимущественно архитектурными средствами. Роль технологии здесь может быть только косвенной: высокая степень интеграции создает условия для реализации архитектурных решений

В настоящее время все фирмы и все университеты США, Западной Европы и Японии, разрабатывающие суперЭВМ, ведут интенсивные исследования в области многопроцессорных суперЭВМ с массовым параллелизмом, создают множество их типов, организуют их производство и ускоренными темпами осваивают мировой рынок в этой области. Многопроцессорные ЭВМ с массовым параллелизмом уже сейчас существенно опережают по производительности традиционные суперЭВМ с векторно-конвейерной архитектурой. Системы с массовым параллелизмом предъявляют меньшие требования к микропроцессорам и элементной базе и имеют значительно меньшую стоимость при любом уровне производительности, чем векторно-конвейерные суперЭВМ. Уже в текущем десятилетии производительность суперЭВМ с массовым параллелизмом достигнет колоссальной величины - десятков тысяч миллиардов операций в секунду с плавающей запятой над 64-разрядными числами (десятков Тфлопс)

На ежегодной конференции в Чепел-Хилл(Сев.Каролина) представлен проект фирмы IBM, целью которого является создание гиперкубического параллельного процесора в одном корпусе. Конструкция, названная Execube, имеет 8 16-разрядных микропроцесоров, встроенных в кристалл 4Мбит динамического ЗУ(ДЗУ). При этом степень интеграци составляет 5 млн. транзисторов. Микросхема изготовлена по КМОП-технологии с тремя уровнями металлизации на заводе IBM Microelectronic (Ясу,Япония). Execube представляет собой попытку повышения степени интеграции процессора с памятью путем более эффективного доступа к информации ДЗУ. По существу, память превращается в расширенные регистры процессоров. Производительность микросхемы составляет 50 млн оп/с

Фирма CRAY Research объявила о начале выпуска суперкопьютеров CRAY T3/E. Основная характеристика, на которой акцентировали внимание разработчики - масштабируемость. Минимальная конфигурация составляет 8 микропроцессоров, максимальная- 2048. По сравнению с предыдущей моделью T3/D соотношение цена/производительность снижена в 4 раза и составляет 60 долл/Мфлопс, чему способствовало применение недорогих процессоров DEC Alpha EVC, изготовленных по КМОП-технологии. Предполагаемая стоимость модели Т3/Е на основе 16 процессоров с 1-Гбайт ЗУ составит 900 тыс. долларов, а цена наиболее мощной конфигурации (1024 процессора, ЗУ 64 Гбайт) -39,7 млн. долларов при пиковой производительности 600 Гфлопс

Одним из способов дальнейшего повышения производительности вычислительной системы является объединение суперкомпьютеров в кластеры при помощи оптоволоконных соединений. С этой целью компьютеры CRAY T3/E снабжены каналами ввода/вывода с пропускной способностью 128 Гбайт/с. Потенциальные заказчики проявляют повышенный интерес к новой разработке фирмы. Желание приобрести компьютер изъявили такие организации как Pittsburgh Supercomputer Center, Mobile Oil, Департамент по океанографии и атмосферным исследованиям США. При этом подписано несколько контрактов на изготовление нескольких компьютеров 512-процессорной конфигурации

Среди японских компаний следует выделить фирму Hitachi, которая выпустила суперкомпьютер SR2201 с массовым параллелизмом, содержащий до 2048 процесоров. В основе системы переработанная компанией процессорная архитектура RA-RISC от фирмы Hewlett-Paccard. Псевдовекторный процессор функционирует под управлением ОС HP-UX/MPP Mash 3.0. В компьютере, кроме того, использована система поддержки параллельного режима работы Express, созданная корпорацией Parasoft и получившая название ParallelWare. Производительность нового компьютера составляет 600 Гфлопс. К марту 1999 г. фирма планирует продать 30 суперкомпьютеров

Одним из наиболее масштабных проектов в области создания вычислительных средств с массовым параллелизмом является проект фирмы Intel по разработке самого быстродействующего компьютера на основе микропроцессоров шестого поколения P6. Новая система , которую планируется установить в Sandia National Laboratories будет состоять из 9000 процессоров Pentium P6 и иметь пиковую производительность 1000 ГФлопс. Заказчиком системы является министерство энергетики США. При этом основной областью применения будет являться моделирование подземных ядерных взрывов , что позволит тратить 25 млн. долларов в год вместо 300 млн

За последнее десятилетие имеет место следующая динамика роста производительности параллельных вычислительных систем в США:1987 г. - 50 Мфлопс

1989 г. - 1 Гфлопс(суперкомпьютеры СМ)

1991 г. - 10 Гфлопс(векторные процессоры и процессоры серии 528)

1994г. - 100 Гфлопс (CRAY,PARAGON)

1996-1997гг. – 200-500 Гфлопс (комбинация векторного процессора и куба поточной обработки)

1998-1999 гг. –1000-3000 Гфлопс (ASCI, T3E)

Особо выдающимися характеристиками отличаются суперкомпьютеры в середине 90-х годов:- Фирма IBM ALPS (1024 процессора RS6000, производительность 50 Гфлопс);

-Intel Paragon XPS (1872 процессора, производительность 72,9 Гфлопс);

- Thinking Mashines CM5 (512 процессоров Super Spark, производительность 83 Гфлопс);

- NCube 2SM80 (8192 процессора, производительность 84Гфлопс);

- Numerical Wind Tunnel (140 процессоров, производительность 124 Гфлопс на тестах LINPACK);

- Intel Paragon XPS Supercomputer (4000 процессоров 1860XP, производительность 300 Гфлопс)

- Сray Research MPP System (2048 процессоров Alpha, производительность - 300 Гфлопс)

- Thinking Mashines CM5 (16384 процессора Super Spark, производительность 1000 Гфлопс)

Краткие харатеристики наиболее распространенных современных суперкомпьютеров приведены ниже

IBM RS/6000 SP2

Производитель -International Business Machines (IBM), отделение RS/6000

Класс архитектуры: Масштабируемая массивно-параллельная вычислительная система (MPP)

Узлы имеют архитектуру рабочих станций RS/6000. Существуют несколько типов "SP-узлов", которые комплектуются различными процессорами: PowerPC 604e/332MHz, P2SC/160MHz, POWER3/MHz (более ранние системы комплектовались процессорами POWER2/66 и 77MHz). Возможна установка узлов с SMP-архитекутурой - до 4 процесоров PowerPC. Объем памяти для POWER3-узлов - до 4GB, для PowerPC-узлов - до 3GB

Доступны конфигурации SP от 2 до 128 узлов (и до 512 по специальному заказу). Узлы устанавливаются в "стойки" (до 16 узлов в каждой). Одна SP-система может содержать узлы различных типов

Узлы связаны между собой высокопроизводительных коммутатором (IBM high-performance switch), который имеет многостадийную структуру и работает с коммутацией пакетов

Cистемное ПО: OC AIX (устанавливается на каждом узле). LoadLeveler – система поддержки пакетной обработки. Параллельные приложения исполняются под управлением Parallel Operating Environment (POE)

Средства программирования: поставляется оптимизированная реализация интерфейса MPI (ранее - MPL)

HP 9000 (Exemplar)

Производитель: Hewlett-Packard, High-performance systems division

Класс:многопроцессорные сервера с общей памятью (SMP)

В настоящее время доступны несколько "классов" систем семейства HP 9000: сервера начального уровня (D,K-class), среднего уровня ( N-class) и наиболее мощные системы (V-class)

Процессоры: 64-битные процессоры c архитектурой PA-RISC 2.0 (PA-8200, PA-8500)

Число процессоров: N-class - до 8 процессоров. V-class - до 32 процессоров. В дальнейшем ожидается увеличение числа процессоров до 64, а затем до 128

Возможно объединение до 16 SMP-гиперузлов V-class или K-class в кластер "HP Enterprise Parallel Server". Для связи узлов используется коммутатор HP HyperFabric

Системное ПО: устанавливается операционная система HP-UX (совместима на уровне двоичного кода с ОС SPP-UX компьютеров Convex SPP)

Средства программирования: HP MPI - реализация MPI 1.2, оптимизированная к архитектуре Exemplar. Распараллеливающие компиляторы Fortran/C, математическая библиотека HP MLIB. CXperf - средство анализа производительности программ

Cray T3E

Производитель: Silicon Graphics

Класс архитектуры: масштабируемая массивно-параллельная система, состоит из процессорных элементов (PE)

В настоящее время существуют две модификации: T3E-900 и T3E-1200

Процессорный элемент PE состоит из процессора, блока памяти и устройства сопряжения с сетью. Используются процессоры Alpha 21164 (EV5) с тактовой частотой 450 MHz (T3E-900) и 600 MHz (T3E-1000), пиковая производительность которых составляет 900 и 1200 MFLOP/sec соответственно. Процессорный элемент располагает своей локальной памятью (DRAM) объемом от 256MB до 2GB

Системы T3E масштабируются до 2048 PE

Процессорные элементы связаны высокопроизводительной сетью с топологией трехмерного тора и двунаправленными каналами. Скорость обменов по сети достигает 480MB/sec в каждом направлении

Используется операционная система UNICOS/mk

Поддерживается явное параллельное программирование c помощью пакета Message Passing Toolkit (MPT) - реализации интерфейсов передачи сообщений MPI, MPI-2 и PVM, библиотека Shmem. Для Фортран-программ возможно также неявное распараллеливание в моделях CRAFT и HPF. Среда разработки включает также набор визуальных средств для анализа и отладки параллельных программ

Cray T90

Производители: Silicon Graphics, Cray Research

Класс архитектуры: многопроцессорная векторная система (несколько векторных процессоров работают на общей памяти)

Модели Серия T90 включает модели T94, T916 и T932

Процессор Системы серии T90 базируются на векторно-конвейерном процессоре Cray Research с пиковой производительностью 2GFlop/s

Число процессоров Система T932 может включать до 32 векторных процессоров (до 4-х в модели T94, до 16 модели T916), обеспечивая пиковую производительность более 60GFlop/s

Возможно объединение нескольких T90 в MPP-системы

Система T932 содержит от 1GB до 8GB (до 1 GB в модели T94 и до 4GB в модели T916) оперативной памяти и обеспечивает скорость обменов с памятью до 800MB/sec

Используется операционная система UNICOS

Cray SV1

Производитель: Silicon Graphics

Класс архитектуры: масштабируемый векторный суперкомпьютер

Используются 8-конвейерные векторные процессоры MSP (Multi-Streaming Processor) с пиковой производительностью 4.8 GFLOP/sec; каждый MSP может быть подразделен на 4 стандартных 2-конвейерных процессора с пиковой производительностью 1.2 GFLOP/sec. Тактовая частота процессоров - 250MHz

Процессоры объединяются в SMP-узлы, каждый из которых может содержать 6 MSP и 8 стандартных процессоров. Система (кластер) может содержать до 32 таких узлов

SMP-узел может содержать от 2 до 16GB памяти. Система может содержать до 1TB памяти. Вся память глобально адресуема (архитектура DSM)

Используется операционная система UNICOS

Поставляется векторизующий и распараллеливающий компилятор CF90. Поддерживается также явное параллельное программирование с использованием интерфейсов MPI, OpenMP или Shmem

Cray Origin2000

Производитель Silicon Graphics

Класс архитектуры: модульная система с общей памятью (cc-NUMA)

Использованы 64-разрядные RISC-процессоры MIPS R10000, R12000/300MHz

Основной компонент системы - модуль Origin, включающий от 2 до 8 процессоров MIPS R10000 и до 16GB оперативной памяти. Поставляются системы Origin2000, содержащие до 256 процессоров (т.е. до 512 модулей). Вся память системы (до 256GB) глобально адресуема, аппаратно поддерживается когерентность кэшей. Модули системы соединены с помощью сети CrayLink, построенной на маршрутизаторах MetaRouter

Используется операционная система SGI IRIX. Поставляется распараллеливающий компилятор Cray Fortran 90. Поддерживается стандарт OpenMP

Onyx2 InfiniteReality2

Производитель Silicon Graphics

Класс архитектуры: многопроцессорная система визуализации; по аппаратной архитектуре очень похожа на Origin2000

Система может включать до 128 процессоров MIPS R10000

Графические возможности системы обеспечивают специальные устройства трех типов: геометрические (векторные) процессоры, растровые процессоры, генераторы аналоговых сигналов. Система может быть оборудована 16 независимыми каналами графического вывода (visualization pipelines). На аппаратном уровне поддерживается графический интерфейс OpenGL

Используется операционная система SGI IRIX

Sun HPC 10000 (StarFire)

Производитель Sun Microsystems, серия Sun HPC

Класс архитектур: многопроцессорный SMP-сервер

Процессор UltraSPARC II/336MHz

Система StarFire объединяет от 16 до 64 процессоров

Система включает от 2GB до 64GB памяти

Системное ПО: ОС Solaris, ПО распределения ресурсов Load Sharing Facility (LSF). Поставляется пакет поддержки параллельных приложений Sun HPC 2.0, включающий такие средства как HPF, MPI, PVM, PFS (параллельная файловая система), Prism (визуальная среда разработки), S3L (библиотека математических подпрограмм), и др

NEC SX-5

Производитель NEC, серия SX

Класс архитектуры: параллельный векторный суперкомпьютер (PVP)

Каждый узел системы является векторно-конвейерным SMP-суперкомпьютером, объединяющим до 16 индивидуальных векторных процессоров (каждый с пиковой векторной производительностью 8 Gflop/s и скалярной производительностью 500 MFlop/s)

Объем памяти каждого узла - до 128GB, производительность обменов с памятью достигает 1TB/sec. Система может включать до 32 узлов, обеспечивая совокупную пиковую производительность до 4 TFlop/s

Для связи узлов используется высокоскоростной коммутатор (IXS Internode Crossbar Switch)

Используется операционная система SUPER-UX

Поставляются компилятор языка HPF, реализация интерфейса MPI, компиляторы Fortran77/SX и Fortran90/SX с автоматическим распараллеливанием и векторизацией, а также интегрированная среда разработки и оптимизации PSUITE

Fujitsu VPP

Производитель Fujitsu

Класс архитектуры параллельный векторный суперкомпьютер (PVP)

Модификации VPP300, VPP700, VPP5000

Каждый процессорный элемент (PE) системы VPP700E состоит скалярного устройства (SU), векторного устройства (VU), блока памяти и устройства сопряжения. Для VPP700: VU состоит из 7 конвейеров и обеспечивает пиковую производительность до 2.4 GFLOP/sec. Объем памяти - до 2GB. Для VPP5000: VU состоит из 4 конвейеров, пиковая производительность - 9.6 GFLOP/sec. Объем памяти - до 16GB

Для VPP700: cистема может включать от 8 до 256 PE, суммарная пиковая производительность до 14.4 GFLOP/sec Для VPP5000: до 512 PE, суммарная пиковая производительность до 4.9 TFLOP/sec

Процессорные элементы связаны коммутатором (crossbar network), который производить двухсторонние обмены, не прерывая вычислений. Пропускная способность каналов коммутатора: для VPP700 - 615MB/sec, для VPP5000 - 1.6GB/sec. Используется операционная система UXP/V, основанная на UNIX System VR4

Среди средств разработки поставляются: распараллеливающий и векторизующий компилятор Fortran90/VPP, оптимизированная для VPP библиотека математических подпрограмм SSLII/VPP, библиотеки передачи сообшений MPI-2 и PVM 3.3

AlphaServer

Производитель Compaq, Digital

Высокопроизводительный SMP-сервер, AlphaServer Array - кластерная система

Процессоры GS140 и GS60 - Alpha 21264, 8400 и 8200 - Alpha 21164

Число процессоров GS140 и 8400 - до 14, GS60 и 8200 - до 6

Объем памяти GS140 - до 28GB

Кластеры AlphaServer Array могут объединять до 8 узлов AlphaServer, т.е. в общей сложности до 112 процессоров. Могут комбинироваться узлы различных типов. Узлы связываются между собой коммутатором MEMORY CHANNEL, который обеспечивает скорость обменов до 66MB/sec и латентность порядка 3 мкс

На платформе AlphaServer поддерживаются операционные системы Tru64 UNIX (это новое имя Digital UNIX), OpenVMS и Windows NT. Поставляется ПО кластеризации TruCluster Software

Используются коммуникационные библиотеки TruCluster MEMORY CHANNEL Software и MPI. Поддерживается распараллеливание в стандарте OpenMP

Особо выдающимися характеристиками отличаются суперкомпьютеры в конце 90-х годов предстиавлены в таблице 3

Таблица 3 – наиболее быстродействующие суперекомпьютеры

№	Изготовитель	Суперкомпьютер	Страна	Год создания	Число процессоров	Пиковая производи-тельность, Гфлопс	Реальная производи-тельность на пакете LINPAK, Гфлопс
1	Intel	ASCI Red	USA	1999	9472	3154	2121.3
2	SGI	ASCI Blue Mountain	USA	1998	6144	3072	1608
3	SGI	T3E1200	USA	1998	1084	1300.8	891.5
4	Hitachi	SR8000/128	Japan	1999	128	1024	873.6
5	SGI	T3E900	USA	1997	1324	1191.6	815.1
6	SGI	ORIGIN2000	USA	1999	2048	1024	690.9
7	SGI	T3E900	UK	1997	876	788.4	552.92
8	IBM	SP Silver	USA	1998	1952	1296	547
9	SGI	T3E900	USA	1999	812	730.8	515.1
10	SGI	T3E1200	UK	1998	612	734	509.9
11	IBM	ASCI Blue Pacific CTR SP Silver	USA	1998	1344	892	468.2
12	Hitachi	SR8000/64	Japan	1999	64	512	449.7

Классификация параллельных вычислительных систем, предложенная Т.Джоном, основана на разделении МВС по двум критериям: способу построения памяти (общая или распределенная) и способу передачи информации. Основные типы машин по классификации Т.Джона представлены в таблице 1. Здесь приняты следующие обозначения: p- элементарный процессор, M - элемент памяти, K- коммутатор, С - кэш-память

Параллельная вычислительная система с общей памятью и шинной организацией обмена (машина 1) позволяет каждому процессору системы "видеть", как решается задача в целом, а не только те части, над которыми он работает. Общая шина, связанная с памятью, вызывает серьезные проблемы для обеспечения высокой пропускной способности каналов обмена. Одним из способов обойти эту ситуацию является использование кэш-памяти (машина 2). В этом случае возникает проблема когерентности содержимого кэш-памяти и основной. Другим способом повышения производительности систем является отказ от центральной памяти (машина 3)

Таблица 1 - Классификация МВС по типам памяти и передачи сообщений

Типы передачи	Типы памяти
Сообщений	Общая память	Общая и распределенная	Распределенная память
Шинные соединения	1	2	3
Фиксированные перекрестные соединения	4	5	6
Коммутационные структуры	7	8	9

Идеальной машиной является вычислительная система, у которой каждый процессор имеет прямые каналы связи с другими процессорами, но в этом случае требуется чрезвычайно большой объем оборудования для организации межпроцессорных обменов. Определенный компромисс представляет сеть с фиксированной топологией, в которой каждый процессор соединен с некоторым подмножеством процессоров системы. Если процессорам, не имеющим непосредственного канала обмена, необходимо взаимодействовать, они передают сообщения через промежуточные процессоры. Одно из преимуществ такого подхода - не ограничивается рост числа процессоров в системе. Недостаток - требуется оптимизация прикладных программ, чтобы обеспечить выполнение параллельных процессов, для которых необходимо активное воздействие на соседние процессоры

Наиболее интересным вариантом для перспективных параллельных вычислительных комплексов является сочетание достоинства архитектур с распределенной памятью и каналами межпроцессорного обмена. Один из возможных методов построения таких комбинированных архитектур - конфигурация с коммутацией, когда процессор имеет локальную память, а соединяются процессоры между собой с помощью коммутатора (машина 9). Коммутатор может оказаться весьма полезным для группы процессоров с распределяемой памятью (машина 8). Данная конфигурация похожа на машину с общей памятью (машина 7), но здесь исключены проблемы пропускной способности шины

Основным недостатком классификации Т.Джона является скрытие уровня параллелизма в системе, а, как уже было сказано выше параллелизм любого рода требует одновременной работы, по крайней мере, двух устройств

Такими устройствами могут быть:

арифметико-логические устройства (АЛУ)
устройства управления (УУ).

В ЭВМ классической архитектуры УУ и АЛУ образуют процессор. Увеличение числа процессоров или числа АЛУ в каждом из них приводит к соответствующему росту параллелизма. Наличие в ЭВМ нескольких процессоров означает, что одновременно (параллельно) могут выполняться несколько программ или несколько фрагментов одной программы. Работа нескольких АЛУ под управлением одного УУ означает, что множество данных может обрабатываться параллельно по одной программе. В соответствии с этим описание структур параллельных систем можно представить в виде упорядоченной тройки:

где k - количество устройств управления, т.е. наибольшее количество независимо и одновременно выполняемых программ в системе;

d - количество АЛУ, приходящихся на одно устройство управления;

w - количество разрядов, содержимое которых обрабатывается одновременно (параллельно) одним арифметико-логическим устройством

Другая форма распараллеливания - конвейеризация, также требует наличия нескольких ЦП или АЛУ. В то время, как множество данных обрабатывается на одном устройстве, другое множество данных может обрабатываться на следующем устройстве и т.д., при этом в процессе обработки возникает поток данных от одного устройства (ЦП или АЛУ) к следующему. В течение всего процесса над одним множеством данных выполняется одно за другим n действий. Одновременно в конвейере на разных стадиях обработки могут находиться от 1 до n данных

Параллелизм и конвейеризацию можно рассматривать на трех различных уровнях, представленных в таблице 2. Шесть основных форм параллелизма, в широком смысле этого слова, позволяют построить схему классификации, в рамках которой можно описать разнообразие высокопроизводительных вычислительных систем и отразить их эволюцию

Таблица 2 - Классификация МВС по типу распараллеливания

Уровень параллелизма	Параллелизм	Конвейеризация
Программы	Мультипроцессор	Макроконвейер
Команды	Матричный процессор	Конвейер команд
Данные	Множество разрядов	Арифметический конвейер

Все вышесказанное свидетельствует о том, что вместо попыток приспособить все типы алгоритмов к одной архитектуре (что отражается на конфигурации архитектур и сопровождается не всегда корректными сравнениями пиковой производительности), более продуктивным является взаимодополнение архитектур в единой системе

Одним из первых примеров такой системы является объединение векторной системы Cray Y-XM с системой Cray T3D: это объединение с помощью высокоскоростного канала приводит к необходимости разбиения задач на крупные блоки и к потерям времени и памяти на обмен информацией. Таким образом, ситуация в данном случае подобна той, которая существовала до появления векторных машин, когда для решения задач, содержащих большое число операций над векторами и матрицами, использовались так называемые матричные процессоры, например, фирмы FSP, которые подключались к универсальной машине с помощью канала ввода/вывода. Интеграция скалярной и векторной обработки в одном процессоре наряду с обеспечением высокой скорости работы синхронного конвейера обеспечила успех векторных машин

Следующий логический шаг - интеграция скалярной, векторной и параллельной обработки. Это поможет достигнуть высокой реальной производительности за счет распределения отдельных частей программы по подсистемам с различной архитектурой. Очевидно, что это распределение работы должно быть поддержано аппаратно-программными средствами автоматизации программирования

Эти средства должны содержать возможность интерактивного вмешательства программиста на этапе анализа задачи и возможность моделирования или пробного запуска программы с измерением параметров эффективности. Следует подчеркнуть, что формы параллелизма в алгоритмах достаточно разнообразны, поэтому и их аппаратное отражение может быть различным. К наиболее простым можно отнести системы с одним потоком команд и множественными потоками данных, системы с множественными потоками команд и данных, систолические системы. Также одним из многообещающих подходов, обеспечивающих автоматическое распараллеливание, является принцип потока данных, при котором последовательность или одновременность вычислений определяется не командами, а готовностью операндов и наличием свободного функционального арифметического устройства. Однако и в этом случае степень реального распараллеливания зависит от внутреннего параллелизма алгоритма и, очевидно, нужны эффективные способы подготовки задач. Кроме того, для реализации таких систем необходимо создание ассоциативной памяти для поиска готовых к работе пар операндов и систем распределения вычислений по большому числу функциональных устройств

Дифференциация функций и специализация отдельных подсистем начала развиваться с появления отдельных подсистем и процессоров для обслуживания ввода/вывода, коммуникационных сетей, внешней памяти и т.п

В векторных суперЭВМ обеспечена предельная производительность для процессов скалярной и векторной обработки, которая присутствует в большинстве задач. Задачи, содержащие высокую степень внутреннего параллелизма, могут быть хорошо адаптированы к системам массового параллелизма. Реальные задачи и, тем более, пакеты задач содержат целый ряд алгоритмов, имеющих различные уровни параллелизма. В суперЭВМ кроме основного процессора (машины) включались внешние машины. В различных системах можно наблюдать элементы специализации в направлениях автономного выполнения функций операционной системы, системы программирования и подготовки заданий. Обычно это выражается в следующей форме::

эти вспомогательные функции могут выполняться параллельно с основными вычислениями.
для реализации не требуются многие из тех средств, которые обеспечивают высокую производительность основного процессора, например, возможность выполнения операций с плавающей запятой и векторных операций.

В дальнейшем, при интеграции скалярной, векторной и параллельной обработки в рамках единой вычислительной подсистемы состав этих вспомогательных функций должен быть дополнен функциями анализа программ с целью обеспечения требуемого уровня параллелизма и распределения отдельных частей программы по различным ветвям вычислительной подсистемы

Появление суперЭВМ сопровождалось повышением их общей мощности потребления (выше 100 кВт) и увеличением плотности тепловых потоков на различных уровнях конструкции. Их создание не в последнюю очередь оказалось возможным, благодаря использованию эффективных жидкостных и фреоновых систем охлаждения. Является ли значительная мощность существенным признаком суперЭВМ? Ответ на этот вопрос зависит от того, что вкладывается в понятие суперЭВМ

Если считать, что суперЭВМ или, точнее, суперсистема - это система с наивысшей возможной производительностью, то энергетический фактор остается одним из определяющих эту производительность. По мере развития технологии мощность одного вентиля в микропроцессорах уменьшается, но при повышении производительности процессора за счет параллелизма общая мощность в ряде случаев растет. При объединении большого числа микропроцессоров в системе с массовым параллелизмом интегральная мощность и тепловыделение становятся соизмеримыми с аналогичными показателями для векторно-конвейерных систем. Однако, иногда в рекламных целях параллельные системы с небольшим числом процессоров сравниваются с суперкомпьютерами предыдущего или более раннего поколений, чтобы показать их преимущества в смысле простоты и удобства эксплуатации. Естественно, из такого некорректного сравнения нельзя сделать вывод о целесообразности создания современных суперсистем

Основным стимулом создания суперсистем являются потребности решения больших задач. В свою очередь, исследования и разработки по суперсистемам стимулируют целый комплекс фундаментальных и прикладных исследований, результаты которых используются в дальнейшем в других областях. Прежде всего, это касается архитектуры и схемотехники вычислительных машин, высокочастотных интегральных схем и средств межсоединений, эффективных систем отвода тепла. Не менее важны результаты по методам распараллеливания при выполнении отдельных операций и участков программ на аппаратном уровне, методам построения параллельных алгоритмов, языков и программных систем для эффективного решения больших задач