Пета, экза, зетта, йотта…Автор: Киви Берд

Опубликовано в журнале "Компьютерра" N25-26 от 08 июля 2008 годаВ июне германский город Дрезден принимал ISC-2008, Международную суперкомпьютерную конференцию, с 1993 года устраиваемую дважды в год по разные стороны Атлантики. Нынешний, 31-й по счету форум, как обычно, сопровождался публикацией Top500 — престижного рейтинга полутысячи самых быстрых суперкомпьютеров планеты. Этот список уже давно принято считать своеобразным зеркалом, отражающим самые заметные достижения и текущие тенденции в мире высокопроизводительных вычислений. Главным же на сегодняшний день рекордом, бесспорно, стала новая система IBM под названием Roadrunner. Эта машина впервые в истории суперкомпьютинга официально (слово "официально" здесь означает производительность, достигнутую при прогоне стандартного рейтингового теста Linpack) преодолела рубеж в 1 петафлопс, то есть тысячу триллионов (или миллион миллиардов, короче — 1015) операций с плавающей запятой в секунду.

Столь впечатляющий результат уда лось достичь "с опережением графика". Всего двумя годами ранее на конференции ISC-2006, проходившей здесь же в Дрездене, ведущие эксперты по суперкомпьютингу в один голос заявляли, что до конца 2009 года петафлопсных систем на горизонте не ожидается. Доминировавшие тенденции того периода многих ввели в заблуждение и подтолкнули к неверным прогнозам. Например, к лету 2006 года страны Азии (Япония, Китай, Индия и др.) впервые и довольно убедительно обошли Европу по количеству топовых систем, и тогда казалось, что это надолго. Ныне, однако, доля Европы в Top500 превышает азиатскую почти вчетверо. Аналогичным образом стремительно набиравшие популярность процессоры AMD Opteron два года назад сулили острую конкуренцию с лидером Intel и далеко неочевидный итог этой схватки. А то, что уже к 2008 году превосходство процессоров Intel в суперкомпьютерах окажется бесспорным и сильным как никогда, предвидеть не мог никто.

Об интересной статистике, сопровождающей каждый новый релиз Top500, подробно рассказывается во врезках. Нам же пора познакомиться с нынешним абсолютным чемпионом суперкомпьютинга.

TOP500: ДЕСЯТЬ ПЕРВЫХ

Верхнюю половину первой десятки оккупировали системы, развернутые в США. Причем четыре из них принадлежат американскому Министерству энергетики и предназначены для сугубо военных задач.

Помимо чемпиона-петафлопсника Roadrunner в Лос-Аламосе, это прошлый многолетний лидер — система IBM BlueGene/L в Ливерморской лаборатории им. Лоуренса, отступившая ныне на второе место с производительностью 478,2 Тфлопс; IBM BlueGene/P с производительностью 450,3 Тфлопс в Аргоннской национальной лаборатории (3-е место) и обновленный суперкомпьютер Cray XT4 "Jaguar" (205 Тфлопс, 5-е место) в национальной лаборатории Оук-Ридж. Четвертое место заняла новейшая система Sun "Ranger" на основе SunBlade x6420 (326 Тфлопс) в Техасском компьютерном центре при университете Техас-Остин.

Далее, на позиции N6, разместилась еще одна система IBM BlueGene/P (180 Тфлопс), но развернутая уже в Европе и принадлежащая германскому научному центру FZJ (Forschungszentrum Juelich). На 7-м месте — американская система, собранная корпорацией SGI на основе ее модели Altix ICE 8200 для Компьютерного центра Нью-Мексико (133,2 Тфлопс).

Ступенькой ниже — индийская кластерная система на основе машин HP BL460c, собранная в Вычислительном центре города Пуне компанией Tata по собственной технологии (132,8 Тфлопс, причем это уже второе вхождение Индии в престижный Top10). На 9-м и 10-м местах — две французские системы: BlueGene/P научно-исследовательского ИТ-института IDRIS (112,5 Тфлопс) и SGI Altix ICE 8200 нефтяной компании Total Exploration Production (106,1 Тфлопс, лучший на сегодня результат для задействованных в бизнесе суперкомпьютеров).

Бегущий по дороге

Самое, пожалуй, необычное свойство системы Roadrunner, побившей заветный петафлопсный рекорд скорости, заключается в следующем. Этот сугубо военный американский суперкомпьютер собран из компонентов, первоначально разработанных для японских игровых приставок.

Точнее говоря, конструктивно Roadrunner является гибридной машиной, с единственной в своем роде архитектурой, одновременно использующей существенно разные процессоры — более традиционные чипы AMD Opteron и куда менее распространенные чипы Cell Broadband Engine. Архитектура Cell, как известно, создавалась американо-японским консорциумом STI (Sony, Toshiba, IBM) под современные игровые видеоприставки вроде Sony PlayStation 3.

Разработанная и собранная компанией IBM для Лос-Аламосской национальной лаборатории, новая вычислительная система получила название Roadrunner по имени распространенной в Нью-Мексико кукушки-подорожника, являющейся символом этого штата (где находится ЛосАламос). Кое-кто, правда, усматривает в этом названии — на русский переводящемся в лоб как "бегущий по дороге" — и другой символ, с претензией на глубокомысленность. Символ того, что нынешние тенденции в продвинутых компьютерных технологиях в некотором смысле противоположны тем, что были четверть века назад. Если в ту пору передовые военные разработки время от времени просачивались в бытовую электронику и получали широкое коммерческое распространение, то теперь все с точностью до наоборот: новейшие технологии потребительского рынка с успехом внедряются в военные проекты.

Новый суперкомпьютер IBM — это вторая инкарнация архитектуры Roadrunner.

Первый Roadrunner, кластерная машина производительностью около 70 Тфлопс, уже эксплуатируется в Лос-Аламосской лаборатории. Обе машины построены на основе чипов AMD Opteron и управляются операционной системой Linux. Главная особенность второй версии — это радикальное наращивание вычислительной мощи за счет добавления к Opteron-базе многоядерных процессоров Cell. Официально объявленная стоимость нового суперкомпьютера — 133 млн. долларов. В настоящее время Roadrunner состоит из 6948 двухъядерных "Оптеронов" на базе серверов IBM LS21 Blade и 12960 процессоров Cell на базе IBM QS22 Blade, подкрепленных 80 Тбайт памяти. На межмодульные соединения ушло около 90 км оптоволоконных кабелей. Все это хозяйство, размещенное в 296 стойках IBM BladeCenter H, занимает 600 кв. м и весит 250 т.

Аппетиту "Кукушонка", потребляющего при работе 3,9 МВт, может позавидовать большущий торговый центр вроде тех, что строят в пригородах мегаполисов.

Тем не менее коэффициент экономичности, применяемый для сравнения систем, у Roadrunner один из лучших в мире — 376 млн. операций на 1 Вт потребленной энергии.

Со временем производительность системы Roadrunner планируется довести до 1,7 петафлопса. Эта мощь будет использоваться, главным образом, для моделирования поведения ядерных боеприпасов. Во-первых, дабы иметь гарантию, что накопленные арсеналы ядерных вооружений будут продолжать работать надлежащим образом по мере их неизбежного старения. Во-вторых (об этом, правда, упоминается гораздо реже), для виртуальных испытаний нового оружия, что позволяет сохранять действующий мораторий на реальные ядерные взрывы.

Однако перед тем, как систему поместят в строгие режимные условия секретных работ, Roadrunner планируется также использовать для решения разнообразных научных проблем вроде моделирования изменений климата, решения задач в области астрономии, энергетики и исследований человеческого генома.

Чтобы нагляднее донести масштаб петафлопсной производительности рекордсмена, ее в самом грубом приближении сравнивают, к примеру, с суммарной вычислительной мощью сотни тысяч самых быстрых на сегодня ноутбуков. Так вот если водрузить эти плоские компьютеры друг на друга, то получится башня высотой два с половиной километра. Или такой пример. Все нынешнее население планеты — шесть миллиардов человек, — вооружившись электронными калькуляторами и работая без передыха со скоростью одна операция в секунду, 46 лет решало бы задачу, на которую системе Roadrunner требуется один день.

TOP500: СТАТИСТИКА ПЕРЕМЕН

С точки зрения процессоров, применяющихся для построения суперкомпьютерных систем, безоговорочным лидером остается Intel. На сегодняшний день процессоры этой компании служат основой для 75% всех компьютеров, попавших в Tор500. Полгода назад, в тридцатом релизе того же рейтинга на долю Intel приходилось 70,8%.

За эти же полгода заметно вырос парк систем на основе четырехъядерных процессоров, составив ныне 283 машины. Еще 203 системы используют двухъядерные чипы, и лишь 11 систем построены на одноядерных процессорах. Три оставшиеся используют девятиядерные чипы Cell.

Караван поставщиков суперкомпьютеров по-прежнему возглавляет корпорация IBM, на долю которой приходится 42%, или 210 систем. Все ближе к лидеру подбирается Hewlett-Packard — 36,6% (183 системы). Полгода назад соотношение сил было заметно иным: у IBM 232 системы, у HP 166 (46,4% против 33,2%).

Гораздо отчетливее доминирование IBM проявляется в цифрах компьютерной производительности. Из суммарной вычислительной мощности систем Top500 на долю машин IBM приходится 48% (было 45%), что более чем вдвое превосходит суммарную производительность систем HP — 22,4% (было 23,9%).

Другие поставщики отстали далеко: Dell (5,4%), SGI (4,4%) и Cray (3,2%).

Если рассортировать представителей Top500 по странам и регионам, то мы увидим следующую картину. На долю США приходится абсолютное большинство суперкомпьютерных систем — 257 из полутысячи. Доля Европы достигла 184 систем (полгода назад было 149), а доля Азии несколько снизилась — 48 против 58 прошлой осенью. Ведущими странами Азии являются Япония (22 против 20), Китай (12/10), Индия (6/9) и Тайвань (3/11). В Европе лидируют Великобритания (53/48), Германия (46/31) и Франция.

Еще один примечательный факт: последняя в нынешнем списке система всего шесть месяцев назад занимала бы со своей производительностью вполне достойную 200-ю строчку рейтинга. Столь впечатляющая динамика перемен является самой высокой за всю шестнадцатилетнюю историю суперкомпьютерного хит-парада.

Тенденции открытости

Если говорить об остальных системах, помимо Roadrunner входящих в первую десятку, то там — спору нет — продолжает блистать архитектура IBM BlueGene (2, 3, 6 и 9-е места). Однако она входит в элиту Top500 уже, считай, четыре года, с осени 2004-го, так что написано о ней за это время более чем достаточно.

Гораздо больший интерес представляет новый суперкомпьютер Sun Microsystems под названием Ranger, собранный для чисто научных несекретных исследований в Техасском университете. Хотя Ranger, построенный на основе фирменной системы блейд-серверов Sun Constellation, занял почетное четвертое место, в действительности здесь сокрыта печальная история несостоявшегося триумфа. Эта машина, разработанная одним из сооснователей и ведущим архитектором Sun Андреасом Бехтольсхаймом (Andreas Bechtolsheim), должна была принять участие в хит-параде еще в ноябре прошлого года, аккурат к формированию тридцатого релиза Top500. Тогда у системы были отличные шансы на первенство.

Но увы, из-за задержек с поставками пятнадцати с лишним тысяч четырехъядерных процессоров AMD Opteron время было упущено.

Руководителям Sun чрезвычайно хотелось примерить лавровый венок чемпиона. По их мнению, Ranger — на редкость хорошо сбалансированная высокопроизводительная машина, да еще и построенная на основе идей открытой архитектуры.

Это означает, с одной стороны, что здесь предусмотрены широкие магистрали для передачи данных, объединяющие массивы процессоров и гарантирующие, что чипы не будут попусту простаивать в ожидании своей очереди. А с другой стороны, это прекрасно масштабируемая вычислительная система высшего мирового класса, создание которой доступно, по сути, всем желающим благодаря открытым платформам и открытой архитектуре.

И уж коли речь зашла об открытых платформах, нельзя не отметить и абсолютное доминирование в суперкомпьютерах Top500 операционной системы Linux.

Под этой ОС работают все десять систем из Top10, а в целом на Unix-подобные платформы с открытыми исходными кодами опираются 427 машин списка. Еще 28 систем работают на основе закрытых разновидностей Unix (включая Mac OS) и пять систем — под управлением Windows Cluster Server. Около сорока машин работают под управлением смешанных операционных систем, как правило, сочетающих в себе Linux и Unix. Таким образом, на долю Linux приходится 85,4% в пересчете на количество машин, 76,4% в пересчете на производительность и 58,3% в пересчете на процессорные ядра.

TOP500: САМЫЕ "ЗЕЛЕНЫЕ"

Если взятие петафлопсного рубежа стало первой важной особенностью нынешнего суперкомпьютерного хит-парада, то второй (быть может, даже главной) оказалось включение в перечень указываемых параметров энергетической эффективности вычислений. Она, правда, пока не влияет на место, занятое системой в списке, однако весьма примечательно, что число выполняемых операций на ватт потребленной энергии становится в один ряд с таким определяющим показателем, как производительность машины на тесте Linpack (решение больших систем линейных уравнений).

Суперкомпьютерные центры и системы потребляют миллионы ватт, расходуемых на питание серверов, сетей, систем хранения данных и различного вспомогательного оборудования. Реальная цена высокопроизводительных вычислений оказывается намного большей, чем стоимость собственно обеспечивающей их аппаратуры. Отсюда понятно, что проблема энергосбережения для суперкомпьютеров особо актуальна.

Одной из первых заострила внимание на данной проблеме корпорация IBM, когда около десятка лет назад начала разрабатывать архитектуру BlueGene. Получившиеся в итоге этой работы коммерческие компьютеры BlueGene/L имели рекордный для своего времени показатель эффективности — 210 Мфлопс (миллионов операций) на 1 Вт потребленной энергии, ставший своего рода эталоном для машин подобного класса. Сегодня, однако, эту планку преодолели многие модели компьютеров.

Возглавляет "зеленый" список сервер IBM QS22 Blade на основе Cell с показателем 488 Мфлопс/Вт. За ним идут модернизированный компьютер BlueGene/P на основе процессоров Power (376 Мфлопс/Вт) и машины на основе четырехъядерного процессора Intel Harpertown (Xeon 5400).

В кластере серверов IBM BladeCenter HS21 на основе Harpertown показана эффективность 265 Мфлопс/Вт. Кластер Silicon Graphics Altix ICE 8200EX демонстрирует 240 Мфлопс/Вт, а кластерная платформа Hewlett-Packard CP 3000 на базе блейдов BL2x220 — 227 Мфлопс/Вт.

Престиж и лексический новации

Суперкомпьютерные технологии уже давно принято рассматривать как своего рода символ мощи и конкурентоспособности национальной экономики. Поэтому абстрактный в общем-то показатель производительности 1 петафлопс, или тысяча триллионов вычислений в секунду, вот уже лет десять фигурирует в качестве важнейшего рубежа для военных и научных организаций не только Америки, но и других стран, включая Евросоюз, Японию, Индию и Китай. Так что сегодня, когда заветная высота наконец-то покорена, многие капитаны индустрии и науки в США рассматривают систему Roadrunner как замечательный пример возрождения американского суперкомпьютерного могущества.

Хотя американские компании доминировали в данной области практически всегда, начиная с появления суперкомпьютеров в 1960 годы, бывали у США и отступления. Сначала в середине 1990-х, а затем в 2002 году, когда японская система Earth Simulator на некоторое время получила титул самого быстрого в мире вычислителя с производительностью 35 трлн. операций в секунду. Два года спустя суперкомпьютер BlueGene вернул рекорд скорости американцам. Однако успехи японцев произвели должное впечатление, подтолкнув и конгресс США, и администрацию Буша к новым инвестициям в высокопроизводительные вычисления. Столь же обостренный интерес к укреплению суперкомпьютерного сектора демонстрирует ныне и Евросоюз, одно время начавший заметно уступать напористым азиатским конкурентам.

Ну а пока ведущие державы мира мерятся своими пета-, тера- и гигафлопсами, корпорации уже работают над следующим поколением машин. Преодолев петафлопсный барьер скорее, чем ожидалось, суперкомпьютерная индустрия США сумела удержать высокий темп наращивания производительности, повысив скорость вычислений в тысячу раз за одиннадцать лет. Следующая в тысячу раз большая величина называется экзафлопс, что соответствует квинтиллиону (1018) операций в секунду. За этим рубежом должны последовать зеттафлопс (1021), йоттафлопс (1024) и ксерафлопс (1027).

Так что пора понемногу привыкать к странным новым словам.