Автор: Киви Берд

По традиции каждые полгода один из городов Америки или Европы принимает у себя выставку-конференцию Supercomputing, становясь, таким образом, столицей для мира высокопроизводительных вычислений. В ноябре 32-й столицей суперкомпьютеров стал город Остин в штате Техас. Количество зарегистрированных участников мероприятия было велико как никогда (больше десяти тысяч человек), отражая тенденцию последних лет постоянного роста интереса к этому сектору инфотехнологий.

Высокопроизводительные вычисления, все чаще именуемые HPC (от High Performance Computing), являются одной из самых динамичных отраслей ИТ-индустрии. Достаточно сказать, что развитие в суперкомпьютерном секторе идет со значительным опережением закона Мура - каждые полгода производительность систем увеличивается примерно в полтора раза. Однако и это отнюдь не устоявшаяся закономерность, а скорее наметившаяся тенденция.

Как обычно, к очередной конференции Supercomputing была приурочена публикация списка Top500, ранжирующего по производительности полтысячи самых мощных компьютерных систем планеты. И попутно на основе этого списка составляются таблицы и рисуются диаграммы, дающие представление о ведущих суперкомпьютерных державах, фирмах-изготовителях, процессорах, операционных системах, архитектурах и т. д. (подробности см. на сайте Top500.org).

О самых красноречивых цифрах из текущего Top500 рассказывается во врезках, здесь же мы отметим ключевые моменты общей картины. Традиционное доминирование США в сфере HPC на сей раз выглядит убедительным как никогда. Из полутысячи систем без малого триста приходится на Соединенные Штаты. А в Top10 американские системы оккупировали аж девять верхних строчек. Причем семь позиций из девяти заняты Министерством энергетики США, отвечающим за сохранность и боеспособность ядерных вооружений в условиях моратория на реальные испытания.

В национальных лабораториях Министерства энергетики, в частности, работают и две системы, в этом году впервые преодолевшие петафлопсный рубеж производительности (квадриллион, или 1015 операций с плавающей запятой в секунду). Расположенная в Лос-Аламосе система-чемпион Roadrunner (производства IBM) сумела удержаться на первой позиции благодаря своевременному апгрейду. Другая же петафлопсная система Jaguar, собранная в Оук-Риджской национальной лаборатории на основе машин Cray XT5, имеет значительный потенциал для дальнейшего развития и, по оценкам экспертов, вполне может стать мировым чемпионом в ближайшем будущем.

Единственным суперкомпьютером, составившим конкуренцию США в Top10, оказался китайский Dawning 5000A, установленный в Шанхайском суперкомпьютерном центре. Он заметно отличается от остальных машин элитной группы не только "национальностью", но и рядом других существенных параметров (вроде операционной системы), а потому может указывать и на некие нарождающиеся тенденции, рассматривать которые всегда интереснее, нежели давние традиции.

Цифры и факты Top500: энергопотребление

С недавних пор составители рейтинга Top500 начали отслеживать энергетическую эффективность суперкомпьютеров. Причина тому - ужесточающиеся требования к энергопотреблению и тепловыделению больших систем.

Благодаря экономичным акселераторам на основе чипов Cell, наивысшие оценки в этой категории заслужил Roadrunner, чья удельная производительность составила 536 Мфлопс/Вт. Другая известная система IBM, BlueGene/P, заняла второе место с показателем 372 Мфлопс/Вт.

Лидеров этого рейтинга быстро догоняют процессоры массового рынка. Так, системы, построенные на основе четырехъядерных Intel Harpertown, показывают эффективность в диапазоне от 227 до 265 Мфлопс/Вт. Около 232 Мфлопс/Вт демонстрируют системы Cray на основе процессоров AMD. Усредненный же показатель для суперкомпьютеров из списка Top500 составляет 132 Мфлопс/Вт при среднем энергопотреблении около 358 кВт.

Новости географии

Сегодня почти никто уже и не вспоминает, что еще десяток лет назад высокопроизводительные вычислительные системы в США и странах НАТО приравнивались к оружию, а потому на них накладывались очень суровые экспортные ограничения. Абсурдность этих запретов стала очевидна, когда быстродействие графических процессоров в игровых приставках достигло уровня недавних суперкомпьютеров, а кластеры из общедоступных игрушек типа PlayStation стали практически на равных соревноваться с мощными вычислительными системами ведущих институтов, занятых секретными исследованиями.

Неуклонно снижающиеся цены на суперкомпьютеры позволяют все более широкому кругу корпораций и институтов самых разных стран покупать их для решения широчайшего спектра задач - от поддержки процессов промышленного производства, конструкторских работ, банковской индустрии и поисков нефти/газа до продвинутой цифровой графики в кино и компьютерных играх.

По этой причине в рейтинге Top500 наряду с традиционными представителями из США, Западной Европы и Японии все больше и больше позиций начинают занимать институты и компании из других регионов и стран - Китая, Индии, Бразилии, Малайзии, Новой Зеландии, Южной Африки и др.

Что касается Китая, представленного в нынешнем Top500 пятнадцатью системами[Цифры в разных разделах сайта Top500 несколько различаются. Мы используем данные top500.org/stats.], то здесь ситуация с применением суперкомпьютеров выглядит так. Наряду с флагманом высокопроизводительных вычислений, Шанхайским суперкомпьютерным центром, сосредоточенным на научных исследованиях, несколько самых быстрых в стране компьютерных систем принадлежит фирме The9 - разработчику видеоигр, владеющему лицензией на местную дистрибуцию популярнейшей в онлайне многопользовательской игры World of Warcraft.

В этом году The9 достигла впечатляющего рубежа - обеспечив платформу для совместной игры в WoW более чем миллиону человек одновременно. Ясно, что для поддержки столь сложной и графически емкой вычислительной среды необходимы солидные компьютерные ресурсы, поэтому The9 располагает более чем десятком суперкомпьютеров. Кроме того, Китай может похвастать системами, принадлежащими нефтяным и газовым корпорациям, финансовым фирмам, исследовательским группам и медиа-компаниям.

Индия уже не раз входила в наиболее престижный Top10. В частности, не далее как в прошлом рейтинге (июнь 2008) на восьмом месте находилась индийская кластерная система, собранная компанией Tata в Вычислительном центре города Пуне. К ноябрю, под напором новых мощных машин, этот суперкомпьютер переместился на 13-е место. Но в целом можно констатировать, что Индия и Китай убедительно конкурируют с Японией, некогда бесспорным лидером азиатского региона.

Любопытно отметить также успехи Новой Зеландии, опередившей весь остальной мир по такому показателю, как суперкомпьютерная вычислительная мощь в расчете на душу населения. Этот забавный мировой рекорд достигнут исключительно стараниями Weta Digital, знаменитой ныне компании компьютерных видеоэффектов, в свое время созданной при участии режиссера Питера Джексона. Weta Digital, готовившая цифровую анимацию для таких фильмов, как "Властелин колец" и "Фантастическая четверка", базируется в новозеландской столице Веллингтоне, и четыре из быстрейших ее систем входят в Top500, чуть-чуть не дотянув до первой сотни. Помимо активного участия в кинопроизводстве, Weta сдает свои вычислительные мощности в аренду местным научно-исследовательским лабораториям и институтам.

Наконец, о нашей стране. Положение России, спору нет, выглядит посолиднее, чем у той же Новой Зеландии. Как по числу систем (восемь), так и по их суммарной производительности мы превосходим новозеландцев почти вдвое - 223 терафлопса против 109. Столько же систем имеют, скажем, Индия или Швеция. Правда, суммарная производительность их машин значительно выше. Ну а до Китая нам пока гораздо дальше, чем Новой Зеландии до нас.

Цифры и факты Top500: чемпионы и регионы

Один из главных итогов ноябрьского Top500 - в мире официально появился второй компьютер петафлопсного класса. Сборка Cray Jaguar на основе системы XT5 в Оук-Риджской национальной лаборатории в квалификационных тестах Linpack показала производительность 1,059 петафлопса. А чтобы сохранить за прошлым чемпионом Roadrunner первую строчку, конструкторы своевременно сделали небольшой апгрейд, доведя производительность системы до 1,105 петафлопса.

На редкость единообразный в этот раз Top10, практически узурпированный американскими системами и демонстрирующий завидную стабильность ведущих изготовителей процессоров, поставщиков систем и применяемых архитектур, разбавляет лишь китайская система Dawning 5000A с показателем 180 терафлопс.

Что же касается регионального распределения машин из Top500, то и здесь крен в сторону США заметно усилился. На эту страну сейчас приходится 290 систем, тогда как полгода назад было 257. Число топ-систем в Европе уменьшилось со 185 до 153, а в Азии осталось на прежнем уровне - 46 машин.

В азиатском регионе продолжает доминировать Япония с 18 системами (было 22). Вплотную к лидеру подобрался Китай с 15 машинами (было 12), на третьем месте Индия с 8 системами (было 6). Аналогичные расклады по Старому Свету выглядят так. Лидером осталась Великобритания с 45 системами (53 машины полгода назад). Второе место сохранила за собой Германия, но ее доля, 25 систем, уменьшилась почти вдвое (было 46 машин).

Контратака Microsoft

Вхождение Dawning 5000A в престижный Top10 - не только большая победа китайских конструкторов, но и важная веха для корпорации Microsoft, чья операционная система обеспечивает работу этого суперкомпьютера.

Всего год назад высшая позиция машин, работающих под Windows, в Top500 находилась на 116-м месте. Теперь же, вместе с осенним выходом специализированной 64-битной Windows HPC Server 2008, заточенной под высокопроизводительные вычисления, ситуация заметно изменилась. Самый яркий пример - все тот же Dawning 5000A, в зачетном тесте Linpack продемонстрировавший под управлением этой ОС реальную производительность 180,6 терафлопса с завидной эффективностью 77,5% (доля от теоретического пикового быстродействия системы).

Помимо достижения впечатляющей позиции в суперкомпьютерной элите, этот успех свидетельствует и о куда более важном обстоятельстве, а именно о настойчивом стремлении компании создать относительно простой в использовании программный инструментарий для разработки весьма нетривиальных суперкомпьютерных приложений.

В настоящее время на ПО Microsoft в высокопроизводительных вычислениях приходится скромная доля в 1%. Безоговорочно лидирует открытая система Linux - 88%, оставшуюся часть представляют в основном различные варианты Unix.

Учитывая столь неблагоприятный для Windows расклад в этом секторе рынка, Microsoft продвигает HPC Server 2008 в научно-исследовательские структуры на чрезвычайно заманчивых условиях - академическая версия лицензии стоит всего 15 долларов на один узел сети. Для сравнения, коммерческая лицензия на тот же продукт стоит 450 долларов.

Еще одно направление развития в сфере высокопроизводительных вычислений, представляющееся для компании важным и перспективным, - это так называемые персональные суперкомпьютеры. Недав­но Microsoft образовала программно-ап­па­ратный альянс с корпорацией Cray, направленный на массовое продвижение персональных суперкомпьютеров Cray CX1 со стартовой ценой 25 тысяч долларов (аналогичные проекты развиваются и в сотрудничестве с другими ведущими вендорами).

Цифры и факты Top500: чипы и поставщики

Корпорация Intel остается главным поставщиком процессоров для суперкомпьютеров. На языке цифр это означает 378 систем из 500, или почти 76% от числа участников. IBM и AMD идут голова к голове: по 60 систем (12%).

Очень быстро прирастает количество систем на основе четырехъядерных процессоров. В частности, число машин на основе чипов Intel Harpertown и Clovertown с момента составления прошлого списка выросло с 252 до 293. В общей же сложности четырехъядерные процессоры используют 336 машин, 153 машины построены на основе двухъядерных чипов и лишь 4 - на основе одноядерных ЦПУ (остальные 7 систем используют девятиядерные чипы Cell). В июне аналогичные цифры выглядели так: 283, 203, 11 и 3.

Среди поставщиков суперкомпьютерных систем по-прежнему вне конкуренции Hewlett-Packard и IBM. Причем при поштучном учете HP на сей раз заметно обогнала Голубого Гиганта - 209 систем (41,8%) против 186 (37,2 %). Полгода назад было с точностью до наоборот - 208 систем у IBM и 184 у Hewlett-Packard. Успехи остальных поставщиков выглядят несопоставимо скромнее: у Cray 4,4%, у Dell 3,8%, у SGI 3,4% от общего числа участников.

Любопытно, что HP и IBM совместными усилиями поставили 301 (или 188+113) из 306 систем, представляющих в Top500 потребителей суперкомпьютинга из индустрии и бизнеса. То есть столь важный сегмент рынка практически захвачен лишь двумя игроками.

Персональные СуперКомпьютеры

Определение персонального суперкомпьютера на сегодняшний день звучит примерно так. Это сравнительно недорогой аппарат, который можно разместить на столе или рядом со столом (не требующий специального помещения), подключить к обычной розетке электропитания и получить такую вычислительную мощь, которая позволяет не то чтобы сразу претендовать на место в Top500, но по крайней мере оказаться примерно в той же категории компьютерных систем.

Всем этим параметрам удовлетворяет, в частности, представленная на конференции в Остине разработка компании nVidia под названием Tesla Personal Su­per­computer. Ключевые характеристики топовой версии таковы: 960 процессорных ядер, совместно обеспечивающих производительность почти в 4 терафлопса при заявленной цене компьютера десять тысяч долларов. Достигаются эти показатели благодаря применению четырех графических акселераторов Tesla GPU, каждый из которых содержит 240 ядер. По свидетельству специалистов, получивших возможность ознакомиться с новинкой, эта конструкция без всяких натяжек представляет собой настольный суперкомпьютер. Подобные системы могут представлять собой обычный ПК (в слот расширения которого вставлены видеоускорители Tesla GPU) или стандартные модули для размещения в серверной стойке.

На этом примере видно, как быстро меняется представление о том, что считать суперкомпьютером. Всего лишь пять лет назад Tesla занял бы место среди двадцати самых быстрых систем планеты. Однако сейчас его производительности не хватает даже на то, чтобы попасть в Top500. Нижний порог для вхождения в эту элитную группу составляет ныне 12,6 терафлопса.

Впрочем, это не помешало графическим процессорам nVidia Tesla продемонстрировать свои выдающиеся вычислительные возможности и занять в рейтинге достойное 30-е место благодаря японским конструкторам. В Токийском технологическом институте уже известной вычислительной системе TSUBAME недавно всего за неделю был сделан большой апгрейд - добавлены в качестве математических сопроцессоров новые блоки Tesla S1070, что подняло пиковую производительность машины выше 160 терафлопс. По сути, речь идет о специализированных версиях того же самого GPU-процессора, который nVidia продает геймерам. Как и их игровые собратья, процессоры Tesla программируются с помощью языка CUDA, а когда объединяются с процессором общего назначения, то превращаются в мощнейшую машину для быстрых параллельных вычислений с плавающей запятой.

Хотя успех TSUBAME - пока единственный пример появления чипов nVidia в Top500, на конференции было множество свидетельств тому, что персональные суперкомпьютеры на основе мощных графических процессоров очень быстро завоевывают популярность. Такие системы работают во множестве академических институтов и университетов, вроде американского МТИ, германского Института Макса Планка, Кембриджского университета в Британии и др. Подсчитано, что уже по меньшей мере 28 производителей суперкомпьютеров и рабочих станций используют nVidia GPU, включая гигантов Dell, Lenovo и Asus.

Взгляд изнутри

Мы попросили прокомментировать ситуацию в суперкомпьютерной отрасли эксперта компании НР по данной теме, системного архитектора Евгения Лагунцова. По его мнению, для индустрии HPC сейчас актуальны прежде всего следующие тренды:

"Блейдизация" суперкомпьютеров. Блейд-платформы все чаще используются для построения и систем начального уровня (так называемых персональных суперкомпьютеров), и машин класса Top500, что объясняется высокой экономической эффективностью блейд-решений, их компактностью, низким энергопотреблением и тепловыделением, масштабируемостью и простотой в обслуживании. Эти факторы важны как для небольшого исследовательского отдела, покупающего "суперкомпьютер в коробке", так и для крупных лабораторий, использующих тысячи вычислительных узлов. Самая популярная аппаратная платформа в ноябрьском списке Top500 - HP BladeSystem, на ее долю приходится 201 из 500 мощнейших вычислительных систем мира.

"Персонализация" вычислительных систем. Производители все больше внимания уделяют низшему сегменту рынка - системам для персонального пользования, которые можно поставить под стол или в угол комнаты исследовательского отдела, небольшой лаборатории. Например, HP Cluster Platform Workgroup System представляет собой "суперкомпьютер в коробке", занимающий площадь менее 0,5 кв. м., подключающийся к обычным электрическим розеткам и работающий под управлением Windows HPC Server 2008 или различными вариантами Linux. При этом система может включать до 128 процессорных ядер Intel Xeon, обладать пиковой производительностью более 1,5 Тфлопс и содержать до терабайта оперативной памяти. Особенно важно, что здесь используются те же самые технологии, что и в мощнейших суперкомпьютерах, благодаря чему открываются фантастические возможности для роста при сохранении абсолютной совместимости.

"Диверсификация" областей использования высокопроизводительных вычислений. Активными пользователями суперкомпьютеров становятся не только исследовательские лаборатории, крупные университеты или нефтегазовые компании - технологии "супервычислений" все активнее проникают в новые сегменты, такие как индустрия игр и развлечений, производство видео, анализ и моделирование финансовых рисков. Также следует отметить изменение географии суперкомпьютинга - очень большие системы появляются в Китае, Индии, Новой Зеландии, России. Как примеры успешного применения технологий HP в новых сегментах и регионах можно назвать несколько суперкомпьютеров студии видеоэффектов Weta Digital в Новой Зеландии, ряд крупных систем провайдера игрового контента в Китае, систему Tata CRL в Индии, занимавшую в прошлом году 4-е место в рейтинге Top500. Отдельно хотелось бы остановиться на флагмане российского суперкомпьютинга - Межведомственном суперкомпьютерном центре РАН. Вычислительный комплекс МСЦ, построенный на базе HP BladeSystem, продолжает планомерно развиваться и достиг в этом году пиковой производительности 95 Тфлопс, что позволило ему занять 35-е место в рейтинге Top500 (абсолютный рекорд для нашей страны, 33-е место год назад, принадлежит этой же системе).

"Акселерация" вычислений. Стремительно развиваются технологии, позволяющие проводить вычислительные операции не на ядрах центральных процессоров, а на специализированных модулях и микросхемах - например, графических процессорах GPU или FPGA, которые теоретически позволяют получить фантастическую производительность. Увы, хорошие результаты они показывают только на специфических кодах, а вот программировать на них очень трудно. В связи с этим построить на их базе системы общего назначения пока практически невозможно. Тем не менее работа идет, появляются новые микросхемы, разрабатываются новые языки программирования, переосмысливаются алгоритмы. Думаю, будущее акселераторов - во все более частом применении в качестве составной части гибридных систем.

Влияние игровой индустрии

Среди факторов, заметно влияющих на впечатляющий прогресс суперкомпьютеров, оказывают, как ни удивительно, те миллиарды долларов, что интенсивно вкладываются в разработку железа и программного обеспечения для компьютерных видеоигр. Весомый вклад, который с некоторых пор "несерьезные" видеоигры стали делать в HPC, сегодня признается всеми.

Наиболее отчетливо эта тенденция проявилась летом текущего года, когда на вершине рейтингового списка оказалась система IBM Roadrunner, первой воспользовавшаяся вычислительной мощью процессоров Cell и благодаря им первой преодолевшая рубеж петафлопсной производительности. Roadrunner, можно сказать, объединила в себе две главные тенденции современного суперкомпьютинга, скомбинировав доступность и производительность серийных процессоров AMD Opteron с продвинутыми возможностями модифицированной версии процессора, используемого в игровой приставке PlayStation 3. Итоги же конференции в Остине показали, что Cell уже не единственный сопроцессор в высокопроизводительных вычислениях, уходящий корнями в компьютерные игры.

Как комментирует ситуацию Энди Кини (Andy Keane), главный менеджер подразделения nVidia Tesla Computing Products, "графика - это эталонное приложение параллельного компьютинга". Поэтому игровые по своей природе системы хорошо подходят и для поддержки многих других приложений, требующих высокой степени параллелизации, таких как задачи визуализации научных исследований, сейсмическая разведка, биомедицинские исследования, техническое конструирование сложных товаров и пр. Иными словами, суперкомпьютеры в наиболее типичных своих задачах работают с большими объемами параллельных вычислений, для чего требуются широкая пропускная полоса и быстрые операции с плавающей запятой. Те же самые характеристики свойственны и игровым приложениям. Что, конечно же, не случайно, поскольку и современные видеоигры, и передовой суперкомпьютинг - это по сути своей сложные задачи симуляции и моделирования.

Высокопроизводительные вычисления развиваются так стремительно, а потребность в суперкомпьютерах, становящихся все более доступными, так велика, что, по свидетельству участников конференции, признаки экономического спада в этой сфере практически отсутствуют. На этой оптимистической ноте и закончим краткий обзор интереснейше­го мероприятия.