Корисни савети

Мреже за супер-рачунаре

Pin
Send
Share
Send
Send


Дистрибуирано рачунање један је од начина да допринесете неким занимљивим пројектима. Када рачунар у стању мировања, поделите његову снагу са пројектом СЕТИ који тражи ванземаљске цивилизације. У том случају ће рачунар анализирати сателитске податке и информације примљене од телескопа.

Овај чланак ће вам помоћи да се придружите пројектима (као што је СЕТИ) који укључују дистрибуирано рачунање. Чланак вас такође упознаје са БОИНЦ-ом, дистрибуираним рачунарским софтвером.

Треба вам рачунар. Ако га већ имате, идите на одељак Извори и линкови и инсталирајте БОИНЦ софтвер. Ако вас не занима СЕТИ пројекат, у наставку ћете пронаћи списак других пројеката.

Ако пуно новца

Засебно, примећујемо изузетно скупу, али продуктивну линију процесора на Интел Ксеон ЛГА1567 утичници.
Најбољи процесор у овој серији је Е7-8870 са десет језгара на 2,4 ГХз. Њена цена је 4616 долара. За такве ЦПУ-ове се објављују ХП и Супермицро! осмопроцесор! шасија сервера. Осам 10-језгрених Ксеон Е7-8870 процесора 2,4 ГХз са ХиперТхреадинг-ом подржавају 8 * 10 * 2 = 160 нити, што се у програму Виндовс Таск Манагер приказује као сто шездесет графова учитавања процесора, матрица 10к16.

Да би се осам процесора уклопило у кућиште, они се не постављају одмах на матичну плочу, већ на одвојене плоче које се залепе у матичну плочу. На фотографији су приказане четири матичне плоче са процесорима уграђеним на матичну плочу (две на свакој). Ово је Супермицро решење. У ХП решењу, сваки процесор има своју плочу. Цена ХП решења је два до три милиона, зависно од броја процесора, меморије и више. Шасија Супермицро кошта 10.000 долара, што је атрактивније. Поред тога, Супермицро може да стави четири картице за проширење копроцесора у ПЦИ-Екпресс к16 портове (успут, још увек ће бити простора за Инфинибанд адаптер који ће саставити кластер ових), али само две у ХП-у. Стога је за креирање супер-рачунара атрактивнија платформа са осам процесора од Супермицро-а. Следећа фотографија са изложбе показује комплетан суперкомпјутер са четири ГПУ плоче.

Међутим, то је веома скупо.

Комуникацијске мреже

Ефикасност супер-рачунара у многим апликацијама је у великој мери одређена профилом рада са меморијом и мрежом. Профил рада са меморијом обично се описује просторно-временском локализацијом позива - величином позива и расподјелом њихових адреса, а профил рада са мрежом описује се расподјелом чворова са којима се размјењују поруке, течајем и величином поруке.

Перформансе суперкомпјутера на задацима са интензивном разменом података између чворова (проблеми са моделирањем, проблеми на графовима и неправилним мрежама, прорачуни коришћењем ријетких матрица) углавном се одређују перформансама мреже, тако да је употреба конвенционалних комерцијалних решења (на пример, Гигабит Етхернет) крајње неефикасна. Међутим, права мрежа је увек компромисно решење у чијем се развоју постављају приоритети између цене, перформанси, потрошње енергије и других захтева који су у великој мери конфликтни: покушаји да се побољша једна карактеристика могу довести до погоршања друге.

Комуникациона мрежа састоји се од чворова, од којих сваки има мрежни адаптер спојен на један или више рутера, који су заузврат повезани међусобним каналима (везама) велике брзине.

Сл. 1. Топологија 4Д-торус (3к3к3к3)

Мрежна структура, која одређује како су тачно чворови система међусобно повезани, одређује се мрежном топологијом (обично решетком, тором или густим стаблом) и скупом структуралних параметара: број мерења, број нивоа стабала, димензије бочних страна тора, број прекидача на нивоу стабла, број мрежних чворова портови на рутерима итд. На слици 1 приказан је пример топологије четвородимензионалног тора 3к3к3к3.

Архитектура рутера одређује структуру и функционалност блокова који су одговорни за пренос података између мрежних чворова, као и потребна својства протокола канала, мреже и транспортних слојева, укључујући алгоритме за усмјеравање, арбитражу и контролу протока података. Архитектура мрежног адаптера одређује структуру и функционалност блокова одговорних за интеракцију између процесора, меморије и мреже, нарочито МПИ операције се подржавају на овом нивоу, РДМА (Ремоте Дирецт Аццесс Мемори - директан приступ меморији другог чвора без учешћа његовог процесора), потврде пријема од другог чвора пакета, поступање у изузетним ситуацијама, здруживање пакета.

За процену перформанси комуникационе мреже најчешће се користе три карактеристике: пропусност (количина пренесених података по јединици времена), кашњење у комуникацији (време преноса података преко мреже), темпо поруке (обично одвојено узимају у обзир брзину испоруке приликом слања, пријема и преноса пакета између унутрашњих јединица рутера).

За потпуност, ове карактеристике се мере на различитим врстама промета, на пример, када један чвор шаље податке свим осталим или, обрнуто, сви чворови шаљу податке на један или када сви чворови шаљу податке случајним одредиштима. Захтеви за функционалност намећу се модерним мрежама:

  • ефикасна имплементација Схмем библиотеке, као опције за подршку моделу једносмјерне комуникације, и ГАСНет-а, на којем се заснива имплементација многих ПГАС језика,
  • ефикасна имплементација МПИ-ја (обично ово захтева ефикасну подршку механизма звона и потврда за примљене пакете),
  • ефикасна подршка за колективне операције: емитовање (слање истих података истовремено многим чворовима), смањење (примјена бинарне операције, на примјер додавање, на скуп вриједности примљених из различитих чворова), дистрибуција елемената низа преко скупа чворова (расипање), састављање низа елемената, који се налази на различитим чворовима (саберите се),
  • ефикасна подршка за операције синхронизације међу чворовима (бар баријерска синхронизација), ефикасна интеракција са мрежом великог броја процеса на чвору и обезбеђивање поуздане испоруке пакета.

Такође је важна ефикасна подршка рада адаптера са меморијом домаћина без учешћа процесора.

Стране мреже велике брзине

Све комуникацијске мреже могу се поделити у две класе: комерцијалне и прилагођене, развијене као део рачунарских система и доступне само са њима. Међу комерцијалним мрежама тржиште је подељено између ИнфиниБанд и Етхернет - на Топ500 листи (јун 2011), 42% система користи ИнфиниБанд, а 45% користи Гигабит Етхернет. Истовремено, ако је ИнфиниБанд фокусиран на сегмент високо-перформанси система дизајнираних за сложене рачунарске задатке с великим бројем комуникација, тада Етхернет традиционално заузима нишу у којој је размена података између чворова некритична. У суперрачунарима, Етхернет мрежа се, због ниске цене и доступности, често користи као помоћна сервисна мрежа како би се смањиле сметње у контролном саобраћају и промету задатака.

Инифинибанд мрежа је у почетку била фокусирана на конфигурације са топологијом Фат трее, али најновије верзије склопки и рутера (првенствено произведени од КЛогиц) подржавају вишедимензионалну топологију тора (користећи Торус-2КоС Роутинг Енгине), као и хибридну топологију из 3Д торуса и масно дрво. Суперрачунар Сандиа РедСки, састављен почетком 2010. године и сада је на 16. месту у Топ500, један је од првих великих пројеката са ИнфиниБанд мрежом и тополошким 3Д тором (6к6к8). Такође, сада се пуно пажње посвећује ефикасној подршци РДМА операцијама и Схмем библиотеци (нарочито Клогиц Схмем).

Популарност ИнфиниБанд је захваљујући релативно ниској цени, развијеном екосистему софтвера и ефикасној подршци за МПИ. Међутим, ИнфиниБанд има своје недостатке: ниску стопу испоруке порука (40 милиона порука у секунди у најновијим Мелланок-овим решењима), ниску ефикасност преноса кратких пакета, релативно велико кашњење (више од 1,5 μс за пренос чвор-чвор-чвор и додатних 0,1- 0,5 μс по транзитном чвору), слаба подршка за тороидну топологију. Генерално, може се тврдити да је ИнфиниБанд производ за масовне кориснике, а током његовог развоја направљен је компромис између ефикасности и свестраности.

Такође можемо приметити мрежу Ектолл која се припрема за лансирање на тржиште - развој Универзитета у Хајделбергу под вођством професора Улрицха Бруенинга. Главни нагласак у развоју ове мреже је минимизирање кашњења и повећање брзине испоруке у једносмјерној комуникацији. Планирано је да Ектолл има 3Д топологију тора и користи оптичке везе ширине опсега од 10 Гб / с по траци (канал за серијски пренос података унутар везе) и ширине од 12 трака по вези. Сада постоје прототипови Ектолл мреже на ФПГА: Р1 - заснован на Виртек4, Р2 Вентоук - двослојни распоред заснован на Виртек6. Једносмјерна ширина појаса по вези је 600 МБ / с (за Р1). Подржана су и два интерфејса (ХиперТранспорт 3.0 и ПЦИ Екпресс ген3) са процесором, што ће омогућити интегрисање ове мреже у Интел и АМД платформе. Ектолл подржава неколико начина организовања једносмјерних записа, властити ММУ (Унит Манагемент Мемори Унит, блок превођења виртуалних адреса у физичке адресе) и атомске операције.

За разлику од комерцијалних мрежа, прилагођене мреже заузимају много мањи тржишни удео, али се користе у најмоћнијим суперрачуналима из Цраи-а, ИБМ-а, СГИ-ја, Фујитсу-а, НЕЦ-а и Булл-а. Приликом дизајнирања прилагођених мрежа, програмери имају више слободе и покушавају да користе напредније приступе због мање важности тржишне атрактивности финалног производа, решавајући пре свега проблем постизања максималне перформансе за одређену класу задатака.

Суперкомпјутер К Цомпутер користи власничку Тофу (ТОрус ФУсион) комуникациону мрежу, која је скалабилни 3Д торус чији чворови садрже групе од 12 чворова (групе чворова повезаних је 12 мрежа са 3Д тором, а сваки чвор из ове групе има свој излаз 3Д торус мрежа). Чворови унутар сваке групе повезани су 3Д тором са страницама 2к3к4 без дупликата, што је еквивалентно 2Д торусу са страницама 3к4 (тако добијамо 5Д торус са фиксним двема димензијама). Дакле, чвор Тофу мреже има 10 веза са једносмјерном пропусношћу од 40 Гб / с сваки. Баријерска синхронизација чворова и редукција (цели број и плутајућа тачка) подржани су у хардверу.

Главни циљеви у развоју суперкомпјутера Тианхе-1А били су постизање високе енергетске ефикасности, развој сопственог процесора и мреже супериорних ИнфиниБанд КДР. Суперкомпјутер се састоји од 7168 рачунарских чворова повезаних са Арцх мрежом сопственог дизајна с топологијом дебелог стабла. Мрежа је изграђена од 16-портових рутера, једносмерни опсег везе - 8 ГБ / с, кашњење - 1,57 µс. Подржане су РДМА операције, а колективне операције су оптимизоване.

Класични представници система који користе тороидну топологију за комбиновање рачунских чворова су системи за ИБМ Блуе Гене серије, у чије су прве две генерације - Блуе Гене / Л (2004) и Блуе Гене / П (2007) - коришћена 3Д топологија тора. Мрежа у Блуе Гене / П има релативно слабе везе са једностраном ширином опсега од 0,425 ГБ / с, што је за ред већег степена од ширине опсега његове савремене ИнфиниБанд КДР везе, међутим, подршка на бази хардвера за синтетизацију баријера и колективне операције (на одвојеним дрворедним мрежама) омогућава добру скалабилност на стварне апликације. Поред тога, сви интерфејси и јединице за рутирање су интегрисани у БПЦ микропроцесор (Блуе Гене / П Цхип), што значајно смањује кашњења у преносу порука. Комуникациона мрежа следеће генерације Блуе Гене / К има 5Д-тор топологију, а за разлику од својих претходника, нема засебне мреже за баријерну синхронизацију и колективне операције. Блуе Гене / К чип је први пут постао мулти-цоре-мулти-тхреад - четири хардверска нит по језгри са 16 језгара, што омогућава слабљење мрежних захтева и осигурање толеранције кашњења. Пропусност везе повећана је на 2 ГБ / с, али и даље је мала у поређењу са Цраием Близанцима или Ектоллом. Ниска пропусност у овим системима се изједначава великом димензијом тора (великим бројем веза) и, као резултат, малим пречником мреже (знатно мањим од мреже са 3Д топологијом тора са истим бројем чворова). Доступни извори извештавају о стварању два супер-рачунара Блуе Гене / К транспетафлопс: Секуоиа са перформансама од 20 ПФЛОПС и Мира - 10 ПФЛОПС. Можемо закључити да је Блуе Гене / К фокусиран на задатке који ће користити десетине и стотине хиљада рачунарских чворова са мрежним прометом типа "сви за све".

Још један присталица у приступу изградњи комуникационих мрежа са тороидном топологијом је Цраи, који и даље користи 3Д тор топологију, истовремено повећавајући пропусност и број веза који повезују сусједне чворове. Тренутна генерација Цраи тороидне мреже је Цраи Гемини мрежа. Један Гемини усмјеривач одговара два усмјеривача претходне генерације СеаСтар2 +, односно заправо два мрежна чвора, стога се у Гемини умјесто 6 веза 10 користе за повезивање са сусједним чворовима (2 служе за међусобно повезивање два адаптера).

Компоненте (мрежни адаптери, прекидачи, рутери) мреже за суперрачунар, за разлику од процесора, често су скупље, а приступ њима је ограничен. На пример, сада прекидаче за мрежу ИнфиниБанд, која је главна комерцијална мрежа за супер-рачунаре, производе само две компаније, а обе су под контролом Сједињених Држава. То значи да, ако нема властитог развоја на пољу брзих мрежа, стварање модерних суперрачунара у било којој земљи осим САД-а, Кине или Јапана може се лако контролисати.

Домаће мреже

Развој комуникационих мрежа за употребу у супер-рачунарима спроводе бројне домаће организације: РФНЦ ВНИИЕФ (о отвореним изворима има врло мало информација о овом развоју), Институт за софтверске системе Руске академије наука и РСК СКИФ, ИПМ РАС и Истраживачки институт Квант (МВС-Екпресс мрежа ").

3Д тор комуникациона мрежа за руско-италијански суперкомпјутер СКИФ-Аурора у потпуности је изграђена коришћењем Алтера Стратик ИВ ФПГА, што објашњава прилично малу пропусност по линку - 1,25 ГБ / с (ресурси ФПГА су врло ограничени).

У МВС-Екпресс мрежи ПЦИ Екпресс 2.0 користи се за интеграцију рачунарских чворова, а чворови су повезани преко 24-портних прекидача. Мрежа има топологију блиску Масном стаблу. Мрежни адаптер у рачунарском чвору има један прикључак ширине 4 траке, због чега је једносмјерна вршна пропусност по линку 20 Гбит / с, не узимајући у обзир горње кодирање. Предност употребе ПЦИ Екпресс-а у МВС-Екпресс-у је ефикасна подршка дељене меморије са могућношћу једносмерне комуникације. Као резултат тога, мрежа је погодна за имплементацију Схмем библиотеке и ПГАС језика (УПЦ, ЦАФ).

Уз подршку Министарства индустрије и трговине Руске Федерације, НИЦЕВТ ОЈСЦ ради на развоју комуникацијске мреже Ангара са 4Д-тор топологијом, која може постати основа за стварање домаћих технологија за развој суперрачунара.

Мрежа "Ангара"

Главни циљеви развоја мреже Ангара:

  • ефикасна подршка једносмерној комуникацији (пут / гет) и ПГАС језицима (као главним средствима паралелног програмирања),
  • Ефикасна подршка за МПИ
  • ослобађање сопственог кристала (за постизање високих брзина преноса података и малих кашњења),
  • адаптивни пакет који није сигуран од пакета,
  • ефикасан рад са савременим процесорима и чипсетима.

У првој фази развоја ове мреже (2006) извршена је симулација различитих опција мреже и донете су главне одлуке о топологији, архитектури рутера, алгоритмима за рутирање и арбитражном поступку. Поред тороидне топологије, разматране су и Кејлијеве мреже и „дебело дрво“. Четвородимензионални торус изабран је због једноставнијег путања, добре скалабилности и високе повезаности у поређењу с мањим торијем. Мрежно моделирање омогућило је детаљно проучавање утицаја различитих параметара мрежне архитектуре на главне карактеристике перформанси, разумевање образаца за промет задатака са интензивним нередовитим приступом меморији. Као резултат, одабране су оптималне величине пуфера, број виртуалних канала и анализирана су потенцијална уска грла.

2008. године појавио се први прототип ФПГА усмјеривача - мрежни распоред шест чворова на Виртек4 спојених на 2к3 торус, на коме је била исправљена основна функционалност рутера, разрађен је пријенос података и грешака, написани су и исправљени исправци, библиотека ниског нивоа и пренесене су Схмем библиотеке и МПИ Сада је представљен распоред треће генерације који се састоји од девет чворова повезаних у дводимензионалном тору 3к3. Собран стенд с двумя узлами для тестирования новых разъемов и каналов передачи данных, предполагаемых к использованию с будущими кристаллами маршрутизатора ВКС. При разработке принципов работы сети ряд деталей был позаимствован из работ и , а также в том или ином виде из архитектур IBM Blue Gene и Cray SeaStar.

Сеть «Ангара» имеет топологию 4D-тор. Поддерживается детерминированная маршрутизация, сохраняющая порядок передачи пакетов и предотвращающая появление дедлоков (взаимных блокировок), а также адаптивная маршрутизация, позволяющая одновременно использовать множество путей между узлами и обходить перегруженные и вышедшие из строя участки сети. Посебна пажња посвећена је подршци колективним операцијама (емитовање и смањивање) спроведеним коришћењем виртуелне подмреже која има топологију дрвета налијепљену на вишедимензионални тоус. Мрежа на нивоу хардвера подржава две врсте даљинских писања, читања и атомске операције (додавање и ексклузивно ИЛИ). Схема извођења даљинског читања (слање захтјева и примање одговора) приказана је на Сл. 2 (даљинско снимање и атомске операције се изводе на сличан начин). У одвојеном блоку имплементира се логика за обједињавање порука примљених од мреже ради повећања удела корисних података по трансакцији при преносу преко интерфејса с хостом (домаћин је мост процесора-меморије-мост).

Сл. 2. Шема даљинског очитавања у мрежи Ангара

На слоју везе за пренос података подржан је безбједан пријенос пакета. Такође постоји механизам за заобилажење неуспелих комуникацијских канала и чворова обнову табела усмеравања. За обављање различитих сервисних операција (посебно, конфигурирање / обнављање табела усмеравања) и извршавање неких израчуна користи се сервисни процесор. Интерфејс хоста користи ПЦИ Екпресс.

Сл. 3. Структура рачунарског чвора са мрежним адаптером / рутером "Ангара"

Главни блокови рутера:

  • интерфејс са хост системом, одговорним за примање и слање пакета на хост сучељу,
  • јединица за убризгавање и избацивање која формира пакете који се шаљу мрежи и разматра заглавља пакета који долазе из мреже,
  • јединица за обраду захтева која обрађује пакете који захтевају информације из меморије хост система (на пример, читање или атомске операције),
  • мрежна јединица за колективне операције која обрађује пакете повезане са колективним операцијама, нарочито обављајући операције смањења, генерисући пакете захтева за емитовање,
  • јединица за сервисне операције која обрађује пакете који иду до и од сервисног копроцесора,
  • прекидач који повезује улазе са различитих виртуалних канала и улазе из ињектора са излазима у различите правце и избациваче,
  • комуникациони канали за пренос и пријем података у одређеном смеру,
  • јединица за пренос података за слање пакета у датом правцу и јединица за пријем и усмјеравање за пријем пакета и одлучивање о њиховој будућој судбини.

Интеракција домаћина (код се извршава на средишњем процесору) с усмјеривачем врши се писањем у меморијске адресе пресликане на адресе подручја ресурса усмјеривача (меморијски пресликани улаз / излаз). То омогућава апликацији да комуницира с рутером без учешћа кернела, што смањује прекомерне трошкове слања пакета, јер прелазак у контекст кернела и назад траје више од стотину циклуса сата. За слање пакета користи се једна од меморијских области која се сматра међуспремником звона. Такође постоји засебна област за обављање операција без копирања меморије (подаци се читају из меморије и пишу их адаптери комуникационе мреже кроз ДМА операције) и регион са контролним регистрима. Приступ одређеним ресурсима рутера контролише нуклеарни модул.

Да би се постигла већа ефикасност, одлучено је да се на једном чвору мора обављати само један рачунски задатак, ово је елиминирало надземне трошкове повезане са коришћењем виртуелне меморије, избегло је ометање задатака, поједноставило је архитектуру рутера због недостатка пуног ММУ-а и избегло све његов рад у комуникацији касни, као и поједностављује модел мрежне сигурности, уклањајући из њега сигурност процеса различитих задатака на једном чвору. Ово решење није утицало на функционалност мреже која је првенствено намењена великим задацима (за разлику од ИнфиниБанд-а, универзалне мреже за задатке различитих величина). Слична одлука је донета и у ИБМ Блуе Гене, где је за одељак уведено ограничење јединствености задатка.

На нивоу хардвера подржан је истовремени рад с усмјеривачем многих нити / процеса једног задатка - проводи се у облику неколико канала убризгавања доступних за употребу у процесима кроз неколико прстена за снимање пакета за снимање. Број и величина ових пуфера могу се динамички мењати.

Главни начин програмирања за мрежу Ангара је заједничка употреба МПИ, ОпенМП и Схмем, као и ГАСНет и УПЦ.

Након завршетка верификације и прототипирања мреже, планирано је пуштање ВЛСИ чипа. Прототип ВЛСИ серије биће дизајниран за уклањање погрешака основних технолошких решења, технолошког процеса и експерименталне верификације резултата симулације. Прототип ће садржавати сву основну функционалност, рад са ПЦИ Екпресс ген2 к16 интерфејсом и везе са пропусношћу од 75 Гб / с.

Планирано је промовисање мреже Ангара на тржишту у две верзије: као засебна комерцијална мрежа у облику ПЦИ Екпресс картица за кластер системе са стандардним процесорима и чипсетима, и као део четвороструког утичничког система ножа заснован на АМД процесорима који се развијају у НИЦЕВТ-у.

Погледајте видео: TOP 10: Najbolje igre sa ekstra grafikom za slabije računare (Новембар 2022).

Pin
Send
Share
Send
Send