Lukáš Hejtmánek
IT architect at center CERIT-SC Masaryk University and e-INFRA CZ
Sessions
Výpočetní infrastruktury jsou již od základu navrženy tak, aby jejich kapacity byly co nejlépe využity a jednotlivé vědecké výpočty probíhaly co nejefektivněji. A to jak z hlediska párování typu algoritmu a dostupného HW, tak z hlediska využití dostupných zdrojů (CPU, GPU, RAM, diskové prostory, SW licence). Přednáška popíše, jak hledáme další cesty ke zvýšení energetické efektivity a udržitelnosti v kontextu infrastruktury, která propojuje výpočetní a úložné kapacity českých akademických institucí.
První část přednášky (Jiří Sitera, CESNET) bude spíše koncepční, ukážeme si jednotlivé možnosti a směry green computingu, cíle a záměry probíhajícího evropského projektu a návaznost na další oblasti (energetika, otevřená věda). Druhá část přednášky (Lukáš Hejtmánek, CERIT-SC) nás zasadí do reality, ukáže výsledky experimentálního ověření efektivity jednotlivých opatření a měření provedených v rámci reálného výpočetního prostředí.
V posledných 2-3 rokoch sme v ramci národnej e-infraštruktúry v centre CERIT-SC (MUNI) vybudovali moderné kontajnerové prostredie založené na Kubernetes (K8s). Aj keď K8s bolo (a stále je) populárne v biznisovej sfére, nachádza svoje uplatnenie aj v našom vedecko-výskumnom prostredí a využívame túto platformu na realizáciu množstva projektov - od bežných CI/CD systémov, cez webové rozhrania pre cmdl programy, interaktívne počítanie, až po realizáciu veľkých výpočtov. No napriek širokému spektru usecasov dlhodobo zaznamenávame nízku efektivitu využitia zdrojov oproti inzerovaným rezerváciám. Začali sme teda pátrať po riešení, ktoré by zvýšilo efektivitu využitia zdrojov a umožňovalo dynamicky meniť dostupnosť zdrojov pre výpočty. Vhodné riešenie pre kontajnere sa ponúka vo forme checkpoint/restore (ch/r). Ch/r je možným riešením na viacero problémov na strane infraštruktúry, ale aj na strane užívateľov pre ktorých je poločným menovateľom potreba okamžitého spustenia výpočtu, obnovy výpočtu alebo potreba veľkého množstva zdrojov aj za cenu prerušenia výpočtu a neskoršieho obnovenia. Samotná implementácia ch/r už dosiahla určitý stupeň funkčnosti, a umožňuje nám checkpointovať viacero typov úloh, no pri skúmaní a implementácii ch/r v širšom ekosystéme sme narazili na množstvo výziev. Tieto výzvy nie sú okrajové, ale ide o základné problémy a prekážky, ktoré musíme doriešiť, ak chceme naďalej napredovať a systématicky pristúpiť k integrácii ch/r vo veľkej výpočetnej infraštruktúre. V tejto prednáške predstavíme aktuálny stav ch/r v K8s, zmienime problémy na ktoré sme narazili a ukážeme riešenia na niektoré z nich.