LinuxDays 2024

Viktória Spišaková

IT architektka CERIT-SC. Doktorandka FI MUNI.


Přednáška

13.10
13:00
50 min
Na hrane zajtrajška: Checkpoint/Restore v kontajneroch
Viktória Spišaková, Lukáš Hejtmánek

V posledných 2-3 rokoch sme v ramci národnej e-infraštruktúry v centre CERIT-SC (MUNI) vybudovali moderné kontajnerové prostredie založené na Kubernetes (K8s). Aj keď K8s bolo (a stále je) populárne v biznisovej sfére, nachádza svoje uplatnenie aj v našom vedecko-výskumnom prostredí a využívame túto platformu na realizáciu množstva projektov - od bežných CI/CD systémov, cez webové rozhrania pre cmdl programy, interaktívne počítanie, až po realizáciu veľkých výpočtov. No napriek širokému spektru usecasov dlhodobo zaznamenávame nízku efektivitu využitia zdrojov oproti inzerovaným rezerváciám. Začali sme teda pátrať po riešení, ktoré by zvýšilo efektivitu využitia zdrojov a umožňovalo dynamicky meniť dostupnosť zdrojov pre výpočty. Vhodné riešenie pre kontajnere sa ponúka vo forme checkpoint/restore (ch/r). Ch/r je možným riešením na viacero problémov na strane infraštruktúry, ale aj na strane užívateľov pre ktorých je poločným menovateľom potreba okamžitého spustenia výpočtu, obnovy výpočtu alebo potreba veľkého množstva zdrojov aj za cenu prerušenia výpočtu a neskoršieho obnovenia. Samotná implementácia ch/r už dosiahla určitý stupeň funkčnosti, a umožňuje nám checkpointovať viacero typov úloh, no pri skúmaní a implementácii ch/r v širšom ekosystéme sme narazili na množstvo výziev. Tieto výzvy nie sú okrajové, ale ide o základné problémy a prekážky, ktoré musíme doriešiť, ak chceme naďalej napredovať a systématicky pristúpiť k integrácii ch/r vo veľkej výpočetnej infraštruktúre. V tejto prednáške predstavíme aktuálny stav ch/r v K8s, zmienime problémy na ktoré sme narazili a ukážeme riešenia na niektoré z nich.

155