05.10.2025 –, 107
Jazyk: Čeština
Národní infrastruktura e-INFRA CZ v rámci centra CERIT-SC již více než půl roku provozuje vlastní instance velkých jazykových modelů určené pro vědecký výzkum. V této prezentaci představíme důvody, proč se rozhodujeme pro vlastní provoz místo využití komerčních řešení, a zároveň se zaměříme na teoretické aspekty, jako je vztah mezi počtem parametrů modelu a jeho výkonem, princip kvantizace modelů, význam KV cache a možnosti lokálního provozu modelů. Hlavní část prezentace bude věnována našim praktickým zkušenostem, tzv. lessons learned, včetně paměťových nároků jednotlivých modelů, vlivu KV cache a velikosti GPU paměti na počet obsloužených klientů a dalších provozních souvislostí. Součástí budou také optimalizace, které se osvědčily pro efektivní běh modelů, a přehled nečekaných problémů, například chybné alokace paměti v některých verzích Linuxových jader nebo obtížím s paralelním během více modelů na stejných GPU. Prezentace ukáže, že i na přiměřeně výkonném hardware lze úspěšně provozovat velké paměťové modely s vysokých výkonem.
Začátečníci
IT architect at center CERIT-SC Masaryk University and e-INFRA CZ. Containers, Kubernetes, AI, LLMs, AI Agents.