Keď používaš ChatGPT, Gemini alebo Claude, tvoja otázka cestuje cez internet na vzdialený server, kde ju spracuje obrovský AI model s miliardami parametrov. Odpoveď sa vráti rovnakou cestou. Offline umelá inteligencia tento proces obchádza — model beží priamo na tvojom počítači a internet nepotrebuješ vôbec.
V tomto článku vysvetlíme technológiu za offline AI jednoducho a zrozumiteľne. Žiadne akademické texty — len to, čo potrebuješ vedieť.
Čo je jazykový model
Jazykový model (LLM — Large Language Model) je neurónová sieť natrénovaná na obrovskom množstve textu. Naučila sa vzory jazyka — gramatiku, fakty, logiku, kontext. Keď jej položíš otázku, neprehľadáva databázu — generuje odpoveď slovo po slove na základe naučených pravdepodobností.
Veľkosť modelu sa meria v parametroch. Čím viac parametrov, tým kvalitnejšie odpovede. GPT-4 má odhadom stovky miliárd parametrov. Open-source modely pre offline použitie majú typicky 2 až 70 miliárd parametrov.
Jazykový model je matematická funkcia s miliardami čísel (parametrov). Čím viac parametrov, tým lepšie odpovede — ale aj väčšie nároky na pamäť a výkon.
Čo je llama.cpp
Llama.cpp je open-source projekt, ktorý umožňuje spúšťať jazykové modely na bežnom počítačovom hardvéri. Napísal ho vývojár Georgi Gerganov v jazyku C/C++ a je optimalizovaný pre procesory (CPU) — nepotrebuješ drahú grafickú kartu.
Llama.cpp podporuje formát súborov GGUF (GPT-Generated Unified Format). GGUF súbor obsahuje celý AI model — váhy neurónovej siete, tokenizer a metadáta — v jednom kompaktnom súbore. Stačí mať llama.cpp a GGUF súbor a máš funkčnú offline AI.
Projekt je pomenovaný podľa modelu Llama od Meta, ale podporuje desiatky rôznych modelov — Qwen, Mistral, Gemma, Phi a ďalšie.
Čo je kvantizácia
Pôvodné AI modely používajú 16-bitové alebo 32-bitové desatinné čísla pre každý parameter. Model s 9 miliardami parametrov by v pôvodnej forme zaberal 18–36 GB pamäte — to je viac, než má väčšina počítačov.
Kvantizácia zmenšuje model tým, že znižuje presnosť týchto čísel. Napríklad formát Q4_K_M používa len 4 bity na parameter. Výsledok: 9B model zaberá len cca 5–6 GB namiesto 18 GB. Strata kvality odpovedí je minimálna — v praxi takmer nepostrehnuteľná.
Práve vďaka kvantizácii dokáže offline AI bežať na bežnom notebooku s 8 alebo 16 GB RAM.
Aké modely fungujú offline
Existujú desiatky open-source modelov optimalizovaných pre offline použitie. Najpoužívanejšie sú:
GRIX používa modely Qwen 3.5 v uncensored verzii od HauhauCS. Qwen 3.5 má jednu z najlepších podpor slovenčiny a češtiny medzi open-source modelmi a uncensored verzia nemá obsahové obmedzenia — v krízovej situácii to je kritické, pretože štandardné modely odmietajú odpovedať na niektoré praktické otázky.
Koľko RAM potrebuješ
Hlavným limitujúcim faktorom pre offline AI je operačná pamäť (RAM). Model sa načíta do RAM a tam beží. Orientačné požiadavky pre kvantizované modely (Q4_K_M):
GRIX automaticky detekuje množstvo RAM v počítači a zvolí najväčší model, ktorý sa vojde do pamäte. Používateľ nemusí nič konfigurovať — stačí zapojiť USB a spustiť.
Rýchlosť generovania
Offline AI na procesore (CPU) je pomalšia ako cloudové služby. Rýchlosť závisí od veľkosti modelu, kvality procesora a množstva RAM. Orientačne:
Model 2B na modernom procesore generuje cca 15–30 tokenov za sekundu — to je porovnateľné s rýchlosťou čítania. Model 9B generuje cca 5–12 tokenov za sekundu — pomalšie, ale stále použiteľné. Na starších počítačoch bude rýchlosť nižšia.
Ak máš počítač s dedikovanou grafickou kartou NVIDIA (6 GB+ VRAM), llama.cpp dokáže využiť GPU akceleráciu a rýchlosť sa môže zvýšiť 3–5 násobne.
Ako to celé drží pokope v GRIX
GRIX kombinuje llama.cpp (AI runtime), Kiwix (offline Wikipédia), GraphHopper (offline mapy a navigácia), a vlastný webový interface do jedného USB balíka. Súbor spusti.bat detekuje hardvér, zvolí model, spustí všetky služby a otvorí webové rozhranie — všetko jedným dvojklikom.
Výsledok je systém, kde AI asistent, encyklopédia, mapy a krízové nástroje fungujú spoločne bez akéhokoľvek internetového pripojenia. Nie je to len chatbot — je to offline operačné centrum.
Vyskúšaj offline AI na vlastnej koži.
GRIX USB — AI, Wikipédia, mapy a SOS nástroje. Zapoj a funguje. 59 € jednorazovo.
OBJEDNAŤ GRIX USB