Keď používaš ChatGPT, Gemini alebo Claude, tvoja otázka cestuje cez internet na vzdialený server, kde ju spracuje obrovský AI model s miliardami parametrov. Odpoveď sa vráti rovnakou cestou. Offline umelá inteligencia tento proces obchádza — model beží priamo na tvojom počítači a internet nepotrebuješ vôbec.

V tomto článku vysvetlíme technológiu za offline AI jednoducho a zrozumiteľne. Žiadne akademické texty — len to, čo potrebuješ vedieť.

Čo je jazykový model

Jazykový model (LLM — Large Language Model) je neurónová sieť natrénovaná na obrovskom množstve textu. Naučila sa vzory jazyka — gramatiku, fakty, logiku, kontext. Keď jej položíš otázku, neprehľadáva databázu — generuje odpoveď slovo po slove na základe naučených pravdepodobností.

Veľkosť modelu sa meria v parametroch. Čím viac parametrov, tým kvalitnejšie odpovede. GPT-4 má odhadom stovky miliárd parametrov. Open-source modely pre offline použitie majú typicky 2 až 70 miliárd parametrov.

Kľúčový koncept

Jazykový model je matematická funkcia s miliardami čísel (parametrov). Čím viac parametrov, tým lepšie odpovede — ale aj väčšie nároky na pamäť a výkon.

Čo je llama.cpp

Llama.cpp je open-source projekt, ktorý umožňuje spúšťať jazykové modely na bežnom počítačovom hardvéri. Napísal ho vývojár Georgi Gerganov v jazyku C/C++ a je optimalizovaný pre procesory (CPU) — nepotrebuješ drahú grafickú kartu.

Llama.cpp podporuje formát súborov GGUF (GPT-Generated Unified Format). GGUF súbor obsahuje celý AI model — váhy neurónovej siete, tokenizer a metadáta — v jednom kompaktnom súbore. Stačí mať llama.cpp a GGUF súbor a máš funkčnú offline AI.

Projekt je pomenovaný podľa modelu Llama od Meta, ale podporuje desiatky rôznych modelov — Qwen, Mistral, Gemma, Phi a ďalšie.

Čo je kvantizácia

Pôvodné AI modely používajú 16-bitové alebo 32-bitové desatinné čísla pre každý parameter. Model s 9 miliardami parametrov by v pôvodnej forme zaberal 18–36 GB pamäte — to je viac, než má väčšina počítačov.

Kvantizácia zmenšuje model tým, že znižuje presnosť týchto čísel. Napríklad formát Q4_K_M používa len 4 bity na parameter. Výsledok: 9B model zaberá len cca 5–6 GB namiesto 18 GB. Strata kvality odpovedí je minimálna — v praxi takmer nepostrehnuteľná.

Práve vďaka kvantizácii dokáže offline AI bežať na bežnom notebooku s 8 alebo 16 GB RAM.

Aké modely fungujú offline

Existujú desiatky open-source modelov optimalizovaných pre offline použitie. Najpoužívanejšie sú:

MODEL
TVORCA
VEĽKOSTI
JAZYK SK/CZ
Qwen 3.5
Alibaba
2B, 4B, 9B, 32B
Dobrý
Llama 3
Meta
8B, 70B
Základný
Mistral
Mistral AI
7B, 22B
Základný
Gemma 2
Google
2B, 9B, 27B
Základný
Phi 4
Microsoft
3.8B, 14B
Slabý

GRIX používa modely Qwen 3.5 v uncensored verzii od HauhauCS. Qwen 3.5 má jednu z najlepších podpor slovenčiny a češtiny medzi open-source modelmi a uncensored verzia nemá obsahové obmedzenia — v krízovej situácii to je kritické, pretože štandardné modely odmietajú odpovedať na niektoré praktické otázky.

Koľko RAM potrebuješ

Hlavným limitujúcim faktorom pre offline AI je operačná pamäť (RAM). Model sa načíta do RAM a tam beží. Orientačné požiadavky pre kvantizované modely (Q4_K_M):

MODEL
VEĽKOSŤ
MIN. RAM
KVALITA
2B Q4
~1.5 GB
4 GB
Základná
4B Q4
~2.5 GB
8 GB
Dobrá
9B Q4
~5.5 GB
16 GB
Veľmi dobrá
32B Q4
~20 GB
32 GB
Výborná
Praktické pravidlo

GRIX automaticky detekuje množstvo RAM v počítači a zvolí najväčší model, ktorý sa vojde do pamäte. Používateľ nemusí nič konfigurovať — stačí zapojiť USB a spustiť.

Rýchlosť generovania

Offline AI na procesore (CPU) je pomalšia ako cloudové služby. Rýchlosť závisí od veľkosti modelu, kvality procesora a množstva RAM. Orientačne:

Model 2B na modernom procesore generuje cca 15–30 tokenov za sekundu — to je porovnateľné s rýchlosťou čítania. Model 9B generuje cca 5–12 tokenov za sekundu — pomalšie, ale stále použiteľné. Na starších počítačoch bude rýchlosť nižšia.

Ak máš počítač s dedikovanou grafickou kartou NVIDIA (6 GB+ VRAM), llama.cpp dokáže využiť GPU akceleráciu a rýchlosť sa môže zvýšiť 3–5 násobne.

Ako to celé drží pokope v GRIX

GRIX kombinuje llama.cpp (AI runtime), Kiwix (offline Wikipédia), GraphHopper (offline mapy a navigácia), a vlastný webový interface do jedného USB balíka. Súbor spusti.bat detekuje hardvér, zvolí model, spustí všetky služby a otvorí webové rozhranie — všetko jedným dvojklikom.

Výsledok je systém, kde AI asistent, encyklopédia, mapy a krízové nástroje fungujú spoločne bez akéhokoľvek internetového pripojenia. Nie je to len chatbot — je to offline operačné centrum.

Vyskúšaj offline AI na vlastnej koži.

GRIX USB — AI, Wikipédia, mapy a SOS nástroje. Zapoj a funguje. 59 € jednorazovo.

OBJEDNAŤ GRIX USB