Llama.cpp je open-source runtime prostredie na spúšťanie veľkých jazykových modelov (LLM) na bežnom počítačovom hardvéri. Umožňuje bežať AI modelom na procesore (CPU) bez potreby dedikovanej grafickej karty. Podporuje formát GGUF a kvantizované modely.

Čo je kvantizácia AI modelu?

Kvantizácia je proces zmenšenia AI modelu znížením presnosti čísel, ktoré model používa. Napríklad Q4_K_M kvantizácia zmenší model približne 4-násobne pri minimálnej strate kvality odpovedí. Vďaka tomu môže 9B parameter model bežať na počítači s 16 GB RAM.

Aké AI modely fungujú offline?

Medzi najpoužívanejšie offline AI modely patria Llama (Meta), Qwen (Alibaba), Mistral, Gemma (Google) a Phi (Microsoft). Tieto modely sú open-source a dostupné vo formáte GGUF pre llama.cpp. Existujú aj špeciálne uncensored verzie bez obsahových obmedzení.

Ako funguje offline umelá inteligencia?

Keď používaš ChatGPT, Gemini alebo Claude, tvoja otázka cestuje cez internet na vzdialený server, kde ju spracuje obrovský AI model s miliardami parametrov. Odpoveď sa vráti rovnakou cestou. Offline umelá inteligencia tento proces obchádza — model beží priamo na tvojom počítači a internet nepotrebuješ vôbec.

V tomto článku vysvetlíme technológiu za offline AI jednoducho a zrozumiteľne. Žiadne akademické texty — len to, čo potrebuješ vedieť.

Čo je jazykový model

Jazykový model (LLM — Large Language Model) je neurónová sieť natrénovaná na obrovskom množstve textu. Naučila sa vzory jazyka — gramatiku, fakty, logiku, kontext. Keď jej položíš otázku, neprehľadáva databázu — generuje odpoveď slovo po slove na základe naučených pravdepodobností.

Veľkosť modelu sa meria v parametroch. Čím viac parametrov, tým kvalitnejšie odpovede. GPT-4 má odhadom stovky miliárd parametrov. Open-source modely pre offline použitie majú typicky 2 až 70 miliárd parametrov.

Kľúčový koncept

Jazykový model je matematická funkcia s miliardami čísel (parametrov). Čím viac parametrov, tým lepšie odpovede — ale aj väčšie nároky na pamäť a výkon.

Čo je llama.cpp

Llama.cpp je open-source projekt, ktorý umožňuje spúšťať jazykové modely na bežnom počítačovom hardvéri. Napísal ho vývojár Georgi Gerganov v jazyku C/C++ a je optimalizovaný pre procesory (CPU) — nepotrebuješ drahú grafickú kartu.

Llama.cpp podporuje formát súborov GGUF (GPT-Generated Unified Format). GGUF súbor obsahuje celý AI model — váhy neurónovej siete, tokenizer a metadáta — v jednom kompaktnom súbore. Stačí mať llama.cpp a GGUF súbor a máš funkčnú offline AI.

Projekt je pomenovaný podľa modelu Llama od Meta, ale podporuje desiatky rôznych modelov — Qwen, Mistral, Gemma, Phi a ďalšie.

Čo je kvantizácia

Pôvodné AI modely používajú 16-bitové alebo 32-bitové desatinné čísla pre každý parameter. Model s 9 miliardami parametrov by v pôvodnej forme zaberal 18–36 GB pamäte — to je viac, než má väčšina počítačov.

Kvantizácia zmenšuje model tým, že znižuje presnosť týchto čísel. Napríklad formát Q4_K_M používa len 4 bity na parameter. Výsledok: 9B model zaberá len cca 5–6 GB namiesto 18 GB. Strata kvality odpovedí je minimálna — v praxi takmer nepostrehnuteľná.

Práve vďaka kvantizácii dokáže offline AI bežať na bežnom notebooku s 8 alebo 16 GB RAM.

Aké modely fungujú offline

Existujú desiatky open-source modelov optimalizovaných pre offline použitie. Najpoužívanejšie sú:

Qwen 3.5

Alibaba

2B, 4B, 9B, 32B

Dobrý

Llama 3

Koľko RAM potrebuješ

Hlavným limitujúcim faktorom pre offline AI je operačná pamäť (RAM). Model sa načíta do RAM a tam beží. Orientačné požiadavky pre kvantizované modely (Q4_K_M):

2B Q4

~1.5 GB

4 GB

Základná

4B Q4

~2.5 GB

8 GB

Dobrá

9B Q4

~5.5 GB

16 GB

Veľmi dobrá

32B Q4

~20 GB

32 GB

Výborná

Praktické pravidlo

GRIX automaticky detekuje množstvo RAM v počítači a zvolí najväčší model, ktorý sa vojde do pamäte. Používateľ nemusí nič konfigurovať — stačí zapojiť USB a spustiť.

Rýchlosť generovania

Offline AI na procesore (CPU) je pomalšia ako cloudové služby. Rýchlosť závisí od veľkosti modelu, kvality procesora a množstva RAM. Orientačne:

Model 2B na modernom procesore generuje cca 15–30 tokenov za sekundu — to je porovnateľné s rýchlosťou čítania. Model 9B generuje cca 5–12 tokenov za sekundu — pomalšie, ale stále použiteľné. Na starších počítačoch bude rýchlosť nižšia.

Ak máš počítač s dedikovanou grafickou kartou NVIDIA (6 GB+ VRAM), llama.cpp dokáže využiť GPU akceleráciu a rýchlosť sa môže zvýšiť 3–5 násobne.

Ako to celé drží pokope v GRIX

GRIX kombinuje llama.cpp (AI runtime), Kiwix (offline Wikipédia), GraphHopper (offline mapy a navigácia), a vlastný webový interface do jedného USB balíka. Súbor spusti.bat detekuje hardvér, zvolí model, spustí všetky služby a otvorí webové rozhranie — všetko jedným dvojklikom.

Výsledok je systém, kde AI asistent, encyklopédia, mapy a krízové nástroje fungujú spoločne bez akéhokoľvek internetového pripojenia. Nie je to len chatbot — je to offline operačné centrum.

Vyskúšaj offline AI na vlastnej koži.

GRIX USB — AI, Wikipédia, mapy a SOS nástroje. Zapoj a funguje. 59 € jednorazovo.

OBJEDNAŤ GRIX USB