Cum să folosești modele AI local

Postat 28 Iunie, 2026

Realitatea: AI nu mai este ieftin

Probabil ai observat deja că prețurile abonamentelor premium pentru diferite modele AI au crescut destul de accelerat, în timp ce limitele de utilizare au scăzut, mai degrabă, în loc să crească.

Asta pentru că costul real al utilizării unui model AI de top (modele “frontier” li se mai spune) e mult mai mare decât realizăm noi. Costurile cu infrastructura, consumul de electricitate și apă din centrele de date au ajuns la niveluri inimaginabile, până acum ele fiind suportate de către investitorii care au finanțat toate start-up-urile AI.

Lucrurile sunt pe cale să se schimbe și se vede deja asta, pentru că banii din investiții încep să se cam termine și totodată investitorii vor să vadă și niște rezultate. Și atunci, rezultatul se traduce în prețuri crescute pentru toate abonamentele și constrângeri de utilizare din ce în ce mai mari.

Necesitatea modelelor de top

În multe cazuri totuși, nu avem nevoie de ultimul model GPT pentru sarcini de complexitate mai scăzută sau care nu necesită mult timp de analiză din partea modelului.

Am văzut oameni care folosesc AI pentru tot felul de lucruri: sfaturi pentru cumpărături, vacanțe, bilete de avion, pentru că este, desigur, mai comod decât să faci o căutare pe Google.

În același timp, folosirea modelelor de top pentru astfel de sarcini e ca și cum ai folosi un supercar doar pentru a merge la cumpărături în weekend. Își face treaba, dar irosești o grămadă de combustibil și taxe inutil, dacă înțelegi aluzia.

Hai să-ți explic în continuare cum poți să găzduiești modele de inteligență artificială pe propria infrastructură (propriul PC), cu costuri directe 0. Spun “costuri directe” pentru că vei avea alte costuri indirecte, precum un consum mai mare de energie, dar care îți garantez că va fi neglijabil în comparație cu prețul multor abonamente premium.

Cum să găzduiești un model AI local

Acum, ce vreau să-ți spun încă de la început e că poți să găzduiești local (aproape) orice model de top de pe piață, în teorie.

În practică nu ai cum, pentru că modele precum ultimele versiuni de Opus de la Anthropic au nevoie de cantități enorme de resurse hardware. Deci nu prea îl vei putea găzdui acasă decât dacă ai ceva sistem ultra high-end de 10-20 de mii de euro euro.

Dar găsești în schimb modele open-source specializate pe absolut orice, pe care le-ai putea folosi cu ușurință. Există mai multe modalități prin care să găzduiești și să utilizezi un model de inteligență artificială local, dar cu Ollama e una dintre cele mai ușoare.

Pasul 1 - instalează Ollama

Ollama este o unealtă care îți permite să gestionezi modele AI instalate local fără prea mari bătăi de cap. Mergi aici, descarcă și instalează Ollama pentru sistemul tău de operare.

După finalizarea instalării, poți să deschizi Ollama și vei fi întâmpinat cu un ecran similar:

Nu te entuziasma prea tare încă, pentru că la “Select a model” nu vei avea nimic disponibil local, ci doar niște modele cloud care, la fel ca toate celelalte despre care am vorbit, nu sunt gratuite.

Modelele disponibile pentru descărcare sunt cele care au iconița specifică.

Dar nu face asta încă, ajungem imediat și acolo.

Pasul 2 - caută un model potrivit

Există multe surse de modele open-source și evident gratuite, dar în acest articol vom explora doar ecosistemul Ollama.

Pentru a vedea lista de modele disponibile, cât și detalii despre fiecare model în parte, va trebui să mergi aici.

Vei putea sorta lista de modele după popularitate sau data publicării. De asemenea, vei putea filtra lista după tipul sau specializarea modelelor.

Pentru fiecare model în parte vei vedea numele lui, o descriere scurtă, câteva tag-uri ce descriu specializările modelului, numărul de descărcări etc.

Dacă mergi la pagina de detalii, pentru unele modele vei vedea un tabel cu mai multe variante.

Acestea nu sunt “versiuni” propriu-zis, ci reprezintă același model cu variante diferite de cuantizare.

Cuantizarea e un proces prin care modelele sunt “compresate” pentru a ocupa mai puțină memorie și în același timp a fi mai accesibile pe sisteme mai puțin performante.

Desigur, asta vine la pachet cu pierderea calității răspunsurilor.

În lista de mai sus “qwen3.5” este numele modelului, iar 0.8b, 2b, 4b, etc. reprezintă numărul de parametri disponibili. Litera “b” vine de la “billions” (miliarde). Cu cât mai mare, cu atât mai bine. Mai ales dacă avem un sistem hardware capabil.

Dacă mergem, de exemplu, pe qwen3.5:0.8b, care este cel mai “mic” model, putem să vedem detalii specifice despre versiunea asta. Nivelul de cuantizare, numărul mai precis de parametri și de câtă stocare ai nevoie pentru a descărca acest model.

Pasul 3 - descarcă și pornește modelul local

De asemenea, mai avem aici și comanda pe care trebuie să o executăm pentru a descărca și porni local acest model.

ollama run qwen3.5:0.8b

Executăm comanda și așteptăm să se descarce modelul, până când vedem mesajul “success” în terminal.

De aici modelul a fost deja descărcat și porni, poți deja să interacționezi cu el prin intermediul terminalului. În funcție de cât de capabil este sistemul tău, modelul va răspunde mai rapid sau mai puțin rapid.

Acum te poți întoarce și în aplicația desktop Ollama, unde poți selecta modelul descărcat și poți interacționa cu el. Îți recomand să faci asta, pentru că în terminal nu e cea mai plăcută experiență, pentru că răspunsurile sunt în format markdown.

Desigur, fiind un Language Model, poți folosi orice limbă dorești.

Totuși, pentru că nu este un model foarte capabil, vei vedea că exprimarea nu e cea mai bună și sunt multe cuvinte pe care le halucinează, care nu există de fapt în limba română. Așa că recomandarea mea este să folosești doar limba engleză cu aceste modele mai entry-level. Răspunsurile vor fi mult mai coerente.

Dar te provoc pe tine să explorezi de aici, cu alte modele și diferite niveluri de cuantizare.

Concluzie

Găzduirea modelelor local îți oferă posibilitatea să le folosești fără să plătești nimănui nimic, îți oferă maximă intimitate și protecție a datelor, pentru că totul se desfășoară izolat la tine pe PC, dar îți oferă și posibilitatea să creezi niște fluxuri de automatizare.

Să extragi date din anumite imagini, să le procesezi, să creezi rapoarte cu ele, să le salvezi mai departe într-o bază de date etc. Poți să înlănțuiești diferite acțiuni cu diferite modele pentru a crea fluxuri întregi de lucru pentru sarcini pe care de altfel le-ai face manual.

Atât pentru azi, pe data viitoare.

Învață să lucrezi cu Git ca un inginer software senior

Git & GitHub Enterprise: Git nu e doar o unealtă, e modul prin care te asiguri de siguranța și integritatea codului tău într-un context în care orice greșeală costă bani.. mulți. Dacă ai lucrat cu comenzile de bază înainte, dar mereu îți este frică să nu strici ceva, atunci acest curs s-ar putea să fie pentru tine. Nu mai cere ajutor la fiecare git merge, înscrie-te acum.

Învață Web Development de la ZERO

HTML și CSS de la ZERO: Un curs creat în așa fel încât să-ți ofere tot spectrul de informații de care ai nevoie pentru a înțelege contextul, problemele, avantajele și dezavantajele aplicațiilor web. De la infrastructură, rețele, protocoale de comunicare, optimizare pentru accesibilitate și SEO până la infrastructură de livrare și publicarea unui website profesional în producție. Alătură-te celor 70+ cursanți!

Dacă vrei să înveți programare și nu știi de unde să începi

C# Masterclass s-ar putea să fie o alegere bună pentru tine. Cursul are peste 30 de ore de conținut și cuprinde toate noțiunile de care are nevoie un începător pentru a-și construi propriile aplicații de la zero, cât și pentru a trece de orice interviu tehnic. Alătură-te celor 150+ cursanți!

Hai în comunitate

Strategii de carieră și concepte tehnice explicate pe înțelesul tău.