Coding agent: modelli locali vs API

A inizio Novembre mi sono cimentato in alcuni test di sviluppo software attraverso Claude Code integrato (via Claude Code Router) con modelli openweight GPT OSS eseguiti in locale.

Nelle ultime settimane, invece, ho voluto sperimentare due coding agent specificamente concepiti per servirsi di svariati modelli (openweight e commerciali) in locale o in remoto. Ho dunque scelto di provare Kilo Code e Cline; entrambi sono disponibili come estensioni di molti dei principali IDE, tra i quali ho scelto VS Code.

Lo scenario di test

Come scenario di test, di nuovo ho scelto di “proseguire lo sviluppo” del piccolo progetto opensource (onnx-model-generator-docker) che già avevo usato in precedenza: in sintesi, ricordo che si tratta di un servizio REST Dockerizzato che converte modelli HuggingFace in formato Open Neural Network Exchange (ONNX) utilizzando la libreria onnxruntime-genai: riceve una richiesta HTTP e restituisce un modello ottimizzato pronto da scaricare.

In precedenza avevo chiesto a Claude di elencare le possibili migliorie, in particolare in ambito di sicurezza, e di salvarne la lista insieme alla documentazione di progetto; ho dunque utilizzato il seguente semplice prompt per dare il via alle operazioni di Cline e Kilo Code in tutte le prove qui descritte:

Hi, please have a look at the project, including the .md files and figure out what the next improvement task to work on would be, then prepare for completing it (including testing and updating the existing .md documents)

Il primo task su cui lavorare, dato lo stato corrente del progetto, era quello di aggiungere il rate limiting, ossia permettere di controllare il numero massimo di richieste al minuto verso il servizio Docker da un dato indirizzo IP.

I modelli utilizzati

Per quanto concerne gli LLM utilizzati con i due coding agents, ho deciso di testare principalmente i modelli GLM di Z.ai. Tra questi, GLM 4.6 si posiziona al livello di alcuni degli attuali modelli SOTA ed è disponibile per utilizzo remoto via API a prezzi decisamente ridotti rispetto alla concorrenza (il che presumo ne faccia o farà una scelta popolare). Inoltre, il modello è openweight, disponibile su huggingface.co e dunque utilizzabile anche in locale… almeno in linea teorica.

Nella pratica, trattandosi di un modello da 357 miliardi di parametri, l’inferenza su qualunque hardware consumer attuale è sostanzialmente preclusa a meno di ricorrere a quantizzazioni estremamente aggressive.

Per le prove in locale sul mio AMD Ryzen AI Max+ 395 (Strix Halo) con 128 GB di RAM condivisa ho dunque scelto di provare GLM 4.5-Air, ossia la versione snellita (106 miliardi di parametri in totale, 12 attivi - Mixture of Experts) di GLM 4.5, il modello precedente a GLM 4.6. GLM 4.5 è pubblicizzato come qualitativamente ancora comparabile con Claude 4 Sonnet, mentre 4.5-Air è dato come solo leggermente inferiore a 4.5 in termini di qualità della generazione. Per ridurre al minimo l’impatto della quantizzazione, ho scelto di utilizzare la versione GGUF Q5_K_M diffusa su huggingface.co da Unsloth AI. Ho effettuato il deploy del modello su LMStudio, eseguendo tutti i layer in GPU e abilitando la Flash Attention.

Infine, ho anche rieseguito qualche prova con Cline abbinato allo stesso GPT-OSS-120B usato in precedenza, per avere un riferimento.

Kilo Code

Configurazione

Dopo aver completato l’installazione in VS Code, Kilo Code si configura per connettersi a differenti tipi di modelli LLM utilizzando la scheda Providers all’interno della sezione Settings.

Nel caso dei modelli remoti, ho selezionato Z AI come API provider (International entrypoint) e copiato la mia API key generata su sito di Z.ai dopo aver sottoscritto il piano Lite (9 USD a trimestre); ho abilitato il reasoning e lasciato invariate tutte le altre impostazioni.

Per utilizzare il modello GLM 4.5-Air in locale, invece, prima di tutto ho avviato il server LMStudio ed eseguito il deploy del modello utilizzando una finestra di contesto di 65k token, così da avere un buon compromesso tra velocità di inferenza / memoria utilizzata e lunghezza della “conversazione” tra agente e modello. Poi nelle impostazioni di Kilo Code ho selezionato LM Studio della lista di API Provider supportati e scelto glm-4.5-air tra le opzioni presentate automaticamente (ottenute da Kilo Code interrogando il server LM Studio attraverso Open API). Anche qui non ho apportato ulteriori cambiamenti alle impostazioni avanzate.

Modalità di funzionamento

Kilo Code può adattare il suo comportamento a seconda della modalità (mode) di funzionamento selezionata. Le modalità disponibili di default (è possibile infatti impostarne di personalizzate) tra cui scegliere sono Code, Ask, Architect, Debug e Orchestrator; ognuna di esse si caratterizza per differenti “personalità”, ottimizzazioni e accesso (nonché permesso di esecuzione) a tool: lettura/scrittura file, MCP, browser, comandi shell, … L’idea è che si scelga la modalità di esecuzione più adatta al compito da compiere.

Per semplicità, ho selezionato Architect per la prima fase di esecuzione (il prompt parla di “comprendere quale sia il prossimo task…” e di “prepararsi a completarlo”), per poi passare in modalità Code per la successiva fase implementativa.

Prove effettuate

Come anticipato sopra, ho sperimentato tre differenti scenari di utilizzo, con tre differenti modelli / API Provider: GLM 4.6 in remoto, GLM 4.5-Air in remoto, GLM 4.5-Air in locale. Qui sotto riporto una selezione di screenshot catturati durante le prove.

GLM 4.6 in remoto

GLM 4.5-Air in remoto

GLM 4.5-Air in locale

In tutti gli scenari il compito richiesto è stato completato con successo: l’agente ha compreso quale fosse il prossimo task a cui lavorare ed è stato in grado di completarlo (nel caso di GLM 4.5-Air locale, a dire il vero, ha preparato una lista di task a cui lavorare, il primo dei quali quello che ci si attendeva).

In puro stile “vibe coding”, ho lasciato lavorare l’agente in autonomia, rispondendo a domande chiuse (scelta multipla) e confermando manualmente le sole esecuzioni dei tool (per le testsuite) e il passaggio alla fase di coding. Le analisi condotte nella prima fase hanno evidenziato differenti livelli di approfondimento e chiarezza nello spiegare il piano; in accoppiata con GLM 4.6, Kilo ha fatto un ottimo lavoro generando, tra le altre cose, una domanda con 4 possibili risposte pre-confezionate (per verificare le intenzioni dell’utente) e un diagramma di flusso della logica da implementare.

In tutti i casi il sistema è stato in grado di generare test per la nuova funzionalità (risolvendo fallimenti quando si sono presentati) ed aggiornare la documentazione.

Per quanto concerne i tempi di esecuzione, non è possibile fare un vero confronto, considerato il non determinismo che porta a percorsi di risoluzione del problema ed esecuzione completamente differenti, tuttavia la versione in locale è risultata in generale leggermente più lenta, ma la differenza è stata meno significativa di quanto mi aspettassi (Kilo spende diverso tempo anche “lato client”). Va comunque considerata anche la differente dimensione del contesto, l’utilizzazione del quale è chiaramente visibile negli screenshot.