GLM-5.2 da 1,5 TB gira in locale: cosa cambia con la quantizzazione di Unsloth

PUBBLICATO IL 21 Giugno 2026

GLM-5.2 è stato rilasciato il 13 giugno 2026 con pesi aperti sotto licenza MIT, una finestra di contesto da 1 milione di token e benchmark che lo collocano in diretta competizione con i modelli proprietari di frontiera.

Costruito su un'architettura Mixture-of-Experts, il modello conta tra 744 e 753 miliardi di parametri totali, dei quali solo circa 40 miliardi sono attivi in qualsiasi momento. È su questo punto — l'architettura MoE — che si innesta la mossa di Unsloth, con implicazioni concrete per chi lavora con modelli di grandi dimensioni fuori dall'infrastruttura cloud.

Contesto

Z.ai ha posizionato GLM-5.2 esplicitamente come strumento per il coding e l'ingegneria del software, piuttosto che come chatbot generalista. Il modello è ottimizzato per flussi di lavoro tecnici a livello di progetto e per quelle che l'azienda definisce "long-horizon agentic tasks", ovvero processi multi-step in cui il modello deve mantenere il contesto attraverso interazioni prolungate.

La finestra di contesto da 1 milione di token — etichettata come glm-5.2[1m] — consente fino a 131.072 token di output per singola risposta, circa cinque volte superiore rispetto alla finestra da 200.000 token di GLM-5.1. Il peso del modello completo in precisione piena è tuttavia di 1,51 TB, una soglia che esclude la stragrande maggioranza degli ambienti di sviluppo reali.

Dinamiche in gioco

La quantizzazione non è una tecnica nuova, ma la sua applicazione sistematica a modelli di questa scala produce risultati che vale la pena osservare con attenzione. La quantizzazione riduce un modello addestrato abbassando la precisione dei pesi — per esempio passando da float a 16 bit a interi a 4 o 2 bit. Riduce le dimensioni e accelera l'inferenza senza richiedere nuovo addestramento: è compressione puramente post-training.

Unsloth ha compresso GLM-5.2 da 1,51 TB a 238 GB nella versione a 2 bit, con una riduzione dell'84% e una conservazione di circa l'82% dell'accuratezza. La tecnica impiegata — denominata "Dynamic 2.0" — prevede che gli strati più critici del modello vengano mantenuti a precisione superiore (8 o 16 bit), mentre gli strati meno sensibili vengono compressi più aggressivamente. Questo approccio selettivo è ciò che distingue la quantizzazione dinamica da una compressione uniforme, che invece tenderebbe a far collassare le prestazioni.

La variante 2-bit dinamica UD-IQ2\_M occupa 239 GB su disco: può entrare direttamente in un Mac con memoria unificata da 256 GB e funziona anche con una GPU da 24 GB abbinata a 256 GB di RAM mediante offloading MoE. Gli strumenti supportati includono llama.cpp, LM Studio e Unsloth Studio. Su hardware consumer è lecito aspettarsi una velocità di inferenza compresa tra 3 e 9 token al secondo.

Chi guadagna, chi perde

Le configurazioni realisticamente compatibili con un uso "locale" restano macchine con memoria unificata da 256 GB o superiore, workstation multi-GPU con RAM abbondante, oppure server di inferenza privati. Detto altrimenti: questa non è una soluzione per il portatile medio. Un MacBook Air, un Mac mini nella configurazione base o un PC da gaming con RTX 4070 rimangono esclusi: per quei profili hardware esistono alternative più appropriate.

Chi invece dispone di un Mac Studio Ultra con 256 GB o di una workstation con GPU NVIDIA e RAM sufficiente per l'offloading trova in questo rilascio uno sblocco concreto. I dati rimangono sul dispositivo: prompt e codebase non lasciano mai la macchina locale. Per team che operano su codice proprietario o su ambienti con vincoli di data residency, questa è la variabile rilevante, indipendentemente dalla velocità di inferenza. Sul fronte opposto, parte della comunità ha sollevato dubbi sull'onestà delle affermazioni sull'accuratezza e sull'effettiva praticabilità dei requisiti hardware per la maggior parte delle configurazioni.

Prospettive

GLM-5.2 è una delle release open più significative del giugno 2026 perché indica la direzione dell'AI locale: non più semplici assistenti offline compatti, ma sistemi di scala frontier mantenibili sotto il proprio controllo. La domanda che resta aperta non riguarda la fattibilità tecnica, già dimostrata, ma la diffusione reale di hardware da 256 GB di RAM unificata — oggi ancora una nicchia — e la velocità con cui questa soglia scenderà nei prossimi cicli di prodotto. I numeri benchmark circolati, inclusa la rivendicazione del primato su SWE-bench Pro, sono in parte ereditati da GLM-5.1; un osservatore della comunità ha definito GLM-5.2 "all'incirca sei mesi dietro i lab di frontiera — molto simile a Opus di gennaio." La quantizzazione risolve il problema dell'accessibilità hardware; la valutazione indipendente delle prestazioni rimane un lavoro ancora da fare.

INTELLIGENZE ARTIFICIALI

GLM-5.2 da 1,5 TB gira in locale: cosa cambia con la quantizzazione di Unsloth

Contesto

Dinamiche in gioco

Chi guadagna, chi perde

Prospettive

Parliamone

Missione

Link rapidi

Informazioni