Zyphra ha rilasciato ZAYA1-8B, un modello Mixture of Experts con 760 milioni di parametri attivi e 8,4 miliardi di parametri totali. Il modello rappresenta il primo MoE preaddestrato, addestrato e perfezionato interamente su hardware AMD Instinct MI300, utilizzando un cluster di 1.024 nodi MI300x con interconnessione AMD Pensando Pollara.
Prestazioni oltre la dimensione
Con meno di un miliardo di parametri attivi, ZAYA1-8B raggiunge prestazioni competitive con modelli molte volte più grandi come Mistral-Small-4-119B e rimane competitivo con modelli di reasoning di prima generazione come DeepSeek-R1-0528, Gemini-2.5-Pro e Claude 4.5 Sonnet. Con la metodologia Markovian-RSA per il calcolo in tempo di test, il modello supera Claude 4.5 Sonnet e GPT-5-High su HMMT'25 (89.6 contro 88.3) e si avvicina a modelli open-weight di frontiera come DeepSeek-V3.2 sui benchmark matematici.
Architettura MoE++
ZAYA1-8B è costruito sull'architettura MoE++ di Zyphra, che introduce tre modifiche specifiche rispetto ai design MoE standard, finalizzate a massimizzare l'intelligenza estratta per parametro e per FLOP. La Compressed Convolutional Attention (CCA) opera in uno spazio latente compresso e raggiunge una compressione 8x del KV-cache rispetto all'attenzione standard, riducendo direttamente i requisiti di memoria durante l'inferenza.
Ecosistema AMD
Il modello è stato preaddestrato interamente su hardware AMD utilizzando un cluster di 1.024 GPU MI300X con interconnessione AMD Pensando Pollara, costruendo sulle fondamenta infrastrutturali AMD che alimentano anche Zyphra Cloud. L'addestramento di ZAYA1-8B su 1.024 GPU AMD Instinct MI300X dimostra che l'hardware AMD è produttivamente valido per l'addestramento di modelli di frontiera, una rivendicazione commerciale significativa in un momento in cui Nvidia domina il calcolo AI.
Conseguenze operative
ZAYA1-8B è rilasciato sotto licenza Apache-2.0 ed è disponibile su Hugging Face e Zyphra Cloud. Con 760 milioni di parametri attivi, il modello esegue l'inferenza a un costo più vicino a quello di un modello denso sub-1B mentre attinge alla conoscenza memorizzata nei 8,4 miliardi di parametri totali. Il calcolo di inferenza dovrebbe superare la domanda di calcolo per l'addestramento di 118x entro il 2026, rendendo l'esecuzione di modelli più piccoli con alta densità di intelligenza non solo un esercizio accademico ma la scelta razionale economica per i team che costruiscono sistemi AI di produzione su scala.