OpenAI ha creato o3, un modello di intelligenza artificiale che per la prima volta supera le capacità umane nel test ARC-AGI, una delle verifiche più complesse per valutare le reali capacità di ragionamento delle IA. O3 ha ottenuto un punteggio dell’87.5%, battendo il livello umano dell’85%. Un risultato che richiede però risorse computazionali enormi: ogni esecuzione costa 350.000 dollari, l’equivalente di anni di stipendio di un programmatore esperto.
La misurazione con ARC-AGI
François Chollet ha introdotto ARC-AGI nel 2019 come strumento per misurare l’effettiva intelligenza delle IA. A differenza dei test tradizionali, ARC-AGI valuta la capacità di ragionamento astratto e adattamento a situazioni nuove, proprio come farebbe un essere umano. Il test non si basa sulla memorizzazione di dati, ma sulla comprensione profonda e l’applicazione flessibile delle conoscenze.

La corsa di OpenAI
La progressione delle prestazioni sui test ARC-AGI racconta una storia di innovazione rapidissima: ChatGPT-3 partiva da uno 0% di successo nel 2020, ChatGPT-4o ha raggiunto il 5% a inizio 2024, fino all’exploit di o3 con l’87.5% a fine anno. Un balzo in avanti reso possibile dall’uso massiccio di potenza di calcolo e da nuove tecniche di apprendimento.
I limiti della potenza bruta
L’impressionante risultato di o3 nasconde però criticità significative. Il modello richiede una potenza di calcolo 172 volte superiore alla versione standard. Nonostante le enormi risorse impiegate, o3 fallisce ancora in alcuni compiti elementari che un essere umano risolverebbe facilmente. Questo evidenzia una differenza sostanziale tra l’approccio meccanico dell’IA e la vera intelligenza umana.
Gli esperti, tra cui lo stesso Chollet, sottolineano che superare ARC-AGI non equivale a raggiungere una vera intelligenza artificiale generale. La formazione specifica sul dataset pubblico ARC-AGI-1 solleva dubbi sulla reale capacità di generalizzazione del modello.
Verso nuovi standard
Il successo di o3 ha spinto lo sviluppo di ARC-AGI-2, un nuovo test più impegnativo. I test preliminari mostrano che le prestazioni di o3 crollano sotto il 30% su questi nuovi problemi, anche utilizzando la massima potenza di calcolo disponibile.
La comunità scientifica sta ora cercando soluzioni più efficienti. La competizione Grand Prize continua, puntando a sviluppare sistemi open-source che raggiungano l’85% di successo con risorse computazionali ragionevoli.
Leggi anche Harvard rilascia dataset AI con 1 milione di libri
OpenAI o3 e sviluppi necessari
I risultati di o3 superano di gran lunga le aspettative ma sollevano questioni cruciali sulla sostenibilità dell’approccio. La vera vittoria resta sviluppare intelligenze artificiali efficienti che possano competere con le prestazioni umane senza richiedere risorse computazionali estreme.
FAQ
Come funziona il test ARC-AGI?
ARC-AGI presenta all’IA problemi di ragionamento astratto mai visti prima, valutando la capacità di comprendere e applicare principi generali in situazioni nuove.
Perché i costi per i test con o3 sono così elevati?
Il modello richiede una potenza di calcolo 172 volte superiore alla versione standard, con hardware specializzato e consumi energetici massicci che si traducono in 350.000 dollari per esecuzione.
Quale sarà il prossimo passo?
La ricerca si sta concentrando su ARC-AGI-2 e sullo sviluppo di soluzioni più efficienti, puntando a mantenere prestazioni elevate riducendo drasticamente i costi computazionali.